Analyse Statistique Des Données Expérimentales

i
faraut 2006/9/18 11:05 page 112 #120
i
i
ANALYSE STATISTIQUE
DES DONNEES EXPERIMENTALES
Grenoble Sciences
Grenoble Sciences poursuit un triple objectif :
realiser des ouvrages correspondant a un projet clairement defini, sans contrainte
de mode ou de programme,
garantir les qualites scientifique et pedagogique des ouvrages retenus,
proposer des ouvrages a un prix accessible au public le plus large possible.
Chaque projet est selectionne au niveau de Grenoble Sciences avec le concours de
referees anonymes. Puis les auteurs travaillent pendant une annee (en moyenne)
avec les membres d'un comite de lecture interactif, dont les noms apparaissent au
debut de 1'ouvrage. Celui-ci est ensuite publie chez 1'editeur le plus adapte.
(Contact: Tel.: (33)4 76 51 46 95 - E-mail: Grenoble.Sciences@ujf-grenoble.fr)
Deux collections existent chez EDP Sciences :
la Collection Grenoble Sciences, connue pour son originalite de projets et sa qualite
Grenoble Sciences - Rencontres Scientificjues, collection presentant des themes de
recherche d'actualite, traites par des scientifiques de premier plan issus de
disciplines differentes.
Directeur scientifique de Grenoble Sciences
Jean BORNAREL, Professeur a 1'Universite Joseph Fourier, Grenoble 1
Comite de lecture pour

"Analyse statistique des donnees experimentales"
J.P. BERTRANDIAS, Professeur a 1'Universite Joseph Fourier, Grenoble 1
C. FURGET, Maitre de conferences a 1'Universite Joseph Fourier, Grenoble 1
B. HOUCHMANDZADEH, Directeur de recherches au CNRS, Grenoble
M. LESIEUR, Professeur a 1'Institut National Polytechnique, Grenoble
C. MlSBAH, Directeur de recherches au CNRS, Grenoble
J.L. PORTESEIL, Professeur a 1'Universite Joseph Fourier, Grenoble 1
P. VlLLEMAIN, Maitre de conferences a I'Universite Joseph Fourier, Grenoble 1
Grenoble Sciences rec.oit le soutien

du Ministere de 1'Education nationals, du Ministere de la Recherche,
de la Region Rhone-Alpes, du Conseil general de 1'Isere
et de la Ville de Grenoble.
ISBN 2-86883-456-6
ISBN 2-86883-590-2
EDP Sciences, 2002
ANALYSE STATISTIQUE DES

DONNEES EXPERIMENT ALES
Konstantin PROTASSOV
SCIENCES
17, avenue du Hoggar

Pare d'Activite de Courtabceuf, BP 112
91944 Les Ulis Cedex A, France
Ouvrages Grenoble Sciences edites par EDP Sciences

Collection Grenoble Sciences
Chimie. Le minimum vital a savoir (/. Le Coarer) - Electrochimie des solides
(C. Deportes et al.) - Thermodynamique chimique CM. Oturan & M. Robert) - Chimie
organometallique CD. Astruc)
Introduction a la mecanique statistique (E. Belorizky & W. Gorecki) - Mecanique
statistique. Exercices et problemes corriges (E. Belorizky & W. Gorecki) - La symetrie
en mathematiques, physique et chimie (J. Sivardiere) - La cavitation. Mecanismes
physiques et aspects industriels (J.P. Franc et al.) - La turbulence (M. Lesieur) Magnetisme : I Fondements, II Materiaux et applications (sous la direction d'E. du
Tremolet de Lacheisserie) - Du Soleil a la Terre. Aeronomie et meteorologie de 1'espace
(J. Lilensten & P.L. Blelly) - Sous les feux du Soleil. Vers une meteorologie de 1'espace
(J. Lilensten & J. Bornarel) - Mecanique. De la formulation lagrangienne au chaos
hamiltonien (C. Gignoux & B. Silvestre-Brac) - La mecanique quantique. Problemes
resolus, Tomes 1 et 2 (V.M. Galitsky, B.M. Karnakov & V.I. Kogan)
Exercices corriges d'analyse, Tomes 1 et 2 CD. Alibert) - Introduction aux varietes
differentielles (J. Lafontaine) - Analyse numerique et equations differentielles
(J.P. Demailly) - Mathematiques pour les sciences de la vie, de la nature et de la
sante (F. & J.P. Bertrandias) - Approximation hilbertienne. Splines, ondelettes,
fractales (M. Atteia & J. Caches) - Mathematiques pour 1'etudiant scientifique,
Tomes 1 et 2 (Ph.]. Haug)
Bacteries et environnement. Adaptations physiologiques (/. Pelmont) - Enzymes.
Catalyseurs du monde vivant (J. Pelmont) - La plongee sous-marine a 1'air.
L'adaptation de 1'organisme et ses limites (Ph. Foster) - L'ergomotricite. Le corps, le
travail et la sante (M. Gendrier) - Endocrinologie et communications cellulaires
(S. Idelman & J. Verdetti)
L'Asie, source de sciences et de techniques (M. Soutif) - La biologie, des origines a
nos jours (P. Vignais) - Naissance de la physique. De la Sicile a la Chine CM. Soutif)
Minimum Competence in Scientific English (J. Upjohn, S. Blattes & V. Jans) Listening Comprehension for Scientific English (J. Upjohn) - Speaking Skills in
Scientific English (J. Upjohn, M.H. Fries & D. Amadis)
Grenoble Sciences - Rencontres Scientifiques

Radiopharmaceutiques. Chimie des radiotraceurs et applications biologiques (sous
la direction de M. Comet & M. Vidal) - Turbulence et determinisme (sous la direction
de M. Lesieur) - Methodes et techniques de la chimie organique (sous la direction de
D. Astruc)
PREFACE
Le but de ce petit ouvrage est de repondre aux questions les plus frequentes que
se pose un experimentateur et de permettre a un etudiant d'analyser, d'une fagon
autonome, ses resultats et leurs precisions. C'est cet esprit assez "utilitaire" qui a
determine le style de presentation.
Dans 1'analyse des donnees experiment ales, il existe plusieurs niveaux qui sont conditionnes par notre desir d'obtenir une information plus ou moins riche, mais aussi par le
temps que nous sommes prets a y consacrer. Frequemment, nous voulons juste obtenir
la valeur d'une grandeur physique sans nous preoccuper de verifier les hypotheses a
la base de notre demarche. Parfois, cependant, les resultats obtenus nous paraissent
etre en contradiction avec nos estimations preliminaries et ainsi nous sommes obliges
d'effectuer un travail plus scrupuleux. Ce livre est ecrit pour permettre au lecteur de
choisir le niveau d'analyse necessaire.
La partie "indispensable" du texte correspondant au premier niveau est composee
avec une police de caracteres normale. Les questions qui correspondent a une analyse
plus approfondie et qui necessitent un appareil mathematique plus complexe sont
composees avec une police de caracteres speciale. Cette partie du livre peut etre sautee
lors d'une premiere lecture.
A la base de toute analyse des donnees experimentales, on trouve une approche
statistique qui exige des considerations mathematiques rigoureuses et parfois complexes. Neanmoins, Pexperimentateur n'a pas toujours besoin de connaitre les details
et les subtilites mathematiques. De plus, rares sont les situations ou les conditions
experimentales correspondent exactement aux conditions d'application de tel ou tel
theoreme. C'est pourquoi 1'accent est mis non pas sur la demonstration des resultats
mathematiques mais sur leur signification et leur interpretation physique. Parfois,
pour alleger la presentation, la rigueur mathematique est volontairement sacrifice et
remplacee par une argumentation "physiquement evidente".
Le plan du livre est simple. Dans 1'introduction, on presente les causes d'erreurs et
on definit le langage utilise. Le premier chapitre rappelle les principaux resultats
de statistique essentiels a 1'analyse des donnees. Le deuxieme chapitre presente des
notions plus complexes de statistique, il est consacre aux fonctions de varables aleatoires. Dans le troisieme chapitre qui est la partie la plus importante, on s'efforce de
repondre aux questions les plus frequentes qui se posent dans 1'analyse des donnees
experimentales. Le dernier chapitre est consacre aux methodes les plus frequemment
utilisees pour 1'ajustement de parametres.
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Bien que ce livre soit particulierernent adapte au travail d'etudiants de second cycle,
il pourra etre egalement utile aux jeunes chercheurs, aux ingenieurs et a tons ceux
qui sont amenes a realiser des mesures.
J'airnerais remercier mes collegues enseignants et chercheurs qui ont lu le manuscrit
et qui m'ont fait des propositions pour arneliorer son contenu. Je voudrais exprimer
ma profonde gratitude a M. Elie Belorizky qui m'a encourage a ecrire ce livre et avec
qui j'ai eu des discussions tres fructueuses.
POURQUOI LES INCERTITUDES

EXISTENT-ELLES ?
Le but de la majorite des experiences en physique consiste a comprendre un phenomene
et a le modeliser correctement. Nous effectuons des mesures et nous avons sou vent
a nous poser la question : "quelle est la valeur de telle ou telle grandeur ?", parfois
sans nous demander prealablement si cette formulation est correcte et si nous serons
capables de trouver une reponse.
La necessite de cette interrogation prealable devient evidente des qu'on rnesure la
meme grandeur plusieurs fois. L'experimentateur qui le fait est frequemment confronte a une situation assez interessante : s'il utilise des appareils suffisamment precis, il s'apergoit que des mesures repetees de la meme grandeur donnent parfois des
resultats qui sont un peu differents de celui de la premiere mesure. Ce phenomene est
general, que les mesures soient simples ou sophist iquees. Meme les mesures repetees de
la longueur d'une tige metallique peuvent donner des valeurs differentes. La repetition
de 1'experience montre que, d'une part les resultats sont toujours un peu differents et
d'autre part cette difference n'est en general pas tres grande. Dans la plupart des cas,
on reste proche d'une certaine valeur moyenne, mais de temps en temps on trouve
des valeurs qui sont differentes de celle-ci. Plus les resultats sont eloignes de cette
moyenne, plus ils sont rares.
Pourquoi cette dispersion existe-t-elle ? D'ou vient cette variation ? Une raison de cet
effet est evidente : les conditions de deroulement d'une experience varient toujours
legerement, ce qui modifie la grandeur mesurable. Par exemple, quand on determine
plusieurs fois la longueur d'une tige metallique, c'est la temperature ambiante qui peut
varier et ainsi faire varier la longueur. Cette variation des conditions exterieures (et la
variation correspondante de la valeur physique) peut etre plus ou moins importante,
mais elle est inevitable et, dans les conditions reelles d'une experience physique, on
ne peut pas s'en affranchir.
Nous sommes "condamnes" a effectuer des mesures de grandeurs qui ne sont presque
jamais constantes. C'est pourquoi meme la question de savoir quelle est la valeur
d'un parametre peut ne pas etre absolument correcte. II faut poser cette question
de maniere pertinente et trouver des moyens adequats pour decrire les grandeurs
physiques. II faut trouver une definition qui puisse exprimer cette particularity
physique. Cette definition doit refleter le fait que la valeur physique varie toujours,
mais que ses variations se regroupent autour d'une valeur moyenne.
La solution est de caracteriser une grandeur physique non pas par une valeur, mais
plutot par la probabilite de trouver dans une experience telle ou telle valeur. Pour
cela on introduit une fonction appelee distribution de probabilite de detection d'une
valeur physique, ou plus simplement la distribution d'une valeur physique, qui montre
quelles sont les valeurs les plus frequentes ou les plus rares. II faut souligner une fois
encore que, dans cette approche, il ne s'agit pas tellement de la valeur concrete d'une
grandeur physique, mais surtout de la probabilite de trouver differentes valeurs.
On verra par la suite que cette fonction la distribution d'une valeur physique est
heureusement suffisamment simple (en tout cas, dans la majorite des experiences).
Elle a deux caracteristiques. La premiere est sa valeur moyenne qui est aussi la
valeur la plus probable. La deuxieme caracteristique de cette fonction de distribution
indique, grosso modo, la region autour de cette moyenne dans laquelle se regroupe la
majorite des resultats des mesures. Elle caracterise la largeur de cette distribution et
est appelee 1'incertitude. Comme nous pourrons le voir par la suite, cette largeur a
une interpretation rigoureuse en terme de probabilites. Pour des raisons de simplicite
nous appellerons cette incertitude "1'incertitude naturelle" ou "initiale" de la grandeur
physique elle-meme. Ce n'est pas tout a fait vrai, puisque cette erreur ou incertitude
est souvent due aux conditions experimentales. Bien que cette definition ne soit pas
parfaitement rigoureuse, elle est tres utile pour la comprehension.
Le fait que, dans la plupart des experiences, le resultat puisse etre caracterise par
seulement deux valeurs, permet de revenir sur la question avec laquelle nous avons
commence notre discussion : "Peut-on se demander quelle est la valeur d'un parametre
physique ?" II se trouve que dans le cas ou deux parametres sont necessaires et
suffisants pour caracteriser une grandeur physique, on peut reconcilier notre envie
de poser cette question et la rigueur de 1'interpretation d'un resultat en termes de
probabilites. La solution existe : on appellera valeur physique la valeur moyenne de la
distribution et incertitude ou erreur de la valeur physique la largeur de la distribution 1 .
C'est une convention admise de dire que "la grandeur physique a une valeur donnee
avec une incertitude donnee". Cela signifie que 1'on presente la valeur moyenne et la
largeur d'une distribution et que cette reponse a une interpretation precise en termes
de probabilites.
Le but des mesures physiques est la determination de cette fonction de distribution
ou, au moins, de ses deux parametres majeurs : la moyenne et la largeur. Pour
determiner une distribution on doit repeter plusieurs fois une mesure pour connaitre
la frequence d'apparition des valeurs. Pour obtenir 1'ensemble des valeurs possibles
ainsi que leurs probabilites d'apparition, on devrait en fait effectuer un nombre infini
de mesures. C'est tres long, trop cher, et personne n'en a besoin.
On se limite done a un nombre fmi de mesures. Bien sur, cela introduit une erreur
Pour des raisons historiques, les deux termes "incertitude" et "erreur" sont utilises en physique
pour decrire la largeur d'une distribution. Depuis quelques annees, les organismes scientifiques
internationaux essaient d'introduire des normes pour utiliser correctement ces deux termes (de la
meme fagon que 1'on a introduit le systeme international d'unites). Aujourd'hui, on appelle une
erreur la difference entre le resultat d'une mesure et la vraie valeur de la grandeur mesuree. Tandis
que 1'incertitude de mesure est un parametre, associe au resultat d'une mesure, qui caracterise la
dispersion des valeurs qui peuvent raisonnablement etre attributes a la grandeur mesuree. Dans
ce livre, nous tacherons de suivre ces normes, mais parfois nous utiliserons des expressions plus
habituelles pour un physicien. Par exernple, une formule tres connue dans 1'analyse des donnees
experimenatles porte le nom de "la formule de propagation des erreurs". Nous utiliserons toujours
ce nom bien connu bien que, selon les normes actuelles, nous aurions du 1'appeller "la formule
de propagation des incertitudes". Le lecteur interesse trouvera dans la bibliographie toutes les
references sur les normes actuelles.
POURQUOI LES INCERTITUDES EXISTENT-ELLES ?
(incertitude) supplementaire. Cette incertitude, due a 1'impossibilite de mesurer avec

une precision absolue la distribution initiale (naturelle), s'appelle 1'erreur statistique
ou rerreur accidentelle. II est assez facile, du moms en theorie, de diminuer cette
erreur : il suffit d'augmenter le nombre de mesures. En principe, on peut la rendre
negligeable devant I'incertitude initiale de la grandeur physique. Cependant un autre
probleme plus delicat apparait.
II est lie au fait que, dans chaque experience physique existe un appareil, plus ou
moins complique, entre 1'experimentateur et 1'objet mesurable. Get appareil apporte
inevitablement des modifications de la distribution initiale : il la deforme. Dans le cas
le plus simple, ces changements peuvent etre de deux types : I'appareil peut "decaler"
la valeur moyenne et il peut elargir la distribution.
Le decalage de la valeur moyenne est un exemple de ce qu'on appelle les "erreurs
systematiques". Ce nom exprime que ces erreurs apparaissent dans chaque mesure.
L'appareil donne systematiquement une valeur qui est differente (plus grande ou plus
petite) de la valeur "reelle". Mesurer avec un appareil dont le zero est mal regie est
1'exemple le plus frequent de ce genre d'erreurs. Malheureusement, il est tres difficile
de combattre ce type d'erreurs : il est a la fois difficile de les deceler et de les corriger.
Pour cela, il n'y a pas de methodes generates et il faut etudier chaque cas.
Par contre, il est plus facile de maitriser 1'elargissement de la distribution introduit
par I'appareil. On verra que cette incertitude ayant la meme origine que les incertitudes initiales (naturelles) s'ajoute "simplement" a celles-ci. Dans un grand nombre
d'experiences, 1'elargissement du a I'appareil permet de simplifier les mesures : supposons que nous commissions I'incertitude (la largeur) introduite par un appareil
et que celle-ci soit nettement plus grande que I'incertitude initiale. II est possible
de negliger I'incertitude naturelle par rapport a I'incertitude d'appareillage. II suffit done de faire une seule mesure et de prendre I'incertitude de I'appareil comme
incertitude de la mesure. Evidemment, dans ce genre d'experience, il faut etre sur
que I'incertitude de I'appareil domine I'incertitude naturelle, mais on peut toujours
le verifier en faisant des mesures repetitives. L'appareil peu precis ne permettra pas
d'obtenir les variations dues a la largeur initiale.
II faut remarquer que la separation entre incertitude d'appareillage et incertitude
naturelle reste assez conventionnelle : on peut toujours dire que la variation des
conditions d'experience fait partie de I'incertitude d'appareillage. Dans ce livre, on ne
parle pas des mesures en mecanique quantique, ou existe une incertitude de la valeur
physique a cause de la relation d'incertitude de Heisenberg. En mecanique quantique,
1'interference appareilobjet devient plus compliquee et interessante. Cependant nos
conclusions generales ne sont pas modifiees puisque, en mecanique quantique, la notion
de probabilite est non seulement utile et naturelle, mais elle est indispensable.
Nous avons compris que pour determiner experimentalement une valeur physique il est
necessaire (mais pas toujours suffisant) de trouver la moyenne (la valeur) et la largeur
(I'incertitude). Sans la determination de I'incertitude, 1'experience n'est pas complete : on ne peut la comparer ni avec une theorie ni avec une autre experience. Nous
avons egalement vu que cette incertitude contient trois contributions possibles. La
premiere est I'incertitude naturelle liee aux changements des conditions d'experience
ou a la nature-meme des grandeurs (en statistique ou en mecanique quantique). La
10
deuxieme est 1'incertitude statistique due a 1'impossibilite de mesurer precisement la

distribution initiale. La troisieme est 1'incertitude d'appareillage due a 1'irnperfection
des outils de travail de Pexperimentateur.
Un experimentateur se pose toujours deux questions. Premierement, comment peuton mesurer une grandeur physique, c'est-a-dire les caracteristiques de sa distribution :
la moyenne et la largeur ? Deuxiemement, comment et jusqu'ou faut-il diminuer
cette incertitude (largeur) de 1'experience ? C'est pourquoi 1'experimentateur doit
comprendre les relations entre les trois composantes de 1'incertitude et trouver comment les minimiser : on peut diminuer 1'incertitude naturelle en changeant les conditions de 1'experience, 1'incertitude statistique en augmentant le nombre de mesures,
1'incertitude d'appareillage en utilisant des appareils plus precis.
Cependant, on ne peut pas reduire les incertitudes infiniment. II existe une limite
raisonnable de 1'incertitude. L'evaluation de cette limite est non seulement une question de temps et d'argent depenses, mais c'est aussi une question de physique. II ne
faut pas oublier que, quelle que soit la grandeur a mesurer, nous ne pourrons jamais
tenir compte de tous les facteurs physiques qui peuvent influencer sa valeur. De plus,
tous nos raisonnements et discussions sont effectues dans le cadre d'un modele ou,
plus generalement, de notre vision du monde. Ce cadre peut ne pas etre exact.
C'est pourquoi notre probleme est de choisir des methodes experimentales et des
methodes d'estimation des incertitudes en adequation avec la precision souhaitable et
possible.
Diverses situations existent selon la precision desiree. Dans la premiere nous voulons
seulement obtenir 1'ordre de grandeur de la valeur mesuree ; dans ce cas, 1'incertitude
doit aussi etre evaluee grossierement. Dans la seconde nous desirous obtenir une
precision de 1'ordre de un a dix pour cent ; il faut alors faire attention en determinant
les incertitudes, car les methodes choisies doivent evoluer en fonction de la precision
requise. Plus on cherche de precision, plus la methode doit etre elaboree, mais le prix
a payer est la lenteur des calculs et leur volume. Dans la troisieme nous cherchons a
obtenir une precision du meme ordre de grandeur que celle de Petalon correspondant
au parametre physique mesure ; le probleme de 1'incertitude peut alors etre plus
important que celui de la valeur.
Dans cet ouvrage, nous considerons seulement les methodes d'estimation d'erreurs
dans la seconde situation. La plupart des paragraphes apporte reponse a une question concrete : comment calcule-t-on les incertitudes pour une experience avec un
petit nombre de mesures ? comment peut-on ajuster les parametres d'une courbe ?
comment compare-t-on une experience et une theorie ? quel est le nombre de chiffres
significatifs ? etc. Le lecteur qui connait les bases de la statistique peut omettre
sans probleme les premiers paragraphes et chercher la reponse a sa question. Dans
le cas contraire, 1'ouvrage lui apporte 1'information necessaire sur les parties de la
statistique utiles au traitement des incertitudes.
CHAPITRE 1
RAPPELS SUR LA THEORIE
DES PROBABILITES
Dans ce chapitre, nous avons reuni des notions de base de la theorie des probabilites :
la definition d'une probability et ses proprietes elementaires ainsi que 1'introduction
des distributions les plus frequemment utilisees dans 1'analyse des donnees experimentales. Parmi ces distributions, celle de Gauss joue un role tres particulier, c'est
pourquoi la partie esssentielle de ce chapitre (paragraphes 1.2 et 1.4) lui est consacree
car elle et est indispensable a la comprehension du reste du livre.
1.1
PROBABILITES
Pour pouvoir decrire une grandeur physique en termes de probability il faut rappeler
les definitions et les proprietes les plus simples. Pour les mesures les plus frequentes
faites en laboratoire nous n'avons pas besoin de toute la panoplie des methodes de la
statistique mathematique et notre experience du monde est largement sumsante pour
comprendre et assimiler les proprietes fondamentales des probabilites. Logiquement,
chaque lecteur de ce livre a deja eu 1'occasion dans sa vie de jouer, au moins aux
cartes et ainsi la notion de probabilite ne lui est pas etrangere.
1.1.1
DEFINITIONS ET PROPRIETES
Supposons que 1'on observe un evenement E repete Ne fois (on dit que 1'on prend un
echantillon de Ne evenements). Dans n cas, cet evenement est caracterise par une
marque distinctive a (appelee aussi caractere). Si les resultats des evenements dans
cette suite sont independants, alors la probabilite P(a) que la marque a se manifeste
est definie comme
On voit toute de suite que la probabilite varie de 0 a 1
12
et que la somme sur tous les caracteres (de meme nature) possibles {/}, i = a,b,c,...
est egale a 1
Un exemple d'evenement est le tirage d'une carte du jeu. La marque distinctive serait
la categoric de couleur (pique, coeur, carreau ou trefle). Pour un jeu de 52 cartes, la
probabilite d'une categoric de couleur est egale a 1/4. On notera par A 1'ensemble
d'evenements ou ce signe s'est manifested
Introduisons deux operations tres simples avec les probabilites. Definissons par A + B
1'ensemble des evenements dans lesquels la marque a ou la marque 6, ou les deux, sont
presentes (ici a et 6 peuvent etre de nature differente). Par exemple, a est une categoric
de couleur, 6 est la valeur de la carte (le roi, la dame, etc.) De plus, defmissons par AB
1'ensemble des evenements dans lesquels ces deux signes se manifestent simultanement.
Alors,
C'est-a-dire, pour trouver la probabilite qu'un evenement possede au moins une des
marques nous devons, d'abord, ajouter deux probabilites P(A) et P(B). Cependant,
certains evenements peuvent avoir les deux signes en meme temps et on les a comptes
deux fois. C'est pourquoi il faut soustraire la probabilite P(AB}.
Prenons un jeu de 52 cartes avec 13 cartes dans chaque couleur (le roi, la dame, le
valet et 10 cartes numerotees de 1 a 10). Pour une carte tiree au hasard, la probabilite
d'etre soit le roi soit une carte de cceur (a etant le roi, 6 une carte de coeur) est egale a
P("soit le roi, soit une carte de coeur")
= P("roi") + 7>("cceur") - P("roi de cceur")
Introduisons une notion un peu plus compliquee. Supposons que 1'evenement A puisse
se produire de na manieres differentes, 1'evenement B de n^ manieres et 1'evenement
AB de nab manieres. Si le nombre total de realisations possibles est egal a N (ne pas
confondre avec le nombre Ne d'evenements introduit au debut du paragraphe), alors
On peut reecrire P(AB') comme
Parmi les na cas ou 1'evenement A se produit, il y a une proportion

1'evenement B s'est egalement produit. On peut introduire la probabilite correspondante qui s'appelle la probabilite conditionnelle P(A/B) de 1'evenement B, c'est-a-dire
la probabilite d'observer B sous reserve que A se soit produit.
I - RAPPELS SUR LA THEORIE DBS PROBABILITES
13
Ainsi, la derniere formule prend la forme
Si 1'evenement A n'a pas d'influence sur la probabilite d'evenement B, on dit alors

que les deux evenements sont independents et
Dans ces conditions, on obtient pour la probabilite d'apparition de deux evenements

a la fois P(AB) une relation tres importante :
ce qui montre que les probabilites des evenements independants se multiplient. On

utilisera cette propriete plusieurs fois dans ce livre.
Considerons 1'exemple de notre jeu de 52 cartes. Soit A "un roi", B "une carte de
coeur". Done na = 4, 77.5 = 13, N = 52 et les probabilites correspondantes :
Vu que P(AB) = "P("roi de cceur") = 1/52, on conclut que
et ainsi, dans le jeu de 52 cartes, ces deux evenements sont independants.

Ajoutons juste une carte a notre jeu un joker qui n'appartient a aucune categoric
de couleur. na, a nouveau, est egal a 4, n^ a 13, mais N est egal a 53. Done,
On s'apergoit facilement que
et ainsi ces deux evenements ne sont plus independants dans le jeu de 53 cartes !
L'explication de cette difference est relativement simple : si nous savons qu'une carte
est un roi alors elle ne peut pas etre le joker, et ainsi nous avons deja obtenu une
certaine information pour determiner sa categoric de couleur.
1.1.2
GRANDEURS DISCRETES ET CONTINUES,

FONCTIONS DE DISTRIBUTION
Une grandeur physique peut avoir une valeur numerique discrete ou continue. Dans
le premier cas, on 1'appellera grandeur "discrete", dans le deuxieme, "continue". Les
exemples de grandeurs discretes sont la categoric de couleur, la valeur de la carte, si
14
ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES
Figure 1.1 : Histogramme de la premiere serie de mesures de la longueur / : sont portees sur 1'axe
des abscisses la valeur mesuree et sur 1'axe des ordonnees la frequence de son apparition
Ton reprend notre exemple, ou le comptage d'un detecteur, si 1'on considere des exemples plus physiques. Mais plus frequemment en physique, on mesure des grandeurs
continues, comme la longueur, la duree, le courant, etc.
Cette distinction des valeurs (ou des grandeurs) discretes et continues est tout a fait
justifiee. Neanmoins, en physique, on decrit assez souvent une grandeur continue
par une valeur discrete et vice versa. De ce point de vue, cette separation est, en
partie, conventionnelle et les proprietes (ou meme Pecriture) valables pour les valeurs
discretes seront utilisees pour les valeurs continues et inversement. On franchira cette
frontiere regulierement, meme parfois sans se rendre compte de ce que Ton fait. Cette
attitude correspond a un parti pris de presentation. Le lecteur ne doit pas en deduire
que le passage a la limite s'effectue dans tous les cas sans difficulte.
Pour illustrer le caractere conventionnel de cette distinction, considerons un exemple de mesure de la longueur d'une chambre (il est evident que la longueur est
une grandeur continue) a 1'aide d'un decimetre qui possede aussi des divisions centimetriques. Le fait meme que nous disposions d'un decimetre avec des divisions nous
oblige a decrire une grandeur continue a 1'aide de valeurs entieres done discretes (on
aura un certain nombre de decimetres ou de centimetres). On peut aller plus loin et
dire que la representation d'une longueur par un nombre fini de chiffres est un passage
oblige d'une valeur continue a une valeur discrete.
Bien sur, il existe des situations ou une valeur discrete ne peut pas etre remplacee par
une valeur continue, par exemple dans le jeu de cartes. Cependant, ces situations sont
rares dans les experiences de physique. Nous observerons par la suite des passages des
valeurs d'un type a 1'autre. Les proprietes de probabilite resteront les memes dans
I - RAPPELS SUR LA THEORIE DBS PROBABILITIES
15
les deux cas. C'est pourquoi nous donnerons les demonstrations generales pour les
variables continues et considererons que les resultats s'appliquent aussi aux variables
discretes.
Continuons notre experience mentale. Supposons qu'apres avoir fait une dizaine de
mesures rapides, nous ayons trouve une fois la longueur de la chambre egale a 323
centimetres, cinq fois 324 cm et quatre fois 325 cm. Les resultats sont presentes
sur la figure 1.1 qui s'appelle un "histogramme". Sur 1'axe des abscisses, on montre la
valeur mesuree et, sur 1'axe des ordonnees, le nombre relatif
(HI mesures
de la valeur / par rapport au nombre total N de mesures) c'est-a-dire la frequence
d'apparition de chaque valeur. Le sol n'etait pas plat, notre decimetre n'etait pas
toujours droit, la longueur etait, la plupart du temps, comprise entre 324 et 325 cm
et nous ne savions pas dans quel sens il fallait Tarrondir. D'ou la dispersion de nos
resultats.
Pour clarifler la situation nous avons pris un instrument de mesure gradue en millimetres et en augmentant sensiblement le nombre de mesures nous avons obtenu les
nouveaux resultats representes sur la figure 1.2. Avec une autre echelle on retrouve
les memes tendances : les resultats sont legerement differents et se regroupent autour
d'une certaine valeur.
Figure 1.2 : Histogramme de la deuxieme serie de mesures de la longueur / : sont portees sur 1'axe
des abscisses la valeur mesuree et sur 1'axe des ordonnees la frequence de son apparition
On peut continuer ainsi notre experience en diminuant 1'echelle et en augmentant le

nombre de mesures dans chaque serie. La forme des histogrammes tendra vers une
forme en cloche qui, lorsque le nombre de mesures tend vers I'infmi, peut etre decrite
par une fonction continue f(x) (figure 1.3).
Chaque histogramme donne le nombre relatif de resultats se trouvant dans un inter-
16
Figure 1.3 : Fonction de la densite de probabilite
valle donne. Ainsi, dans le cas d'un grand nombre de mesures et selon notre definition
(1), le produit f(x}dx donne la probabilite que la grandeur mesuree se trouve dans
1'intervalle
La fonction f(x) represente la densite de probabilite.
On 1'appellera aussi la fonction de distribution de probabilite. x varie au hasard et
s'appelle variable aleatoire.
D'apres notre definition, la probabilite P de trouver la valeur dans 1'intervalle compris
entre xi et x<i est egale a
qui est la somme (1'integrale) de f(x] pour toutes les valeurs de x entre x\ et x^.
Selon (2), f(x) obeit a la condition
ce qui signifie que la probabilite de trouver une valeur de x quelconque est egale a 1.
Par commodite mathematique, nous avons pris ici des limites infmies pour 1'integrale.
Mais une grandeur physique, par exemple la longueur, peut ne pas varier dans ces
limites (elle ne peut pas etre negative). Cela signifie que la fonction /(a?) utilisee
pour decrire cette grandeur doit devenir tres petite en dehors des limites que nous
choisissons effectivement.
Pour une grandeur discrete qui prend les valeurs numeriques X{ = {x\, x % , . . . } nous
I RAPPELS SUE LA THEORIE DBS PROBABILITES
17
avons exactement la meme relation de normalisation :
ou 'P(xi) est la probabilite de trouver la valeur Xi.

On peut souligner que le passage d'un histogramme a une fonction continue est analogue a la notion d'integrale comme limite de la somme des aires de rectangles element aires sous la courbe representant une fonction quand le nombre de divisions tend
vers 1'infini.
1.1.3
PROPRIETES DE LA FONCTION DE DISTRIBUTION
Comment pouvons-nous caracteriser la fonction de distribution de probabilite f(x] ?

Theoriquement, il faut la connaitre a chaque point x mais il est evident que ceci n'est
pas realisable experimentalement : nous ne pouvons pas mesurer la probabilite pour
chaque valeur x.
A priori, cette fonction f(x] doit etre positive, vu sa relation avec la probabilite,
tendre vers zero a plus l'infini et a moins 1'infini assez rapidement pour que 1'integrale
(5) existe, et avoir la forme de la courbe presentee sur la figure 1.3. II est logique
d'introduire au moins deux parametres qui decrivent la. position de la courbe (c'esta-dire celle de son maximum) sur 1'axe et son etalement.
Ainsi la premiere caracteristique de la distribution de probabilite f(x) est la valeur
moyenne de x
Chaque valeur possible de x est multipliee par la probabilite de son apparition f(x)dx
et la somme (1'integrale) est effectuee sur toutes les valeurs possibles.
Pour une variable discrete
La barre sur x est la notation standard indiquant la valeur moyenne arithmetique.

Bien evidemment, nous supposons que cette integrate (cette somme) ainsi que les
integrates (les sommes) que nous allons definir existent. C'est une hypothese physique
naturelle mais nous discuterons aussi d'exemples ou elle n'est pas valable.
L'etalement de la distribution peut etre decrit par la variance ou le carre de I'ecarttype et defini par
18
pour une variable continue, et par
pour une variable discrete.

Pour chaque valeur de a?, on considere 1'ecart par rapport a la valeur moyenne af
et on calcule la valeur moyenne du carre de cet ecart. Pourquoi avoir choisi cette
caracteristique plutot qu'une autre ? Parce que la simple valeur moyenne de 1'ecart
est nulle. Nous aurions pu prendre comme caracteristique \x x mais nous verrons
a la fin de ce paragraphe que, sous cette forme, la variance ne presente pas certaines
proprietes remarquables et fort utiles.
II est facile de demontrer qu'avec la definition (7) le carre de 1'ecart-type s'ecrit
Prenons 1'exemple le plus simple : une distribution de probability constante (voir

figure 1.4) d'une grandeur x qui peut varier de a a &
La valeur de cette constante est definie par la condition de normalisation (5).
Figure 1.4 : Distribution constante
La valeur moyenne de x pour cette fonction de distribution est
et sa variance :
19
Les deux seules caracteristiques,

peuvent ne pas etre suffisantes pour decrire
la fonction f(x).
On peut alors defmir les valeurs moyennes du cube, de la quatrieme
puissance de I'ecart etc. De cette facon, on obtient un moment central d'ordre n :
Le mot "central" souligne le fait que le moment est calcule par rapport a la valeur moyenne
~x. Notons que, par definition,
Parfois, il est utile d'introduire des moments sans rapport avec la valeur moyenne
Les moments (ou les moments centraux), ainsi defmis, determinent la distribution f(x)
d'une facon unique. On demontre facilement que si deux densites de probabilites fi(x) et
/2(x) ont les memes moments, elles sont identiques
Laissons au lecteur
interesse le soin d'effectuer cette demonstration.
La connaissance de tous les moments {fi'n} (ou {pn}} donne une information complete
sur la fonction de distribution de probabilite f(x).
Cependant, il est plus rationnel de
travailler avec une seule fonction contenant tous les moments dans son expression. Cette
fonction s'appelle la fonction generatrice des moments defmie par :
La fonction exponentielle peut etre developpee en serie
On voit que [i'n est le coefficient

des derivees de la fonction M'x(t} :
peut egalement etre determinee a partir
20
Done pour t = 0, on obtient
D'une facon analogue, on introduit la fonction generatrice des moments centraux :
La relation entre ces deux fonctions est done :
Conformement au theoreme que Ton vient d'enoncer, on peut affirmer que I'egalite des
deux fonctions g e n e r a t r i c e s , i m p l i q u e I'egalite des deux fonctions de
distribution de probabilite :
Pour un lecteur interesse par les aspects mathematiques du probleme, notons que cette
definition de la fonction generatrice n'est pas la seule utilisee dans la litterature. On peut
remplacer la fonction exponentielle d'un argument reel e^par la fonction d'un argument
purement complexe etxt. Dans le premier cas, la definition est etroitement liee a la
transformation de Laplace, alors que dans le deuxieme elle est liee a la transformation
de Fourier. Les deux transformations integrates sont tres proches I'une de I'autre : une
rotation de 7T/2 dans le plan complexe de t permet de passer d'une transformation a
I'autre.
L'introduction de la fonction generatrice peut etre consideree comme une astuce permettant de faciliter les diverses demonstrations (ce que nous verrons plus tard). Mais on peut
lui donner une interpretation physique plus profonde qui sort du cadre de ce livre.
1.1.4
FONCTION DE DISTRIBUTION DE PLUSIEURS VARIABLES
Examinons maintenant la situation un peu plus complexe ou nous avons affaire a

deux grandeurs (variables) x\ et x^. Par exemple, nous mesurons la longueur et
la largeur d'une piece. Ou encore, nous faisons deux mesures independantes de la
rneme grandeur : dans ce cas nous pouvons aussi dire que nous travaillons avec deux
grandeurs.
La construction et les definitions sont absolument analogues au cas d'une seule variable. Pour deux grandeurs continues, on doit introduire la densite de probabilite qui
depend de deux variables /(a?i, x ^ } . Ainsi la probabilite de trouver la premiere valeur
dans Pintervalle compris entre x\ et x\ + dx\ et la deuxieme valeur dans 1'intervalle
compris entre
avec la condition de normalisation :
21
La generalisation de ces definitions au cas de N variables est evidente.

Parmi toutes les fonctions
il existe un cas particulierement important et
interessant en physique. C'est celui ou deux variables x\ et x-2 sont independantes.
Alors, selon la formule (3), la fonction f ( x \ , X 2 ) se separe en un produit de deux
fonctions :
ou chaque fonction represente la densite de probabilite de la variable correspondante.

Etudions les proprietes remarquables des valeurs moyennes et des variances dans
un cas particulier mais tres frequent en physique : la somme de deux grandeurs
independantes x\ -+- x^. Ces deux grandeurs x\ et x^ peuvent etre deux resultats de
mesure de la meme grandeur x. Leur somme nous sera utile pour calculer la valeur
moyenne sur deux experiences.
L'hypothese de leur independance nous permet d'utiliser la propriete (16) et, par
definition, la valeur moyenne de la somme est egale a
la somme des deux valeurs moyennes.

Pour calculer la variance
on procede aussi par definition :
22
On separe cette expression en trois integrates et on utilise la propriete (16)
On obtient finalement une relation simple
qui montre que la variance de la somme de deux grandeurs independantes est egale a
la somme de leur variance. Cette formule est la base du traitement des incertitudes
et elle est utilisee continuellement en physique.
On voit d'ailleurs 1'avantage d'une telle definition de la variance. Nous avons dit
qu'il etait "a priori" possible de caracteriser 1'etalement d'une distribution f(x) par
par exemple. Mais, avec cette definition, on ne peut obtenir une relation
aussi simple que celle donnee par la formule (17).
Par analogic, pour TV grandeurs independantes x, x % , . . . , XN, on a
On introduit la somme
de ces grandeurs. La moyenne de la somme X est egale a
c'est-a-dire a la somme des moyennes et la variance de X est donnee par
soit la somme des variances.

Pour la fonction generatrice des moments
I RAPPELS SUR LA THEORIE DBS PROBABILITIES
23
on obtient facilement d'apres (18)
Cela signifie que la fonction generatrice des moments d'une somme de grandeurs independantes est egale au produit des fonctions generatrices individuelles.
De plus, si toutes les grandeurs dans cette somme ont la meme fonction de distribution
on a la meme fonction generatrice de moments pour toutes les grandeurs
et pour la somme X on obtient une expression encore plus simple
1.1.5
CORRELATIONS
Jusqu'a present, nous n'avons considere que des exemples de grandeurs physiques (variables aleatoires) independantes. Mais on rencontre aussi des variables correlees (c'est-a-dire
non independantes). A la fin du paragraphe 1.1.1 (voir (4)), nous avons vu un tel exemple
avec une carte ajoutee a un jeu normal de 52 cartes, ce qui entrafne que la probabilite de
deux evenements A et B simultanes P(AB) n'est pas egale au produit des probabilites
Cette inegalite est le signe de deux evenements correles.

On peut penser que de tels exemples sont relativement rares en physique. En effet, dans
la plupart des situations reelles, nous avons affaire a des variables aleatoires independantes comme les mesures d'une meme grandeur {x,}. Bien evidemment, il existe des
situations ou une mesure peut influencer la suivante, comme la mesure d'un courant avec
un amperemetre electromecanique (de mauvaise qualite) dont le ressort est usage et se
deforme facilement. Dans ce cas, chaque mesure risque de dependre des precedentes. La
statistique n'est d'aucun secours dans ce type de situations. C'est un exemple d'erreur
systematique qu'il est assez difficile de detecter et de corriger. En physique experimentale, il existe beaucoup de situations ou, pour une experience precise, on doit utiliser un
unique appareil dont on ne connatt pas tres bien les proprietes. Ce manque de connaissance de I'appareillage conduit parfois a des erreurs systematiques et meme a de fausses
decouvertes.
24
Neanmoins, en statistique, il existe "un mecanisme" tout a fait nature! et frequent d'apparition des correlations. Meme si les variables {a??-} sont independantes, leurs fonctions
peuvent etre correlees.
Nous caracteriserons la dependance entre deux variables X{ et Xj (avec des valeurs
moyennes
et des variances
par le coefficient de correlation q^j defmi
par :
Les ecarts quadratiques moyens crz et <TJ sont introduits dans la definition par commodite.
Nous utiliserons aussi la covariance de deux variables :
En particulier, pour i = j
Si les variables X{ et Xj sont independantes, le coefficient de correlation est nul : q^j 0.

Si Xi est proportionnelle a X j , c'est-a-dire
ce coefficient est egal a 1 ;
Dans un cas general,
Prenons un exemple, presque trivial, qui donne une illustration de ce mecanisme d'apparition des correlations. Soient x\ et x^ deux grandeurs physiques independantes avec la
meme moyenne /j, et la meme variance a2. Introduisons deux grandeurs y{ et y^ qui leur
sont liees par une relation lineaire :
Calculons la covariance cov(2/1,7/2) (23).

Tout d'abord, determinons les moyennes de 7/1 et de 7/2 :
yT= auxi +012^2 = aiiÎ+ 012^2"= (an + 012)^ ,

y2 = azixi + 022^2 = (<*2i + ^22)^-
25
On a alors :
Autrement dit, dans le cas general
les deux variables y\ et yi
ne sont pas independantes mais sont correlees.

Get exemple donne une illustration de la notion de correlation.
Neanmoins, la notion d'independance de deux variables n'est pas toujours evidente. Considerons I'exemple simple de la correlation des deux variables x et y = x2. A priori, nous
pouvons penser qu'elles sont correlees.
D'apres la definition (23), la covariance est donnee par
Dans le cas general, cette expression est differente de zero, c'est-a-dire que x et x2 sont
effectivement correlees. Mais il suffit que Ton prenne le cas particulier d'une fonction de
distribution f(x) paire, par exemple la distribution de Gauss (voir paragraphe suivant)
avec fj, = 0, pour que
et pour que la correlation disparaisse ! Get exemple
n'est pas tres exotique : dans le cas d'un gaz dont les vitesses des molecules obeissent a
la distribution de Maxwell (voir paragraphe 3.1.3), les composantes de la vitesse (vx, vy
et vz) et I'energie
ne sont pas correlees. A posteriori, on peut
comprendre qualitativement ce resultat : la valeur de x est caracterisee par son module
et son signe tandis que x2 n'est caracterise que par le module de x. Les signes + et
sont equiprobables en vertu de la symetrie de f(x), c'est pourquoi x et x2 se trouvent
decorrelees.
1.2
DISTRIBUTION DE GAUSS
La premiere distribution continue que Ton etudie ici est la distribution de Gauss.
Cette distribution est la plus frequente en physique, c'est pourquoi, dans la litterature,
on Tappelle aussi la distribution normale. Dans cet ouvrage, nous utiliserons les
deux denominations. Nous verrons, dans le paragraphe suivant consacre au theoreme
central limite, pourquoi cette distribution joue un role si particulier. Pour 1'instant
nous etudions surtout ses proprietes.
26
Figure 1.5 : Les distributions de Gauss pour plusieurs jeux de parametres /j, et <r
Supposons qu'une valeur physique varie d'une fagon continue dans un intervalle de
moins 1'infmi jusqu'a plus I'mfini 1 . La densite de probabilite f(x] de trouver la valeur
physique aleatoire x pour une distribution normale est donnee par
La distribution normale est caracterisee par deux parametres ^ et a. Leur sens est
clairement visible sur la figure 1.5 ou nous avons presente plusieurs distributions
correspondant a des /j. et a differents : ^ donne la position de la distribution, <r son
etalement.
Notons que le facteur devant la fonction exponentielle est choisi pour que la probabilite
totale soit normee :
Nous avons deja dit, au paragraphe precedent, que la plupart des valeurs physiques varient dans
des limites finies, mais, dans les situations experimentales concretes, les valeurs reelles ne sont
jamais proches des limites et ainsi 1'hypothese d'infinite de 1'intervalle de variation n'a aucune
consequence sur 1'applicabilite des resultats obtenus.
I RAPPELS SUR LA THEORIE DBS PROBABILITIES
27
Rappelons au lecteur que le calcul de I'integrale
qui se rencontre souvent en physique est simple.

II suffit de considerer 72 (integrale sur tout le plan xy) et de passer en coordonnees polaires
dans Tintegrale double :
Calculons la moyenne et la variance de cette distribution. Par definition, la valeur

moyenne de x est egale a
Ainsi, le parametre p peut etre interprete comme la valeur moyenne de x. Notons

aussi que x = ^ est le maximum de la fonction f(x] et que cette distribution est
symetrique par rapport a ce point.
De la meme fagon, on calcule la variance de la distribution normale :
(La derniere integrale peut etre calculee, par integration par parties.) Nous voyons
pourquoi, des le debut, nous avons designe par a le deuxieme parametre de cette
distribution.
II est relativement facile de calculer des moments d'ordre plus eleve de la distribution de
Gauss. II faut introduire la fonction generatrice des moments centraux qui, par definition,
est egale a
28
Pour la calculer il suffit de faire le changement de variable

completer ('argument de la fonction exponentielle en faisant apparattre
Ces changements de variable nous permettent de retrouver I'integrale (25).
Ainsi, pour la fonction generatrice des moments centraux on obtient I'expression
On voit que tous les moments impairs sont nuls

ce qui est evident en vertu
de la symetrie de la distribution normale par rapport a x = //. Les moments pairs sont
Pour voir I'utilite des fonctions generatrices, prenons un exemple qui interviendra au
paragraphe suivant. Considerons la distribution d'une grandeur physique y ax + b qui
est une fonction lineaire d'une autre grandeur x distribute selon la loi normale avec une
moyenne /^ et une variance <r2.
La fonction generatrice des moments est egale a
done
Selon notre hypothese, la distribution de x est une distribution de Gauss (26). D'ou
Cette expression prouve que la grandeur y a aussi une distribution normale de valeur
moyenne a/j, + b et de variance a 2 <r 2 . Les deux resultats sont presque evidents : la translation change juste la valeur moyenne et le changement d'echelle multiplie la moyenne par
a et la variance par a 2 (le resultat etait previsible vu les dimensions de ces grandeurs).
Comme la distribution de Gauss est entierement determinee par les deux valeurs //, <r
et que la plupart des grandeurs physiques peuvent etre decrites par cette distribution,
les resultats experimentaux peuvent etre caracterises par deux valeurs seulement. Par
convention, on presente ces derniers sous la forme
II faut expliquer ce que cette ecriture symbolique signifie. Premierement, en presentant un resultat de cette maniere, on suppose que la distribution de la grandeur
2
Les normes ISO proposent d'utiliser la notation ux plutot que Ao\ Cependant, dans ce livre,
nous garderons 1'ecriture Ao: plus habituelle pour les physiciens.
29
physique mesuree est gaussienne. Deuxiemement, on prend la valeur rnoyenne de la

distribution pour la valeur "reelle" de la grandeur x et sa largeur a pour 1'erreur. Cette
forme d'ecriture est une convention generate que tout le rnonde accepte en gardant
bien en tete ces hypotheses. On ne peut pas dire que la valeur "reelle" de x varie de
la valeur minimale xmin = [i a a une valeur maximale
C'est faux !
Sous cette ecriture se cache une interpretation en termes de probabilite.
Rappelons que la probabilite de trouver une valeur physique dans un intervalle de x\
a X2 est egale a 1'integrale de la densite de probabilite dans ces limites. Pour une distribution donnee, on peut calculer les integrales qui nous interessent numeriquement.
En particulier, pour la distribution de Gauss (figure 1.6), la probabilite de trouver la
valeur x dans 1'intervalle
dans 1'intervalle
dans 1'intervalle
Ces resultats montrent encore une fois a quel point 1'interpretation

comme valeurs maximale et rninimale possibles de x est approximative.
Pour une distribution de Gauss, la probabilite de retrouver x en dehors de cet intervalle est egale a 1/3, c'est-a-dire tres importante ! Autrement dit, si Ton mesure
Figure 1.6 : La distribution de Gauss
30
une grandeur x plusieurs fois, environ un tiers des resultats se trouve en dehors de
jU <T et seulement deux tiers dans I'intervalle. De ce point de vue, il n'y a rien de
dramatique si le resultat sort de cet intervalle. Par centre, si le resultat se trouve
aussi en dehors de I'intervalle
la situation devient beaucoup plus
preoccupante. La probabilite d'un tel evenement pour la distribution de Gauss est
seulement de 0,3 %, c'est-a-dire qu'elle est negligeable, vu le nombre d'experiences
realisees habituellement au laboratoire (de quelques unites jusqu'a quelques dizaines).
L'apparition du resultat en dehors de I'intervalle de 3er signifie, la plupart du temps,
qu'il existe une erreur soit dans le deroulement de 1'experience, soit dans les calculs
de // et de a.
Dans le paragraphe 3.1, nous reviendrons sur la definition de fi et de a a partir d'un
nombre limite de mesures ainsi que sur la precision d'une telle determination. Si 1'on
ne peut obtenir la valeur de a experimentale qu'a un facteur 2 pres, on ne doit pas
prendre a la lettre les valeurs des probabilites obtenues avec un a theorique.
Pour 1'instant, que retenir sur la distribution de Gauss (ou normale) ? D'abord, le fait
qu'une tres grande majorite de grandeurs physiques se decrit, au moins en premiere
approximation, par cette distribution. Cette circonstance explique son importance en
physique. Cette distribution est caracterisee par deux parametres : la valeur moyenne
H associee a la'Vraie" valeur de la grandeur physique et la largeur a associee a 1'erreur
experimentale. C'est la raison pour laquelle le resultat d'une experience s'ecrit sous
la forme /L* a ; 1'interpretation d'une telle ecriture est que la probabilite pour que la
valeur physique mesuree se trouve dans cet intervalle est egale a 2/3. Si le resultat
sort de I'intervalle fj, 3u, alors il est tres probable qu'une erreur se soit glissee dans
nos mesures ou dans les calculs de /J ou de a.
1.3
AUTRES DISTRIBUTIONS ELEMENTAIRES
Au paragraphe precedent, nous avons souligne que la distribution de Gauss est la

plus frequente dans la nature. Cependant, elle n'est pas la seule possible. D'autres
distributions de probabilite interviennent frequemment dans la vie courante ; mentionnons en particulier les distributions de Student, de Poisson, de Lorentz, ainsi que
la distribution binomiale et celle du x 2 .
Les distributions de Student et du x2 son^ indispensables en physique, mais elles
sont relativement complexes. Nous leur consacrerons les paragraphes speciaux dans
le troixeme chapitre du livre ou nous aborderons des problemes plus avances.
La distribution binomiale sera la premiere etudiee parmi celles qui decrivent des
grandeurs discretes. II faut dire qu'elle n'est pas frequemment rencontree dans les
experiences mais elle est simple et instructive.
Nous obtiendrons la distribution de Poisson comme une certaine limite de la distribution binomiale. Cette "transformation" sera le premier exemple du passage d'une
distribution vers une autre. Plus tard, nous verrons que ces distributions se transforment en une distribution normale dans la limite d'un grand nombre de mesures.
La formulation plus rigoureuse de cette propriete sera donnee au paragraphe suivant
ou nous demontrerons qu'il s'agit d'un resultat general valable pour presque toutes les
31
distributions. La seule exception (physiquement interessante) a cette regie est donnee

par la distribution de Lorentz.
Ici, il faut noter que la "transformation" d'une distribution en une autre n'est pas
d'un interet purement academique ou pedagogique. C'est un probleme pratique car
une telle operation peut nous permettre de remplacer, au moins dans une premiere
approche, plusieurs distributions de probabilite complexes par des distributions plus
simples et plus generales et trouver ainsi un langage commun pour une description
uniforme de grandeurs physiques tres diverses.
1.3.1
DISTRIBUTION BINOMIALE
Cette distribution decrit des grandeurs discretes qui peuvent prendre seulement deux
valeurs. Supposons qu'un evenement ait deux realisations possibles ^4 et B. Soient p
la probability de la realisation A, q = I p la probabilite de la realisation B. Si cet
evenement se repete N fois, on peut determiner la probabilite PN(H) que la realisation
A se produise n fois. La probabilite d'obtenir successivement n fois la realisation A
puis N n fois la realisation B est egale
. Vu que 1'ordre
de realisations .4 et B est sans importance, il faut multiplier cette probabilite par le
nombre de possibilites d'extraire n objets parmi N objets, c'est-a-dire par
Finalement, la probabilite P^(n) que la realisation A se produise n fois est egale a :
Cette densite de probabilite est celle de la distribution binomiale. Elle est caracterisee
par deux parametres N et p. Plusieurs exemples de cette distribution sont donnes
sur la figure 1.7.
Comme exemple physique simple, considerons N particules d'un gaz sans interaction
distributes uniformement dans un volume V. Chaque particule a une position aleatoire dans ce volume et a une probabilite p = v/V de se manifester dans une partie v
du volume V. Dans ces conditions la probabilite P/v(n) de trouver n particules dans
v est donnee par (30).
II est facile de verifier que la densite de probabilite (30) est normee conformement a
1'equation (2) :
Determinons la moyenne du nombre n. Par definition (voir (6')), elle est egale a
32
Figure 1.7 : La distribution binomiale pour trois valeurs du parametre p, N etant fixe : N = 10
Nous avons utilise le fait que le terme avec n 0 est nul ; changeons la variable de
sommation en posant k = n 1 :
Nous aurions pu prevoir ce resultat directement car si la probabilite de realisation A

est egale a p, a la suite de Af evenements, le nombre moyen de realisations A doit etre
egale a Np.
Pour calculer 1'ecart-type, prenons la definition (7') et utilisons 1'expression (8) :
33
Pour calculer la premiere somme, nous utilisons la meme astuce que pour le calcul de
n dans (32) :
Autrement dit, 1'ecart-type est egal a :
La fonction generatrice des moments (14) de la distribution binomiale est
La premiere et la deuxieme derivees de cette fonction en t = 0 defmissent les moments
Ainsi la moyenne et la variance de la distribution binomiale sont donnees par :
conformement a (32) et (33).
Les resultats (32) et (33) peuvent paraitre triviaux mais ils sont fondamentaux pour
toute la statistique : la valeur moyenne n est proportionnelle au nombre de mesures
34
tandis que 1'ecart-type est proportionnel a la racine de N
Pour comprendre 1'importance de ces resultats, rappelons que la valeur moyenne est
associee a la valeur d'une grandeur physique xexp et 1'ecart-type a son incertitude (voir
la discussion suivant la formule (29)). Si Ton definit 1'erreur (1'incertitude) relative 6
comme le rapport
on voit que cette valeur est inversement proportionnelle au nombre de mesures TV
Cela signifie que, plus 1'on fait de mesures, plus la precision est grande : une conclusion
evidente, presque triviale. Ce qui est beaucoup moins evident, c'est la dependance
fonctionnelle de 8 avec N. La formule (35) montre que la precision relative decroit
seulement comme la racine de N. Pour augmenter la precision par un facteur de 10,
il faut multiplier le nombre d'experiences, et ainsi le cout, par 100 ! Une experience
precise peut couter tres cher et, ici, on en comprend la raison. Vu qu'une bonne
precision est chere, il faut savoir de quelle precision on a vraiment besoin. C'est une
question non triviale et nous y reviendrons a la fin du livre.
Nous avons obtenu la formule (35) a partir de la distribution binomiale mais elle
restera valable quelle que soit la situation experimental. Nous reviendrons sur cette
question au paragraphe 2.1.
1.3.2
DISTRIBUTION DE POISSON
Etudions maintenant un autre phenomene particulierement interessant : la transformation d'une distribution dans une autre. Prenons comme point de depart la
distribution binomiale dans laquelle nous augmentons le nombre de mesures N. Nous
considerons la limite quand N est tres grand
mais en imposant que le
produit Np reste constant Np = const = // (c'est-a-dire p > 0).
Nous voulons trouver la probabilite P/^(n) que la realisation A se produise n fois au
cours de toutes les mesures :
et du fait que
35
Rappelons que n restant fini, il est toujours petit par rapport a N. Done,
lorsque TV tend vers Pinfini.

On peut reecrire (1 p)N~n comme
L'expression dans le denominateur tend vers 1 quand N > oo, par centre
Finalement, pour la probability P^(n), on obtient

.,1
C'est la distribution de Poisson.

On peut verifier aisement qu'elle est normee :
que sa moyenne est egale a // :
et que sa variance est p, (soit un ecart-type
Nous aurions pu prevoir ces resultats a partir des expressions relatives a la distribution binomiale (3233).
La fonction generatrice des moments (14) de la distribution de Poisson est
36
Le lecteur interesse retrouvera aisement la moyenne et la variance de cette distribution a

I'aide des deux premieres derivees de la fonction M^{t] prises en t = 0.
Notons que la distribution de Poisson ne depend que d'un seul parametre // = Np. La
forme de cette distribution pour plusieurs valeurs de p est presentee sur la figure 1.8.
Figure 1.8 : La distribution de Poisson pour plusieurs valeurs du parametre p,
Cette distribution de probability est souvent rencontree en physique atomique ou en

physique nucleaire, car le nombre de particules comptees par un detecteur est distribue
selon cette loi a condition que le flux de particules reste constant.
Prenons un exemple. Supposons qu'a I'aide d'un detecteur on compte des particules
et que 1'on enregistre leur nombre pendant une certaine duree, disons 1 seconde. Ces
mesures seront decrites par la distribution de Poisson.
Pour le verifier, divisons notre intervalle de temps (de 1 s) en A*" petits sous-intervalles,
disons de 1 nanoseconde (1 ns = 10~9 s). Supposons que le nombre moyen de particules enregistrees pendant 1 s soit egal a // = 8. Alors la probabilite de detection
d'une particule dans un sous-intervalle est egale a p =
II est important
que cette valeur soit faible pour que Ton puisse negliger la probabilite de detection de
deux particules dans un sous-intervalle de temps.
En principe, c'est une distribution binomiale ou la realisation A est 1'apparition d'une
particule dans le detecteur et la realisation B est son absence. Les conditions de la
limite
const) sont satisfaites
et la distribution devient une distribution de Poisson avec une moyenne JJL = 8
I - RAPPELS SUR LA THEORIE DES PROBABILITES
37
(figure 1.8). n est le nombre de particules detectees pendant 1 seconde. Get exemple
montre un "passage" entre differentes distributions. On a remplace une distribution
a deux parametres (binomiale) par une autre beaucoup plus simple (de Poisson) qui
ne contient qu'un seul parametre.
1.3.3
DISTRIBUTION DE LORENTZ
La distribution de Lorentz, qui porte parfois aussi le nom de Cauchy, a une place
particuliere en statistique.
D'une part, la fonction de Lorentz (37) est tres importante en physique car elle decrit
des systemes qui se trouvent dans un etat dit de resonance. Ce phenomene se caracterise par une grande amplification des parametres du systeme. II est connu et utilise
en mecanique (pour mettre en marche une balangoire, un enfant doit effectuer ses
mouvements periodiques avec une certaine frequence) ou en electromagnetisme (tous
les postes de radio ou de television utilisent le phenomene de resonance pour choisir
une station). En physique microscopique, une resonance decrit, entre autres, la duree
de vie d'une particule ou d'un systeme de particules.
D'autre part, la fonction de Lorentz apparait comme une distribution de probabilite surtout en mecanique quantique, c'est-a-dire en physique microscopique. C'est
pourquoi cette distribution de probabilite se manifeste relativement rarement dans
les problemes macroscopiques et, en particulier, dans les experiences en travaux pratiques.
Neanmoins, elle donne un exemple de distribution pour laquelle les definitions standards de la statistique ne sont pas toujours valables. Cette raison a elle seule est
suffisante pour que 1'on etudie cette distribution de maniere plus approfondie.
La distribution de Lorentz est donnee par la fonction
qui depend de deux parameteres XQ et a (figure 1.9).

Le coefficient devant la fonction est choisi pour que la probabilite totale de trouver
une valeur quelconque de x soit egale a 1.
Le calcul de cette integrate ne represente aucune difficulte car la primitive de cette

fonction est bien connue (arctangente).
On peut voir facilement que cette distribution est symetrique par rapport a XQ qui
est aussi le maximum de cette fonction. En ce qui concerne le coefficient a, son
interpretation est aussi claire : il represente la moitie de la largeur a mi-hauteur et
caracterise ainsi 1'etalement de cette fonction.
Cependant, on rencontre de vrais problemes quand on veut trouver la moyenne et la
variance en utilisant nos definitions habituelles.
38
Figure 1.9 : La distribution de Lorentz
D'apres la definition (6), la valeur moyenne de x est egale a
Pour calculer cette integrale, faisons le changement de variable
Le deuxieme terme est egal a XQ en vertu de la normalisation de la distribution. On

peut dire que la premiere integrale est nulle car la fonction que Ton integre est impaire
par rapport a 0. Formellement, ceci est faux. Du point de vue mathematique,
cette integrale est divergente. Elle n'est egale a zero que si 1'on considere ce que
Ton appelle sa valeur principale. Autrement dit, si Ton prend d'abord un intervalle
d'integration fini et symetrique (R,R) et si Ton calcule ensuite la limite lorsque
R > oo. Done, la valeur moyenne peut etre consideree egale a XQ mais 1'on constate
que le calcul de 1'integrale est un peu delicat.
Le vrai probleme apparait quand on veut etablir la variance, car 1'integrale correspondante
diverge. Cela signifie que Pecart-type, qui etait pour nous la caracteristique de la
largeur d'une distribution, n'existe pas au sens de la definition (7). Neanmoins,
1'etalement de la fonction de Lorentz peut etre decrit par le parametre a.
I - RAPPELS SUR LA THEORIE DES PROBABILITIES
39
La fonction generatrice (14) ou (15) de la distribution de Lorentz n'existe pas non plus
a cause de la divergence de I'integrale correspondante. Cependant, il est possible de
remedier a ce probleme. Au lieu de la definition issue de la transformation de Laplace, on
peut choisir pour fonction generatrice une definition issue de la transformation de Fourier
(voir la discussion a la fin du paragraphe 1.1.3) :
ou la fonction exponentielle d'un argument reel a ete remplacee par la fonction exponentielle d'un argument purement complexe (pour simplifier la discussion, on prend
Avec cette definition, la fonction generatrice existe et elle est egale a :
Cette integrale, relativement compliquee, peut etre calculee directement en utilisant la

theorie des fonctions des variables complexes. Cependant, on peut obtenir ce resultat
indirectement en utilisant le fait qu'en prenant la transformation de Fourier d'une fonction
puis la transformation de Fourier inverse de la fonction obtenue, on retrouve la fonction
initiale. Ainsi si F(t) est la transformation de Fourier de f(x)
alors
Dans notre cas, en prenant
on obtient
ou nous avons utilise le fait que a > 0. Ainsi ('expression de la transformation de Fourier
directe (40) nous donne la formule (39).
Nous sommes en presence d'une distribution pour laquelle les definitions generates
des valeurs moyennes ne sont pas valables. Cette particularity de la distribution de
Lorentz a des consequences tres importantes. Nous verrons au paragraphe suivant
que c'est la seule distribution qui ne se transforme pas en une distribution de Gauss
lorsque le nombre de mesures devient grand.
40
1.3.4
DISTRIBUTION GAMMA
Cette distribution herite son nom d'une fonction speciale dite fonction F ou integrate
d'Euler de deuxieme espece. La fonction F est defmie par I'integrale
En principe, x dans cette expression peut etre complexe. Nous n'etudierons pas toutes
les proprietes de cette fonction, mais nous nous bornerons a la plus interessante :
qui se demontre tres simplement : il suffit d'integrer (41) une fois par parties.
Pour x entier, x = n, nous obtenons
car
Autrement dit, la fonction F est une generalisation de la fonction factorielle n\ au cas

d'un argument non entier, ou meme complexe (dans la litterature, on rencontre parfois
I'ecriture x\ qui signifie T(x + 1)).
Notons que pour les valeurs demi-entieres x n + 1/2, la fonction F peut aussi etre
ecrite sous une forme relativement simple
car I'integrale
Le changement de variable
la ramene a I'integrale (25).
La distribution de probabilite liee a la fonction F est decrite par la fonction
pour x > 0. Cette fonction contient deux parametres 3 . Notons que (3 est simplement un
parametre d'echelle. Le choix de la constante devant la fonction de x est dicte, comme
d'habitude, par la normalisation de la probabilite totale, ce qui se verifie facilement a I'aide
I RAPPELS SUR LA THEORIE DES PROBABILITES
41
Figure 1.10 : La distribution gamma pour plusieurs valeurs du parametre a, /3 etant fixe
de (41). Quelques exemples de la distribution gamma (pour (3 = 1) sont representes sur

la figure 1.10.
Calculons la moyenne et la variance de cette distribution. Par definition,
Nous avons utilise la definition de la fonction F et sa propriete (42).

Pour calculer la variance, utilisons ('expression (8) :
Le calcul de
est relativement simple :
Ainsi la variance de cette distribution est donnee par
Notons la ressemblance formelle entre la distribution gamma et celle de Poisson : si Ton remplace
n par a et jj, par x/j3. Cependant, il ne faut pas oublier que les roles des variables et des
parametres sont inverses dans ces distributions.
42
Completons I'etude de la distribution gamma par sa fonction generatrice.

Par definition (14),
Ecrivons /3a+1 sous la forme
et introduisons une nouvelle variable
L'expression pour M'(t] devient
L'integrale dans cette expression est egale a F(a + l)pa+l et fmalement M'(t] s'ecrit
Nous verrons un exemple physique de la distribution gamma lie a la distribution de Maxwell

des vitesses au paragraphe 2.2.3 consacre a la distribution % 2 .
1.4 THEOREME CENTRAL LIMITE

Considerons maintenant un des aspects les plus importants de la statistique qui concerne le theoreme central limite. Ce theoreme represente non seulernent un resultat
mathematique puissant niais il est particulierement important pour ses applications
physiques. II affirme que, dans presque toutes les experiences, on peut travailler avec
une distribution de Gauss.
La formulation exacte de ce theoreme est la suivante :
Soit x une grandeur physique aleatoire avec une moyenne ^ et une variance <r 2 .
Si <72 est fini, alors la distribution de la valeur moyenne sur un grand nombre
n de mesures
tend vers une distribution de Gauss avec une moyenne // et une variance
Avant de demontrer ce theoreme, soulignons un fait tres important : on ne fait aucune
hypothese sur la forme de la distribution de la grandeur aleatoire x ! Elle peut meme
avoir une distribution discrete. II faut seulernent que la variance soit finie. Cette
condition est presque toujours satisfaite dans la plupart des experiences, mais nous
citerons un peu plus tard un exemple physique ou cette limitation est violee et ou la
I - RAPPELS SUE LA THEORIE DBS PROBABILITES
43
distribution ne tend pas vers une distribution normale, Neanmoins, cette situation
reste rare et quand les conditions du theoreme sont remplies, celui-ci nous garantit
que, pour obtenir un resultat precis et fiable, il faut mesurer plusieurs fois la valeur
de x et calculer sa moyenne.
Vu 1'importance du theoreme central limite, nous donnons ici sa demonstration qui
peut, cependant, etre oubliee lors d'une premiere lecture.
Considerons la fonction generatrice des moments centraux pour / > 0 :
Ici, nous avons fait le developpement limite de la fonction exponentielle et nous avons
utilise le fait que la valeur moyenne de x est egale a ^ et que le carre de I'ecart-type est
fmi et egal a a2 (13). Introduisons d'abord une valeur auxiliaire
dont la fonction generatrice des moments est donnee par
Pour t fixe,
tend vers 0 lorsque n tend vers I'infmi. Nous pouvons ainsi utiliser le
developpement (47) par rapport au parametre t/^/n :
Introduisons maintenant une nouvelle variable z liee a la valeur moyenne introduite dans
I'enonce du theoreme
par une relation lineaire
Toute les valeurs Wi apparaissant dans la derniere expression ont la meme distribution car
les differents x^ ont des distributions equivalentes. Nous pouvons alors utiliser la propriete
(21) de la fonction generatrice des moments, selon laquelle la fonction generatrice des
moments d'une somme de n grandeurs aleatoires ayant la meme distribution est egale a
la n-ieme puissance de leur fonction generatrice :
44
Lorsque n tend vers I'infmi, cette expression tend vers
On reconnaft ici la fonction generatrice (26) des moments d'une distribution de Gauss
avec une moyenne nulle et une variance a2 = 1. Autrement dit, dans la limite ou n est
grand, la grandeur z a une distribution normale avec une moyenne nulle et une variance
unite. La valeur moyenne X est liee a z par
Nous avons deja demontre qu'une fonction lineaire (ici X) d'une grandeur aleatoire z
avec une distribution normale a aussi une distribution normale (voir (28)). Ainsi la valeur
X, dans la limite ou n est grand, a une distribution de Gauss avec une moyenne p et une
variance a2/n.
Nous pouvons encore remarquer que I'erreur relative Sx sur la valeur moyenne X, introduite dans la formule (34), est inversement proportionnelle a la racine carree de n.
Soulignons que, dans la demonstration, aucune hypothese n'a ete faite sur la forme de la
fonction de distribution de x et qu'ainsi ce resultat est tres general.
Le theoreme que nous venons de demontrer est particulierement important pour les
experiences physiques car il nous donne la garantie que, si le nombre de mesures
est suffisant, nous obtiendrons tot ou tard une valeur physique ayant une distribution
bien connue. Cependant, il s'agit d'un theoreme limite, c'est-a-dire que le passage vers
une distribution de Gauss ne se realise que si n est suffisamment grand. Dans une
situation concrete, il faut savoir a quel point la distribution de la grandeur mesuree
est proche de la distribution de Gauss et quand le nombre de mesures est suffisant.
Pour 1'instant, la conclusion physique principale du theoreme central limite est que
toutes les grandeurs physiques, ou presque, ont une distribution de Gauss ; de plus
nous savons ce qu'il faut faire pour que la distribution devienne une distribution
normale. Pour eclaircir cet aspect du theoreme, donnons-en une autre formulation,
plus "physique", que 1'on peut aussi rencontrer dans les livres sous le nom du theoreme
central limite :
Si une grandeur physique subit Vinfiuence d'un nombre important de facteurs
independants et si Vinfiuence de chaque facteur pris separement est petite, alors
la distribution de cette grandeur est une distribution de Gauss.
Les points importants dans cette formulation du theoreme sont la presence d'un
grand nombre de facteurs exterieurs, leur independance et leur faible influence sur
la grandeur physique.
Les deux formulations du theoreme sont relativement proches I'une de I'autre. Dans la
deuxieme, n joue le role du nombre de facteurs independants ; art- peut etre consideree
comme la valeur de la grandeur x influencee par un seul facteur i. Ainsi on retrouve
presque la meme demonstration du theoreme. Pour n mesures independantes on peut
affirmer que les X{ ont la meme distribution et ainsi la meme valeur de <r2, mais pour n
facteurs independants, on ne peut plus dire qu'ils vont donner la meme distribution a Xi
45
avec les memes valeurs de // et de cr2. Toutefois cela n'est pas un obstacle au theoreme.
Pour le demontrer, il faut remplacer une simple valeur moyenne arithmetique X par une
expression plus complexe. Le lecteur, amateur de rnathematiques, pourra mener lui-meme
cette etude.
Donnons maintenant le contre-exemple annonce au debut du paragraphe. Dans ce cas

les conditions du theoreme ne sont pas satisfaites et les calculs de la valeur moyenne
ne peuvent sauver la situation, la distribution n'etant pas gaussienne. C'est celui de la
distribution de Lorentz discutee au paragraphe 1.3.3 pour laquelle 1'ecart-type diverge.
II est facile de voir que, pour la distribution de Lorentz, le theoreme central limite ne
s'applique pas. Autrement dit, la condition d'existence d'un ecart-type fmi est essentielle
a ce theoreme et n'est pas simplement une condition pour faciliter la demonstration.
Si x est distribue selon une loi lorentzienne, la valeur moyenne
a aussi la distribution de Lorentz.

La fonction generatrice de Xi/n defmie par (38) est egale a :
(a comparer avec (39)). Done la fonction generatrice de X est, en vertu de (21),
il s'agit d'une lorentzienne et non d'une gaussienne !
En physique, cette distribution est caracteristique de la forme d'une raie dans les
transitions electromagnetiques. Get exemple ne signifie pas, cependant, que toutes
les raies mesurees experimentalement ont une forme lorentzienne. Nous verrons plus
tard que 1'appareil avec lequel on efFectue les mesures modifie aussi la forme de la
distribution et que, pour une distribution de Lorentz initiale, on peut mesurer une
distribution de Gauss. Notre exemple de la distribution de Lorentz, bien qu'il soit
tres important en physique, reste neanmoins une exception.
Pour illustrer le theoreme central limite, considerons quelques exernples. Commengons
par un exemple numerique simple. Nous pouvons faire cette experience elementaire
a la maison : dans 1'annuaire telephonique, choisissons 200 numeros au hasard et
calculons pour chaque numero la somme s4 des quatre derniers chiffres. Une telle
experience a ete effectuee avec "Les Pages Blanches" du departement de 1'Isere de
1'annee 1999 ou nous avons pris les 200 premiers numeros de la page 365. Les resultats
sont presenters sur la figure 1.11 sous la forme d'histogramme : nous avons reporte,
pour chaque valeur de 84 calculee, sur ces 200 numeros, le nombre de realisations NS4.
46
II faut comparer ce resultat avec la distribution de Gauss representee par une ligne
discontinue :
avec les parametres p,S4 = 18 et aS4 w 5, 2. Les valeurs de ces parametres ont ete
calculees selon (19) et (20) en supposant que chaque chiffre dans un numero telephonique est distribue selon une distribution discrete constante avec une moyenne
(9 + 0)/2 = 4, 5 et une variance (9 - 0) 2 /12 = 6, 75 (a comparer avec (10) et (11)).
La coincidence entre la courbe et 1'histogramme est impressionnante ! Notons que le
theoreme central limite suppose que les distributions de Xi doivent etre les memes et
independantes (ce qui semble etre credible dans notre experience). Alors la somme sn,
pour n termes dans la somme, aura une distribution proche de celle de Gauss lorsque
n > oo. Dans notre cas, n = 4, mais nous voyons que la distribution de Gauss est
deja une tres bonne approximation de la distribution de 4.
Figure 1.11 : La distribution de la somme 54 des quatre derniers chiffres

dans un numero de telephone
Un autre exemple classique nous montre comment 1'augmentation de // transforme la

distribution de Poisson en une distribution de Gauss4.
4
A cause de la ressemblance formelle entre les distributions gamma et de Poisson, on peut utiliser
exactement la meme approche pour demontrer que, dans la limite a > oo, la distribution gamma
donne une distribution de Gauss. Nous laissons cet exercice au lecteur.
47
Rappelons que, pour la distribution de Poisson (36), la probabilite de trouver n evenernents dans un intervalle donne est egale a
Augmentons la valeur du parametre //. Les nombres d'evenements HQ pour lesquels

les probabilites P^(UQ} sont sensiblement differentes de zero doivent etre proches de la
valeur // ; ainsi nous considerons la limite n 1 pour laquelle nous pouvons utiliser
la formule de Stirling donnant n\
et ecrire la probabilite P^(n) sous la forme
Pour simplifier cette expression dans la limite p,n 1, utilisons une approche
assez connue dite "methode du col". Notre fonction P(j,(n) contient deux facteurs, le
premier, I/A/TI, qui varie lentement avec n et le deuxieme, e~^ n \ qui a une variation
tres rapide avec n du fait de la fonction exponentielle ; ici
On peut voir aisement que la fonction f^(n) possede un seul minimum pour n p, et
qu'elle peut etre developpee en serie de Taylor au voisinage de ce point :
Nous avons utilise ici le fait que / M (//) = 0 et f'n(^) = 0, car n p, est un minimum
de la fonction, et nous n'avons garde que le premier terme non nul. Comme nous
1'avons deja remarque, la probabilite P^(n] ne sera sensiblement differente de zero
qu'au voisinage de n /j,. Au-dela de cette region, elle est tres petite a cause de la
fonction exponentielle decroissante. Au voisinage de ce point, on peut ecrire que
Dans cette expression, nous avons remplace la fonction qui varie lentement avec n par
sa valeur au point n = p. La distribution ainsi obtenue est une distribution de Gauss
avec une moyenne p, et un ecart-type ^/Ji. D'ailleurs, il est tout a fait normal que la
moyenne et la variance restent les memes que pour la distribution de Poisson. Sur
la figure 1.8, nous avons donne quelques exemples de la distribution de Poisson avec
plusieurs valeurs de /j,. Plus la valeur de p est grande, plus la distribution devient
symetrique par rapport au maximum qui est aussi la valeur moyenne.
Nous avons deja vu au paragraphe 1.3.2 que la distribution de Poisson peut etre
obtenue a partir de la distribution binomiale lorsque le nombre de mesures N est
grand et que p est petit, le produit p = Np restant constant. Cela signifie egalement
que, dans le cas d'un grand nombre de mesures, la distribution binomiale tend vers
48
la distribution de Gauss. Cependant, il faut interpreter ces limites avec precaution.

On ne peut pas dire que la distribution de Gauss est un cas particulier de celle de
Poisson lorsque fj, > oo. La distribution de Gauss generale est caracterisee par deux
parametres independants : la valeur moyenne et 1'ecart-type. La distribution de Gauss
obtenue de la distribution de Poisson dans la limite // oo ne depend que d'un seul
pararnetre.
Sur la figure 1.12, nous recapitulons les relations entre ces trois distributions.
Un autre exemple d'une distribution qui tend vers la distribution de Gauss quand le
nombre de mesures augmente sera donne plus loin lorsque nous etudierons la distribution de Student (en 4.3).
Pour 1'instant, considerons un exemple physique instructif issu d'une experience reelle
ou nous verrons le fonctionnement du theoreme central limite dans sa deuxieme formulation ainsi que ses conditions de validite. II s'agit d'une experience recente faite
au CERN sur un enorme anneau d'accelerateur de particules dont le perimetre est
de 27 kilometres. Pour etudier les proprietes fondamentales des particules elementaires, les experimentateurs du CERN ont eu besoin de determiner avec une tres
grande precision 1'energie des particules qui tournent dans 1'anneau de Paccelerateur.
En augmentant la precision de leurs mesures, les physiciens ont decouvert a un certain stade un phenomene tres etrange : 1'energie du faisceau variait selon les heures
de la journee. On a du consacrer beaucoup de temps et d'efforts, rejeter beaucoup
d'hypotheses avant d'arriver a comprendre et a demontrer que 1'origine de ce comportement bizarre se trouvait dans le mouvement de la Lune autour de la Terre. Get
effet gravitationnel est clairernent visible sur 1'ocean : c'est le phenomene des marees.
Cependant, cet effet existe aussi pour la croute terrestre et donne lieu a des deplacements d'environ trente centimetres chaque jour. Cette variation minime cumulee sur
toute la longueur de 1'accelerateur modifie sa circonference de 1 mm et change ainsi
1'energie des particules.
Ce cas, assez curieux, donne a la fois un exemple d'erreur systematique liee a la negligence d'un phenomene physique et donne une belle illustration du "mecanisme" du
theoreme central limite (la necessite d'avoir plusieurs petits facteurs). II y a beaucoup
de facteurs qui peuvent influencer 1'energie des particules dans un accelerateur : les
variations du champ magnetique terrestre, les changements de pression barometrique,
le mouvement de la Lune, etc. Chacun de ces facteurs parait etre peu important. Si
c'est le cas, et si 1'on ne recherche pas une trop grande precision, les conditions du
theoreme central limite sont satisfaites et la distribution d'une valeur physique reste
gaussienne. Des qu'on veut augmenter la precision d'une experience, les facteurs
qui auparavant etaient supposes negligeables deviennent importants et se manifestent
sous forme d'erreurs systematiques.
Soulignons les conclusions a retenir. D'abord, pour la plupart des experiences physiques faites au laboratoire, 1'hypothese selon laquelle la distribution d'une grandeur
physique est une distribution de Gauss constitue une tres bonne hypothese de depart.
C'est le theoreme central limite qui nous le garantit. De plus, si jamais on a le moindre
doute sur la forme de la distribution, ce meme theoreme nous indique comment on
peut contourner le probleme : il faut faire plusieurs mesures et travailler sur la valeur
moyenne qui est forcement decrite par la distribution normale.
49
Figure 1.12 : Les relations entre les distributions binomiale, de Poisson et de Gauss
Neanmoins, il ne faut pas oublier "le point faible" de ce theoreme : comme c'est un
theoreme limite, le nombre de mesures doit etre grand, et done 1'experience peut
devenir chere. Pour controler la deviation a la loi gaussienne et savoir combien de
mesures sont necessaires, une analyse plus approfondie est indispensable : elle est
1'objet des paragraphes suivants.
Cette page est laisse intentionnellement en blanc.
CHAPITRE 2
FONCTIONS D'UNE VARIABLE ALEATOIRE
On peut formuler un probleme assez general et tres important pour les applications
physiques. Supposons que soit connue la fonction de distribution de probability f(x)
d'une variable aleatoire x (en particulier, la moyenne de cette distribution
sa variance
Quelle est alors la fonction de distribution de probabilite
g(y) d'une variable aleatoire y (en particulier, p,y et <jy) lorsque la relation entre y et
x est donnee par une fonction connue y = y(x) ? C'est, en statistique, le phenomene
de la propagation des erreurs.
2.1
PROPAGATION DES ERREURS
Au chapitre precedent, nous avons vu que la valeur moyenne et la variance sont les
caracteristiques majeures d'une distribution de probabilites. Elles peuvent meme
etre suffisantes pour decrire toute la distribution et Ton les interprete alors comme
valeur de la grandeur et son incertitude (erreur). Ceci est vrai, en particulier, dans
le cas de la distribution de Gauss qui est la plus frequemment rencontree dans les
experiences. C'est pourquoi nous aliens trouver d'abord la relation entre les moyennes
et les variances de x et de y y(x). La relation entre les variances porte le nom de
la formule de propagation des erreurs.
2.1.1
FORMULE DE PROPAGATION DES ERREURS
Commengons simplement par chercher la relation entre px et cr^, d'une part et p,y
et <7y, d'autre part. Nous nous limitons, pour 1'instant, au cas d'une seule variable
y = y(x).
Developpons cette fonction en serie de Taylor au voisinage de x p,x :
52
La valeur moyenne de y est egale a
L'approximation standard consiste a negliger dans cette expression tons les termes
sauf le premier :
C'est un resultat qui pourrait sembler evident mais cette expression est approximative.
Elle n'est exacte que si la fonction y(x] est lineaire.
D'une fagon tout a fait analogue, nous pouvons calculer la variance de y :
A partir du developpement en serie de Taylor (48) nous avons :
Pour conserver la coherence de nos expressions, gardens uniquement le terme lineaire.

Alors,
soit
II s'agit encore d'une expression approchee qui ne prend une valeur exacte que si la
fonction est lineaire. Nous reviendrons sur la precision de cette approximation a la
fin du chapitre.
Nous pouvons generaliser les resultats (49) et (50) au cas de plusieurs variables. Soit
une fonction de n variables. Pour abreger, utilisons des notations "vectorielles" :
ici
Developpons la fonction en serie de Taylor au voisinage de x = jl. Au
premier ordre, on obtient :
Cette expression donne pour la valeur moyenne
II FONCTIONS D'UNE VARIABLE ALEATOIRE
53
et pour la variance :
Supposons que les variables xi soient independantes (nous verrons dans ce chapitre le
cas plus general sans cette hypothese supplementaire). Alors
Finalement, pour 1'ecart-type <r y , on obtient :
Nous avons ainsi resolu le probleme pose au debut du paragraphe. L'expression (54)
permet de calculer 1'ecart-type ay de y si les ecarts <7Z- de Xi sont connus.
Reecrivons cette derniere formule en remplagant 1 ax et ay par Aa? et Ay :
Ici, toutes les derivees sont calculees pour x\ Hi, x-2 = jJ>2, , xn Hn, c'est-a-dire
que tous les x^ doivent etre remplaces par leurs valeurs moyennes fa.
Soulignons encore une fois que pour obtenir cette expression nous avons utilise deux
hypotheses importantes : la premiere est 1'independance des grandeurs a?,-, la deuxieme
est que, dans le developpement en serie de Taylor de y, nous nous limitons seulement
aux deux premiers termes.
2.1.2
EXEMPLES DE PROPAGATION DES ERREURS
Les exemples les plus simples et les plus frequents concernent la somme et le produit
(ou le rapport) de deux valeurs physiques. Pour la somme de deux valeurs x\ et x-i
['expression (55) s'ecrit
car les deux derivees sont
Rappelons que, dans ce livre, nous conservons les "anciennes" notations A:r au lieu de ux.
54
Pour le produit de deux variables
les derivees sont
et la formule (55) donne
Dans cette expression ainsi que dans les expressions suivantes nous ecrivons x\ et x%
a la place de /î et ^. Ce choix est volontaire car experimentalement il est possible
de determiner mXl et mX2 et non //i et ^2- Pour ne pas introduire chaque fois de
nouvelles notations, gardens partout x\ et x- qui ne representent pas des fonctions
mais des valeurs experimentales.
D'une fagon analogue, pour le rapport
nous obtenons
Les deux dernieres expressions de Ay peuvent etre reunies sous une forme plus commode si Ton passe a 1'incertitude relative Ay/y :
Cette formule se generalise facilement au cas du produit et du rapport d'un nombre

arbitraire de n variables :
Les formulas (56) et (58) ont une structure similaire : la racine carree d'une somme
de carres. Pour des estimations rapides et simplifiees, on applique les majorations
suivantes :
et
55
(on "deduit" parfois cette formule en calculant la derivee de log y). Cependant 1'utilisation de ces majorations n'est justifiee que si Ton veut une evaluation grossiere de
Pincertitude. La difference entre la vraie valeur de 1'incertitude (58) et sa majoration
(60) peut etre importante. Par exemple, si 1'on suppose des incertitudes relatives sur
Xi de 5%, la formule exacte donne une incertitude Ay/y = 7%, tandis que sa majoration conduit a une valeur beaucoup plus grande : 10% ! Plus les variables sont nombreuses, plus la difference est grande. Ceci s'explique simplement car 1'augmentation
de 1'incertitude en fonction du nombre n des variables est en ^Jn dans 1'expression
(58') et en n dans la majoration du type (60).
L'expression (55) ou les cas particuliers (56) et (58) donnent une idee sur la fac,on de
diminuer 1'incertitude : il faut toujours se battre contre la plus grande incertitude.
Si une des incertitudes est seulement trois fois plus petite que les autres, on peut
pratiquement la negliger. Cette approximation donne une erreur supplementaire de
10% dans les calculs d'incertitude (c'est une erreur de deuxieme ordre).
Le meilleur choix des conditions experimentales (des appareils et des methodes de
mesure) consiste a avoir si possible les memes contributions de toutes les variables
differentes dans 1'expression (55), ce qui minimise cette incertitude.
Parfois, nous rencontrons des fonctions plus compliquees. Prenons un exemple :
Nous pouvons appliquer la formule (55) directement. Pour le faire nous calculons les
derivees :
et obtenons 1'expression suivante de 1'incertitude sur y :
Le probleme est que, pour des fonctions compliquees, nous obtenons toujours un
resultat "complique" et qu'ainsi la probabilite d'avoir une erreur arithmetique lors de
la derivation ou lors des applications numeriques est tres grande.
II est preferable de proceder autrement : on decompose la fonction initiale en fonctions
elementaires et on fait les operations successivement. Dans 1'exemple precedent :
Pour chaque formule, on obtient aisement les incertitudes :
La probabilite d'erreur dans cette approche est beaucoup plus faible.
56
II existe un autre avantage a cette procedure, celle de permettre d'analyser facilement

le role et la contribution de chaque variable #,-. Soient
Nous voulons calculer 1'incertitude de y a 10% pres. Nous voyons que Ax2/x% est
beaucoup plus grande que A3/3. Ainsi, 1'expression de Az2 peut etre simplifiee
par
Nous notons aussi que Az% ~ 1 est beaucoup plus grande que Axi = 0,1 et ainsi,
pour Azi, nous obtenons 1'expression
Finalement, 1'incertitude sur y est egale a
une expression beaucoup plus simple que (61). Le resultat est y = 2, 5 0, 2.

II faut souligner que 1'exemple precedent n'est pas artificiel. La raison de ce phenomene
un peu etrange est liee au fait qu'il est difficile d'effectuer une experience ou toutes
les sources d'incertitudes ont la meme importance : il existe une ou deux incertitudes
dominantes. II faut en profiter car le gain de temps dans le calcul de 1'incertitude
peut etre assez grand, surtout pour des mesures repetitives. De plus, cette analyse
par etapes est utile pour elucider les veritables sources d'incertitudes et ainsi prevoir
des possibilites d'amelioration de 1'experience.
Notons une fois de plus que notre expression (55) n'est pas une formule exacte. Dans
sa demonstration, nous avons suppose que le developpement en serie de Taylor peut
etre limite a la derivee premiere. Autrement dit, nous remplagons lafonction y = y(x)
par la fonction lineaire :
Cette hypothese signifie que la forme de la distribution reste inchangee : si x, par

exemple, est distribute selon une loi normale, y est aussi distribute selon une loi
normale.
II existe des situations ou la derivee y'(^) s'annule et cette approche n'est plus valable.
Un exemple est donne par la fonction y = x2 avec // = 0. La distribution de Gauss
est remplacee par la distribution ^2 (voir paragraphe 3.1.3).
II existe des situations moins "dramatiques" ou la derivee est non nulle mais ou il faut
tenir compte des derivees superieures. Par exemple pour la fonction y = cotg x et
57
C'est la raison
assez differente de
pour laquelle, pour les fonctions "rapides", 1'ecriture yexp i Ay est remplacee par
:)| et At/2 = \y(x Aar) y(x}\. Dans notre cas,
La valeur de y ne suit plus une distribution de Gauss, cependant, la probabilite que la

vraie valeur de y se trouve dans Pintervalle [yexp Ayi, yexp + A 3/2] reste "gaussienne",
a peu pres 68%. Nous reviendrons sur cet aspect du probleme, a la fin du chapitre,
lors de la discussion sur les intervalles de confiance.
Ce phenomene peut apparaitre meme pour un monorne y = xn lorsque x n'est pas
tres grand par rapport a Ax. C'est pourquoi il faut toujours se souvenir que notre
approche approximative n'est correcte que si les incertitudes restent petites.
2.1.3
CAS DES VARIABLES CORRELEES
Cherchons a generaliser la formule de propagation des erreurs (54) au cas de plus de deux
variables correlees. Nous considerons le passage de n variables {xj} a n variables {yi}
liees entre elles par des relations generates :
Nous voulons trouver la relation entre les matrices de covariance de x et de y. De maniere

analogue a (23), on defmit la matrice de covariance par :
De meme, D(y) = cov(y, y). Nous utilisons la lettre D pour cette matrice dans le but de
souligner sa relation avec la variance (24).
Conformement au (51), nous avons :
en accord avec (52).
58
Un element cov(yi,yj) de la matrice de covariance D(y) s'ecrit
lei, pour les valeurs moyennes apparaissant dans (63), nous avons des expressions plus
compliquees que (53) :
L'expression (assez volumineuse) de la matrice de covariance D(y] peut etre ecrite sous
une forme beaucoup plus compacte si Ton introduit la matrice du Jacobien de la transformation (62) :
Toutes les derivees sont calculees au point x = jl. A I'aide de cette matrice ('expression
(63) s'ecrit :
la matrice J^ etant la matrice transposee de J.

Dans notre exemple illustratif du paragraphe 1.1.5, nous avons choisi une transformation
lineaire Solent xi et x? deux grandeurs physiques independantes avec la meme moyenne
/j et la meme variance d1. Introduisons deux grandeurs y\ et y^ qui leur sont liees par
une relation lineaire :
la matrice de covariance de x est diagonale :
la matrice du Jacobien s'ecrit comme
II - FONCTIONS D'UNE VARIABLE ALEATOIRE
59
et ainsi la matrice de covariance D(y] est donnee par :
Comme illustration de la formule de propagation des erreurs dans le cas des variables
correllees, considerons un exemple dans lequel nous voulons determiner la valeur d'une
resistance R ainsi que la puissance P degagee par cette resistance. Si nous connaissons le
courant / qui traverse la resistance et la tension U aux bornes de celle-ci, nous trouvons
immediatement
Les incertitudes relatives sur R et P sont selon (58)
et
Nous aurions pu choisir une autre approche. En ayant calcule la valeur de la resistance
R U/1, nous pouvons determiner P a partir de la formule
P = RI2.
Cette relation, compte tenu de (66), nous donnerait
en contradiction evidente avec (67). Ou se trouve I'erreur dans notre raisonnement ?

Pour obtenir I'expression (55) nous avons utilise I'independance des variables, lei, cette
hypothese n'est pas satisfaite car R et / ne peuvent pas etre consideres comme variables
independantes. Done, la relation (68) n'est pas correcte.
Pour montrer formellement la correlation entre R et P nous utilisons la procedure decrite
au debut du paragraphe et nous calculons le Jacobien (64) de passage des variables U,I.
aux variables P, R :
60
La matrice de covariance (65) D(P, R) prend la forme
Comme il se doit nous retrouvons sur la diagonale les expressions des incertitudes
qui peuvent etre reecrites sous les formes (67) et (66) respectivement, alors que les
elements non diagonaux nous donnent la covariance de R et P
II est interessant de remarquer que la correlation entre P et R est nulle lorsque les
contributions a I'incertitude AP et A/?, de la tension et du courant sont identiques
II s'agit d'un argument supplementaire pour effectuer les mesures en faisant en sorte que
toutes les contributions des differentes sources d'incertitude soient a peu pres les memes.
Pour retrouver I'expression correcte de AP, a partir de P = R,P, compte tenu de la
correlation entre R et /, calculons d'abord cov(Pt, /). D'apres (63), nous avons :
En vertu de I'independance de deux variables / et U
Done,
L'incertitude sur P s'ecrit alors :
En utilisant les expressions des derivees
61
et la formule (69), nous obtenons
en accord avec les expressions (66) et (67).
2.2
DISTRIBUTION DE PROBABILITE D'UNE FONCTION

DE VARIABLE ALEATOIRE
Nous pouvons maintenant resoudre un probleme plus complexe et trouver la fonction de

distribution de la variable y = y(x] qui est une fonction d'une variable aleatoire x.
2.2.1
FONCTION BIUNIVOQUE
>us supposons, tout d'abord, que cette fonction y = y(x] est biunivoque, c'est-a-dire
Nous
qu 'a une valeur de x correspond une seule valeur de y et inversement. Nous presentons
sur la figure 2.1 un exemple de fonction de ce type.
Figure 2.1 : Une fonction biunivoque y = y(x)
Nous savons que la probabilite de trouver la valeur de x dans I'intervalle compris entre x
et x + dx est egale a :
62
Nous cherchons la fonction g(y) qui nous donne la meme probabilite de trouver la valeur
de y dans I'intervalle compels entre y et y + dy :
II suffit de reecrire (70) en remplacant x par y. Pour cela nous devons, d'abord, introduire
la fonction inverse :
Ceci est possible car notre fonction y(x) est biunivoque. On a alors
II nous reste a remplacer dx par dy comme nous le faisons dans les changements de
variables d'integration. La seule difference reside dans le fait que la densite de probabilite
ne peut jamais etre negative. C'est pourquoi nous defmissons
si la derivee dx(y)/dy
est positive, et
si la derivee dx(y]/dy est negative. Les deux dernieres expressions peuvent etre reunies
sous une forme compacte :
Les formules (72) et (73) nous donnent
La comparaison avec (71) nous permet d'obtenir le resultat final :
2.2.2
CAS GENERAL
Si la fonction y = y(x] n'est pas biunivoque (figure 2.2), la tache devient un peu plus
compliquee. II faut d'abord introduire toutes les branches univoques pour la fonction
inverse : x\ x\(y\x-2 x^y],... ,Xk = Xk(y), puis faire la somme sur toutes ces
branches (la probabilite de trouver y dans I'intervalle entre y et y + dy est egale a la
somme de toutes les probabilites d'apparition de x entre Xi et Xi -f dxi].
63
Figure 2.2 : Une fonction non biunivoque y y(%)
Ainsi la generalisation de I'expression (74) s'ecrit
Prenons I'exemple y(x) = x2, avec une fonction de distribution de probabilite de x egale
a f(x). La fonction y(x) = x2 n'est pas biunivoque car pour deux valeurs de x differentes
on peut avoir la meme valeur de y : y(x) x2 ( x } 2 . II existe done deux branches de
la fonction inverse :
Leurs derivees sont :
Ainsi la densite de probabilite g(y] est donnee par
soit
64
Les formules obtenues sont valables dans le cas d'une fonction d'une variable y = y(x).
On peut les facilement generaliser au cas ou nous voulons passer de n variables independantes x\, x^, .. , xn = x a n variables independantes j/i, y 2 , > 2/n = y a I'aide
d'une transformation y,- = y(a?i, 2, 5 #n) = yi(x). Alors la densite de probabilite /(xi, # 2 , . . - , xn) = f(x) (voir (18)) se transforme en une densite de probabilite </(yi, 7/2, ,yn) = d(y) a I'aide d'une relation qui est la generalisation de (74)
etablie dans le cas d'une seule variable. II faut introduire la transformation inverse
Xi = Xi(yi,y2j ... ,yn) = X i ( y ) . La densite de probabilite g(y) est
ou |5(a?i, x < 2 , . . . , xn)/d(yi, y % , . . . , yn}\ est la valeur absolue du Jacobien de cette transformation. Cette formule est analogue a celle utilisee pour un changement de variables
d'integration. La seule difference est la presence du module deja discutee prcedemment.
Pour les fonctions qui ne sont pas biunivoques, il faudra faire la somme sur tous les
branches comme on I'a fait pour une fonction y y(x).
2.2.3
EXEMPLE PHYSIQUE
Pour montrer 1'importance de ce type de problemes, non seulement pour la statistique

mais egalement pour la physique en general prenons un exemple illustratif. II s'agit
d'une collision elastique entre deux corps (deux particules) de meme masse m. D'apres
les principes bien connus de la mecanique, nous savons que le mouvement des deux
corps est la resultante du mouvement du centre de masse et du mouvement relatif
par rapport a ce centre. Habituellement, on introduit un systeme des coordonnees
correspondant au centre de masse car c'est dans ce referentiel que la description
theorique de 1'interaction entre les deux corps est la plus simple. Cependant, 1'etude
experimentale se fait dans le systeme dit du laboratoire, c'est-a-dire dans le systeme
ou, avant la collision, un des corps etait au repos. Supposons que nous connaissions les
caracteristiques de 1'interaction dans le systeme du centre de masse avec, par exemple,
une distribution angulaire isotrope des particules apres la collision. Qu'observonsnous experimentalement, autrement dit, quelle sera la distribution angulaire dans le
systeme du laboratoire ?
Avant de chercher la relation entre les deux fonctions de distribution angulaires, rappelons la relation entre les angles de diffusion dans le systeme du laboratoire (figure 2.3 a) et dans le systeme du centre de masse (figure 2.3 b).
Avant la collision dans le referentiel du laboratoire, un corps se deplace avec une vitesse
VQ et le deuxieme est fixe. Apres la collision, les deux particules out des vitesses V\
et V<2 qui font les angles 9\ et 9-2 avec le vecteur VQ. La collision est elastique, c'est-adire que la structure interne des particules reste intacte et que 1'energie cinetique est
conservee. Ainsi les lois de conservation de 1'energie et de I'impulsion
65
Figure 2.3 : Les vitesses et les angles dans le systeme du laboratoire (a)
et dans le systeme du centre de masse (b)
nous montrent que V\ et Vz sont perpendiculaires :
La vitesse du centre de masse est egale a
Dans le systeme du centre de masse (figure 2.3 b), les particules ont les vitesses v{ et
V2 de modules egaux mais de directions opposees :
Apres la collision, les modules des vitesses restent inchanges en vertu de 1'elasticite
de la collision :
et la collision donne lieu "simplement" a une rotation d'un angle x Qui egt 1'angle de
diffusion dans le systeme du centre de masse. Dans le systeme du laboratoire apres
la collision, les vitesses sont egales a :
Si Ton represente graphiquement (figure 2.4), par exemple, la premiere relation, on

voit toute de suite que
66
Figure 2.4 : Relation entre les angles dans le systeme du laboratoire

et dans le systeme du centre de masse
Deux relations lient les angles polaires de diffusion dans les deux systemes. L'angle
azimutal, bien evidemment, reste invariant et nous le designerons par <p.
Par ailleurs, I'angle solide dans le systeme du centre de masse d$lcm = siuxdxdtp et
lie a Tangle solide dans le systeme de laboratoire dliab = sinOidOidp par la relation
Comme nous 1'avons dit, dans le systeme du centre de masse la distribution angulaire
est isotrope. Cela signifie que la probabilite dP que la particule 1 parte dans un angle
solide dQcm divisee par dlcm ne depend pas de Tangle :
La valeur de cette constante est egale a 1/47T car la probabilite est normee a 1. Vu la
relation entre les angles solides (79), nous pouvons reecrire / C m(X; V7) sus la forme
Ainsi nous avons la distribution angulaire dans le systeme du laboratoire qui d'apres
(78) s'ecrit :
Les deux fonctions de distribution sont representees sur la figure 2.5.

La conclusion physique est tres simple : une distribution angulaire isotrope dans le
systeme du centre de masse se manifestera experimentalement par une distribution
anisotrope dans le systeme du laboratoire. De plus, on peut economiser du temps en
restreignant les mesures a 9\ < 7T/2.
Du point de vue mathematique, nous avons vu que le changement des variables angulaires implique une modification de la forme de la distribution (la fonction constante
a ete remplacee par une fonction lineaire).
67
Figure 2.5: Les distributions angulaires dans le systeme du cnetre de masse (s)
et dans le systeme du laboratorie(b)
2.2.4
PRECISION DE LA FORMULE
DE PROPAGATION DES ERREURS
Nous avons deja souligne que la formule de propagation des erreurs, largement utilisee
dans le traitement des resultats experimentaux, est une formule approchee (sauf dans
le cas presque trivial d'une fonction lineaire). Cette approximation est parfois assez
grossiere puisque pour obtenir la formule de propagation des erreurs nous avons utilise
la relation (49) : y(x) ~ y(~x), alors que toute la statistique est basee, par la definition
de la variance, sur 1'importance de la difference entre y x2 et y ~ ~x2.
Dans certains cas, nous pouvons obtenir 1'expression exacte de la variance a^ sans
utiliser la formule de propagation des erreurs. Considerons Pexemple tres simple d'une
fonction produit de deux variables independantes :
Cette fonction peut etre mise sous la forme equivalente :
c'est-a-dire sous la forme d'un developpement en serie de Taylor au voisinage du point

xi = //!, x-2 ~ fJ.2- L'expression (80) contient un nombre fini de termes : une constante
Ui 2 ; les contributions avec les derivees premieres
et un seul terme avec les derivees secondes puisque
Compte tenu de 1'independance de x\ et #2, nous pouvons calculer exactement la

variance de y :
68
La formula de propagation des erreurs (57)
est obtenue en negligeant le dernier terme dans le developpement (80). Ainsi cette
formule conduit a une erreur supplemental dans le calcul de (Ay) 2 = a^ egale a
2 9
On pourrait penser qu'il est facile d'ameliorer la formule de propadgation des erreurs
en poussant plus loin le developpement de la fonction en serie de Taylor. Cette
proposition apparait dans certains livres sur 1'analyse des donnees. Techniquement,
c'est un exercice simple, bien qu'il soit assez penible (il faut faire tres attention et
garder correctement tous les termes de meme ordre dans le developpement et dans
les calculs intermediares). Cependent des problemes majeurs apparaissent dans cette
voie.
Considerons 1'exemple simple d'une fonction d'une seule variable y y(x). Comme
pour la formule de propagation des erreurs, developpons cette fonction en serie de
Taylor au voisinage de x px = ~x :
Nous conservons volontairement le terme du troisieme ordre car il donnera en fait une
contribution a la variance du meme ordre que le terme du seconde ordre. La valeur
moyenne de y prend alors la forme
ou apparait le troisieme moment de la distribution pxs = (x x)3 introduit en (12),

qui caracterise I'asymetrie de la distribution de x. Ainsi, pour la variance, nous
obtenons
ou est en outre introduit le quatrieme moment ^4 = (x x}4.

Le probleme est resolu formellement mais le prix a payer est 1'introduction de moments centraux d'ordres superieurs non utilises jusqu'a present et dont la determination experimentale peut s'averer delicate. Pour obtenir une expression plus precise
de la variance, on a sacrifie la simplicite de la description des grandeurs physiques.
Rappelons, que dans la plupart des situations, nous travaillons avec des distributions
gaussiennes. La prise en compte du terme lineaire dans la formule de propagation
des erreurs nous garantit la conservation du langage utilise (la variable y est aussi
decrite par la distribution normale). II est vrai que, si x est decrite par une distribution gaussienne, nous pouvons exprimer tous les moments d'ordres superieurs a
1'aide de la variance (voir (27)), mais le probleme vient du fait que la variable y n'est
plus gaussienne (on peut verifier que la distribution de y est asymetrique : ny3 7^ 0).
Quand la distribution de y est gaussienne, un ecart-type <jy a une interpretation precise. Dans le cas contraire il peut la perdre. La question qui se pose est de savoir s'il
69
est Pinteressant d'obtenir une expression plus precise de 1'incertitude d'une grandeur
physique si Ton ne peut plus 1'interpreter avec precision.
Pour mieux comprendre, etudions sur un exemple le "passage" d'une distribution
gaussienne a une distribution plus complexe. Soient x et X2 deux variables gaussiennes. Quelle est la distribution de leur rapport
Appliquons 1'approche generale presentee dans le paragraphe 2.2.2. II faut passer des
variables x\ et x^ aux variables y et z = #2 (cette derniere joue le role d'une variable
auxiliaire) et integrer sur z.
Pour simplifier les relations, supposons que les valeurs moyennes //, sont positives et que
les incertitudes sont faibles par rapport aux valeurs moyennes (<rz- <C fJ-i)- Cela signifie
que la distribution cherchee reste proche d'une distribution gaussienne. Si /(#i) et /(x^)
sont les fonctions de distribution des variables x\ et x-z
selon (77), la fonction de distribution g(y) de la variable y prend la forme
Le Jacobien de la transformation x\ yz, x% = z est egal a
Ainsi I'integrale g(y) prend la forme
Cette derniere integrale peut etre calculee si Ton utilise la valeur de I'integrale auxiliaire2
L'astuce pour calculer J(A, B) est classique : il faut utiliser la methode de derivation par rapport
au parametre B :
La derniere integrale se remene a I'integrale connue (25) par le changement lineaire de variable
y = VAz - B/2VA.
70
on trouve finalement apres quelques calculs

laborieux mais sans difficulte majeure
Dans cette expression
La fonction (81) s'ecrit sous une forme qui ressemble beaucoup (surtout si Ton fait
1'approximation supplementaire AQ(y)/A 2 (y) w 1) a la distribution de Gauss, mais
sa largeur depend de y.
Un exemple d'une telle distribution est trace sur la figure 2.6 (pour /î///2 1,
Figure 2.6 : La fonction de distribution g ( y ) de y = x\jx2 (ligne continue) comparee

a une fonction gaussienne (ligne pointillee).
On constate que, lorsque les incertitudes relatives sont faibles (<TJ <C Hi), la fonction
de distribution g(y) est tres proche d'une gaussienne : c'est une fonction qui est tres
piquee au voisinage de y = yo = pi/Hz (on peut done garder la dependance rapide de
y dans la fonction exponentielle, mais remplacer partout ailleurs y par yo) avec une
largeur ay dont le carre est egal a
71
Done, en premiere approximation, on retrouve une distribution gaussienne avec une

moyenne yo = ^1/^2 et une incertitude ay en parfait accord avec la formule de
propagation des erreurs (55).
Si Ton veut ne pas se limiter a de cette approximation, on peut remarquer que la
fonction g(y] n'est pas tout a fait symetrique par rapport a y = yo et aucune gaussienne, meme avec une largeur calculee a partir de la formule de propagation des
erreurs amelioree, ne peut decrire correctement cette distribution. Ce fait est illustre
sur la figure 2.6 ou la fonction de distribution (81) est comparee avec une fonction
gaussienne pour laquelle la moyenne y sup et la variance <rû sont calculees a 1'ordre
superieur du developpement en serie de Taylor3
Notons que ces valeurs sont tres proches de la moyenne /jy et de la variance cr^ calculees
avec la fonction de distribution (81) :
Neanmoins, la difference entre ces deux fonctions est evidente.

On remarquera que la nouvelle fonction (81) depend de trois variable yo = ^1/^2,
<TI//-II et o~2/H2i tandis qu'une gaussienne ne depend que de deux variables. En
principe, des mesures precises de la fonction de distribution g(y) peuvent permettre
d'avoir non seulement des informations sur la variable y mais aussi sur x\ et x< (une
des quatre caracteristiques des distributions initiales //i, <TI, jj.2, &2 restera toujours
inconnue mais on pourra avoir les rapports entre elle et les autres).
En conclusion de ce paragraphe, on constate que "Pamelioration" de la formule de
propagation des erreurs, grace a 1'augmentation du nombre de termes dans le developpement en serie de Taylor, ne represente aucune dimculte. Mais cela n'a pas beaucoup
d'interet puisque 1'interpretation du resultat obtenu en termes de probabilites reste
assez limite.
2.3
NlVEAU DE CONFIANCE ET
INTERVALLE DE CONFIANCE
Nous avons deja etudie des distributions tres differentes : symetriques et asymetriques ;
definies sur un intervalle fini, demi-infini et infini ; determinees par un ou plusieurs
parametres. Si nous conservons la meme approche, la description des donnees experimentales devient assez lourde (pour chaque grandeur physique on est oblige d'indiquer
la loi de probabilite et ses parametres). Sans doute, une telle approche est indispensable pour rester precis dans la description des donnees (sans approximer les distributions de toutes les grandeurs par une loi gaussienne). Cependant, il est possible de
3
Nous laissons au lecteur le soin de retrouver ces expressions.
72
proposer une autre forme de description des donnees experimentales qui permet, au
moins en premiere approximation, d'unifier les resultats de distributions differentes.
La notion unificatrice sera, bien evidemment, celle de probability.
On pent commencer par le cas le plus simple, celui d'une distribution de Gauss. Dans
le paragraphe 1.2, nous avons vu qu'une grandeur decrite par cette loi de probability
est entierement definie par deux valeurs [i et a et que le resultat, ecrit sous la forme
// cr, a une interpretation rigoureuse en termes de probabilites. Autrement dit, si
1'on connait // et a on peut donner la probabilite Pr pour que x prenne une valeur
dans 1'intervalle de x\ = n r<r a #2 H + rcr (quelle que soit la valeur de r] :
Au lieu de caracteriser la variable x par \i, et cr, on peut la decrire par 1'intervalle
[#1,2:2] et par la probabilite Pr de trouver x dans cet intervalle. Cette probabilite
s'appelle le niveau de confiance et 1'intervalle correspondant rintervalle de confiance.
Plus la probabilite est elevee, plus grand est 1'intervalle correspondant (pour que 1'on
soit certain de trouver x dans cet intervalle). Bien sur, pour presenter un resultat, on
peut choisir une valeur quelconque de r (et la valeur de Pr correspondante), mais les
intervalles les plus frequemment utilises sont ceux qui correspondent a un (r = 1) ou
deux (r = 2) ecart-types. Autrement dit, on choisit les niveaux de confiance de 68 %
ou 95 %.
Pour une distribution de Gauss, les relations entre les niveaux de confiance et les
intervalles de confiance correspondants d'une part, et les valeurs de fj, et cr d'autre
part, sont simples. Pour fj, et a donnes et Pr choisie, on calcule facilement 1'intervalle
[a?i, #2] (voir paragraphe 2.1). Et inversement, si 1'on connait [#i, x?] et la probabilite
Pr, on peut retrouver // et a. Si, par exemple, Pr = 95 %, alors r = 2 et on peut
calculer // = $x\ + #2) et <r = \(x-2 x$.
Dans le Tableau 2.1 la probabilite Pr pour que x soit incluse dans 1'intervalle symetrique
[ # i = / / rcr, X? = n + ra] est donnee pour 7 valeurs de r.
Tableau 2.1 : Probabilite Pr (en %) pour que la valeur d'une variable gaussienne x soit dans
1'intervalle [p, ra, p, + ra\ pour diverses valeurs de r
A 1'inverse, connaissant Pr, on peut toujours determiner r et ainsi trouver 1'intervalle

de confiance. Par exemple, a une probabilite Pr = 95,0% correspond r = 1,960, a
Pr = 99, 00% correspond r - 2, 576 et a Pr = 99, 9% correspond r = 3, 290.
73
Les avantages d'une telle presentation sont, d'une part, qu'elle est suffisamment informative (elle nous donne le domaine de variation de la valeur de x et la probabilite de 1'y
trouver) et, d'autre part, qu'elle est aisement generalisable aux autres distributions.
Quelle que soit la distribution /(a?), on peut decrire le resultat observe par le niveau
de confiance Pr et 1'intervalle de confiance [xi, xz]
II est vrai que pour une distribution non gaussienne, la determination de la moyenne
et de la variance a partir de Pr et [xi,X2] peut etre plus complexe que pour une
distribution gaussienne ; mais si Ton dispose d'une information exhaustive (forme de
la distribution et autres parametres necessaires comme, par exemple, le nombre de
mesures effectuees) ce probleme peut etre resolu.
Des exemples d'utilisation des niveaux et des intervalles de confiance seront presentes
lors de la discussion d'utilisation de la distribution de Student (pour un nombre limite
de mesures) ou encore de la distribution %2 (pour 1'ajustement des parametres).
Notons qu'un tel language permet de presenter d'une fagon tres informative un autre
type de resultats experimentaux : les resultats negatifs, c'est-a-dire le fait qu'un
phenomene attendu n'est pas observe. Toute la physique des particules en est une
bonne illustration : pendant tres longtemps on cherche une particule, on ne la trouve
pas, mais on continue jusqu'au jour ou 1'on obtient un resultat positif. On a cherche
ainsi la particule vehiculant 1'interaction forte, proposee par Yukawa, ou du positon
(antiparticule de 1'electron) dont 1'existence avait etc predite par Dirac. Aujourd'hui
recherche le boson de Higgs (selon les modeles actuels, c'est une particule qui serait
responsable de 1'existence de la masse de toutes les autres particules) : les recherches
de cette particule out debute il y a plus de quarante ans mais n'ont toujours pas
abouti.
Quand un resultat negatif est obtenu, on peut quantifier cet echec : on peut dire,
par exemple, que, dans le domaine de variation des parametres ou la recherche a ete
menee, la probabilite de trouver une particule est inferieure a une certaine valeur.
D'habitude, une particule se manifeste par un signal x dans un detecteur. Quand
aucun signal n'est enregistre, on peut considerer que ce signal est inferieur a une
certaine valeur xi, et ce, avec une certaine probabilitee Pr(x < xi).
C'est pour ce type de resultats qu'il est utile d'introduire des niveaux de confiance
dont 1'intervalle est limite d'un seul cote. On a alors affaire a un intervalle unilateral
(contrairement a un intervalle bilateral introduit au depart). La probabilite que x
soit plus petit que x\ est alors egale a
Avec une distribution de Gauss, on peut facilement trouver la valeur de xi (ou de r)

telle que la probabilite d'obtenir x < x\ = // + rcr, soit egale a Pr :
74
Evideminent, pour une meme probabilite Pr, les intervalles unilateraux et bilateraux
ne sont pas les memes. Par contre, si Ton salt calculer les intervalles unilateraux, par
soustraction, on obtient facilement les intervalles bilateraux, et vice versa.
Quelques exemples numeriques sont donnes dans le Tableau 2.2.
Tableau 2.2 : Probabilites Pr (en %) pour que la valeur d'une variable gaussienne x soit
inferieure a /j, + rcr
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
Pr
50,00
69,15
84,13
93,32
97,72
99,38
99,87
99,98
CHAPITRE 3
EXPERIENCES AVEC UN NOMBRE LIMITE
DE MESURES
Ce chapitre presente 1'interet d'expliciter la procedure a adopter dans telle ou telle

situation experimentale. II comprend plusieurs paragraphes consacres a des questions precises qui apparaissent lors du traitement des resultats experimentaux. Nous
essayons de montrer les differents "niveaux" d'un tel traitement, qui vont d'une consideration tres simple pouvant prendre quelques minutes jusqu'a une analyse assez
sophistiquee a laquelle il faut consacrer beaucoup plus de temps. Le choix d'une
analyse depend de la qualite du resultat que nous desirous obtenir, de 1'effort et du
temps que nous sommes prets a y consacrer. II faut souligner qu'en physique comme
dans la vie la methode de traitement des resultats est choisie pour minimiser le rapport qualite/prix. De plus, ayant obtenu un resultat, nous devons nous assurer qu'il
est "raisonnable" et que notre analyse est bien autocoherente. Nous illustrerons ces
etapes du travail et repondrons aux diverses questions precedentes.
3.1
ECHANTILLON, VALEUR MOYENNE

ET ECART-TYPE
En general, lors d'une experience, il est difficile de connaitre la distribution de la

valeur physique mesuree x et ainsi de determiner la valeur moyenne de la distribution
/j, et sa variance <r 2 . La seule information dont nous disposons est un ensemble de
resultats, c'est-a-dire un nombre fini de mesures {xi} ~ xi,X2,%3, . . ,xn. A partir
de ces mesures nous teutons de construire des valeurs qui tiendront lieu de moyenne
fj, et de variance <r 2 .
La solution de ce probleme est construite en deux etapes. D'abord, par analogic avec
les definitions "theoriques", nous introduisons la moyenne et la variance experimentales. Ensuite, nous devrons les interpreter en termes de probabilite. A priori, il est
evident qu'avec un nombre fini de resultats {x^, la moyenne et la variance experimentales ne sont plus suffisantes pour decrire la distribution de la grandeur physique x.
76
Nous aurons done besoin de distributions plus compliquees que celles de Gauss et
nous les presentons dans ce chapitre.
3.1.1
DEFINITIONS ET PROPRIETES
Une experience de physique donne un nombre fini de mesures. Get ensemble de

resultats {xi} s'appelle un echantillon. Comment a partir de ces resultats obtenir des
informations sur la valeur moyenne // et sur la variance cr2 ? La reponse intuitive est
presque evidente, surtout compte tenu du theoreme central limite.
La valeur qui remplace la moyenne /j, peut etre construite simplement comme la
moyenne arithmetique de tous les resultats {x^} :
Nous appellerons cette valeur la moyenne estimee a partir d'un echantillon ou plus
simplement la moyenne experimental pour la distinguer de la vraie moyenne // que
nous appellerons aussi la moyenne theorique.
Cette moyenne experimentale peut etre consideree comme une grandeur physique.
Elle est la somme de n grandeurs independantes car nous supposons que les mesures
{%i} sont independantes. Pour n grandeurs independantes, la fonction de distribution
se factorise en un produit de fonctions de distribution (voir (18)). (Arm d'alleger les
demonstrations nous n'ecrivons pas les integrates multiples pour exprimer les valeurs
moyennes qui sont symbolisees par une barre). Ainsi, la valeur moyenne de m est
egale a
(a comparer avec (19)) et la variance cr2^ a
(voir la demonstration de la formule (17) et comparer avec (20)).

Soulignons le resultat deja etabli lors de la demonstration du theoreme central limite :
1'ecart-type de la valeur moyenne experimentale crm decroit comme l/^/n. De plus,
en vertu de ce theoreme, nous pouvons dire que la distribution de m devient de plus
en plus proche de la distribution normale quand le nombre de mesures n augmente
(pour 1'instant nous n'avons fait aucune hypothese supplementaire sur la forme de la
distribution de x ) .
Le deuxieme probleme est celui de la variance. Par analogic avec la valeur moyenne
on definit la variance experimentale comme
Ill - EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
77
L'apparition de n 1 a la place de n dans le denominateur peut paraitre un peu

surprenante. Mais on peut la justifier meme qualitativement : une seule mesure est
suffisante pour avoir une information concernant la moyenne mais on a besoin d'au
moins deux mesures pour pouvoir apprecier 1'ecart par rapport a la valeur moyenne.
En fait, le veritable argument pour ce choix est la condition d'egalite de la valeur
moyenne de la variance experimentale s2 et de la variance a2.
D'apres notre definition (85), la valeur moyenne de la variance experimentale s2 est
egale a :
Ecrivons le terme sous la somme en utilisant le fait que les valeurs moyennes de Xi et
de ra sont identiques et egales a p :
Le premier terme dans cette expression donne, par definition, cr 2 , le troisieme cr 2 /n,
en vertu de (84). Pour calculer le deuxieme terme explicitons la difference
Alors,
car dans cette somme il n'existe qu'une seule contribution differente de zero pour
k = i. Finalement, nous obtenons la valeur moyenne de la variance :
Ainsi nous avons construit une grandeur s2 qui, dans la limite d'un grand nombre de
mesures, nous donne la vraie variance <r2 de la grandeur physique x. Mais nous avons
deja decide de travailler avec la moyenne m. Nous avons done a definir la variance s^
de cette grandeur (ou Fecart quadratique moyen] a partir des resultats experimentaux
{xi}. Cette definition est evidente :
Lorsque n tend vers 1'infini, cette valeur tend vers zero comme <r2 /n conformement
a (84).
II faut maintenant changer les conventions decrites au paragraphe 1.2. Desormais
un resultat experimental sera caracterise par la valeur moyenne m (82) et par 1'ecart
78
quadratique moyen s^ (88). Soulignons que cet ecart est une caracteristique de m
et represente ainsi 1'incertitude sur cette derniere valeur et non pas sur x. Si Ton
veut determiner la variance de x il faut utiliser la definition (86). Bien evidemment,
les deux valeurs m et sm ne sont plus suffisantes pour presenter toute 1'information
experimentale (les deux definitions contiennent explicitement un troisieme parametre,
le nombre de mesures n). Plus tard nous completerons cette description et nous en
donnerons une interpretation exacte a 1'aide des probabilites, comme cela a deja ete
fait pour la distribution de Gauss.
Par analogic avec les formules (86) et (83), on peut defmir la covariance, le coefficient
de correlation et les moments d'ordre superieur pour un echantillon. Ainsi, par exemple,
la covariance de deux variables x et y est donnee par
ou mx, my et mxy sont les valeurs moyennes de x, de y et du produit xy selon la defmtion

(83). Le coefficient de correlation est alors egal a
ou sx et Sy representent les racines carrees des variances expreimentales de x et de y

defmies dans (86).
Nous aurons egalement besoin des moments centraux m^ pour k > 3, qui peuvent etre
defmis par
3.1.2
PRECISION DE LA VARIANCE EXPERIMENTALE

ET CHIFFRES SIGNIFICATIFS
II faut aller plus loin dans 1'analyse des nouvelles definitions. Pour la valeur moyenne
m, 1'incertitude experimentale est donnee par la racine carree de sa variance, autrement
dit par sm. Mais cette valeur sm etant une valeur determinee a partir des donnees
experimentales, possede sa propre incertitude. Nous devons savoir 1'estimer. Malheureusement, on ne peut pas obtenir un resultat general pour toute distribution ;
c'est pourquoi on fait 1'hypothese supplementaire que la grandeur x est distribute
selon la loi normale.
Le probleme devient facile a resoudre bien que sa demonstration soit assez longue.
La mesure de 1'incertitude est la racine carree de 1'ecart quadratique moyen. Si 1'on
veut calculer 1'erreur de s"L on doit calculer la variance correspondante :
79
Pour calculer s^ ecrivons d'abord s^ sous la forme
peut etre mis sous la forme
Ainsi s^ est donnee par
Prenons le carre de cette expression et calculons la valeur moyenne s^ a un facteur

multiplicatif n2(n I)2 pres. Nous obtenons trois termes. Le premier, est donne par
ou nous avons introduit, en accord avec (12), les moments centraux
pour k = 2 et k 4.
Le deuxieme terme est nul :
car, en vertu de la condition k ^ I dans la deuxieme somme, il contient seulement les

puissances impaires de (xi /u) dont la valeur moyenne est nulle (voir la remarque apres
80
I'equation (26)). Finalement, pour le troisieme terme, nous avons
du fait que les puissances impaires de (a?,- /u) donnent zero ; ainsi, dans ce produit, les
termes non nuls correspondent ai = k,j = louj = k, i = 1. Le resultat final pour s^
est :
Du fait que, d'apres (88),
la variance D(s^) est donnee par
Dans cette expression, on peut utiliser le fait que, pour une distribution normale, //2 = v"2
et /i4 = 3cr4 (voir (27)) :
L'incertitude relative (34) sur la valeur de la variance experimentale est egale a
Une fois de plus nous retrouvons une dependance de la forme \j\fn ; autrement dit.
il est assez difficile d'avoir une tres bonne precision sur les incertitudes dans une
experience : on a besoin de plusieurs dizaines de mesures pour s'approcher de la
precision de 1'ordre de 10%. Nous reviendrons sur la formule (93) dans un paragraphe
special consacre a la precision des incertitudes.
La precision d'une experience Aa? est determinee a partir des donnees experimentales
et possede aussi sa propre incertitude. Sa connaissance est tres importante dans
1'analyse des resultats car elle est liee directement a leurs interpretations en termes
de probabilites. Une erreur d'un facteur 2 dans Ax peut modifier completement les
conclusions.
Dans certaines situations, on peut connaitre de maniere assez exacte la precision sur
1'incertitude Aa?. S'il s'agit d'une incertitude purement statistique nous avons montre
que 1'incertitude relative sur la variance experimentale est d'apres (93)
81
Ax est proportionnel a la racine carree de s^ et ainsi son incertitude relative est

egale a
Soulignons que cette fonction decroit tres lentement avec le nombre de mesures n. Sa
courbe est presentee sur la figure 3.1. Pour 5 6 mesures, 6&x est a peu pres egale a
1/3 et il faut effectuer une cinquantaine de mesures pour avoir une incertitude relative
de 1'ordre de 10%.
Figure 3.1 : L'erreur relative sur 1'incertitude S^^ en fonction du nombre de mesures n
En travaux pratiques, nous obtenons difficilement une precision sur 1'incertitude

superieure a 10%. Nous pouvons le regretter mais il faut s'en contenter en gagnant
du temps de calcul comme nous 1'avons fait au paragraphe precedent.
La precision de 1'incertitude et le nombre de chiffres significatifs qu'il faut garder dans
un resultat final sont directement lies (il vaut mieux conserver un peu plus de chiffres
lors de calculs intermediaries pour eviter les erreurs d'arrondissement). Si la precision
de 1'incertitude est de 1'ordre de 1030%, il faut retenir un ou deux chiffres significatifs
dans 1'incertitude. Le nombre de chiffres dans la valeur x doit etre coherent avec le
nombre de chiffres dans 1'incertitude.
Par exemple, nous avons obtenu un resultat # exp = 1, 37685 10~3 avec une incertitude
Ax = 4,87611 10~5. Dans le resultat final de Ax, il faut retenir un chiffre Ax =
5 10~5 si 6&x est proche de 30% ou deux chiffres Ax = 4, 9 10~5 si S&,x est plutot
proche de 10%. Selon ces deux cas, nous garderons trois ou quatre chiffres pour
exprimer la valeur de xm, soit xm = 1, 38 10~3 ou xm = 1, 377 10~3 respectivement.
82
Le resultat final s'ecrit
3.1.3
DISTRIBUTION x2
Pour etidier les caracteristiques de la variance experimentale (85), trouvons lafonction

de distribution d'une variable aleatoire y liee aux variables aleatoires a?i, # 2 , . . . ,xn
par la fonction
Supposons que les variables xi, x % , . . . ,xn sont distributes selon une loi normale, avec
une moyenne nulle et une variance unite. Pour une seule variable y(x) x2 le resultat
general a deja ete exprime par (76). Pour la distribution de Gauss cette formule s'ecrit
comrne
Autrement dit, g(y] represente une distribution gamma avec a 1/2, /? = 2 et a une
fonction generatrice
Pour la somme des n variables independantes (95) nous pouvons utiliser la propriete (21)
et ecrire la fonction generatrice de Xn '
Cette expression signifie que Xn a une distribution gamma avec a n/2 1 et j3 = 2 :
Ainsi nous avons trouve ce que Ton appelle la distribution de probabilite x2

Sa valeur moyenne est
et sa variance
Quelques exemples de la distribution %2 sont donnes sur la figure 3.2.
Ill EXPERIENCES AVEC UN NOMBRE LIMITE DE MESURES
83
Figure 3.2 : La distribution Xn Pur n 4,8,16
Dans la limite d'un grand nombre de mesures n > oo, la distribution x 2 tend, comme
il se doit, vers celle de Gauss. Nous ne demontrons pas ici ce resultat. Notons
simplement que le changement formel de variable y/2 > /j et n/2 I ) n nous
donne la densite de probabilite pour la distribution de Poisson (36) qui tend vers la
distribution de Gauss lorsque n > oo.
Notons que la ressemblance formelle entre ces deux distributions, deja mentionee lors
de la discussion de la distribution gamma, conduit a des relations utiles. Par exemple,
les intervalles de confiance (voir paragraphe 2.3) pour la distribution de Poisson et
pour la distribution x2 sont lies entre eux :
Pour demontrer cette relation, on fait le changement de variable z = x/2 et on integre

n fois par parties :

Nous sommes passes d'une distribution a n variables a une nouvelle distribution d'une
seule variable. Une question assez naturelle peut etre posee : oil et quand les autres
variables ont-elles disparu ? Pour mieux voir et comprendre la technique de ce "tour
de passe-passe", prenons un exemple bien connu de la physique statistique : un gaz
de particules sans interaction qui se trouve a 1'equilibre thermodynamique a la temperature T. Chaque composante Vi (i x, y, z] de la vitesse des particules du gaz a
une distribution maxwellienne :
ou m est la masse des particules, k la constante de Bolzmann.

Quelle est la loi de distribution de 1'energie des particules ? L'energie est liee a la
vitesse par une relation du type (95) :
La probability de trouver les composantes de la vitesse dans les intervalles compris

entre vx et vx + dvx, vy et vy + dvy, vz et vz + dvz est egale a
Nous ne sommes interesses que par 1'energie des particules et ainsi les directions de
la vitesse n'ont aucune importance. Nous pouvons ecrire 1'element de volume dans
1'espace de vitesses dvxdvydvz sous la forme v dvdQv, ou v est le module de la vitesse
et dlv 1'angle solide dans cet espace. Calculons 1'integrate sur lv, c'est-a-dire la
somme sur toutes les directions possibles. Apres une telle sommation, dvxdvydvz se
transforme en 47rv2dv. Le dernier pas concerne le passage de la vitesse a 1'energie :
v = ^/2E/m et dv = dE/VZmE.
On en deduit la distribution de probabilite en energie. La probabilite de trouver la
particule avec une energie dans 1'intervalle compris entre E et E + dE est egale a :
C'est une distribution gamma avec a = 1/2 et (3 = kT. En posant e = 2E/kT et

g(e}de = g(E)dE, on a
soit une distribution %2 avec n = 3.

Le parametre n dans la distribution de Xn es^ le nombre de degres de liberte. Dans
cet exemple, \2 a trois degres de liberte. Le passage des vitesses a 1'energie fait
"disparaitre" deux degres de liberte (deux variables) lors de 1'integration sur Tangle
solide.
85
Considerons une autre grandeur directenient liee a la variance experimentale (86) :
qui peut etre mise sous la forme
Nous verrons que cette grandeur est egalement distribute selon %2 mais avec n 1
degres de liberte ! II est possible de prevoir ce resultat et meme de le comprendre qualitativement. Certains arguments qualitatifs ont ete developpes au paragraphe 2.1.1,
lors de la discussion du facteur n I dans la definition de la variance experimentale.
II faut aussi noter que les n grandeurs z; = Xi m sont liees par la relation
et qu'ainsi dans la formule (100) nous avons n 1 et non pas n variables independantes.
Le principe d'une demonstration plus rigoureuse est le suivant. Nous voulons passer de
n variables independantes x, x?,. . . , xn = x a n variables independantes yi, y^,. . . ,yn
= y a I'aide d'une transformation yi = y z '(î, x-2, , xn) = Hi(%}- Pour cela, on utilisera
la formule (77) introduite a la fin du paragraphe 2.2.2.
Effectuons une transformation lineaire orthogonale
avec
Une rotation dans I'espace euclidien a n dimensions est un exemple d'une telle transformation. Le Jacobien est alors egal a 1 et, en vertu de (77), la fonction de distribution est
inchangee. La formule (101) nous garantit que la forme de la distribution reste gaussienne :
La condition (101) peut encore s'exprimer a I'aide des coefficients c ? j sous la forme
86
Dans le cas particulier ou
la condition (102) prend la forme
Pour notre fonction w (100), choisissons
et les autres yi avec i > 2 de facon arbitraire. IMeanmoins, les fonctions yi possedent les
proprietes suivantes (rappelons que tous les Xj ont les memes // et cr) :
et
qui ont ete etablies en utilisant I'independance des Xi et la relation (102). Ainsi les
variables t/ sont distributes selon une loi gaussienne avec une moyenne nulle et une
variance a2.
Les expressions (101) et (103) nous permettent de reecrire w sous la forme
Autrement dit, la grandeur w est distribute selon la loi %2 avec n l degres de liberte.
Ainsi nous pouvons utiliser les resultats etablis sur la distribution x2 (9899) et en
deduire immediatement que
resultats que nous avons deja obtenus difTeremment (voir (87) et (93)).
Notons sans demonstration que, dans un cas general, le nombre de degres de liberte
v d'une distribution xl pour la somme de carres du type (104) est egale a
ou / est le nombre de relations lineaires entre |xz-}.
3.2
87
DISTRIBUTION DE STUDENT
Pour pouvoir interpreter les resultats experimentaux en termes de de m (82) et de sm

(88), on a besoin de la fonction de distribution de la variable
ou m et sm sont definies par (82) et (88).

La solution du probleme est relativement simple si nous exprimons cette fonction sous la
forme
La variable y\ a une distribution normale (car tous les x ont la meme distribution normale)
avec la moyenne nulle (83) et la variance unite (84). La variable y^ est distribute selon
Xn-i comme nous venons de le demontrer (104). Ainsi nous connaissons les distributions
de yi et de y? et nous voulons trouver la distribution du rapport t yi/^/y^ en utilisant
les regies connues de transformation des distributions.
La densite de probabilite de y\ et y? est egale a :
avec 7/1 qui varie de oo jusqu'a +00 et y% qui varie de 0 jusqu'a +00.
d'abord cette densite en faisant le changement de variables
Transformons
soit par transformation inverse
Le module du Jacobien de cette transformation est egal a ^fz^ et, conformement a (77),
la nouvelle densite de probabilite h(z\}zi) est
88
Pour obtenir la densite de probabilite f(t] nous integrons h(zi,Z2) par rapport a z-2 et
utilisons la relation f(i) f(zi}\dz\/dt\ :
Le changement de variable
ramene cette integrale a une fonction F.
Figure 3.3 : La distribution de Student pour n = 2 (distribution de Lorentz),

n = 5, et n = oo (distribution de Gauss)
Finalement la distribution f(t] s'ecrit
ou t a n I degres de liberte. Les variables initiates y\ et y^ (soit Xn-i} en on^ 1

et n 1 respectivement. L'integration sur z-i a elimine une variable (un degre de
liberte) : l + (n 1) I = n 1. La constante C dans 1'expression (107) est egale a
89
Pour n donne, les fonctions F dans la formule ci-dessus peuvent etre explicitees a
1'aidede (43) et (44).
Cette fonction (107) est relativement simple. Pour n = 2, on retrouve la distribution
de Lorentz. Pour n > 2, la distribution t de Student represente, grosso modo, une
certaine puissance de cette distribution. Vu la discussion du paragraphe 1.3.3, nous
pouvons tout de suite dire que, pour n donne, seuls les moments p^ avec k < n 1
peuvent etre definis.
On peut aussi calculer facilement la valeur moyenne et la variance de cette distribution
lorsque cette derniere existe :
Dans la limite n > oo, la distribution de Student se transforme en distribution

gaussienne. La demonstration est simple et peut etre realisee par le lecteur interesse.
Plusieurs exemples de la distribution de Student sont presentes sur la figure 3.3.
La figure 3.4 est une version elargie de la figure 1.12 ; elle montre les relations qui
existent entre les differentes distributions. Notons que nous avons regroupe la distribution F (45) et celle de Poisson (36) par suite de la ressemblance formelle de
leurs dependances fonctionnelles. Neanmoins, il ne faut pas oublier que les roles des
variables et des parametres sont inverses dans ces distributions.
Figure 3.4 : Les relations entre les differentes distributions
90
3.2.1
PETIT NOMBRE DE MESURES
Commengons par un exemple concret : nous mesurons n fois la longueur / d'une plaque
metallique et ainsi obtenons des resultats {/i, l^, , ln}- Solent n = 6, /i = 4372 mm,
/ 2 = 4364 mm, /3 = 4342 mm, 14 = 4338 mm, 15 = 4354 mm et /6 = 4330 mm. Quelle
est la longueur de la plaque ?
Ier niveau d'analyse
L'objectif est d'avoir une idee sur 1'ordre de grandeur des parametres du probleme.
II est logique de supposer que la vraie valeur de la longueur se trouve entre la valeur
minimale et la valeur maximale mesurees et que 1'ecart entre ces deux valeurs donne
une estimation de 1'incertitude. Nous prenons comme estimation :
Dans notre cas, lmax = 4372 mm et lmin 4330 mm, ou
Le resultat est simple et rapide. Peut-on lui donner credit ? Pourquoi pas ? Quels
sont les justificatifs mathematiques d'un tel resultat ? Nous ne les avons pas. Nous
avons obtenu une idee de la valeur mesuree et 1'interpretation de la derniere formule
ne peut aller au-dela de ce que nous avons fait : la valeur cherchee est la moyenne
entre les valeurs maximale et minimale mesurees et 1'incertitude est la moitie de 1'ecart
correspondant. II est difficile d'interpreter cette analyse en termes de probabilites.
IP niveau d'analyse
Son but est d'obtenir la valeur de la longueur et de 1'incertitude sur cette valeur et,
en outre, de pouvoir les interpreter en termes de probabilites comme nous 1'avons fait
au debut de ce livre (voir le paragraphe 1.2).
Supposons de plus que la distribution de la longueur / est celle de Gauss. Avec cette
hypothese supplementaire, nous pouvons utiliser la distribution de Student etudiee au
debut du paragraphe 3.2. Nous avons vu que si une grandeur physique est distribute
selon une loi normale, alors la valeur
est decrite par la distribution de Student / n _i(t) (107). Dans cette expression, // est
la vraie valeur de la grandeur mesuree (dans notre cas, la longueur /), m la moyenne
estimee a partir des resultats experimentaux (82)
et s^ la variance experimentale de cette moyenne (88)
91
Soulignons une fois de plus que m et sm sont entierement definis par les resultats
experimentaux. La forme de la distribution de Student est relativement proche de celle
de Gauss (elle est la meme dans la limite n > oo) et ainsi nous aliens vite comprendre
par analogic avec la distribution de Gauss comment nous pouvons 1'utiliser.
En termes de probabilites, la phrase "t a la distribution de Student" signifie que la
probabilite de trouver la vraie valeur /j de / dans 1'intervalle compris entre m smt^p
et m + smivp est egale a :
(comme toujours, c'est 1'aire de la surface sous la courbe de la fonction de distribution ;

voir la figure 3.5). Dans la notation tvp nous avons introduit les deux parametres
dont depend ce coefficient : v = n I qui est le nombre de degres de liberte de
notre probleme et la probabilite P desiree. Cette probability est le niveau de confiance et 1'intervalle correspondant, FintervaUe de confiance qui ont ete definis dans le
paragraphe 2.3.
Nous connaissons la fonction fv(t) pour un nombre de mesures donne, c'est pourquoi
nous pouvons etablir une bijection entre la valeur de t^-p qui nous definit 1'intervalle
et la probabilite P (109). Nous pouvons calculer la probabilite qui nous interesse et
determiner numeriquement la valeur correspondante du coefficient tvp qui s'appelle le
coefficient de Student. Ces resultats numeriques sont representes dans le tableau 3.1.
Us donnent la valeur de t^p a prendre pour que, pour n = v-}-\ mesures, la probabilite
de trouver la vraie valeur dans 1'intervalle compris entre m smtvp et m-\rsmtv-p soit
egale a P.
Figure 3.5 : La distribution de Student pour n = 6
92
Tableau 3.1 : Les coefficients de Student tv-p correspondant a un nombre v de degres de liberte
et a une probabilite T
0,2
0,4
0,5
0,6
0,7
0,8
0,9
0,95
0,99
0,325
0,289
0,277
0,271
0,267
0,265
0,263
0,262
0,261
0,260
0,260
0,259
0,259
0,258
0,258
0,258
0,257
0,257
0,257
0,257
0,256
0,253
0,727
0,617
0,584
0,569
0,559
0,553
0,549
0,546
0,543
0,542
0,540
0,539
0,538
0,537
0,536
0,535
0,534
0,534
0,533
0,533
0,530
0,524
1,000
0,816
0,765
0,741
0,727
0,718
0,711
0,706
0,703
0,700
0,697
0,695
0,694
0,692
0,691
0,690
0,689
0,688
0,688
0,687
0,683
0,674
1,376
1,061
0,978
0,941
0,920
0,906
0,896
0,889
0,883
0,879
0,876
0,873
0,870
0,868
0,866
0,865
0,863
0,862
0,861
0,860
0,854
0,842
1,963
1,386
1,250
1,190
1,156
1,134
1,119
1,108
1,100
1,093
1,088
1,083
1,079
1,076
1,074
1,071
1,069
1,067
1,066
1,064
1,055
1,036
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,311
1,282
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,836
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,699
1,645
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,132
2,120
2,110
2,101
2,093
2,086
2,045
1,960
63,657
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,756
2,576
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
30
oo
En pratique cela signifie que la valeur de 1'incertitude depend du nombre de mesures et

de la probabilite avec laquelle nous voulons connaitre la vraie valeur dans 1'intervalle
indique :
Dans les conditions limites d'un grand nombre de mesures, les coefficients de Student
tv-p coincident avec les valeurs donnees par la distribution de Gauss (voir la derniere
ligne du tableau 3.1). Par exemple, pour une probabilite (un niveau de confiance) de
95%, le coefficient ti/ =0 o;7>=o,95 = 1, 96. Quand le nombre de mesures n'est pas eleve,
par exemple n 3, pour la meme probabilite il faut prendre Al beaucoup plus grand
t/=2;7>=0,95 = 4, 3.
Desormais, pour un nombre fini n de mesures, notre resultat s'exprimera sous la forme
dont 1'interpretation est un peu plus compliquee que dans le cas de la distribution
de Gauss : nous sommes obliges de donner le nombre de mesures effectuees et la
probabilite choisie pour pouvoir utiliser un coefficient de Student.
93
Dans l'exemple de la longueur de la plaque,
et
Pour presenter le resultat final (111), choisissons, par exemple, ime probability de
95%, alors le coefficient de Student ^_ 5 .-p =095 = 2,57 et A/ = 17 mm. Ainsi la
valeur moyenne de la longueur est :
avec un niveau de confiance de 95% pour les 6 mesures effectuees.

Soulignons un point tres important deja mentionne au debut du paragraphe 2.3.
L'incertitude A/ dans cette expression est 1'incertitude sur la moyenne ra et non pas
sur la longueur / elle-meme ! Dans le cas d'un grand nombre de mesures, la variance
de la valeur moyenne s^ tend vers zero et non pas vers la veritable variance cr 2 .
Si nous voulons avoir une estimation de la veritable variance il nous faut utiliser la
definition (85)
Dans notre exemple, s A/6 - 6 , 6 mm 16 mm. C'est la raison pour laquelle nous
avons ecrit "la valeur moyenne de la longueur" et non pas "la longueur" tout court.
Nous voyons que le deuxieme niveau d'analyse est plus rigoureux et plus riche d'information que le premier, mais il est aussi notablement plus lourd dans son traitement
et surtout dans son interpretation.
Dans le resultat final, nous avons garde deux chiffres significatifs mais on aurait pu
n'en garder qu'un seul. Montrons comment evaluer 1'incertitude de 1'incertitude.
L 'estimation "theorique" obtenue dans (94) ne depend que du nombre de mesures n,
et conduit pour 1'incertitude relative a
Rappelons que pour obtenir cette estimation, chaque mesure Xi est supposee avoir
une distribution de Gauss.
II est possible d'obtenir une estimation experimental e de cette valeur a partir des
donnees obtenues. Pour cela, on utilise les formules (94) et (93)
94
et les valeurs experiment ales de 0(8^) et s^. Pour D(s^), on utilise la formule
generale (92) dans laquelle les moments "theoriques" ^ et ^4 sont remplaces par
leurs valeurs experimentales m^ et 7714 introduites dans (91).
Dans notre exemple,
Finalement, pour <J^, on obtient
en parfait accord I'estimation "theorique".

Ill 6 niveau d'analyse
En fait, nous pouvons aller plus loin dans notre analyse des donnees experimentales.
Pour utiliser la distribution de Student, nous avons fait 1'hypothese supplemental
que la longueur / est distribute selon la loi normale. Est-ce vrai ? Nos mesures
correspondent-elles a une telle hypothese ? II n'est pas tres facile de trouver la reponse
a ces questions, surtout pour un nombre si faible de mesures. Neanmoins nous pouvons
essayer.
Si la distribution de la longueur est vraiment gaussienne, on doit s'attendre a avoir a
peu pres deux tiers de resultats dans 1'intervalle compris entre fi cr et {J, + <r et un peu
moins de la moitie dans 1'intervalle compris entre // cr/2 et // -f 0"/2 (ceci est facile
a verifier en utilisant la derniere ligne du tableau 3.1). Nous ne connaissons ni n ni
<T mais nous pouvons les estimer a partir de m et s. Dans notre exemple, m 4350
mm, s = 16 mm. Ainsi nous pouvons attendre 2 3 mesures dans 1'intervalle compris
entre 4342 mm et 4358 mm et 4 dans 1'intervalle compris entre 4334 mm et 4366 mm.
L'experience nous donne 2 et 4 respectivement. Ceci n'est pas mal, surtout si 1'on se
souvient que s a aussi son incertitude et qu'elle n'est pas negligeable (son incertitude
est egale a 5 mm ; estimation que 1'on obtient a partir de la formule (92)).
Une analyse supplementaire n'est pas du tout superflue. Supposons que dans nos
6 mesures nous ayons trouve les resultats : 4334, 4335, 4365, 4337, 4363 et 4366
mm. On peut verifier aisement que, pour cette deuxieme serie de mesures, on obtient exactement les memes valeurs de m et de sm. Mais dans ces conditions, on ne
trouve aucune mesure dans 1'intervalle compris entre 4342 mm et 4358 mm et 6 dans
1'intervalle compris entre 4334 mm et 4366 mm (au lieu de 2 3 et 4) ! Qu'est-ce que
cela signifie ?
On peut remarquer que, dans la deuxieme serie, les resultats semblent se regrouper
autour de deux valeurs et non autour d'une seule. II existe deux explications possibles. Soit c'est un veritable phenomene lie probablement a une erreur systematique
(par exemple la plaque est legerement courbee et, pour deux cotes, on mesure deux
valeurs differentes). Soit ces resultats sont lies a la faible statistique (6 mesures, ce
n'est pas beaucoup). En tout cas, la conclusion est la meme : nos resultats ne sont
apparemment pas coherents avec le traitement choisi et, avant de presenter le resultat
final, il faut elucider ce probleme. La moindre des choses est de remesurer la longueur
de la plaque pour augmenter sensiblement (!) la statistique.
95
On aurait pu voir qu'il y a probablement un probleme dans les donnees experimentales en comparant les estimations "theorique" et experimental de 6<\x. La valeur
"theorique"
est tres differente de celle obtenue a partir des donnees experimentales :
Cette difference peut servir d'indication sur 1'existence d'un probleme dans les donnees. Compte tenu de fait que pour obtenir 1'estimation "theorique" nous n'avons
utilise que 1'hypothese de normalite de la distribution, c'est cette hypothese qui doit
etre verifiee en premier lieu.
En fait, il existe une procedure relativement simple (criteres de Pearson) qui permet de
voir si la distribution a laquelle on a affaire est une gaussienne. Cette procedure est
basee sur la verification des relations precises qui existent entre les moments centraux
differents d'une distribution gaussienne (voir (27)). Dans ce livre, nous ne presentons pas
ces criteres car, dans les experiences simples, ils ne sont pas souvent utilises.
Nous avons compris que la methode d'analyse des donnees experimentales depend
de la rigueur et de la precision du resultat que nous voulons obtenir. Notons que
le premier niveau, bien qu'il ne possede pas de bases mathematiques profondes et
qu'il ne soit fonde que sur notre "bon sens", donne presque toujours des resultats
acceptables. La plupart du temps, il donne tout a fait correctement la valeur de la
grandeur physique (a a pres).
Par centre, 1'incertitude estimee dans cette methode peut etre assez differente de
1'incertitude exacte par un facteur deux-trois ou meme plus (dans notre exemple,
nous avons obtenu une estimation de 21 mm au lieu de s = 16 mm ; nous verrons
d'autres exemples ou cette difference est encore plus grande). Le premier niveau
d'analyse des donnees est utile, surtout si Ton tient compte de la facilite avec laquelle
les resultats sont obtenus.
On peut dire que le deuxieme niveau est un niveau fondamental. II donne les resultats
avec une interpretation precise, y compris pour 1'analyse posterieure plus sophistiquee.
Cette etape est indispensable lors d'une experience effectuee en travaux pratiques.
Le troisieme niveau est presque obligatoire si nous effectuons une veritable experience
de physique en laboratoire. II touche des aspects un peu differents de la statistique :
il essaie d'analyser la validite des hypotheses qui forment notre theorie. Dans notre
exemple, nous avons tente de verifier 1'hypothese sur la forme de la distribution pour
la longueur. Jusqu'ici nous n'avons pas considere ce type de problemes en statistique.
Ces problemes sont importants surtout pour une experience reelle de physique, mais
ils necessitent des resultats statistiques beaucoup plus fournis que ceux que nous
pouvons obtenir lors de travaux pratiques classiques.
96
3.3
DEUX RESULTATS EXPERIMENTAUX
Un autre probleme apparait lorsque Ton veut comparer des resultats experimentaux.
Avant de discuter le cas de deux grandeurs decrites par la distribution de Student,
commenc.ons par celui de deux grandeurs decrites par une distribution gaussienne.
A partir de deux resultats, x\ A#i et 2 i A#2, il faut introduire leur difference
X = x\ xi qui a egalement une distribution gaussienne avec une moyenne nulle et
une variance AX2 = Ax + Ax%. Si la valeur de X est compatible avec 0, compte
tenu de son incertitude, alors les deux resultats sont compatibles.
Par exemple, on veut savoir si la temperature dans une piece varie dans le temps.
On a effectue deux mesures a une heure d'intervalle et on a obtenu deux valeurs
TI = 25, 2 0, 2 C et T2 = 24, 5 0, 2 C. La difference T = TI - T2 = 0, 7 C doit
etre comparee avec 0. On voit que cette valeur depasse la? (avec UT = 0, 3 C) et
1'on peut raisonnablement conclure que la temperature a effectivement varie.
Etudions maintenant un exemple de deux grandeurs decrites par la distribution de
Student.
Supposons qu'un collegue ait mesure la longueur de la meme plaque metallique et
qu'il ait obtenu la valeur
avec la meme probabilite P = 95% mais pour n = 10 mesures. Rappelons que notre
resultat, pour n = 6 mesures, est
Ces deux valeurs sont legerement differentes et nous voulons savoir si elles sont compatibles. Si oui, pouvons-nous les regrouper d'une certaine fagon pour augmenter la
statistique et ainsi ameliorer la precision ?
3.3.1
COMPARAISON DE DEUX RESULTATS EXPERIMENTAUX
Comme au paragraphe 3.2.1, nous montrerons deux niveaux de solutions possibles.

II est tres simple. On voit que les deux resultats se recouvrent compte tenu des
incertitudes presentees et notre conclusion est immediate : les deux valeurs sont compatibles. Encore une fois, dans cette approche, nous ne pouvons pas dire exactement
quelle est la probabilite d'avoir cette difference entre les resultats.
IIe niveau d'analyse
Formulons d'abord cette question d'une fagon plus generale et plus precise. Soient
deux series de nx et de ny mesures {xi, #2, , xHx} et {yi, y?,... , yny}. Dans chaque
cas, nous pouvons calculer les moyennes mx et my (82) et les variances s%lx et s^
(88) experimentales.
97
Nous desirons savoir quelle est la probabilite pour que la valeur absolue de la difference
\mx my | soit superieure ou inferieure a une valeur donnee. Le probleme est a nouveau
1'absence d'information sur les veritables valeurs de fi et de <r 2 . II peut etre contourne
en utilisant le fait que la variable
ou
a une distribution de Student avec v = nx + ny 2 degres de liberte.

La demonstration de cette propriete suit exactement la demonstration utilisee pour obtenir
la distribution de Student (voir paragraphic 3.2). C'est pourquoi ne seront notees que les
petites modifications a apporter.
Reecrivons t sous la forme t
et
Le numerateur Y\ est la somme de deux grandeurs distributes selon la loi normale et

sa distribution est done normale. La moyenne de cette distribution est nulle car elle est
proportionnelle a la difference des moyennes rn^ rn^ p, p 0. La variance de YI
est I'unite car la variance de mx est <r 2 fn x , la variance de my est <T2/ny et la variance
de la difference mx my est done egale a cr 2 /n x + cr 2 /y (voir eq.(17)).
Le denominateur Y? represente, a un facteur I/a2 pres, la somme de deux variables
independantes
qui ont les distributions Xnx-i avec nx 1 degres de liberte et %2 _1 avec ny I degres
de liberte respectivement (voir (104)). Leurs fonctions generatrices des moments sont
98
(voir (96)). Ainsi la fonction generatrice de la somme
est egale a
ou nous avons utilise la propriete (21). Autrement dit, cette somme a la distribution
Xnx+n -2 avec v nx +ny 2 degres de liberte (nous avons nx + ny mesures avec deux
relations lineaires qui fixent mx et my ; voir la remarque (105)). Ensuite nous retrouvons
la demonstration du paragraphe 3.2.
Nous sommes maintenant en mesure de repondre a notre question puisque nous avons
etabli une relation univoque (109) entre la valeur de t et la probability T.
Dans notre exemple, mx = 4355 mm, my = 4350 mm, nx = 10, ny = 6. Pour
connaitre s2 nous devons calculer les sommes (112). Dans notre experience
II faut calculer la somme correspondante a Texperience faite par notre collegue. A

partir de sa valeur de Ara^. = 13 mm et des relations
nous avons
Done,
et la valeur de t correspondante a s2 est egale a
Dans le tableau 3.1, nous voyons que la probabilite qui correspond au coefficient de
Student t c 0, 55 pour v = 14 degres de liberte est P ~ 0, 4.
99
Ceci signifie que la probabilite de trouver la difference \mx my\ inferieure a 5 mm

etait de 40%. II etait meme plus probable (60%) de trouver cette difference superieure
a 5 mm. Ainsi le "disaccord" de nos deux experiences est tout a fait acceptable et nous
pouvons confirmer notre conclusion intuitive par une consideration plus rigoureuse.
Notons que le critere qualitatif applique dans la premiere approche (recouvrement
des barres d'erreurs) est rapide mais parfois assez dangereux. Quand nous utilisons
de telles notions nous nous referons a la distribution de Gauss et nous examinons
la probabilite pour que mx se trouve dans 1'intervalle [my Ara y ,ray + Am y ], ou
inversement la probabilite pour que my se trouve dans 1'intervalle [mx Ara x , mx +
Ara^]. Pour la distribution de Gauss, la probabilite d'apparition d'un evenement en
dehors de 1'intervalle [fji cr, ^ + cr] est relativement grande, a peu pres 1/3. Meme pour
une difference \mx my 15 mm notre conclusion basee sur ce critere reste la meme
car cette difference est compatible avec les incertitudes des deux series de mesures
(A = ^(Amx + Ara y ) = 15 mm). Le traitement correct nous donne un coefficient
de Student t ~ 1, 65 auquel correspond une probabilite de presque 90%. Cela signifie
que la probabilite de trouver une difference de 15 mm ou plus est tres faible, de
1'ordre de 10%. La methode qualitative basee sur la distribution de Gauss donne une
probabilite trois fois plus forte que celle attendue avec notre methode correcte basee
sur la distribution de Student !
La contradiction apparente s'explique par le fait que notre estimation de a (pour
laquelle nous avons choisi la demi-somme de Am x et de Am y ) etait grossiere. Nous
verrons que 1'incertitude dans 1'experience qui accumule les resultats de deux experiences est plutot de 10 mm. La valeur de \mx my\ = 15 mm correspondrait ainsi a
1, 5r. Pour la distribution de Gauss, la probabilite de trouver un evenement en dehors
de 1'intervalle \ji I , 5<r, //+ 1, 5cr] est aussi de 1'ordre de 10%. Ainsi nous retrouvons
la coherence entre les deux approches.
La conclusion est la suivante : on peut utiliser le critere de recouvrement des incertitudes a condition de les recalculer en utilisant la methode decrite ci-dessous.
Nous avons montre comment il est possible de comparer les moyennes de deux experiences.
II existe une methode analogue pour comparer les variances experimentales, designee par
le critere J7 de Fisher, qui donne la probabilite pour que le rapport s^/s y soit different
de 1. Pour cela, il faut introduire une distribution speciale de ce rapport que Ton peut
obtenir a partir des distributions connues de s^ et Sy et en utilisant des regies generales
formulees au paragraphic 2.2.2. Dans ce livre, nous ne presentons pas ce critere car
cette distribution est relativement complexe et son utilite pratique bien moindre que la
distribution de Student : si deux echantillons sont vraiment incompatibles, cela apparaft
surtout sur les moyennes et dans une moindre mesure sur les variances.
3.3.2
"ADDITION" DE DEUX RESULTATS EXPERIMENTAUX
Nous sommes assez convaincus que les deux resultats ne sont pas contradictoires et
desirons savoir comment les "reunir" pour avoir une meilleure statistique et plus de
precision sur la grandeur mesuree.
100
Nous obtenons assez facilement la formula exprimant la moyenne pour les deux series
de mesures
si nous connaissons les moyennes pour les deux experiences separement
remplagons les sommes dans (113) par mxnx et myny :
II est utile de reecrire cette formule autrement. Rappelons les relations entre les
variances experimentales s2 de la grandeur et celles de ses valeurs moyennes slm
(voir eqs. (88) et (110))
Quand le nombre de mesures dans chaque experience est relativement grand,

Alors nous pouvons rmplacer dans (114)
et obtenir 1'expression
ou est introduite 1'incertitude Amx+y comme
ou wx et wy peuvent etre interpretes comme les poids relatifs de deux experiences.

Cette formule a une signification tres simple : moins 1'experience est precise (grande
valeur de Am^), moins importante est sa contribution (faible valeur de l/(Amj) 2 )
dans le calcul de la moyenne (115).
101
Dans notre exemple de deux experiences, nous obtenons

mx+y = 4353 mm,
Am r+y = 10 mm.
II est logique, compte tenu du fait que les mesures du collegue etaient plus precises,
que mx+y soit plus proche de sa valeur mx.
Les formules (115) et (116) peuvent etre generalisees facilement pour un nombre
arbitraire n d'experiences :
II est vrai que cette fagon de calculer la moyenne sur plusieurs experiences n'est pas
toujours mathematiquement irreprochable mais elle donne la possibilite d'avancer et
de reunir les connaissances obtenues dans des experiences parfois tres differentes.
S'il a ete possible de verifier auparavant que ces series de mesures sont compatibles
(compatibility des moyennes et des variances), 1'erreur introduite par cette procedure
est tres faible. Meme 1'hypothese d'egalite des coefficients de Student pour un grand
nombre de mesures n'est pas mauvaise. Dans le tableau 3.1, on voit que le coefficient
de Student varie peu avec v. Par exemple pour "P = 0,95, t change seulement de
10% quand v passe de 10 a 30. De plus, cette variation est une correction dans
1'incertitude, autrement dit, c'est une correction de deuxieme ordre.
C'est la raison pour laquelle cette approche est tres utilisee en physique quand on veut
profiter de resultats d'experiences differentes (parfois assez couteuses) pour obtenir la
valeur "universelle" de telle ou telle constante physique fondamentale.
3.4
AUTRES SOURCES D'ERREURS
L'incertitude naturelle d'une grandeur physique n'est pas la seule possible. Une autre
source importante d'incertitude est 1'appareil de mesure. Par 1'appareil, nous sousentendons non seulement 1'appareillage utilise pour faire une experience mais, plus
generalement, la methode de mesure choisie.
Nous voulons savoir quelle est Pinfluence de 1'appareil sur la valeur physique ou, en
d'autres termes, comment il modifie la fonction de distribution initiale. Nous verrons
qu'il y a d'abord une modification "triviale" de cette distribution : celle-ci s'elargit, ce
qui signifie que les erreurs d'appareil s'ajoutent aux erreurs naturelles de la grandeur
physique.
Cependant, une autre modification de la fonction de distribution est aussi possible.
L'appareil peut decaler la valeur moyenne, done 1'appareil mesure une valeur systematiquement plus grande (ou plus petite) que la valeur "reelle". Ces erreurs s'appellent les
erreurs systematiques. Elles ne sont pas forcement de nature aleatoire et ne pourront
pas etre traitees directement a 1'aide des techniques qui ont ete presentees jusqu'ici.
L'analyse de ce type d'erreurs, qui est plus complexe, fait Pobjet de ce paragraphe.
102
3.4.1
INCERTITUDES D'APPAREIL
Pour etudier 1'influence d'un appareil sur la valeur mesuree, choisissons d'abord un
appareil tres simple un pese-personne mecanique. Son principe de fonctionnement
est elementaire : le poids d'un objet dont nous voulons connaitre la masse m est
compense par la contraction d'un ressort. Ce dernier est lie a une aiguille qui indique
sur un cadran la valeur de la masse. Si le coefficient de raideur est egal a k, le
deplacement du ressort et celui de 1'aiguille est
ou g est 1'acceleration du champ de pesanteur. Supposons que 1'incertitude sur la

valeur de g soit negligeable devant les autres incertitudes. Ainsi, 1'incertitude sur Ax
s'ecrit conformement a (58)
/Ax\2_/Am\2
(Ak\2
() - (-^-J + (-T)
La particularity de cette formule vient du fait que 1'incertitude de mesure comprend deux contributions, 1'une issue de 1'incertitude naturelle Am et 1'autre issue
de 1'appareil de mesure Ak.
Une expression analogue peut etre obtenue dans un cas plus general. La probabilite
de trouver une valeur physique x, caracterisee par sa fonction de distribution f ( x ) ,
dans 1'intervalle [ x , x + dx] est egale a f ( x ) d x . Cependant, la probabilite pour que
1'appareil donne cette valeur dans un autre intervalle [x',x' + dx'} n'est pas nulle.
Designons cette probabilite par S(x, x'}dx'.
Pour determiner la probabilite (F(x')dx'] de detection par 1'appareil de la valeur
physique dans 1'intervalle [x', x' + dx'], on doit multiplier la probabilite (f(x}dx] pour
que cette valeur se trouve dans [x, x + dx], par la probabilite (S(x, x')dx') pour que
1'appareil donne la valeur dans [x', x' + dx'] et calculer la somme (ou 1'integrate) pour
toutes les valeurs x possibles :
soit
On peut dire qu'au lieu de la vraie fonction de distribution f ( x ) , 1'appareil nous donne
une fonction de distribution modifiee F ( x ) .
La fonction S ( x , x ' ) s'appelle la fonction de resolution (la terminologie vient de
1'optique). Quelle est la forme de cette fonction ? La reponse a cette question est
difficile. La plupart du temps, la fonction de resolution S(x,x') ne depend que du
module de la difference x x' :
103
Cette propriete signifie que 1'appareil n'introduit pas d'erreur systematique, c'est-adire qu'il ne modifie pas la valeur moyenne de la distribution.
La valeur moyenne p,p pour la distribution F(x) est
A I'aide de (120) et en introduisant la variable t = x x' nous obtenons
Nous avons tenu compte de la normalisation de f(x] et de S(t) :
et du fait que S(\t\) est une fonction paire. II n'y a pas d'erreur systematique :
Dans les memes conditions, nous pouvons montrer facilement que I'appareil ne peut
qu'elargir la distribution initiale. La variance de la distribution F(x] est
D'ou
Comme pour les fonctions de distribution, on peut affirmer que si les conditions du
theoreme central limite sont satisfaites (c'est-a-dire s'il y a plusieurs facteurs independants qui agissent sur la fonction de resolution et si 1'influence de chacun de ces
facteurs est petite), cette fonction a la forme de Gauss :
104
avec une variance <r|. Cette fonction ne depend que de \x x'\ et la moyenne de
F(x) coincide avec la moyenne de f ( x ) . En resume, dans les conditions du theoreme
central limite, il n'y a pas d'erreur systematique et 1'appareil ne change pas la valeur
moyenne.
Nous ne considererons que le cas ou la fonction de resolution S(x x'} et la fonction
de distribution f(x) sont decrites par des fonctions de Gauss. Soient <r| la variance de
S(x-x'), n et d1, la moyenne et la variance de f ( x ) . On peut alors calculer I'integrale
(119) et obtenir la fonction de distribution F ( x ) , donnee par 1'appareil, qui a aussi
une forme gaussienne :
II existe deux facons de calculer I'integrale
La premiere est directe : on fait le changement de variable
pour retrouver I'integrale bien connue (25).

La deuxieme est plus elegante : il faut passer par la transformation de Fourier de cette
integrale et utiliser deux proprietes de la transformation de Fourier (la transformee de
Fourier d'une gaussienne est une gaussienne et la transformee de Fourier d'une convolution de deux fonctions est le produit de leurs transformees). Nous laissons cet exercice
aux lecteurs familiers de la transformation de Fourier.
Ce calcul permet de verifier que la variance ffp de la fonction F(x) est egale a la
somme des variances 0-| et crj :
Dans une experience reelle deux situations extremes peuvent etre rencontrees. Celle
ou la variance de 1'appareil est negligeable devant la largeur naturelle (<j| <C <r?) et
1'appareil ne change rien ; celle ou la variance d'appareil est plus importante que la
variance initiale (<r| ^> <r?) et on peut alors prendre 1'incertitude de 1'appareil comme
1'incertitude de 1'experience.
En general, la determination de la fonction de resolution n'est pas aisee. Pour les
appareils simples utilises en travaux pratiques, la connaissance precise de la fonction
S(x, x') n'est pas indispensable. On peut se limiter a la calibration de 1'appareil avec
une fonction f(x] bien defrnie. Dans 1'exemple d'un pese-personne, on doit peser des
poids connus (les etalons) et reperer les indications correspondantes. Ainsi on obtient
105
une echelle de 1'appareil utilisable pour la mesure de poids inconnus. Les fonctions
obtenues de cette maniere se presentent souvent sous la forme d'une courbe ou d'une
table d'etalonnage.
Pour un appareil digital, 1'incertitude de mesure est indiquee dans la description.
Pour un appareil a aiguille, la precision est caracterisee par la classe de 1'appareil qui
est toujours marquee sur son cadran au-dessus du symbole de position de 1'appareil.
L'incertitude de 1'appareil est egale au produit de sa classe par la pleine echelle utilisee
pour la mesure, divise par 100 :
classe pleine echelle
incertitude
.
100
Pour diminuer 1'incertitude de mesure, il faut done toujours travailler avec les echelles
les plus sensibles possibles (les echelles qui donnent la deviation maximale acceptable).
Dans la plupart des cas, on travaille avec des appareils de classe 0,5 ; 1,0 ; 1,5 ou 2,5.
Pour les experiences plus sophistiquees, cette procedure simple n'est plus suffisante.
L'experimentateur doit faire une etude approfondie du nouvel appareil pour avoir le
maximum d'informations sur la fonction de resolution S ( x ' , x ) : verifier si elle ne
depend que de \x x' ou, sinon, etablir la forme de cette fonction, etc.
3.4.2
ERREURS SYSTEMATIQUES
On peut mentionner trois sources d'erreurs systematiques : la methode de mesure

choisie, le mauvais fonctionnement de 1'appareillage et les erreurs d'experimentateur.
Nous allons etudier toutes ces sources d'erreurs et de voir ce qu'il faut faire dans ces
cas.
Erreurs liees a la methode de mesure
Un exemple simple d'erreur systematique provenant de la methode de mesure est

donne par la determination d'une resistance inconnue Rx. On peut la mesurer a 1'aide
d'un voltmetre ayant une resistance Ry et d'un amperemetre ayant une resistance RASupposons que ces valeurs soient inconnues ; on sait seulement que Ry est grande par
rapport a Rx et que RA est petite par rapport a Rx. On branche 1'amperemetre en
serie avec la resistance inconnue. Le branchement du voltmetre peut etre effectue de
deux fagons : (I) on peut mesurer la tension aux bornes de la resistance Rx (figure 3.6)
ou (II) on peut mesurer la tension aux bornes de la resistance et de 1'amperemetre
(figure 3.7).
Si on determine la valeur experimentale RGXp de la resistance inconnue Rx comme le
rapport de la tension amchee sur le voltmetre et du courant traversant 1'amperemetre,
pour ces deux branchements, on obtient les relations suivantes entre ReXp et Rx :
Si les appareils choisis sont de bonne qualite, pour un assez grand domaine de valeurs
de la resistance Rx, telles que Ry ^> Rx ^ RA, on a Rexp Rexp RX- Neanmoins,
106
Figure 3.6 : Premier schema possible pour mesurer la valeur d'une resistance
la premiere methode donne toujours des valeurs systematiquement plus petites que la
vraie valeur de Rx, tandis que la deuxieme donne des valeurs systematiquement plus
grandes. Dans les deux cas, on a une erreur systematique plus ou moins importante
en fonction des relations entre Ry, RA e^ RX
(II)
Figure 3.7 : Deuxieme schema possible pour mesurer la valeur d'une resistance
On peut done dire que la premiere methode est preferable pour mesurer des petites
resistances tandis que la deuxieme est plus adaptee aux grandes resistances. Cependant les deux methodes donnent une erreur systematique qu'on ne peut eliminer qu'en
connaissant les valeurs de Ry et RAProposons une troisieme fagon de mesurer la resistance. Pour cela, nous avons besoin
d'une resistance variable dont nous pouvons etablir la valeur Rv, de deux resistances
identiques R et d'un appareil de mesure (d'un amperemetre ou d'un voltmetre, au
choix). Le schema de branchement est presente sur la figure 3.8.
Si Rx est egale a Rv, alors le courant Ia qui passe par 1'amperemetre (ou le voltmetre)
est nul. On peut le voir a partir de 1'expression de Ia :
I etant le courant aux bornes du circuit,
ou Ra est la resistance de 1'appareil (R^ ou RV)-
107
Figure 3.8 : Troisieme schema possible pour mesurer la valeur d'une resistance
L'expression (121) peut etre obtenue de la facon suivante. Nous introduisons les courants
Iv, 1%, h, 1-2 (figure 3.8) et ecrivons le systeme de 5 equations
Nous exprimons /, Ix et /2 en fonction de /, Ia et I\
et obtenons deux equations
En eliminant I\, \\ est possible d'ecrire
Cette relation nous donne la formule (121).
Nous devons faire varier la resistance Rv jusqu'a annuler le courant Ia.

Quels sont les avantages d'une telle methode par rapport aux methodes precedentes ?
Premierement, il n'y a pas d'erreurs systematiques liees a la methode. Si nos appareils
sont precis nous obtiendrons exactement la valeur
108
Deuxiemement, nos mesures sont extremement simples : nous voulons annuler le

courant et nous ne devons faire aucun calcul. Troisiemement, il est relativement
facile de verifier si le zero est bien etabli. Supposons que la valeur du courant est
non nulle Ia IQ =t 0, mais tellement petite que notre amperemetre n'arrive pas a le
detecter. Pour s'affranchir du probleme, il suffit d'augmenter le courant exterieur /
d'un facteur n, afm que le courant Ia augmente aussi d'un facteur n (voir (121)) et
qu'il redevienne detectable. Ainsi nous pouvons corriger la valeur de Rv pour retablir
le zero.
Les inconvenients possibles de cette methode sont la difficulte de trouver une resistance
variable de bonne qualite et la duree d'une telle experience.
Dans 1'example precedent apparaissent deux conceptions differentes d'une experience.
Dans la premiere approche, nous devons d'abord calibrer les appareils de mesure
(voltmetre et amperemetre) a 1'aide d'etalons et ensuite les utiliser pour mesurer des
valeurs physiques inconnues. Dans la deuxieme approche, nous comparons directement la valeur inconnue a 1'etalon. La deuxieme approche est generalement plus
precise mais elle est aussi plus couteuse. Ces deux conceptions de mesure sont utilisees partout dans la vie courante. Le choix depend de la precision recherchee et des
moyens disponibles. Par exemple nous pouvons mesurer une masse, soit a 1'aide d'un
pese-personne qui utilise un ressort prealablement calibre, soit a 1'aide d'une balance
qui equilibre la masse inconnue par des poids connus.
Erreurs liees au fonctionnement d'appareils
Le deuxieme type d'erreurs systematiques est lie au mauvais fonctionnement de 1'appareillage ou au changement des conditions de deroulement de 1'experience. Ces erreurs
peuvent etre diverses et elles dependent de 1'experience concrete. L'exemple le plus
simple est le mauvais reglage du zero de 1'appareil. Avant toute mesure il faut s'assurer
que le zero est regie correctement. Cette verification ne prend pas beaucoup de temps
mais elle permet d'eviter des erreurs grossieres et elle doit devenir une habitude pour
1 'experimentateur.
L'instabilite des conditions de deroulement de 1'experience donne lieu a une derive
systematique des mesures. Par exemple la position du zero d'un wattmetre pent
varier lors d'une experience. Un autre exemple d'une telle erreur est la mesure de
la vitesse d'une boule metallique dans un liquide visqueux. Si cette experience dure
longtemps, la temperature du liquide peut varier avec la variation de la temperature
ambiante et ce changement modifie la viscosite du liquide.
Erreurs d'experimentateur
Finalement les erreurs de 1'experimentateur constituent le troisieme type d'erreurs

systematiques. Par exemple certaines personnes evitent tel ou tel chiffre lors des
estimations de fractions de divisions d'echelle d'un appareil. Ou encore, quand on
modifie les parametres d'une experience, le systeme a besoin d'un certain temps pour
se mettre en equilibre et les indications des appareils peuvent etre instables pendant
quelques secondes. II ne faut pas se precipiter pour faire les mesures. Lors des mesures
d'un intervalle de temps, une erreur systematique peut etre introduite par le fait que
des personnes differentes ont des vitesses de reaction differentes.
109
Une erreur presque inevitable intervient lors de la lecture des indications des appareils
a aiguille : il existe toujours une certaine distance entre 1'aiguille et 1'echelle et le
resultat lu depend de 1'angle de vision. De plus, si 1'aiguille se trouve entre deux
divisions d'echelle, il y aura une erreur liee au choix de la valeur retenue.
Toutes ces erreurs sont presque inevitables. II faut savoir les estimer en sachant bien
que ces estimations sont personnelles, subjectives, de la responsabilite de 1'experimentateur.
3.4.3
COMMENT EVITER LES ERREURS SYSTEMATIQUES ?
Pour eviter ces erreurs on peut donner quelques recommandations pratiques. Les erreurs systematiques proviennent souvent du mauvais fonctionnement de 1'appareillage
ou de 1'experimentateur lui-meme. Ce dernier paragraphe contient quelques recommandations generates qui permettront d'eviter une grande partie de ces erreurs.
Commengons par les questions de planification et de realisation d'une experience sont
d'une importance fondamentale. Meme dans le cas d'une manipulation relativement
simple en travaux pratiques il faut leur consacrer quelques minutes. Quels sont les
points auxquels il faut faire attention ?
Les conditions de deroulement de 1'experience
Une manipulation dure plusieurs heures et demande un effort mental assez important.
L'experimentateur peut etre fatigue et il peut se tromper. C'est pourquoi il faut
commencer par la preparation de la place de travail : on ne laisse que les objets
indispensables (le cahier d'experience, la calculatrice, un stylo, etc.), 1'endroit doit
etre bien eclaire, la temperature ambiante ne doit pas etre trop elevee et surtout
rester stable, il faut eviter les courants d'air. La stabilite de la temperature rend le
travail plus confortable et diminue les erreurs systematiques liees aux changement des
conditions de 1'experience. II faut placer 1'appareillage de fagon telle que les appareils
les plus frequemment utilises soient facilement accessibles.
Verification des choses evidentes
Parfois, il vaut mieux verifier des choses qui paraissent evidentes. Les appareils ne
doivent pas bouger. Si la base de 1'appareil est consideree comme horizontale il faut,
au moins, le verifier a 1'oeil nu. En optique, la condition importante est 1'alignement
de tous les appareils sur un meme axe. Ainsi nous eviterons beaucoup d'erreurs systematiques et le processus experimental sera accelere. Si nous utilisons un circuit
electrique alimente directement par le reseau EDF, nous devons mesurer la tension
car elle peut etre differente de 220 V. Les appareils alimentes par des piles ont la
"mauvaise habitude" de tomber en panne d'alimentation au moment le plus important de 1'experience. Pour eviter ce probleme il faut verifier 1'etat des piles avant
1'experience.
Symetrie apparente
Si le montage possede des elements identiques, il faut les interchanger et repeter la

mesure. Par exemple, sur la figure 3.8, nous avons un schema pour determiner une
110
resistance inconnue Rx dans lequel nous utilisons deux resistances supposees identiques R. II faut s'en assurer experimentalement en permutant ces resistances lorsque
le courant qui passe par 1'amperemetre est nul. Si, avec les resistances interchangees,
le courant devient different du zero, il faut soit remplacer les resistances soit augmenter 1'incertitude de mesure. En travaux pratiques, on utilise frequemment des
appareils polyvalents qui peuvent mesurer le courant, la tension ou meme la resistance. Si 1'on utilise deux appareils de ce type dans la meme experience, on peut les
interchanger et verifier la stabilite du resultat.
Quand on mesure la difference de deux temperatures avec deux thermometres differents il faut aussi les interchanger. Si le resultat n'est pas le meme on doit prendre la
demi-somme des deux mesures comme valeur experimentale. Si 1'un des thermometres
(ou les deux) est affecte par une erreur systematique, cette procedure permettra de
s'en affranchir.
Experience preliminaire
Une experience scientifique est toujours precedee d'une manipulation preliminaire.

Son but est multiple. L'experimentateur "apprend" la manipulation, s'entrame a
effectuer les operations qui seront les plus frequentes, verifie le fonctionnement des
divers elements. Dans cette manipulation, on essaie d'obtenir une idee sur 1'intervalle
des valeurs de chaque grandeur physique ainsi que sur leurs incertitudes. Cette manipulation preliminaire permet de determiner la strategic future pour toute 1'experience.
Meme en travaux pratiques il faut essayer d'effectuer une experience preliminaire, bien
que le temps soit tres limite. II faut, au moins, prendre connaissance de 1'appareillage
et surtout de ses composantes qui n'ont pas ete etudiees auparavant. Si, pendant
1'experience, il faut changer d'echelle et si on ne sait pas effectuer cette operation, on
risque non seulement de perdre du temps mais aussi de perdre une partie des donnees.
Planification d'une experience
La manipulation preliminaire fait partie d'un probleme plus general de planification

d'une experience. En travaux pratiques, il faut cerner exactement les points les plus
delicats et les plus importants du point de vue physique ainsi que 1'enchainement
entre les differentes parties de 1'experience.
Un autre aspect important de la planification est 1'ordre chronologique des mesures
lorsqu'il s'agit de determiner une dependance en fonction d'un parametre (courant,
frequence, temperature, etc.). Si on cherche, par exemple, la puissance P degagee par
une resistance en fonction du courant / qui passe dans le circuit et qui varie de 0 a
10 A (la limite de notre amperemetre), on s'attend a une dependance telle que :
La presence de la constante PQ peut etre expliquee par 1'existence de sources de

chaleur, celle de la fonction lineaire par Feffet Peltier et celle de la fonction quadratique
par I'effet Joule.
Six points (entre 0 et 10 A avec un pas de 2 A) sont largement suffisants pour definir
les parametres PQ, a et b. Si nous voulons augmenter la precision sur ces valeurs,
111
nous pouvons prendre un pas plus petit, 1 A. Dans notre systeme, il n'y a pas de
dependance rapide en fonction du parametre et il vaut mieux choisir des points de
mesures distribues de maniere uniforme sur tout intervalle de variation du courant.
Cependant, il ne faut pas perdre de temps en fixant les valeurs de / exactement a
1 A ou 2 A. Si nous mesurons la puissance pour I 1, 95 A au lieu de / = 2, 00 A,
la precision sur les parametres sera la meme. Pour accelerer la manipulation nous
pouvons faire les mesures en augment ant progressivement le courant avec un pas de
2 A d e O a l O A . L'avantage est que notre systeme trouvera chaque fois son equilibre
assez rapidement. De plus, nous nous attendons a une dependance reguliere P(I) et
pouvons controler que la puissance varie lentement avec la variation du courant.
Le probleme concernant 1'ordre des mesures apparait quand il existe une source
d'erreurs systematiques (par exemple, si la temperature de la piece monte progressivement pendant 1'experience, elle modifie le parametre PQ). Avec 1'ordre precedent nous
ne trouverons jamais cette source d'erreurs : la fonction P(I} sera toujours reguliere
et continue. Par centre, si nous choisissons un ordre different des mesures : / = 0,
10, 2, 8, 4, 6 A, les points experimentaux "oscilleront" autour d'une courbe continue
et ces oscillations seront plus grandes que les incertitudes des mesures. Un simple
changement de 1'ordre des mesures peut nous aider a detecter une erreur systematique.
G'est a Texperimentateur de decider quel est 1'aspect de la manipulation le plus important : la rapidite et la simplicite des mesures ou la securite.
Si nous etudions une grandeur dont la dependance en fonction d'une variable est assez
rapide comme, par exemple, la recherche de la frequence propre d'un circuit RLC par
une mesure de la tension en fonction de la frequence, la logique doit etre differente.
La tension aux bornes de la resistance peut etre approchee par la formule
L'experience comprend deux etapes. D'abord, nous determinons le comportement

general U(v} avec un pas qui peut etre assez grand, 15 Hz (quatre points noirs sur la
figure 3.9). Le but de cette etape est de determiner approximativement la position de
la resonance : nous voyons que z/o se trouve entre 30 et 50 Hz. Ensuite, nous devons
repeter nos mesures au voisinage de VQ avec un pas beaucoup plus faible, 2 Hz (carres
blancs sur la figure 3.9). II n'y aucun interet a faire des mesures avec ce petit pas loin
de i/o si nous ne nous interessons qu'a la position de la resonance.
Ces exemples elementaires montrent que 1'ordre et le pas des mesures dependent de
differents facteurs et I'experimentateur doit chaque fois decider quels sont les criteres
les plus importants pour effectuer ces choix.
Enregistrement des resultats
Lorsque nous enregistrons les resultats, le but est de ne pas introduire d'erreurs supplementaires. Le remede est trivial : nous devons noter immediatement tous les
resultats pour ne rien oublier. L'ecriture doit etre simple, concise et elle doit contenir
un minimum d'explications necessaires pour que nous puissions plus tard comprendre
et interpreter ces resultats sans aucune ambigui'te. Une ecriture claire et facilement
lisible depend de notre experience personnelle et elle viendra au fil des annees.
112
Figure 3.9 : Determination de la position d'une resonance
La fagon la plus traditionnelle d'enregistrement des resultats est 1'utilisation d'un

cahier d'experience. L'avantage principal d'un tel cahier par rapport aux feuilles separees est qu'il est plus difficile de le perdre. L'inconvenient est que meme les mesures
simples ne s'effectuent jamais dans un ordre parfait et que notre enregistrement peut
etre assez disparate. II n'est pas toujours commode de coller dans ce cahier des feuilles
de papier millimetre avec des courbes ou des listings d'ordinateur. Cependant, le
cahier d'experience reste le meilleur moyen pour eviter la perte d'information. II
est utile de numeroter ses pages et de reserver une page au debut pour la table des
matieres.
Inscription des resultats
Tous les resultats doivent etre notes immediatement, dans leur forme brute et sans
la moindre modification. Par exemple, si 1'echelle d'un voltmetre est de 5 V, dans le
cahier d'experience il faut noter le nombre de divisions d'echelle ainsi que la valeur
de pleine echelle. Si, par hasard, nous nous trompons lors de la multiplication par 5
nous ne serons plus capables de corriger cette erreur plus tard.
Recopier des resultats est tres dangereux. II ne faut jamais utiliser les brouillons
pour copier ensuite les resultats dans le cahier de manipulation. Cette operation est
triplement dangereuse. Premierement, nous perdons du temps. Deuxiemement, nous
pouvons introduire des erreurs supplementaires. Mais le danger le plus important
vient du fait que, lorsque nous copious les resultats, nous ne pouvons pas eviter la
selection.
Dans le bilan d'une experience, on n'utilise pas toutes les mesures effectuees. Assez
frequemment, on decide que telle ou telle mesure n'est pas tres parlante ou simplement
113
inutile. Autrement dit, nous selectionnons les resultats. Cette procedure est parfaitement correcte a condition que nos criteres de selection soient objectifs et justes. Si,
plus tard, nous decidons que nous nous sommes trompes dans le choix des criteres,
nous devons avoir la possibilite de revoir Fensemble des mesures initiales. La seule
solution a ce probleme est de conserver tous les resultats des mesures.
Par exemple, nous mesurons des differences de temperatures a 1'aide des deux thermometres. Nous devons enregistrer les indications de deux appareils et ensuite calculer
la difference. Si 1'un des appareils fonctionne mal et donne, de temps en temps, une
valeur fausse nous pourrons trouver plus facilement cette erreur si nous avons deux
enregistrements separes. Nous verrons alors les fluctuations dans les indications de ce
thermometre. Si nous ne notons que la difference nous ne saurons jamais lequel des
deux thermometres fonctionne mal.
Ordinateur
L'ordinateur devient de plus en plus present en travaux pratiques. C'est tres bien car
il permet d'accelerer 1'acquisition des donnees d'une fagon spectaculaire. Cependant,
il faut comprendre que 1'ordinateur ne peut pas faire des miracles et la precision d'une
seule mesure faite avec 1'ordinateur n'augmente pas pour autant ! Quand Pecran de
1'ordinateur afflche huit chiffres significatifs, nous devons savoir qu'en realite le nombre
de chiffres significatifs reste le meme que si nous avions fait la mesure nous-memes.
Simplement, 1'appareil qui sert d'interface entre Pappareil de mesure (un voltmetre,
un thermometre, etc.) et 1'ordinateur ne sait pas arrondir correctement le resultat.
Le nombre de chiffres am dies est defini par le nombre de digits d'ordinateur et non
par la veritable precision de 1'experience. Ce phenomene pose un vrai probleme :
1'acquisition automatique des donnees rend difficile la determination de 1'incertitude
de mesure car 1'appareil de mesure est souvent inaccessible. La solution consiste a
repeter 1'experience ou une partie de celle-ci. Nous obtiendrons des resultats differents
et determinerons ainsi 1'incertitude en utilisant 1'approche decrite dans ce livre.
Schemas et tableaux
Les schemas et les tableaux sont des formes tres pratiques pour limiter Pecriture et
eviter ainsi les erreurs inutiles. II ne faut pas que le schema d'une experience soit
trop detaille et qu'il soit proche d'une photographic. II doit contenir le minimum
necessaire d'informations en expliquant Pidee de Pexperience, en donnant une description de Pappareillage et les notations utiles. On a parfois besoin d'un schema
complet dans lequel 1'echelle est soigneusement respectee. Mais dans la plupart des
situations, 1'echelle est consciemment modifiee. Par exemple, dans le schema presente
sur la figure 4.4, la vraie taille de la resistance inconnue Rx peut etre de quelques
millimetres tandis que la resistance variable Rv represente un appareil d'une dizaine
de centimetres. Dans cette experience, ces resistances jouent le meme role et le dessin
souligne leur "equivalence".
Tous les resultats des mesures doivent etre ecrits de preference, sous la forme d'un
tableau. II vaut mieux noter les valeurs de la meme grandeur physique dans une
colonne, car Poeil compare plus facilement deux chiffres ecrits Pun sous Pautre. La
premiere ligne de chaque colonne doit contenir le nom de la grandeur, son symbole
et ses unites. Si possible, il faut preparer les tableaux avant la manipulation. II
114
est toujours utile de reserver quelques colonnes supplementaires. Elles peuvent etre
necessaires pour noter immediatement les incertitudes sur les valeurs (surtout si elles
varient lors de 1'experience) ou, plus tard, les resultats obtenus lors du traitement des
donnees. Par exemple, si nous mesurons la resistance inconnue comme rapport de la
tension a ses bornes au courant qui la traverse, nous devons preparer six colonnes :
pour la tension et son incertitude, pour le courant et son incertitude et pour la resistance et son incertitude. Si, de plus, les echelles de ces appareils ne sont pas des
multiples de 10, il vaut mieux preparer des colonnes supplementaires pour noter les
mesures brutes comme nous Tavons discute auparavant.
Calculs arithmetiques
Lors des calculs arithmetiques, il ne faut pas se precipiter sur la calculatrice. Prenons
un exemple. Nous determinons la valeur de la chaleur specifique C d'un liquide de
masse m contenu dans une boite. Pour cela, nous chauffons ce recipient a 1'aide d'une
petite resistance plongee dans le liquide. Le courant qui passe par la resistance est /, la
tension aux bornes de celle-ci [/, la duree du chauffage r. En premiere approximation,
si nous negligeons les pertes de chaleur (par la surface de la boite ou pour chauffer la
resistance elle-meme, etc.) la chaleur specifique est donnee par :
ou AT est la difference des temperatures apres et avant le chauffage. Soient les valeurs
experimentales : m = 17, 6 g, U = 10, 7 V, / = 42 mA, r = 23, 7 s, AT = 0, 36 K.
L'ordre de calculs doit etre le suivant. Dans 1'expression initiale
nous reecrivons toutes les valeurs dans le meme systeme d'unites (par exemple, SI) :
nous separons les chiffres et les unites :
nous faisons les operations arithmetiques a 1'aide d'une calculatrice et nous transformons les unites :
Ici, trois remarques s'imposent.

Premierement, il est utile de reecrire Favant-derniere expression sous la forme
115
ou nous avons separe les chiffres significatifs et les ordres de grandeur : si la valeur de
x 10n est plus grande que 5 10n nous 1'ecrivons cornrne 0, x 10n+1, sinon nous ne
changeons rien. L'avantage d'une telle representation est que nous voyons immediatement 1'ordre de grandeur : 103. La valeur de la premiere fraction, dans la plupart
des situations, sera alors de 1'ordre de 1 (de 0,1 a 10).
Deuxiemement, dans le resultat intermediaire nous gardens, pour 1'instant, trois
chiffres significatifs 1,68, bien que les valeurs de AT et de / n'en contiennent que deux.
Nous le faisons volontairement pour eviter les erreurs supplementaires d'arrondi. Dans
le resultat final, apres avoir calcule 1'incertitude sur C, nous ne laisserons que le nombre de chiffres significatifs correspondant a cette incertitude (peut etre un seul).
Troisiemement, dans la derniere expression, nous avons choisi les unites kJ/kg-K et
non pas J/kg-K, car nous connaissons la chaleur specifique de 1'eau 4,18 kJ/kg-K et
cette valeur nous est tres familiere. Meme si le liquide dans le recipient n'est pas de
1'eau, il faut toujours avoir les reperes physiques qui peuvent servir comme moyens
de controle de la validite de notre resultat.
3.4.4
COMMENT TRAVAILLER AVEC

LES ERREURS SYSTEMATIQUES ?
Que faire avec les erreurs systematiques ? Comment peut-on travailler avec ? Si c'est
possible, il vaut mieux les eviter ou, au moins, essayer d'eliminer ces sources d'erreurs
(comme, par exemple, verifier la position du zero de Pappareil).
Parfois, on ne peut pas eliminer la source de ces erreurs mais on peut introduire une
correction permettant de diminuer Ferreur. Par exemple, si nous effectuons la mesure
d'une puissance electrique supposee constante a 1'aide d'un wattmetre. Au debut de
1'experience, nous avons note une valeur de 4,50 W et nous savons que 1'incertitude
sur cette valeur determinee a partir de la classe de 1'appareil est de 0,02 W. A la
fin de notre experience, nous voyons que le wattmetre indique une valeur de 4,42
W. Que devons-nous faire dans cette situation ? II faut debrancher le wattmetre du
circuit et voir la valeur affichee. S'il indique 0 , 0 7 W, cela signifie que le zero de
1'appareil a derive et que la puissance mesuree a la fin de 1'experience etait egale en
fait a 4,49 W. La difference par rapport a la valeur initiale est due, probablement, a la
precision de nos mesures. II faut obligatoirement noter ce phenomene dans le cahier
d'experience, mais pour les calculs ulterieurs on prendra une valeur de la puissance
P = (4, 50 0 , 0 2 ) W.
Si 1'appareil debranche indique une valeur 0,00 W, cela signifie que la difference entre
les deux valeurs de la puissance est due a la variation reelle de la puissance dans le
circuit. Dans ce cas, nous devons utiliser lors des calculs ulterieurs une valeur de la
puissance P = (4, 46 0,04) W ; dans notre cahier d'experience nous devons noter ce
phenomene et que 1'incertitude a ete calculee non pas a partir de la classe de 1'appareil
mais qu'elle a ete estimee grossierement par AP = (.Pmax -P m m)/2.
Les erreurs systematiques et statistiques sont de nature differente. Cependant, pour
des raisons de commodite, les deux s'ecrivent sous la meme forme Ax. II ne faut
pas oublier que, pour les erreurs statistiques, cette ecriture suppose une interpretation

precise en termes de probabilites. En revanche, pour les erreurs systematiques il n'en
est pas de meme : leurs valeurs sont obtenues par des estimations parfois grossieres
et subjectives. C'est pourquoi, dans la litterature scientifique, le resultat final d'une
experience se presente sous la forme
ou Ax s tat est une erreur statistique et Axi et Aa?2 sont des erreurs systematiques
introduites par des raisons differentes. Formellement, ces erreurs n'obeissent pas aux
memes lois que les incertitudes statistiques. En particulier, la formule de propagation
des erreurs (55) ne peut pas etre appliquee aux erreurs systematiques. On peut le
voir dans un exemple tres simple. A 1'aide d'un voltmetre nous avons mesure deux
tensions V\ = 7, 5 V et V-2 = 6, 3 V. Les incertitudes statistiques sont respectivement
AVi = 0,4 V et AV? = 0, 3 V. II existe aussi une erreur dans la position du zero du
voltmetre que nous estimons a AVb = 0,1 V. Ainsi, nous pouvons ecrire
Si nous voulons calculer la difference v V\ Vz, nous obtenons la valeur
La seule incertitude presente est statistique et calculee selon (56). Le decalage du

zero d'appareil ne peut pas influencer la difference des deux tensions.
Par contre, si nous voulons calculer la somme V = V\ + V?, le resultat sera
Les erreurs systematiques sur la position du zero s'ajoutent dans ce cas. En principe,
on peut utiliser la formule de propagation d'erreurs a condition d'introduire les correlations entre les erreurs. Dans notre cas, le module du coefficient de correlation est
egal a 1. Nous conseillons au lecteur interesse d'obtenir la formule correspondante.
L'ecriture d'un resultat sous la forme (122) est la seule acceptable. Neanmoins, le
travail avec une telle expression devient complique. C'est pourquoi on introduit aussi
une incertitude totale de 1'experience qui reunit toutes les sources d'incertitudes :
Cette expression n'est pas mathematiquement irreprochable mais elle est tres pratique, par exemple dans la comparaison rapide de deux resultats experimentaux.
Cette formule nous aide a comprendre, par exemple, quelle incertitude il faut choisir,
celle de 1'appareil ou celle de la lecture, quand nous effectuons des mesures avec les
appareils a aiguille. Supposons que notre appareil de mesure soit un amperemetre de la
classe 4 avec une pleine echelle de 5 A et que cette echelle possede 100 divisions. Ainsi
1'erreur d'appareil est egale a Aar app = 0, 2 A. Nous estimons que notre incertitude de
lecture est egale a la moitie de la division d'echelle : Aa?iect = 0, 025 A. L'incertitude
de mesure est alors
117
Si notre amperemetre est de la classe 0,1, alors Aa?app = 0, 005 A et
Ces deux examples ne sont pas ties realistes : ils servent surtout a illustrer la procedure
a appliquer pour estimer les incertitudes. En pratique, tous les appareils ont une
echelle telle que 1'incertitude de lecture soit compatible avec celle de 1'appareil :
Autrement dit, notre amperemetre devrait etre de la classe 1 ou 0,5. Dans ces conditions, on peut dire que 1'incertitude de mesure est approximativement egale a la
division d'echelle. Cette estimation est utilisee quand on ne dispose pas d'information
sur la classe de 1'appareil. Par exemple, pour les appareils avec Paffichage numerique,
1'incertitude peut etre estimee grossierement a 1 dans le dernier digit (a condition,
bien evidemment, que les indications de 1'appareil aient ete stables tout le long de la
mesure).
CHAPITRE 4
AJUSTEMENT DES PARAMETRES
On rencontre des nombreuses situations dans lesquels on des parametres sont determines a partir des donnees experimentales. Par exemple, on a une fonction qui depend
d'un parametre et on veut trouver la valeur de ce dernier pour que cette fonction reproduit bien les donnees. Habituellement, on cherche la meilleure valeur du parametre,
son incertitude et une maniere d'evaluer la qualite de la description des donnees
par la fonction choisie. Cette procedure est appelee ajustement des parametres.
Avant d'evoquer des approches concretes d'ajustement, defmissons quelques propretes
generales des parametres deduits des donnees experimentale.
En principe, differentes expressions peuvent etre proposees pour definir la valeur d'un
parametre a partir des donnees experimentales. Par exemple, si Ton fait une serie de
TV mesures d'une grandeur1 X pour laquelle on obtient les resultats xi,x^, ,XN,
on peut proposer comme valeur de X la moyenne de tous les resultats
ou la moyenne des valeurs maximale x max et minimale xmln
Xi et X<2 sont des estimations differentes de la meme grandeur X. Comme nous

1'avons deja discute dans ce livre, les deux estimations peuvent etre utilisees dans des
situations differentes.
On peut donner quelques importantes caracteristiques des telles estimations. La premiere est 1'existence d'une erreur systematique. Si
Ici, on parle d'une grandeur X pour utiliser les exemples deja abordes dans ce livre, mais on
aurait pu egalement parler d'un parametre X.
120
1'estimation est dite biaisee. On a deja vu 1'importance de cette notion dans la

discussion de la variance experimental e au paragraphe 3.1.1. Dans la definition (86),
on a du diviser la somme par N 1 et non pas par TV, precisement, pour eviter une
erreur systematique dans cette definition. Si 1'estimation n'est pas biaisee, on dit
egalement qu'elle est correcte.
La deuxieme caracteristique importante d'une estimation est son efficacite. Parmi
toutes les estimations possibles, 1'estimation efficace est celle dont la variance est la
plus petite.
Regardons le role de cette notion d'efficacite sur un exemple deja etudie : 1'addition
de resultats experimentaux (voir paragraphe 3.3.2).
Quelle est la meilleure fagon de calculer la moyenne de resultats experimentaux differents ? Soient N resultats a?i,X2, , #AT qui, en tant que variables aleatoires, ont
la meme moyenne ~x\ ~x^ = ... F/v = ^ mais des variances differentes aXl = <TI,
&x-2 ~2, ) &XN VNA partir de ces donnees, on peut construir une combinaison lineaire
dans laquelle les difFerents resultats sont ponderes par des poids inconnus pi. Choisissons ces poids en imposant comme condition Pefficacite de 1'estimation. Autrement
dit, on cherche a ce que la variance de X soit minimale.
Avant de calculer la variance de X, on impose que X ait la meme moyenne fi que les
{*.'} :
Cette condition donne
La variance de X se calcule tres facilement en ecrivant Tindependance des {xj} :
cr^x peut etre consideree commefonction de TV1 variablesindependantes pi,p2, >PN-i

(pN doit etre exprimee en fonction des autres variables a partir de (123)) :
Pour que &'x(piip2, -PN-i) soit minimale, il faut que les derivees partielles correspondantes soient nulles :
IV AJUSTEMENT DBS PARAMETRES
121
Ainsi on obtient N 1 conditions :
On pent ecrire a nouveau ce systeme sous la forme
ou A = pi + Pi + + PN-I- En faisant la somme de ces equations on obtient :
soit
Finalement, on trouve les poids pi qui sont inversement proportionnels aux variances
~2 .
Ainsi pour X et <r^, on retrouve 1'expression (118) :
On voit que ces caracteristiques (estimation biaisee, emcacite) sont tres importantes
pour pour optimiser le choix des parametres.
Nous allons exposer maintenant deux methodes les plus frequemment utilisees (la
methode des moindres carres et celle du maximum de vraisemblance) pour ajuster
des parametres.
122
4.1
METHODE DES MOINDRES CARREES
Revenons sur la question posee au debut de ce chapitre : si dans notre fonction

theorique, des parametres libres existent, comment pouvons-nous les choisir pour
avoir le meilleur accord avec les points experimentaux ? Par exernple, quelle est la
meilleure fagon de tracer une droite qui passe par les points experimentaux representes
sur la figure 4.1 ?
Figure 4.1 : Trace de la fonction lineaire
Nous disposons de n mesures independantes {y^v} = yr P '^2 X p > > ?/nXp d'une grandeur physique y pour n valeurs de son argument {%i} xi,a?2, ,xn. Supposons
que notre fonction y = y(x] depende aussi de k parametres {dj} ai, 02 ; , akCette formulation du probleme suppose que les valeurs y,- sont decrites par les variables
aleatoires tandis que les {#;} sont definis d'une fagon deterministe. En pratique, cette
hypothese signifie que les incertitudes Axt- sont negligeables. Ainsi les parametres {ctj}
sont egalement decrits par les variables aleatoires dont nous devons determiner non
seulement les valeurs moyennes mais aussi les variances.
4.1.1
IDEE DE LA METHODS DES MOINDRES CARRES
Dans un cas general, c'est un probleme assez complexe. C'est pourquoi nous faisons
1'hypothese supplementaire que y est une fonction lineaire de ses parametres {aj} qui
s'ecrit
IV - AJUSTEMENT DBS PARAMETRES
123
ou les fonctions {fi(x)} sont connues. II peut s'agir de monomes comme fi(x] xl,
dans ce cas nous cherchons les coefficients de developpement en serie de Taylor ou
de fonctions trigonometriques cosinus et sinus et obtenons un developpement en serie
de Fourier. Ainsi, malgre cette hypothese sur la linearite par rapport aux coefficients
{ctj}, notre probleme reste assez general et particulierement utile pour les applications
physiques.
Pour determiner k parametres, il faut que le nombre de points experimentaux n soit
egal ou superieur a k. Par exemple, pour une droite, nous avons besoin d'au moms
deux points pour definir la pente et la constante a 1'origine. Nous supposons done
que n > k.
Une approche assez generale pour choisir des parametres est donnee par la methode
des moindres carres. Dans cette methode on affirme que les meilleurs parametres {aj}
sont tels qu'ils minimisent la somme des carres :
C'est une sornme sur tous les points experimentaux i = 1, 2 , . . . , n qui reunit ainsi la
totalite de 1'information experimentale. Chaque terrne de la somme est le carre de
la difference entre la valeur mesuree y^xp et la valeur theorique y(a\, 0 2 , . . . , a^', Xi)
calculee pour cette valeur de Xi. Plus proches sont la theorie et 1'experience, plus petite
est la contribution de ce terme. Chaque terme est pondere par un poids conformement
a son erreur <T; (voir le paragraphe 3.2.2). Plus grande est <rz-, moins importante est
la contribution de ce point. De plus, nous supposons que nous connaissons les vraies
variances de chaque point af. En pratique, nous ne pouvons obtenir que les valeurs
experimentales (Ay 2 exp ) 2 .
Le critere utilise (le minimum de la somme des carres) n'est pas le seul critere possible.
Cependant, on peut demontrer un theoreme mathematique (dit de Gauss-Markov)
selon lequel les parametres determines par la methode des moindres carres sont les
plus precis : leur variance sera plus petite que les variances des coefficients obtenues
avec tous autres criteres. Cette affirmation reste vraie quelle que soit la forme de la
distribution de probabilite (autrement dit, il n'est pas necessaire de supposer que les
l^f XP } sient distributes selon la loi normale et le critere reste toujours valable). Malgre 1'importance de ce theoreme, nous ne donnons pas ici sa demonstration. Le lecteur
interesse peut la retrouver dans les livres de mathematiques. Notons simplement que
1'idee de la demonstration est proche de celle que nous avons utilisee au debut de ce
chapitre pour retrouver la formule (118). II faut noter que la methode des moindres
carres est souvent utilisee dans des situations ou ses conditions de validite ne sont pas
vraiment remplies (ou si 1'on n'est pas sur qu'elles soient remplies). La raison pour
cela en est simple : on ne dispose pas d'autre methode presentant la meme simplicite
et la meme puissance.
Dans ce livre, nous nous sommes surtout interesses a la demarche et nous allons
montrer maintenant comment appliquer la methode pour obtenir les valeurs des
parametres et leurs incertitudes.
124
Pour trouver le minimum de la somme
nous devons resoudre un systeme d'equations lineaires :
soit
Dans le cas general, II est plus facile de travailler avec une ecriture matricielle. Pour cela,
introduisons la matrice T de n lignes et de k colonnes :
le vecteur (soit la matrice d'une colonne et de n lignes)
et le vecteur (soit la matrice d'une colonne et de k lignes)
Avec ces notations matricielles, la somme R (125) s'ecrit
et les equations (126)
Nous voulons trouver le vecteur A a partir du vecteur connu 3^ En multipliant (127) par
la matrice (^7T^7)~1, nous obtenons le resultat :
125
Les vecteurs A et y sont lies par une transformation lineaire avec un Jacobien J, c'est
pourquoi nous pouvons utiliser la relation (65) pour les variances :
La matrice de covariance D(y] est diagonale car toutes les mesures y"p sont independantes. De plus elle est egale a la matrice unitaire vu la normalisation du vecteur y :
Ainsi, I'expression (129) prend la forme
Grace aux formules (128) et (130) nous avons trouve les valeurs des parametres {aj} et
leurs incertitudes. Bien que la matrice D(y] soit diagonale, la matrice D(A) ne Test pas
(les parametres {a,j} ne sont pas independants).
Explicitons (128) et (130) pour les cas les plus simples.
Fonction constants
la matrice T se degenere en une seule colonne :
La matrice (.77T.77) devient un nombre
De meme
Le resultat (128) prend la forme
126
et 1'expression (130) pour la variance devient
Si toutes les erreurs sont les memes, <TI = &i = . . . = an = a, nous retrouvons nos
formules pour la moyenne (82) et pour la variance (84) :
Fonction lineaire
la matrice F prend la forme :
la matrice (F^F] est une matrice (2 x 2)
et
La matrice inverse de (J-^ J-} qui est aussi la matrice de covariance (130) s'ecrit
ou
127
Les expressions (128) donnent
Les elements D(A)\\ et D(A}<2-2 de la matrice de covariance defmissent 1'incertitude

sur cti et sur 0,3
Dans le cas general, I'element D(A)i2 est different de 0, ce qui signifie que les deux
parametres a\ et a-i sont correles :
Remarque tres importante. Supposons que toutes les valeurs {yzexp} soient distribuees selon une loi normale. Les conditions de minimisation (126) ou (128) fixent k
relations entre les {yzexp}. Ainsi, la somme Rmin ou nous avons remplace les {aj} par
leurs valeurs venant de la minimisation (128) a une distribution x2 avec (n k) degres
de liberte, conformement a la formule (105). Pour les {yjxp} distributes selon une loi
normale, la notation standard de cette somme est x2 : Rmin = Xmin- Rappelons que
la valeur moyenne de Xmin seln (98) est
alors que son erreur est selon (99)
Autrement dit, si tous nos calculs sont corrects et coherents et si toutes nos hypotheses
sont verifiees, nous devons obtenir pour la somme de carres jR^Pn une valeur proche
de (n k ) .
A cause de cette relation avec la distribution % 2 , la methode de moindre carres est
egalement appelee la methode % 2 .
L'hypothese de la forme gaussienne des distributions y^ donne une autre interpretation
du critere du minimum des carres. La probability dP que les y{ se trouvent dans les
128
intervalles [yj xp , y^xp + dyi] s'ecrit alors
ou R est defini par (124). Ainsi le minimum de R(ai,a,2,... , a/j), fonction des
parametres 0 1 , 0 2 , . . . , o&, correspond au maximum de cette probability. On peut
dire que les "meilleures valeurs" de 0 1 , 0 2 , . . . , a^ sont celles qui attribuent la plus
grande probabilite au resultat observe.
4.1.2
EXEMPLE D'UNE FONCTION LINEAIRE
Sur la figure 4.1, nous avons presente un exemple de donnees experiment ales (10
points) pour lesquelles nous voulons ajuster une droite y = a\ + a-^x. Les valeurs
numeriques correspondantes sont reunies dans le tableau 4.2.
Pour une estimation rapide on peut utiliser une procedure presque intuitive. A Poeil
nu, on trace toute la famille des courbes lineaires qui passent par les points experimentaux et on choisit les valeurs maximale et minimale de a;. La valeur approximative
et son erreur peuvent etre definies simplement comme :
Dans notre cas, pour les lignes (1) et (2) on obtient
IIe niveau d'analyse
Dans le tableau 3.2, nous avons explicite tous les resultats intermediaires necessaires
pour calculer 01 et a 2 . L'application directe des formules (133) (134) nous donne le
resultat final :
Nous gardens deux chifFres significatifs dans 1'incertitude Aa2 afin d'avoir, pour les
grandes valeurs de x, le meme nombre de chifFres significatifs dans a^x et dans 01Nous pouvons estimer aussi le coefficient de correlation (22) de deux parametres
Sa valeur absolue est relativement grande, done ces parametres sont fortement correles.
Nous avons pris conscience de cette correlation lors de notre analyse rapide : pour passer
129

Tableau 3.2 : L'ajustement des coefficients ai et a? pour une droite
1
5,4
3,8
4,0
4,0
3,5
2,1
2,9
2,0
1,1
1,7
0,6
1,1
0,2
0,5
0,5
0,6
0,6
1,1
0,2
0,4
2,78
0,83
25
2,78 2,78 0,83
25
6,25
74,25
2,8
1,7
75
16
20
16,7 19,4
6,6
225
62,5
445,7
I?
225
64
100
100
136
53
2025
625
3334
t/r p
15,0
3,1
100
16
14
5,8
8,1
1,7
27,5 10,6
201,8
15,0
6,3
300
64
70
35
56,4 13,2 247,5 106,3
913,7
5,0
4,5
4,1
3,6
3,2
2,7
2,3
1,8
1,4
0,9
0,4
0,4
0,3
0,6
0,4
1,0
1,0
0,0
2,3
4,0
xt
vr
^r
(A^F
(Ayfxp)2
(A3/rp)2
(Aj/^ x p P
2/eXP'î
(Ay^p
J/*hi
-vjph42) 2
(r
(A2/r )
1 0
10
de la droite (1) a la droite (2) il faut changer non seulement la pente a^ mais aussi la
constante a\. Ceci n'est pas toujours le cas. Dans une situation ou I'origine x = 0 se
trouve a peu pres au milieu des points experimentaux, le passage d'une droite extreme a
une autre se fait seulement par la modification de la pente 02- L'erreur sur la constante et
le coefficient de correlation sont petits dans ce cas-la. Ceci peut egalement se voir grace
a la formule (135). Quand tous les {a?;} sont du meme signe, le coefficient de correlation
est grand. Quand I'origine x = 0 se trouve au milieu des points experimentaux, la somme
correspondante est proche de zero.
IIP niveau d'analyse
Dans Interpretation d'une experience de physique, nous ne pouvons pas nous limiter aux
calculs des parametres et a leurs incertitudes. Nous devons aussi nous assurer que notre
hypothese, selon laquelle les resultats experimentaux peuvent etre decrits par une fonction
lineaire, est correcte.
Supposons que notre collegue affirme que la meilleure approximation de ces points experimentaux n'est pas une fonction lineaire y(x) = a\ + a^x, mais une constante :
II applique les formules (131) et (132) et il obtient
130
II suffit de regarder la figure 3.3 pour voir qu'il se trompe. Son hypothese est fausse, mais
comment pouvons-nous le prouver ?
La difference entre nos deux resultats se trouve dans la valeur de la somme Xmin clu ''
faut calculer apres avoir choisi les valeurs des parametres {a z }. Conformement a (136)
et (137), dans notre ajustement de 10 points avec 2 parametres, on obtient Xmin = &
avec une incertitude A.Xmin = 4- La valeur obtenue dans la derniere ligne du tableau 3.2
(Xmm)exp 10 est en tres bon accord avec cette estimation (les valeurs de y\^ sont
calculees avec les parametres (139)). Par centre, pour I'analyse de notre collegue, on
s'attendrait a obtenir Xmin = avec ^Xmin ^ tandis que la valeur experimental est
(Xmm)eXP - 145 ! Voi|a la contradiction !
Nous pouvons reformuler ces conclusions en termes de probabilite car nous avons deja
etudie la distribution %2 au paragraphe 2.3.2. Dans le tableau 3.3, nous presentons les
valeurs %2 et les probabilites P pour que %2 soit plus grande ou egale a %2 avec un
nombre donne de degres de liberte.
Pour notre collegue, la probabilite de trouver x2 P'US grand que 21,7 pour v 9 est
inferieure a 1%. La probabilite de trouver x2 proche de 100 est alors negligeable. Ainsi
son hypothese est refutee.
Tableau 3.3 : Les valeurs x^> et les probabilites P pour que \2 > x?,
pour v degres de liberte pour une droite
0,98
0,90
0,80
0,70
0,50
0,30
0,20
0,10
0,01
0,001
0,040
0,185
0,429
0,752
1,134
1,564
2,032
2,532
3,059
3,609
4,178
4,765
5,368
5,985
6,614
7,255
7,906
8,562
9,237
0,016
0,211
0,584
1,064
1,610
2,204
2,833
3,490
4,168
4,865
5,578
6,304
7,042
7,790
8,547
9,312
10,085
10,865
11,651
12,444
0,064
0,446
1,005
1,649
2,343
3,070
3,822
4,594
5,380
6,179
6,989
7,807
8,634
9,467
10,307
11,152
12,002
12,857
13,716
14,578
0,148
0,713
1,424
2,195
3,000
3,828
4,671
5,527
6,393
7,267
8,148
9,034
9,926
10,821
11,721
12,624
13,531
14,440
15,352
16,266
0,455
1,386
2,366
3,357
4,351
5,348
6,346
7,344
8,343
9,342
10,341
11,340
12,340
13,339
14,339
15,338
16,338
17,338
18,338
19,337
1,074
2,408
3,665
4,878
6,064
7,231
8,383
9,524
10,656
11,781
12,899
14,011
15,119
16,222
17,322
18,418
19,511
20,601
21,689
22,775
1,642
3,219
4,642
5,980
7,289
8,558
9,803
11,030
12,242
13,442
14,631
15,812
16,985
18,151
19,311
20,465
21,615
22,760
23,900
25,038
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987
17,275
18,549
19,812
21,064
22,307
23,542
24,769
25,989
27,204
28,412
6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Dans notre cas, la probabilite de trouver x2 > 10 Pour v 8 est approximativement

egale a 25%. En fait, cette valeur est assez grande. II faut se rappeler que la distribution
X 2 est asymetrique et que ('interpretation des resultats avec cette distribution est un peu
particuliere. Pour illustrer ses proprietes dans notre cas, divisons les valeurs de %2 en 4
131
intervalles : /i = [0,4[, 72 = [4,8[, 73 = [8,12[ et 74 = [12,oo[. Le pas correspond a la

racine carree de la variance. A I'aide du tableau 3.3, nous evaluons les probabilites pour
que la valeur de x2 se trouve dans I'intervalle correspondant : P\ ~ 0,15, ^2 0,40,
PS ~ 0, 30, PI ~ 0,15. Nous voyons que les probabilites d'obtenir de tres grandes et de
tres petites valeurs de x2 sont faibles. Leur apparition signifie que le choix de la fonction
etait mauvais. En physique, on considere que le choix d'une fonction est correct si la
valeur de x2 Par degre de liberte est proche de 1.
II existe un autre argument important qui conduit a interpreter ces probabilites avec beaucoup de prudence. Rappelons que nous avons remplace partout dans nos calculs les vraies
variances cr? par les valeurs experimentales (Ay^ xp ) 2 , car nous ne connaissons que ces
dernieres. La difference entre a^ et Ay^xp peut etre de I'ordre de 10%. Ainsi nous sommes
capables de determiner %2 a 10 20% pres.
En conclusion, notons que la comparaison des deux premiers niveaux d'analyse montre
bien deux particularity caracteristiques de ce genre d'evaluation rapide : 1'approche
simple reproduit assez bien les valeurs de 01 et de 0,3, mais les incertitudes sur ces
valeurs peuvent etre tres differentes des valeurs exactes. L'avantage du troisieme
niveau reside en la possibilite de confirmer ou d'infirmer le choix de la dependance
fonctionnelle.
La methode des moindres carres est une approche tres efficace et elle est largement
suffisante pour les experiences faites en travaux pratiques. Neanmoins, il existe des
situations ou on ne peut pas 1'appliquer, par exemple lorsque le nombre d'evenements
est petit et que Ton ne peut pas evaluer correctement les incertitudes, ou quand les
incertitudes sur x ne sont pas negligeables x\,xi,... ,xn. Dans ces situations, on
utilise une autre approche plus generale basee sur la fonction dite de vraisemblance.
4.2
METHODE DU MAXIMUM DE VRAISEMBLANCE
Une des hypotheses utilisees pour developper la methode des moindres carres etait la
forme gaussienne de la distribution des y t -. On peut demontrer que cette condition peut
etre legerement affaiblie mais que, de toute facon, cette approche n'est pas valable pour
une distribution quelconque. C'est pourquoi on peut chercher a proposer une approche
plus generale du probleme.
4.2.1
L'IDEE DE LA METHODE
DU MAXIMUM DE VRAISEMBLANCE
L'idee de la methode du maximum de vraisemblance est assez simple (pour simplifier

encore la presentation, nous supposons qu'il n'y qu'un seul parametre a ; la generalisation
au cas de plusieurs parametres est relativement simple). Utilisons la demarche adaptee
a la fin du paragraphe 4.1.1, ou nous avons interprete la methode des moindres carres
comme celle qui donne la probabilite maximale de retrouver les valeurs experimentales
avec une fonction theorique.
132
En utilisant les fonctions de distribution /(# z ; a) des variables 2 independantes X{, on ecrit
la probabilite de trouver les valeurs de Xi dans les intervalles [#,,; + dxi]
Pour que cette probabilite soit maximale, il faut que la fonction
ait un maximum. Cette fonction s'appelle la fonction de vraisemblance, et la condition

du maximum de vraisemblance prend naturellement la forme
A partir de cette condition, on trouve la valeur du parametre a. II est parfois plus commode
de minimiser le logarithme de cette fonction que la fonction elle-meme.
On desire, par exemple, trouver la moyenne /j, inconnue d'une fonction de distribution
gaussienne. Supposons que la fonction de distribution est la meme pour tous les Xi (avec
la meme variance inconnue cr2) :
Le logarithme de la fonction de vraisemblance s'ecrit alors
et sa derivee
s'annule pour
Le signe^sur p souligne que la methode du maximum de vraisemblance nous indique comment estimer ce parametre ; autrement dit, elle fournit une estimation. Bien evidemment,
dans ce cas simple, on retrouve une expression connue de la moyenne.
Mais cette methode est vraiment tres generale. Par exemple, pour une distribution binomiale (qui est une distribution discrete !), on peut trouver la valeur la plus vraisemblable
2
Pour avoir la meme ecriture qu'au debut du chapitre, la variable aleatoire est representee par la
lettre x.
IV - AJUSTEMENT DES PARAMETRES
133
de la probabilite inconnue p si, au cours de N experiences, un evenement se produit x

fois. La fonction de vraisemblance, d'apres (30), s'ecrit
et son maximum correspond au maximum du logarithme
(dans cette expression, nous avons volontairement omis une constante qui ne depend pas
de p). Alors
pour np = x. Autrement dit, la valeur la plus vraisemblable de p est
Malheureusement, la methode du maximum de vraisemblance ne peut pas resoudre tous

les problemes. En particulier, les estimations obtenues par cette methode peuvent etre
biaisees. Revenons a I'exemple d'une distribution gaussienne avec le logarithme de la
fonction de vraisemblance
et determinons I'estimation pour la variance.

La derivation de cette expression par rapport a u conduit a ('equation
soit
Comme nous I'avons deja vu plusieurs fois, pour avoir une estimation correcte (non biaisee)
il faut diviser la somme par TV 1 et non pas par N (voir, par exemple, (85)).
En conclusion de ce paragraphe, donnons quelques remarques concernant les relations
entre les deux methodes proposes d'ajustement des parametres.
Tout d'abord, la methode des moindres carres peut etre consideree comme un cas particulier de la methode du maximum de vraisemblance : si Ton prend comme fonction de
134
distribution3 de y"p une gaussienne avec des "moyennes" y th (a;x z ) dependant de un (ou
plusieurs) parametre(s), on a
et le logarithme de la fonction de vraisemblance donne (a une constante pres) la somme

R (125) avec le signe moins. Ainsi le maximum de vraisemblance correspond au minimum
de la somme des carres.
Cette correspondance n'est pas surprenante, compte tenu de ('argumentation choisie pour
developper la methode du maximum de vraisemblance. De plus, elle permet d'utiliser la
puissance de la methode des rnoindres carres pour evaluer, par exemple, les incertitudes
sur les valeurs des parametres (voir le paragraphe suivant).
Enfm, si la methode du maximum de vraisemblance soit plus souple que la methode des
moindres carres, on doit se souvenir qu'elle n'est pas parfaite : les estimations qu'elle
propose peuvent etre biaisees et il est plus difficile d'avoir un jugement sur la qualite de
I'ajustement des parametres. Rappelons que la methode des moindres carres (par la valeur
de x2 obtenue) peut nous dire si notre hypothese sur la forme de la fonction a ajuster est
correcte ou non. Au contraire, dans la methode du maximum de vraisemblance, ce type
de critere n'existe pas.
4.2.2
INEGALITE DE CRAMER-RAO-FRECHET
Un aspect important de la methode du maximum de vraisemblance est le calcul des

incertitudes sur les valeurs des parametres.
Commencons par la fonction de vraisemblance d'une distribution normale (140) et cherchons ('incertitude sur p. Nous avons deja calcule le logarithme de la fonction de vraisemblance dans (141) de cette distribution. On peut ajouter a cette expression une constante
independante de p comme, par exemple,
ou p est defmi par (142). On obtient alors
La representation de cette fonction de p est une parabole dont le maximum se trouve au

point p = p. Pour N = 1, la parabole correspondante
est presentee sur la Figure 4.2.

3
Pour retrouver exactement les meme expressions que dans la methode de x 2 >
notations yj pour les variables aleatoires et x^ pour 1'argument des fonctions.
on
reprend les
IV AJUSTEMENT DES PARAMETRES
135
Figure 4.2 : Le logarithme de la fonction de vraisemblance d'une distribution gaussienne
Cette courbe est a la base de ('analyse des fonctions de vraisemblance dependant d'un
parametre. Le segment de droite reliant les deux branches de la parabole pour InL =
1/2, caracterise un intervalle de confiance
correspondant a une probabilite de 68,27 %, pour une distribution gaussienne. D'une facon
analogue, le segment de droite reliant les deux branches de la parabole pour \nL = 2
correspond a un intervalle de confiance de 95,45 %.
On peut demontrer pour une classe assez large de distributions (pas forcement gaussiennes) qui ne dependent que d'un seul parametre, qu'il est possible de trouver les intervalles de confiance de la meme facon.
Par exemple, dans le cas d'une distribution binomiale abordee dans le paragraphe precedent, on peut tracer le logarithme de la fonction de vraisemblance en fonction de p. Pour
x = 2 et A" = 10, cette fonction
est presentee sur la Figure 4.3 (dans cette expression, on a ajoute une constante pour
que la valeur maximale de InL(p) soit egale a 0). Ce n'est pas une parabole mais elle
lui ressemble quelque peu. D'ailleurs, on peut souvent approximer les fonctions de ce
type par des paraboles au voisinage du maximum (ce qui signifie qu'on peut approcher la
136
fonction de distribution par une gaussienne). La position du maximum de cette fonction

nous donne la valeur de I'estimation (143) : p= 0,2.
Figure 4.3 : Le logarithme de la fonction de vraisemblance

pour une distribution binomiale avec x = 2 et N = 10
A partir de cette courbe, nous pouvons facilement trouver tous les intervalles de confiance
desires. Parexemple, pour un intervalle de confiance de 95,45 %, la solution de I'equation
donne [0,036 ; 0,505]. On remarque que cet intervalle n'est pas symetrique par rapport
ap=0,2.
Une autre approche existe pour determiner ("incertitude sur la valeur des parametres dans
la methode du maximum de vraisemblance. Elle est beaucoup plus pratique, surtout
lorsque la fonction de vraisemblance depend de plusieurs parametres. Cette approche
porte le nom d'inegalite de Cramer-Rao-Frechet. Donnons sa demonstration dans le cas
ou la vraisemblance L(a) ne depend que d'un seul parametre a, mais le resultat peut etre
generalise au cas de plusieurs parametres.
Soit a I'estimation du parametre a. Cette estimation est biaisee par une erreur systernatique f3(a), c'est-a-dire que la valeur moyenne de a est egale a 4
Pour simplifier la presentation des formule, nous utiliserons 1'ecriture / dX qui signifie une
integrate multiple sur toutes les variables xt.
137
En derivant cette relation par rapport a a et utilisant le fait que I'estimation a n'est
fonction que des donnees experimentales {xi}, on obtient
Cette relation peut encore s'ecrire sous la forme
Calculons maintenant la derivee par rapport a a de la relation de normalisation de la

vraisemblance
que Ton peut mettre sous la forme
En multipliant cette relation par a et en le soustrayant de (145), on obtient
Si Ton applique I'inegalite de Schwartz 5
aux fonctions
on trouve
La premiere integrale represente la variance <r% du parametre a, pour laquelle on obtient

fmalement I'inegalite recherchee :
Pour demontrer cette inegalite, il suffit de remarquer que 1'integrale f ( X f ( x )

positive quelque soit la valeur de A. Ainsi 1'equation
+ g(x))2dx
est
n'a pas de racines reelles non nulles. Done, le discriminant doit etre negatif. Cette condition
nous donne I'inegalite recherchee.
138
La valeur moyenne du carre de la derivee logarithmique de la vraisemblance peut etre mise

sous la forme
(pour obtenir cette relation, il suffit de calculer la derivee de 1'equation (146) par rapport
a a).
Ainsi I'inegalite (147) prend une autre forme equivalente
Pour que cette inegalite devient une egalite, il faut que, dans I'inegalite de Schwartz, les
fonctions / et g soient les memes a un facteur multiplicatif A pres, c'est-a-dire que
Autrement dit, la vraisemblance doit avoir une forme gaussienne (a comparer avec 1'equation
(144))
Notons que, dans ce cas, la derivee seconde du logarithme de la vraisemblance est une
constante :
Ainsi, pour la variance, on obtient
soit
Comme exemple d'utilisation de la formule de Cramer-Rao-Frechet, considerons la distribution de Maxwell deja etudiee dans le paragraphe 3.1.3. Supposons que soit mesure le
module de la vitesse des molecule d'un gaz et que nous voulions determiner la temperature
a partir des resultats de N mesures effectuees : i;? (i 1,... , N).
139
La fonction de distribution f(v) du module de vitesse v s'ecrit
done, le logarithme de la vraisemblance prend (a une constante pres qui ne nous interesse
pas) la forme
L'estimation de la temperature T s'obtient en annulant la derivee par rapport a T de

cette expression :
Ainsi, on obtient
Cette expression correspond a I'intrepretation physique bien connue de la temperature

comme mesure de I'energie cinetique moyenne des molecules. On peut verifier aisement
que cette estimation n'est pas biaisee (elle ne contient pas d'erreur systematique), ce qui
signifie que sa valeur moyenne est egale a T :
Pour demontrer ce resultat, calculons la valeur moyenne de T en utilisant la forme explicite

de la distribution de Maxwell (151). La valeur moyenne du carre de la vitesse pour chaque
molecule i, est d'apres (27), egale a
On obtient, ainsi pour
Le parametre T n'est pas biaise, done,

De meme, on calcule la variance de ce parametre en utilisant la procedure appliquee pour
obtenir la formule (84) :
140
Pour obtenir ce resultat, nous avons utilise I'independance des variables Vi et le fait que,
d'apres (27),
D'apres la formule de Cramer-Rao-Frechet, la variance de la temperature est donnee par
On peut calculer facilement la denominateur de cette expression :
Ainsi, dans le cas de la distribution de Maxwell, I'inegalite devient I'egalite.

On voit que I'estimation de la temperature defmie par (152) est une estimation non biaisee
et efficace.
On peut aisement verifier que la condition (149) est satisfaite et que la vraisemblance
peut encore s'ecrire sous la forme (150). IMous laissons au lecteur le soin de retrouver la
valeur de A correspondante ainsi que le coefficient de normalisation.
CONCLUSION
En conclusion, on retiendra les points suivants.
Le probleme de la determination de la valeur d'une grandeur physique est inseparable
de celle de son incertitude car toutes deux font partie d'une description unique en
termes de probabilites. En utilisant ce langage probabiliste, nous ne pouvons plus
repondre facilement a la question par laquelle nous avons commence cet ouvrage :
"Quelle est la valeur de telle grandeur ?" Mais en donnant comme reponse la valeur et
son erreur (et les autres parametres si, par exemple, la distribution de probabilite n'est
pas gaussienne), nous apportons une information plus riche et surtout plus coherente.
Sans connaitre 1'incertitude il est impossible de savoir si Ton peut avoir confiance
en une valeur mesuree : avons-nous obtenu seulement un ordre de grandeur ou
avons-nous reussi a avoir plusieurs chiffres significatifs ? C'est 1'incertitude qui donne
1'information sur la fiabilite des resultats et sur leur qualite.
On comprend ainsi qu'il est toujours necessaire d'avoir une estimation, meme grossiere,
de 1'erreur experimentale. En fait, la determination de 1'incertitude n'est pas plus difficile que la determination de la valeur elle-meme. L'incertitude est evaluee avec sa
propre precision. C'est tres important dans les applications car il doit y avoir adequation entre la methode choisie pour obtenir la valeur moyenne avec son erreur et la
precision recherchee : il ne faut pas utiliser des methodes lourdes et complexes si 1'on
cherche une precision de 10%.
L'approche statistique est une approche extremement puissante et informative, mais
elle a ses limites : elle doit etre appliquee avec beaucoup de precautions aux erreurs
systematiques qui mettent en jeu des parametres plus difficiles a analyser.
Finalement, il faut souligner que rien ne peut remplacer le bon sens de 1'experimentateur, ni dans le choix de la methode d'analyse ni dans 1'appreciation des resultats.
Nous esperons que les differents aspects qui ont ete abordes contribueront a demystifier
un domaine qui rebute souvent les experimentateurs. II existe, certes, une litterature
abondante sur ce domaine, notamment dans les pays anglo-saxons, mais souvent tres
specialisee ou dispersee. Quelques ouvrages de reference sont donnes dans la bibliographic pour permettre d'approfondir certaines questions ou pour trouver d'autres
exemples d'application, mais les problemes les plus courants ont ete traites dans cet
ouvrage volontairement synthetique.
BlBLIOGRAPHIE
R.J. Barlow, "A Guide to the Use of Statistical Methods in the Physical Sciences",
Jonh Wiley fe Sons, Chichester, New York, Brisbane, Toronto, Singapore, 1989.
E. Belorizky, "Probabilites et statistiques dans les sciences experiment ales", Nathan,
Paris, 1998.
G. Cowan, "Statistical Data Analysis", Clarendon Press, Londres, 1987.
D.J. Hudson, "Lectures on Elementary Statistics and Probability", CERN 63-29,
1963 ;
D.J. Hudson, "Statistics Lectures II: Maximum Likelihood and Least Squares Theory",
CERN 64-18, 1964.
L. Lyons, "A practical guide to Data Analysis for Physical Sciences Students", Cambridge University Press, Oxford, 1991 ;
L. Lyons, "Statistics for nuclear and particle physicists", Cambridge University Press,
Oxford, 1986.
M. Neuilly et CETAMA, "Modelisation et estimation des erreurs de mesure", Lavoisier,
Technique et Documentation, Londres, Paris, New York, 1998.
M.R. Spiegel, "Theorie et applications de la statistique", Mc-Graw-Hill, Londres, 1987.
G.L. Squires, "Practical Physics", McGraw-Hill, Londres, 1968.
B.N. Taylor, Ch.E. Kuyatt, "Guidelines for Evaluating and Expressing the Uncertainty
ofNIST Measurement Results", NIST Technical Note 1297, 1994
(http://physics.nist.gov/cuu/Uncertainty/bibliography.html) ;
"Guide pour ./'expression de 1'incertitude de mesure", BIPM, CEI, FICC, ISO,
OIML, UICPA, UIPPA, ISBN 92-67-20188-3, 1995
(http://www.iso.ch/iso/fr/prods-services/otherpubs/Metrology.html).
B.L. Van der Waerden, "Statistique mathematique", Dunod, Paris, 1967.
INDEX
"Addition" de deux mesures
99
Ajustement des parametres
119
Chiffres significatifs
Coefficient de correlation
Coefficient de Student
Comparaison de deux resultats
Correlations
Covariance (voir aussi matrice de covariance)
Degre de liberte
78
24, 127
91, 97
96
23, 57, 125
29
91, 97, 127, 130
Distribution binomiale
31,49
Distribution constante
18, 66
Distribution gamma
40, 89
Distribution de Gauss (normale)
25, 42, 89
Distribution de Lorentz (de Cauchy)
37, 45, 89
Distribution de Maxwell
25, 84, 139
Distribution de Poisson
34, 49, 89
Distribution de Student
87, 89, 90
Distribution x2
82, 89, 127, 130
Ecart quadratique moyen
77
Ecart-type
18
Echantillon
76
Erreur
Erreur systematique
Estimation
8
9, 101, 105, 116
119
146
Estimation biaisee
120, 140
Estimation efficace
120, 140
Fonction de distribution
16, 17
Fonction de distribution de plusieurs variables
20
Fonction generatrice des moments
19
Fonction generatrice des moments centraux
20
Incertitude d'appareil
9, 102
Incertitude naturelle
8, 101
Incertitude statistique
9, 116
Intervalle de confiance
72, 91
Matrice de covariance
57, 125
2
Methode de moindres carres (% )
122
Methode de maximum de vraisemblance
131
Moments
19
Moments centraux
19
Moyenne
17
Moyenne experimentale
76
Niveau de confiance
Probabilite
Propagation des erreurs
72, 91
11
51, 53
Precision de la variance experimentale
78
Theoreme central limite
42
Variable (grandeur) continue
14, 16, 17
Variable (grandeur) discrete
14, 16, 17
Variables independantes
13, 21, 23
Variance
18
Variance experimentale
77
Vraisemblance
132
TABLE DES MATIERES

Preface
Pourquoi les incertitudes existent-elles ?
Chapitre 1. Rappels sur la theorie des probabilites

1.1. Probabilites
11
11
1.1.1. Definitions et proprietes
11
1.1.2. Grandeurs discretes et continues, fonction de distribution
13
1.1.3. Proprietes de la fonction de distribution
17
1.1.4. Fonction de distribution de plusieurs variables
20
1.1.5. Correlations
23
1.2. Distribution de Gauss
25
1.3. Auitres distributions elementaires
30
1.3.1. Distribution binomiale
31
1.3.2. Distribution de Poisson
34
1.3.3. Distribution de Lorentz
37
1.3.4. Distribution gamma
40
1.4. Theoreme central limite

Chapitre 2. Fonctions d'une variable aleatoire
2.1. Propagation des erreurs
42
51
51
2.1.1. Formule de propagation des erreurs
51
2.1.2. Exemples de propagation des erreurs
53
2.1.3. Cas des variables correlees
57
2.2. Distribution de probabilite d'une fonction de variable aleatoire
61
2.2.1. Fonction biunivoque
61
2.2.2. Cas general
62
2.2.3. Exemple physique
64
148

2.2.4. Precision de la formule de propagation des erreurs
2.3. Niveau de confiance et intervalle de confiance
Chapitre 3. Experiences avec un nombre limite de mesures

3.1. Echantillon, valeur moyenne et ecart-type
3.1.1. Definitions et proprietes
67
71
75
75
76
3.1.2. Precision de la variance experimentale et chifFres significatifs .. 78

3.1.3. Distribution x2
3.2. Distribution de Student
3.2.1. Petit nombre de mesures
3.3. Deux resultats experimentaux
82
87
90
96
3.3.1. Comparaison de deux resultats experimentaux
96
3.3.2. " Addition " de deux resultats experimentaux
99
3.4. Autres sources d'erreurs
101
3.4.1. Incertitudes d'appareil
102
3.4.2. Erreurs systematiques
105
3.4.3. Comment eviter les erreurs systematiques ?
109
3.4.3. Comment travailler avec les erreurs systematiques ?
115
Chapitre 4. Ajustement des parametres
119
4.1. Methode des moindres carres
122
4.1.1. Idee de la methode des moindres carres
122
4.1.2. Exemple d'une fonction lineaire
128
4.2. Methode du maximum de vraisemblance
131
4.2.1. Idee de la methode du maximum de vraisemblance
131
4.2.2. Inegalite de Cramer-Rao
134
Conclusion
141
Bibliographie
143
Index
145
Table des matieres
147

Analyse Statistique Des Données Expérimentales

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse Statistique Des Données Expérimentales

Transféré par

Droits d'auteur :

Formats disponibles

i

faraut 2006/9/18 11:05 page 112 #120

Comite de lecture pour

Grenoble Sciences rec.oit le soutien

ANALYSE STATISTIQUE DES

17, avenue du Hoggar

Ouvrages Grenoble Sciences edites par EDP Sciences

Grenoble Sciences - Rencontres Scientifiques

ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES

POURQUOI LES INCERTITUDES

ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES

POURQUOI LES INCERTITUDES EXISTENT-ELLES ?

(incertitude) supplementaire. Cette incertitude, due a 1'impossibilite de mesurer avec

ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES

deuxieme est 1'incertitude statistique due a 1'impossibilite de mesurer precisement la

On voit toute de suite que la probabilite varie de 0 a 1

ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES

On peut reecrire P(AB') comme

Parmi les na cas ou 1'evenement A se produit, il y a une proportion

I - RAPPELS SUR LA THEORIE DBS PROBABILITES

Ainsi, la derniere formule prend la forme

Si 1'evenement A n'a pas d'influence sur la probabilite d'evenement B, on dit alors

Dans ces conditions, on obtient pour la probabilite d'apparition de deux evenements

ce qui montre que les probabilites des evenements independants se multiplient. On

Vu que P(AB) = "P("roi de cceur") = 1/52, on conclut que

et ainsi, dans le jeu de 52 cartes, ces deux evenements sont independants.

On s'apergoit facilement que

GRANDEURS DISCRETES ET CONTINUES,

ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES

I - RAPPELS SUR LA THEORIE DBS PROBABILITIES

On peut continuer ainsi notre experience en diminuant 1'echelle et en augmentant le

ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES

Figure 1.3 : Fonction de la densite de probabilite

I RAPPELS SUE LA THEORIE DBS PROBABILITES

avons exactement la meme relation de normalisation :

ou 'P(xi) est la probabilite de trouver la valeur Xi.

PROPRIETES DE LA FONCTION DE DISTRIBUTION

Comment pouvons-nous caracteriser la fonction de distribution de probabilite f(x] ?

La barre sur x est la notation standard indiquant la valeur moyenne arithmetique.

ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES

pour une variable continue, et par

pour une variable discrete.

Prenons 1'exemple le plus simple : une distribution de probability constante (voir

La valeur de cette constante est definie par la condition de normalisation (5).

Figure 1.4 : Distribution constante

La valeur moyenne de x pour cette fonction de distribution est

I - RAPPELS SUR LA THEORIE DBS PROBABILITIES

Les deux seules caracteristiques,

La fonction exponentielle peut etre developpee en serie

On voit que [i'n est le coefficient

peut egalement etre determinee a partir

ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES

Done pour t = 0, on obtient

D'une facon analogue, on introduit la fonction generatrice des moments centraux :

La relation entre ces deux fonctions est done :

FONCTION DE DISTRIBUTION DE PLUSIEURS VARIABLES

Examinons maintenant la situation un peu plus complexe ou nous avons affaire a

avec la condition de normalisation :

I - RAPPELS SUR LA THEORIE DBS PROBABILITES

La generalisation de ces definitions au cas de N variables est evidente.

ou chaque fonction represente la densite de probabilite de la variable correspondante.

la somme des deux valeurs moyennes.

on procede aussi par definition :

ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES