Konstantin Protassov - Analyse Statistique Des Données Expérimentales

Collection Grenoble Sciences
DIRIGÉE PAR JEAN BORNAREL
ANALYSE STATISTIQUE
DES DONNÉES
EXPÉRIMENTALES
■ Konstantin PROTASSOV
EDP
SCH-.NCI-S
ANALYSE STATISTIQUE
DES DONNÉES EXPÉRIMENTALES
Grenoble Sciences
Grenoble Sciences poursuit un triple objectif :
♦ réaliser des ouvrages correspondant à un projet clairement défini, sans contrainte
de mode ou de programme,
♦ garantir les qualités scientifique et pédagogique des ouvrages retenus,
♦ proposer des ouvrages à un prix accessible au public le plus large possible.
Chaque projet est sélectionné au niveau de Grenoble Sciences avec le concours de
referees anonymes. Puis les auteurs travaillent pendant une année (en moyenne)
avec les membres d'un comité de lecture interactif, dont les noms apparaissent au
début de l'ouvrage. Celui-ci est ensuite publié chez l'éditeur le plus adapté.
(Contact : Tél. : (33)4 76 51 46 95 - E-mail : Grenoble.Sciences@ujf-grenoble.fr)
Deux collections existent chez EDP Sciences :
♦ la Collection Grenoble Sciences, connue pour son originalité de projets et sa qualité
♦ Grenoble Sciences - Rencontres Scientifiques, collection présentant des thèmes de
recherche d'actualité, traités par des scientifiques de premier plan issus de
disciplines différentes.
Directeur scientifique de Grenoble Sciences

Jean BORNAREL, Professeur à l’Université Joseph Fourier, Grenoble 1
Comité de lecture pour

"Analyse statistique des données expérimentales"
♦ J.P. BERTRANDIAS, Professeur à l'Université Joseph Fourier, Grenoble 1
♦ C. FURGET, Maître de conférences à l'Université Joseph Fourier, Grenoble 1
♦ B. HOUCHMANDZADEH, Directeur de recherches au CNRS, Grenoble
♦ M. LESIEUR, Professeur à l'institut National Polytechnique, Grenoble
♦ C. MlSBAH, Directeur de recherches au CNRS, Grenoble
♦ J.L. PORTESEIL, Professeur à l'Université Joseph Fourier, Grenoble 1
♦ P. VILLEMAIN, Maître de conférences à l'Université Joseph Fourier, Grenoble 1
Grenoble Sciences reçoit le soutien

du Ministère de l'Éducation nationale, du Ministère de la Recherche,
de la Région Rhône-Alpes, du Conseil général de l'Isère
et de la Ville de Grenoble.
ISBN 2-86883-456-6
ISBN 2-86883-590-2
© EDP Sciences, 2002
ANALYSE STATISTIQUE DES
DONNÉES EXPÉRIMENTALES
Konstantin Protassov
EDP
SCIENCES
17, avenue du Hoggar
Parc d'Activité de Courtabœuf, BP 112
91944 Les Ulis Cedex A, France
Ouvrages Grenoble Sciences édités par EDP Sciences
Collection Grenoble Sciences

Chimie. Le minimum vital à savoir (J. Le Coarer) - Electrochimie des solides
(C. Déportes et al.) - Thermodynamique chimique (M. Oturan & M. Robert) - Chimie
organométallique (D. Astruc)
Introduction à la mécanique statistique (E. Belorizky & W. Gorecki) - Mécanique
statistique. Exercices et problèmes corrigés (E. Belorizky & W. Gorecki) - La symétrie
en mathématiques, physique et chimie (J. Sivardière) - La cavitation. Mécanismes
physiques et aspects industriels (J.P. Franc et al.) - La turbulence (M. Lesieur) -
Magnétisme : I Fondements, II Matériaux et applications (sous la direction d'E. du
Trémolet de Lacheisserie) - Du Soleil à la Terre. Aéronomie et météorologie de l'espace
(J. Lilensten & P.L. Blelly) - Sous les feux du Soleil. Vers une météorologie de l'espace
(J. Lilensten & J. Bornarel) - Mécanique. De la formulation lagrangienne au chaos
hamiltonien (C. Gignoux & B. Silvestre-Brac) - La mécanique quantique. Problèmes
résolus, Tomes 1 et 2 (V.M. Galitsky, B.M. Karnakov & V.I. Kogan)
Exercices corrigés d'analyse, Tomes 1 et 2 (D. Alibert) - Introduction aux variétés
différentielles (J. Lafontaine) - Analyse numérique et équations différentielles
(J.P. Demailly) - Mathématiques pour les sciences de la vie, de la nature et de la
santé (F. & J.P. Bertrandias) - Approximation hilbertienne. Splines, ondelettes,
fractales (M. Attêia & J. Gâches) - Mathématiques pour l'étudiant scientifique,
Tomes 1 et 2 (Ph.J. Haug)
Bactéries et environnement. Adaptations physiologiques (J. Pelmont) - Enzymes.
Catalyseurs du monde vivant (J. Pelmont) - La plongée sous-marine à l'air.
L'adaptation de l'organisme et ses limites (Ph. Foster) - L'ergomotricité. Le corps, le
travail et la santé (M. Gendrier) - Endocrinologie et communications cellulaires
(S. Idelman & J. Verdetti)
L'Asie, source de sciences et de techniques (M. Soutif) - La biologie, des origines à
nos jours (P. Vignais) - Naissance de la physique. De la Sicile à la Chine (M. Soutif)
Minimum Compétence in Scientific English (J. Upjohn, S. Blattes & V. Jans) -
Listening Compréhension for Scientific English (J. Upjohn) - Speaking Skills in
Scientific English (J. Upjohn, M.H. Fries & D. Amadis)
Grenoble Sciences - Rencontres Scientifiques

Radiopharmaceutiques. Chimie des radiotraceurs et applications biologiques (sous
la direction de M. Cornet & M. Vidal) - Turbulence et déterminisme (sous la direction
de M. Lesieur) - Méthodes et techniques de la chimie organique (sous la direction de
D. Astruc)
Préface
Le but de ce petit ouvrage est de répondre aux questions les plus fréquentes que
se pose un expérimentateur et de permettre à un étudiant d’analyser, d’une façon
autonome, ses résultats et leurs précisions. C’est cet esprit assez “utilitaire” qui a
déterminé le style de présentation.
Dans l’analyse des données expérimentales, il existe plusieurs niveaux qui sont condi
tionnés par notre désir d’obtenir une information plus ou moins riche, mais aussi par le
temps que nous sommes prêts à y consacrer. Fréquemment, nous voulons juste obtenir
la valeur d’une grandeur physique sans nous préoccuper de vérifier les hypothèses à
la base de notre démarche. Parfois, cependant, les résultats obtenus nous paraissent
être en contradiction avec nos estimations préliminaires et ainsi nous sommes obligés
d’effectuer un travail plus scrupuleux. Ce livre est écrit pour permettre au lecteur de
choisir le niveau d’analyse nécessaire.
La partie “indispensable” du texte correspondant au premier niveau est composée
avec une police de caractères normale. Les questions qui correspondent à une analyse
plus approfondie et qui nécessitent un appareil mathématique plus complexe sont
composées avec une police de caractères spéciale. Cette partie du livre peut être sautée
lors d’une première lecture.
A la base de toute analyse des données expérimentales, on trouve une approche
statistique qui exige des considérations mathématiques rigoureuses et parfois com
plexes. Néanmoins, l’expérimentateur n’a pas toujours besoin de connaître les détails
et les subtilités mathématiques. De plus, rares sont les situations où les conditions
expérimentales correspondent exactement aux conditions d’application de tel ou tel
théorème. C’est pourquoi l’accent est mis non pas sur la démonstration des résultats
mathématiques mais sur leur signification et leur interprétation physique. Parfois,
pour alléger la présentation, la rigueur mathématique est volontairement sacrifiée et
remplacée par une argumentation “physiquement évidente”.
Le plan du livre est simple. Dans l’introduction, on présente les causes d’erreurs et
on définit le langage utilisé. Le premier chapitre rappelle les principaux résultats
de statistique essentiels à l’analyse des données. Le deuxième chapitre présente des
notions plus complexes de statistique, il est consacré aux fonctions de varables aléa
toires. Dans le troisième chapitre qui est la partie la plus importante, on s’efforce de
répondre aux questions les plus fréquentes qui se posent dans l’analyse des données
expérimentales. Le dernier chapitre est consacré aux méthodes les plus fréquemment
utilisées pour l’ajustement de paramètres.
6 Analyse statistique des données expérimentales
Bien que ce livre soit particulièrement adapté au travail d’étudiants de second cycle,
il pourra être également utile aux jeunes chercheurs, aux ingénieurs et à tous ceux
qui sont amenés à réaliser des mesures.
J’aimerais remercier mes collègues enseignants et chercheurs qui ont lu le manuscrit

et qui m’ont fait des propositions pour améliorer son contenu. Je voudrais exprimer
ma profonde gratitude à M. Elie Belorizky qui m’a encouragé à écrire ce livre et avec
qui j’ai eu des discussions très fructueuses.
Pourquoi les incertitudes
EXISTENT-ELLES ?
Le but de la majorité des expériences en physique consiste à comprendre un phénomène

et à le modéliser correctement. Nous effectuons des mesures et nous avons souvent
à nous poser la question : “quelle est la valeur de telle ou telle grandeur ?”, parfois
sans nous demander préalablement si cette formulation est correcte et si nous serons
capables de trouver une réponse.
La nécessité de cette interrogation préalable devient évidente dés qu’on mesure la
même grandeur plusieurs fois. L’expérimentateur qui le fait est fréquemment con
fronté à une situation assez intéressante : s’il utilise des appareils suffisamment pré
cis, il s’aperçoit que des mesures répétées de la même grandeur donnent parfois des
résultats qui sont un peu différents de celui de la première mesure. Ce phénomène est
général, que les mesures soient simples ou sophistiquées. Même les mesures répétées de
la longueur d’une tige métallique peuvent donner des valeurs différentes. La répétition
de l’expérience montre que, d’une part les résultats sont toujours un peu différents et
d’autre part cette différence n’est en général pas très grande. Dans la plupart des cas,
on reste proche d’une certaine valeur moyenne, mais de temps en temps on trouve
des valeurs qui sont différentes de celle-ci. Plus les résultats sont éloignés de cette
moyenne, plus ils sont rares.
Pourquoi cette dispersion existe-t-elle ? D’où vient cette variation ? Une raison de cet
effet est évidente : les conditions de déroulement d’une expérience varient toujours
légèrement, ce qui modifie la grandeur mesurable. Par exemple, quand on détermine
plusieurs fois la longueur d’une tige métallique, c’est la température ambiante qui peut
varier et ainsi faire varier la longueur. Cette variation des conditions extérieures (et la
variation correspondante de la valeur physique) peut être plus ou moins importante,
mais elle est inévitable et, dans les conditions réelles d’une expérience physique, on
ne peut pas s’en affranchir.
Nous sommes “condamnés” à effectuer des mesures de grandeurs qui ne sont presque
jamais constantes. C’est pourquoi même la question de savoir quelle est la valeur
d’un paramètre peut ne pas être absolument correcte. Il faut poser cette question
de manière pertinente et trouver des moyens adéquats pour décrire les grandeurs
physiques. Il faut trouver une définition qui puisse exprimer cette particularité
physique. Cette définition doit refléter le fait que la valeur physique varie toujours,
mais que ses variations se regroupent autour d’une valeur moyenne.
La solution est de caractériser une grandeur physique non pas par une valeur, mais
plutôt par la probabilité de trouver dans une expérience telle ou telle valeur. Pour
cela on introduit une fonction appelée distribution de probabilité de détection d’une
valeur physique, ou plus simplement la distribution d’une valeur physique, qui montre
quelles sont les valeurs les plus fréquentes ou les plus rares. Il faut souligner une fois
encore que, dans cette approche, il ne s’agit pas tellement de la valeur concrète d’une
grandeur physique, mais surtout de la probabilité de trouver différentes valeurs.
On verra par la suite que cette fonction — la distribution d’une valeur physique — est
heureusement suffisamment simple (en tout cas, dans la majorité des expériences).
Elle a deux caractéristiques. La première est sa valeur moyenne qui est aussi la
valeur la plus probable. La deuxième caractéristique de cette fonction de distribution
indique, grosso modo, la région autour de cette moyenne dans laquelle se regroupe la
majorité des résultats des mesures. Elle caractérise la largeur de cette distribution et
est appelée l’incertitude. Comme nous pourrons le voir par la suite, cette largeur a
une interprétation rigoureuse en terme de probabilités. Pour des raisons de simplicité
nous appellerons cette incertitude “l’incertitude naturelle” ou “initiale” de la grandeur
physique elle-même. Ce n’est pas tout à fait vrai, puisque cette erreur ou incertitude
est souvent due aux conditions expérimentales. Bien que cette définition ne soit pas
parfaitement rigoureuse, elle est très utile pour la compréhension.
Le fait que, dans la plupart des expériences, le résultat puisse être caractérisé par
seulement deux valeurs, permet de revenir sur la question avec laquelle nous avons
commencé notre discussion : “Peut-on se demander quelle est la valeur d’un paramétre
physique ?” Il se trouve que dans le cas où deux paramétres sont nécessaires et
suffisants pour caractériser une grandeur physique, on peut réconcilier notre envie
de poser cette question et la rigueur de l’interprétation d’un résultat en termes de
probabilités. La solution existe : on appellera valeur physique la valeur moyenne de la
distribution et incertitude ou erreur de la valeur physique la largeur de la distribution1.
C’est une convention admise de dire que “la grandeur physique a une valeur donnée
avec une incertitude donnée”. Cela signifie que l’on présente la valeur moyenne et la
largeur d’une distribution et que cette réponse a une interprétation précise en termes
de probabilités.
Le but des mesures physiques est la détermination de cette fonction de distribution
ou, au moins, de ses deux paramètres majeurs : la moyenne et la largeur. Pour
déterminer une distribution on doit répéter plusieurs fois une mesure pour connaître
la fréquence d’apparition des valeurs. Pour obtenir l’ensemble des valeurs possibles
ainsi que leurs probabilités d’apparition, on devrait en fait effectuer un nombre infini
de mesures. C’est très long, trop cher, et personne n’en a besoin.
On se limite donc à un nombre fini de mesures. Bien sûr, cela introduit une erreur
1 Pour des raisons historiques, les deux termes “incertitude” et “erreur” sont utilisés en physique
pour décrire la largeur d’une distribution. Depuis quelques années, les organismes scientifiques
internationaux essaient d’introduire des normes pour utiliser correctement ces deux termes (de la
même façon que l’on a introduit le système international d’unités). Aujourd’hui, on appelle une
erreur la différence entre le résultat d’une mesure et la vraie valeur de la grandeur mesurée. Tandis
que l’incertitude de mesure est un paramètre, associé au résultat d’une mesure, qui caractérise la
dispersion des valeurs qui peuvent raisonnablement être attribuées à la grandeur mesurée. Dans
ce livre, nous tâcherons de suivre ces normes, mais parfois nous utiliserons des expressions plus
habituelles pour un physicien. Par exemple, une formule très connue dans l’analyse des données
expérimenatles porte le nom de “la formule de propagation des erreurs”. Nous utiliserons toujours
ce nom bien connu bien que, selon les normes actuelles, nous aurions dû l’appeller “la formule
de propagation des incertitudes”. Le lecteur intéressé trouvera dans la bibliographie toutes les
références sur les normes actuelles.
Pourquoi les incertitudes existent-elles ? 9
(incertitude) supplémentaire. Cette incertitude, due à l’impossibilité de mesurer avec

une précision absolue la distribution initiale (naturelle), s’appelle l’erreur statistique
ou l’erreur accidentelle. Il est assez facile, du moins en théorie, de diminuer cette
erreur : il suffit d’augmenter le nombre de mesures. En principe, on peut la rendre
négligeable devant l’incertitude initiale de la grandeur physique. Cependant un autre
problème plus délicat apparaît.
Il est lié au fait que, dans chaque expérience physique existe un appareil, plus ou
moins compliqué, entre l’expérimentateur et l’objet mesurable. Cet appareil apporte
inévitablement des modifications de la distribution initiale : il la déforme. Dans le cas
le plus simple, ces changements peuvent être de deux types : l’appareil peut “décaler”
la valeur moyenne et il peut élargir la distribution.
Le décalage de la valeur moyenne est un exemple de ce qu’on appelle les “erreurs
systématiques”. Ce nom exprime que ces erreurs apparaissent dans chaque mesure.
L’appareil donne systématiquement une valeur qui est différente (plus grande ou plus
petite) de la valeur “réelle”. Mesurer avec un appareil dont le zéro est mal réglé est
l’exemple le plus fréquent de ce genre d’erreurs. Malheureusement, il est très difficile
de combattre ce type d’erreurs : il est à la fois difficile de les déceler et de les corriger.
Pour cela, il n’y a pas de méthodes générales et il faut étudier chaque cas.
Par contre, il est plus facile de maîtriser l’élargissement de la distribution introduit
par l’appareil. On verra que cette incertitude ayant la même origine que les incerti
tudes initiales (naturelles) s’ajoute “simplement” à celles-ci. Dans un grand nombre
d’expériences, l’élargissement dû à l’appareil permet de simplifier les mesures : sup
posons que nous connaissions l’incertitude (la largeur) introduite par un appareil
et que celle-ci soit nettement plus grande que l’incertitude initiale. Il est possible
de négliger l’incertitude naturelle par rapport à l’incertitude d’appareillage. Il suf
fit donc de faire une seule mesure et de prendre l’incertitude de l’appareil comme
incertitude de la mesure. Evidemment, dans ce genre d’expérience, il faut être sûr
que l’incertitude de l’appareil domine l’incertitude naturelle, mais on peut toujours
le vérifier en faisant des mesures répétitives. L’appareil peu précis ne permettra pas
d’obtenir les variations dues à la largeur initiale.
Il faut remarquer que la séparation entre incertitude d’appareillage et incertitude
naturelle reste assez conventionnelle : on peut toujours dire que la variation des
conditions d’expérience fait partie de l’incertitude d’appareillage. Dans ce livre, on ne
parle pas des mesures en mécanique quantique, où existe une incertitude de la valeur
physique à cause de la relation d’incertitude de Heisenberg. En mécanique quantique,
l’interférence appareil—objet devient plus compliquée et intéressante. Cependant nos
conclusions générales ne sont pas modifiées puisque, en mécanique quantique, la notion
de probabilité est non seulement utile et naturelle, mais elle est indispensable.
Nous avons compris que pour déterminer expérimentalement une valeur physique il est
nécessaire (mais pas toujours suffisant) de trouver la moyenne (la valeur) et la largeur
(l’incertitude). Sans la détermination de l’incertitude, l’expérience n’est pas com
plète : on ne peut la comparer ni avec une théorie ni avec une autre expérience. Nous
avons également vu que cette incertitude contient trois contributions possibles. La
première est l’incertitude naturelle liée aux changements des conditions d’expérience
ou à la nature-même des grandeurs (en statistique ou en mécanique quantique). La
deuxième est l’incertitude statistique due à l’impossibilité de mesurer précisément la

distribution initiale. La troisième est l’incertitude d’appareillage due à l’imperfection
des outils de travail de l’expérimentateur.
Un expérimentateur se pose toujours deux questions. Premièrement, comment peut-
on mesurer une grandeur physique, c’est-à-dire les caractéristiques de sa distribution :
la moyenne et la largeur ? Deuxièmement, comment et jusqu’où faut-il diminuer
cette incertitude (largeur) de l’expérience ? C’est pourquoi l’expérimentateur doit
comprendre les relations entre les trois composantes de l’incertitude et trouver com
ment les minimiser : on peut diminuer l’incertitude naturelle en changeant les condi
tions de l’expérience, l’incertitude statistique en augmentant le nombre de mesures,
l’incertitude d’appareillage en utilisant des appareils plus précis.
Cependant, on ne peut pas réduire les incertitudes infiniment. Il existe une limite
raisonnable de l’incertitude. L’évaluation de cette limite est non seulement une ques
tion de temps et d’argent dépensés, mais c’est aussi une question de physique. Il ne
faut pas oublier que, quelle que soit la grandeur à mesurer, nous ne pourrons jamais
tenir compte de tous les facteurs physiques qui peuvent influencer sa valeur. De plus,
tous nos raisonnements et discussions sont effectués dans le cadre d’un modèle ou,
plus généralement, de notre vision du monde. Ce cadre peut ne pas être exact.
C’est pourquoi notre problème est de choisir des méthodes expérimentales et des
méthodes d’estimation des incertitudes en adéquation avec la précision souhaitable et
possible.
Diverses situations existent selon la précision désirée. Dans la première nous voulons
seulement obtenir l’ordre de grandeur de la valeur mesurée ; dans ce cas, l’incertitude
doit aussi être évaluée grossièrement. Dans la seconde nous désirons obtenir une
précision de l’ordre de un à dix pour cent ; il faut alors faire attention en déterminant
les incertitudes, car les méthodes choisies doivent évoluer en fonction de la précision
requise. Plus on cherche de précision, plus la méthode doit être élaborée, mais le prix
à payer est la lenteur des calculs et leur volume. Dans la troisième nous cherchons à
obtenir une précision du même ordre de grandeur que celle de l’étalon correspondant
au paramétre physique mesuré ; le problème de l’incertitude peut alors être plus
important que celui de la valeur.
Dans cet ouvrage, nous considérons seulement les méthodes d’estimation d’erreurs
dans la seconde situation. La plupart des paragraphes apporte réponse à une ques
tion concrète : comment calcule-t-on les incertitudes pour une expérience avec un
petit nombre de mesures ? comment peut-on ajuster les paramètres d’une courbe ?
comment compare-t-on une expérience et une théorie ? quel est le nombre de chiffres
significatifs ? etc. Le lecteur qui connaît les bases de la statistique peut omettre
sans problème les premiers paragraphes et chercher la réponse à sa question. Dans
le cas contraire, l’ouvrage lui apporte l’information nécessaire sur les parties de la
statistique utiles au traitement des incertitudes.
Chapitre 1
Rappels sur la théorie
DES PROBABILITÉS
Dans ce chapitre, nous avons réuni des notions de base de la théorie des probabilités :
la définition d’une probabilité et ses propriétés élémentaires ainsi que l’introduction
des distributions les plus fréquemment utilisées dans l’analyse des données expéri
mentales. Parmi ces distributions, celle de Gauss joue un rôle très particulier, c’est
pourquoi la partie esssentielle de ce chapitre (paragraphes 1.2 et 1.4) lui est consacrée
car elle et est indispensable à la compréhension du reste du livre.
1.1 Probabilités
Pour pouvoir décrire une grandeur physique en termes de probabilité il faut rappeler
les définitions et les propriétés les plus simples. Pour les mesures les plus fréquentes
faites en laboratoire nous n’avons pas besoin de toute la panoplie des méthodes de la
statistique mathématique et notre expérience du monde est largement suffisante pour
comprendre et assimiler les propriétés fondamentales des probabilités. Logiquement,
chaque lecteur de ce livre a déjà eu l’occasion dans sa vie de jouer, au moins aux
cartes et ainsi la notion de probabilité ne lui est pas étrangère.
1.1.1 Définitions et propriétés
Supposons que l’on observe un événement E répété Ne fois (on dit que l’on prend un
échantillon de Ne événements). Dans n cas, cet événement est caractérisé par une
marque distinctive a (appelée aussi caractère). Si les résultats des événements dans
cette suite sont indépendants, alors la probabilité P(a) que la marque a se manifeste
est définie comme
n
P(a) = lim (1)
Nc-+oo
On voit toute de suite que la probabilité varie de 0 à 1
et que la somme sur tous les caractères (de même nature) possibles {«}, i = a, b, c,...
est égale à 1
= 1- (2)
i
Un exemple d’événement est le tirage d’une carte du jeu. La marque distinctive serait
la catégorie de couleur (pique, cœur, carreau ou trèfle). Pour un jeu de 52 cartes, la
probabilité d’une catégorie de couleur est égale à 1/4. On notera par A l’ensemble
d’événements où ce signe s’est manifesté.
Introduisons deux opérations très simples avec les probabilités. Définissons par A + B
l’ensemble des événements dans lesquels la marque a ou la marque 6, ou les deux, sont
présentes (ici a et b peuvent être de nature différente). Par exemple, a est une catégorie
de couleur, b est la valeur de la carte (le roi, la dame, etc.) De plus, définissons par AB
l’ensemble des événements dans lesquels ces deux signes se manifestent simultanément.
Alors,
P(A +B)= P(A) + P(B) - P(AB).
C’est-à-dire, pour trouver la probabilité qu’un événement possède au moins une des
marques nous devons, d’abord, ajouter deux probabilités T’(A) et 'P(B). Cependant,
certains événements peuvent avoir les deux signes en même temps et on les a comptés
deux fois. C’est pourquoi il faut soustraire la probabilité P(AB).
Prenons un jeu de 52 cartes avec 13 cartes dans chaque couleur (le roi, la dame, le
valet et 10 cartes numérotées de 1 à 10). Pour une carte tirée au hasard, la probabilité
d’être soit le roi soit une carte de cœur (a étant le roi, b une carte de cœur) est égale à
■p(“soit le roi, soit une carte de cœur”)

= P(“roi”) +P(“cœur”) -P(“roi de cœur”)
- A A _ A - 16
_ 52 + 52 _ 52 _ 52 '
Introduisons une notion un peu plus compliquée. Supposons que l’événement A puisse
se produire de na manières différentes, l’événement B de rib manières et l’événement
AB de nab manières. Si le nombre total de réalisations possibles est égal à N (ne pas
confondre avec le nombre Ne d’événements introduit au début du paragraphe), alors
T^(A) = P(AB) =
On peut réécrire P (AB) comme
p(AB) = ^ • ^ = p(A) •
A na
Parmi les na cas où l’événement A se produit, il y a une proportion nab/na où
l’événement B s’est également produit. On peut introduire la probabilité correspon
dante qui s’appelle laproba,bilitéconditionnelleP(A/B) de l’événement B, c’est-à-dire
la probabilité d’observer B sous réserve que A se soit produit.
I - Rappels sur la théorie des probabilités 13
Ainsi, la dernière formule prend la forme
P(AB) = P(A) -P(B/A).
Si l’événement A n’a pas d’influence sur la probabilité d’événement B, on dit alors

que les deux événements sont indépendants et
P(B/A) = P(B).
Dans ces conditions, on obtient pour la probabilité d’apparition de deux événements

à la fois P (AB) une relation très importante :
P(AB) = P(A) ■ P(B), (3)
ce qui montre que les probabilités des événements indépendants se multiplient. On

utilisera cette propriété plusieurs fois dans ce livre.
Considérons l’exemple de notre jeu de 52 cartes. Soit A “un roi”, B “une carte de
cœur”. Donc na = 4, nt> = 13, N = 52 et les probabilités correspondantes :
p‘-4’=ê- =
Vu que P(AB) = R(“roi de cœur”) = 1/52, on conclut que
= è = è H =
et ainsi, dans le jeu de 52 cartes, ces deux événements sont indépendants.

Ajoutons juste une carte à notre jeu — un joker qui n’appartient à aucune catégorie
de couleur. na, à nouveau, est égal à 4, rib à 13, mais N est égal à 53. Donc,
On s’aperçoit facilement que
p'A>p<B> = éS = é1vÀ=p'-4B’’ (4>
et ainsi ces deux événements ne sont plus indépendants dans le jeu de 53 cartes !
L’explication de cette différence est relativement simple : si nous savons qu’une carte
est un roi alors elle ne peut pas être le joker, et ainsi nous avons déjà obtenu une
certaine information pour déterminer sa catégorie de couleur.
1.1.2 Grandeurs discrètes et continues,

FONCTIONS DE DISTRIBUTION
Une grandeur physique peut avoir une valeur numérique discrète ou continue. Dans
le premier cas, on l’appellera grandeur “discrète”, dans le deuxième, “continue”. Les
exemples de grandeurs discrètes sont la catégorie de couleur, la valeur de la carte, si
Figure 1.1 : Histogramme de la première série de mesures de la longueur l : sont portées sur l’axe
des abscisses la valeur mesurée et sur l’axe des ordonnées la fréquence de son apparition fi •= nj/N
l’on reprend notre exemple, ou le comptage d’un détecteur, si l’on considère des exem
ples plus physiques. Mais plus fréquemment en physique, on mesure des grandeurs
continues, comme la longueur, la durée, le courant, etc.
Cette distinction des valeurs (ou des grandeurs) discrètes et continues est tout à fait
justifiée. Néanmoins, en physique, on décrit assez souvent une grandeur continue
par une valeur discrète et vice versa. De ce point de vue, cette séparation est, en
partie, conventionnelle et les propriétés (ou même l’écriture) valables pour les valeurs
discrètes seront utilisées pour les valeurs continues et inversement. On franchira cette
frontière régulièrement, même parfois sans se rendre compte de ce que l’on fait. Cette
attitude correspond à un parti pris de présentation. Le lecteur ne doit pas en déduire
que le passage à la limite s’effectue dans tous les cas sans difficulté.
Pour illustrer le caractère conventionnel de cette distinction, considérons un exem
ple de mesure de la longueur d’une chambre (il est évident que la longueur est
une grandeur continue) à l’aide d’un décimètre qui possède aussi des divisions cen
timétriques. Le fait même que nous disposions d’un décimètre avec des divisions nous
oblige à décrire une grandeur continue à l’aide de valeurs entières donc discrètes (on
aura un certain nombre de décimètres ou de centimètres). On peut aller plus loin et
dire que la représentation d’une longueur par un nombre fini de chiffres est un passage
obligé d’une valeur continue à une valeur discrète.
Bien sûr, il existe des situations où une valeur discrète ne peut pas être remplacée par
une valeur continue, par exemple dans le jeu de cartes. Cependant, ces situations sont
rares dans les expériences de physique. Nous observerons par la suite des passages des
valeurs d’un type à l’autre. Les propriétés de probabilité resteront les mêmes dans
I — Rappels sur la théorie des probabilités 15
les deux cas. C’est pourquoi nous donnerons les démonstrations générales pour les
variables continues et considérerons que les résultats s’appliquent aussi aux variables
discrètes.
Continuons notre expérience mentale. Supposons qu'après avoir fait une dizaine de
mesures rapides, nous ayons trouvé une fois la longueur de la chambre égale à 323
centimètres, cinq fois — 324 cm et quatre fois — 325 cm. Les résultats sont présentés
sur la figure 1.1 qui s’appelle un “histogramme”. Sur l’axe des abscisses, on montre la
valeur mesurée et, sur l’axe des ordonnées, le nombre relatif fi = ni /N (ni mesures
de la valeur l par rapport au nombre total N de mesures) c’est-à-dire la fréquence
d’apparition de chaque valeur. Le sol n’était pas plat, notre décimètre n’était pas
toujours droit, 1a. longueur était, la plupart du temps, comprise entre 324 et 325 cm
et nous ne savions pas dans quel sens il fallait l’arrondir. D’où la dispersion de nos
résultats.
Pour clarifier la situation nous avons pris un instrument de mesure gradué en mil
limètres et en augmentant sensiblement le nombre de mesures nous avons obtenu les
nouveaux résultats représentés sur la figure 1.2. Avec une autre échelle on retrouve
les mêmes tendances : les résultats sont légèrement différents et se regroupent autour
d’une certaine valeur.
Figure 1.2 : Histogramme de la deuxième série de mesures de la longueur l : sont portées sur l’axe
des abscisses la valeur mesurée et sur l’axe des ordonnées la fréquence de son apparition = ni/N
On peut continuer ainsi notre expérience en diminuant l’échelle et en augmentant le

nombre de mesures dans chaque série. La forme des histogrammes tendra vers une
forme en cloche qui, lorsque le nombre de mesures tend vers l’infini, peut être décrite
par une fonction continue f(x) (figure 1.3).
Chaque histogramme donne le nombre relatif de résultats se trouvant dans un inter-
y=
Figure 1.3 : Fonction de la densité de probabilité
valle donné. Ainsi, dans le cas d’un grand nombre de mesures et selon notre définition
(1), le produit f(x)dx donne la probabilité que la grandeur mesurée se trouve dans
l’intervalle de x à x + dx. La fonction f(x) représente la densité de probabilité.
On l’appellera aussi la fonction de distribution de probabilité, x varie au hasard et
s’appelle variable aléatoire.
D’après notre définition, la probabilité P de trouver la valeur dans l’intervalle compris
entre et x? est égale à
P = I f(x)dx
qui est la somme (l’intégrale) de f(x) pour toutes les valeurs de x entre xi et x?.
Selon (2), f(x) obéit à la condition
-|-oo
f(x)dx = 1, (5)
ce qui signifie que la probabilité de trouver une valeur de x quelconque est égale à 1.
Par commodité mathématique, nous avons pris ici des limites infinies pour l’intégrale.
Mais une grandeur physique, par exemple la longueur, peut ne pas varier dans ces
limites (elle ne peut pas être négative). Cela signifie que la fonction f(x) utilisée
pour décrire cette grandeur doit devenir très petite en dehors des limites que nous
choisissons effectivement.
Pour une grandeur discrète qui prend les valeurs numériques Xi = {æi, x?,...} nous
avons exactement la même relation de normalisation :

oo
£>(*«■)= 1- <5')
i=l
où P(xi) est la probabilité de trouver la valeur Xi.

On peut souligner que le passage d’un histogramme à une fonction continue est ana
logue à la notion d’intégrale comme limite de la somme des aires de rectangles élé
mentaires sous la courbe représentant une fonction quand le nombre de divisions tend
vers l’infini.
1.1.3 Propriétés de la fonction de distribution
Comment pouvons-nous caractériser la fonction de distribution de probabilité f(x) ?

Théoriquement, il faut la connaître à chaque point x mais il est évident que ceci n’est
pas réalisable expérimentalement : nous ne pouvons pas mesurer la probabilité pour
chaque valeur x.
A priori, cette fonction f(x) doit être positive, vu sa relation avec la probabilité,
tendre vers zéro à plus l’infini et à moins l’infini assez rapidement pour que l’intégrale
(5) existe, et avoir la forme de la courbe présentée sur la figure 1.3. Il est logique
d’introduire au moins deux paramétres qui décrivent la position de la courbe (c’est-
à-dire celle de son maximum) sur l’axe et son étalement.
Ainsi la première caractéristique de la distribution de probabilité f(x) est la valeur
moyenne de x
+oo
/ -oo
xf(x)dx. (6)
Chaque valeur possible de x est multipliée par la probabilité de son apparition f(x)dx
et la somme (l’intégrale) est effectuée sur toutes les valeurs possibles.
Pour une variable discrète
OO
(6Z)
i=l
La barre sur x est la notation standard indiquant la valeur moyenne arithmétique.

Bien évidemment, nous supposons que cette intégrale (cette somme) ainsi que les
intégrales (les sommes) que nous allons définir existent. C’est une hypothèse physique
naturelle mais nous discuterons aussi d’exemples où elle n’est pas valable.
L’étalement de la distribution peut être décrit par la variance ou le carré de i’écart-
type et défini par
+oo
(7)
/-OO
(x — x)2f(x)dx
pour une variable continue, et par

oo
D = a2 = ^Xi -x)2P(Xi) (7')
Ï=1
pour une variable discrète.

Pour chaque valeur de X, on considère l’écart par rapport à la valeur moyenne æ
et on calcule la valeur moyenne du carré de cet écart. Pourquoi avoir choisi cette
caractéristique plutôt qu’une autre ? Parce que la simple valeur moyenne de l’écart
est nulle. Nous aurions pu prendre comme caractéristique |æ - æ| mais nous verrons
à la fin de ce paragraphe que, sous cette forme, la variance ne présente pas certaines
propriétés remarquables et fort utiles.
Il est facile de démontrer qu’avec la définition (7) le carré de l’écart-type s’écrit
<r2 = (x — x)2 = X‘J — x2 (8)
Prenons l’exemple le plus simple : une distribution de probabilité constante (voir

figure 1.4) d’une grandeur X qui peut varier de a à b
1/(6 —a), si a < x < b, .
0, autrement. ' '
La valeur de cette constante est définie par la condition de normalisation (5).
/(®)
1
b—a
a x b x
Figure 1.4 : Distribution constante
La valeur moyenne de X pour cette fonction de distribution est
(10)
et sa variance :
= a:2 — æ2
1 b3 - a3 (b-a)2
(H)
3 (b-a) 12
Les deux seules caractéristiques, x et <r2, peuvent ne pas être suffisantes pour décrire
la fonction f(x). On peut alors définir les valeurs moyennes du cube, de la quatrième
puissance de l'écart etc. De cette façon, on obtient un moment central d’ordre n :
' +oo
f (x — x)nf(x)dx,
— oo
Hn = (x- x)n = < (12)
oo
J}(ars- - x)nP(xi).
. Î=1
Le mot “central" souligne le fait que le moment est calculé par rapport à la valeur moyenne
x. Notons que, par définition,
Po = 1, = 0, p2 = <^2- (13)
Parfois, il est utile d'introduire des moments sans rapport avec la valeur moyenne :
fi'n =
Les moments (ou les moments centraux), ainsi définis, déterminent la distribution /(a:)
d’une façon unique. On démontre facilement que si deux densités de probabilités /i(ar) et
fo(x) ont les mêmes moments, elles sont identiques j\(x) = f?(x). Laissons au lecteur
intéressé le soin d'effectuer cette démonstration.
La connaissance de tous les moments (ou {/Li }) donne une information complète
sur la fonction de distribution de probabilité f(x). Cependant, il est plus rationnel de
travailler avec une seule fonction contenant tous les moments dans son expression. Cette
fonction s'appelle la fonction génératrice des moments définie par :
+ OQ
f extf(x)dx,
— oo
= ext = < (14)
oo
E ex,t ’P(xl-).
i=l
La fonction exponentielle peut être développée en série
On voit que /i'n est le coefficient de tn/n\. /j.'n peut également être déterminée à partir
des dérivées de la fonction Af^(t) :
f(x)dx.
dtn
— oo
Donc pour t = 0, on obtient

4-oo
D’une façon analogue, on introduit la fonction génératrice des moments centraux :
Mx(t) = (15)
La relation entre ces deux fonctions est donc :
M'Jt) = extMx(t).
Conformément au théorème que l’on vient d énoncer, on peut affirmer que l égalité des
deux fonctions génératrices, Afx(t) = M2(t), implique l égalité des deux fonctions de
distribution de probabilité : fi(x) =
Pour un lecteur intéressé par les aspects mathématiques du problème, notons que cette
définition de la fonction génératrice n'est pas la seule utilisée dans la littérature. On peut
remplacer la fonction exponentielle d’un argument réel e^par la fonction d'un argument
purement complexe e,xt. Dans le premier cas, la définition est étroitement liée à la
transformation de Laplace, alors que dans le deuxième elle est liée à la transformation
de Fourier. Les deux transformations intégrales sont très proches l'une de l'autre : une
rotation de 7r/2 dans le plan complexe de t permet de passer d'une transformation à
l'autre.
L'introduction de la fonction génératrice peut être considérée comme une astuce permet
tant de faciliter les diverses démonstrations (ce que nous verrons plus tard). Mais on peut
lui donner une interprétation physique plus profonde qui sort du cadre de ce livre.
1.1.4 Fonction de distribution de plusieurs variables
Examinons maintenant la situation un peu plus complexe où nous avons affaire à

deux grandeurs (variables) x i et x2. Par exemple, nous mesurons la longueur et
la largeur d’une pièce. Ou encore, nous faisons deux mesures indépendantes de la
même grandeur : dans ce cas nous pouvons aussi dire que nous travaillons avec deux
grandeurs.
La construction et les définitions sont absolument analogues au cas d’une seule varia
ble. Pour deux grandeurs continues, on doit introduire la densité de probabilité qui
dépend de deux variables f(xi, x2). Ainsi la probabilité de trouver la première valeur
dans l’intervalle compris entre x± et aq + dx^ et la deuxième valeur dans l’intervalle
compris entre x2 et aq + dx2 est :
P = /(aq, x2)dx1dx2
avec la condition de normalisation :
4-oo />4-oo
f(x1,x2)dxidx2 = 1.
La généralisation de ces définitions au cas de N variables est évidente.

Parmi toutes les fonctions /(aq,æ2), il existe un cas particulièrement important et
intéressant en physique. C’est celui où deux variables aq et x2 sont indépendantes.
Alors, selon la formule (3), la fonction f(xi,x2) se sépare en un produit de deux
fonctions :
(16)
où chaque fonction représente la densité de probabilité de la variable correspondante.

Etudions les propriétés remarquables des valeurs moyennes et des variances dans
un cas particulier mais très fréquent en physique : la somme de deux grandeurs
indépendantes aq + 2:2- Ces deux grandeurs aq et aq peuvent être deux résultats de
mesure de la même grandeur x. Leur somme nous sera utile pour calculer la valeur
moyenne sur deux expériences.
L’hypot.hèse de leur indépendance nous permet d’utiliser la propriété (16) et, par
définition, la valeur moyenne de la somme est égale à
+ co /• + co
/ -00
+00
/
J — oo
y+oo
(ai! + aq)/(aq, x2)dxrdx2
/ /
-00 J — 00
+oc
(aii + aq)/i(aq) • f2(x2)dx1dx2
y+oo
/ /
-oo J — oo
+00
Xifi(xi) • f2(x2)dxidx2
r+oo
/
+00
-00
/
J — oo
x2j\(xi) ■ f2(x2)dxidx2
r+oo
/ -oo
a:i/i(a:i)da:i • /
+00
J — oo
y+oc
fa(x2)dx2
/ -OO
fi(xx)dxi ■ /
J — oc
x2f2(x2)dx2
la somme des deux valeurs

= moyennes.
âq-l + l- ï^ = âq + x-i,
Pour calculer la variance DX1+X2 = <7^.i+x2, on procède aussi par définition :
= (ai! + aq - (ïï + ^ïï))2

/■+cc /■+°°
= /
/ (aq - aq + aq - aq)2/(aq, aq)daqdaq
J — OO •/ —OO
y+00 y+00
/ [(aq - ÏT)2
J — OO •J — OO
+2(aq - aq)(aq - x2) + (æ2 - x2)2] f(x]_,x2)dx^dx2.

On sépare cette expression en trois intégrales et on utilise la propriété (16)
+00 r + oo
-Chr+æî
/ -oo
(æi
+00
f^x^dxx ■ /
J — oo
fo(x-2)dx-2
y+oc
/+00
-oo
-x^)fi(xr)dxr
(æi
y+oc
/
J —oo
(x2— x2)f2(x2)dx2
/ -OO
fi(xx)dxi • /
J — oo
(x2 —'x2)‘2f2(x2)dx2
' 1 + 2 • 0 • 0 + 1 • <7^ = <7^ _|_ <7^ = .

On obtient finalement une relation simple
(17)
qui montre que la variance de la somme de deux grandeurs indépendantes est égale à
la somme de leur variance. Cette formule est la base du traitement des incertitudes
et elle est utilisée continuellement en physique.
On voit d’ailleurs l’avantage d’une telle définition de la variance. Nous avons dit
qu’il était “a priori” possible de caractériser l’étalement d’une distribution /(a:) par
D' = |æ — âij, par exemple. Mais, avec cette définition, on ne peut obtenir une relation
aussi simple que celle donnée par la formule (17).
Par analogie, pour N grandeurs indépendantes a?i, £2, • • • , %n, on a
(18)
On introduit la somme
de ces grandeurs. La moyenne de la somme X est égale à
(19)
c’est-à-dire à la somme des moyennes et la variance de X est donnée par
(20)
soit la somme des variances.
Pour la fonction génératrice des moments

on obtient facilement d’après (18)

N
JJ fi(xi)dxi
2=1
N
=n<w-
£=1
Cela signifie que la fonction génératrice des moments d'une somme de grandeurs indépen
dantes est égale au produit des fonctions génératrices individuelles.
De plus, si toutes les grandeurs dans cette somme ont la même fonction de distribution
fi(xi) = h(x2) = ...= fN(xN) = f(x),

on a la même fonction génératrice de moments pour toutes les grandeurs
Ki(t) = K2(t) = ...KN(t) = <(t),
et pour la somme X on obtient une expression encore plus simple
(21)
1.1.5 Corrélations
Jusqu'à présent, nous n’avons considéré que des exemples de grandeurs physiques (varia
bles aléatoires) indépendantes. Mais on rencontre aussi des variables corrélées (c'est-à-dire
non indépendantes). A la fin du paragraphe 1.1.1 (voir (4)), nous avons vu un tel exemple
avec une carte ajoutée à un jeu normal de 52 cartes, ce qui entraîne que la probabilité de
deux événements A et B simultanés V(AB) n’est pas égale au produit des probabilités
P(A) et V(B) :
T’(.A) P(B) < P(AB).
Cette inégalité est le signe de deux événements corrélés.
On peut penser que de tels exemples sont relativement rares en physique. En effet, dans
la plupart des situations réelles, nous avons affaire à des variables aléatoires indépen
dantes comme les mesures d’une même grandeur {a:,}. Bien évidemment, il existe des
situations où une mesure peut influencer la suivante, comme la mesure d’un courant avec
un ampèremètre électromécanique (de mauvaise qualité) dont le ressort est usagé et se
déforme facilement. Dans ce cas, chaque mesure risque de dépendre des précédentes. La
statistique n'est d'aucun secours dans ce type de situations. C'est un exemple d’erreur
systématique qu'il est assez difficile de détecter et de corriger. En physique expérimen
tale, il existe beaucoup de situations où, pour une expérience précise, on doit utiliser un
unique appareil dont on ne connaît pas très bien les propriétés. Ce manque de connais
sance de l'appareillage conduit parfois à des erreurs systématiques et même à de fausses
découvertes.
Néanmoins, en statistique, il existe “un mécanisme" tout à fait naturel et fréquent d'appa
rition des corrélations. Même si les variables {a:;} sont indépendantes, leurs fonctions
peuvent être corrélées.
Nous caractériserons la dépendance entre deux variables Xi et Xj (avec des valeurs
moyennes y, et y, et des variances <r? et <r?) par le coefficient de corrélation qij défini
par :
îij — (xt fj-i)(xj fj.j). (22)

(7j
Les écarts quadratiques moyens 07 et aj sont introduits dans la définition par commodité.
Nous utiliserons aussi la covariance de deux variables :
COV ( Xî, Xj ) — (x> yi'ÿ (*^j P'j ) — Xj y; p>j. (23)
En particulier, pour i = j
cov(arj, ar2) = <r? et qtj = 1. (24)
Si les variables x, et Xj sont indépendantes, le coefficient de corrélation est nul : q,j — 0.

Si ars est proportionnelle à Xj, c'est-à-dire ars = axj + b, ce coefficient est égal à ±1 ;
qtj = +1 si a > 0 et qtj = —1 si a < 0. Dans un cas général,
0 < |<Zvl < 1.
Prenons un exemple, presque trivial, qui donne une illustration de ce mécanisme d'appa
rition des corrélations. Soient xi et .r2 deux grandeurs physiques indépendantes avec la
même moyenne y et la même variance <r2. Introduisons deux grandeurs yi et î/2 qui leur
sont liées par une relation linéaire :
Vi = anxi + « 12 ■'■■2
<
y-> = asiî + a22ai2
Calculons la covariance cov(î/i,î/2) (23).

Tout d'abord, déterminons les moyennes de yi et de j/2 :
2/1 = aîiXi -é a 12X2 = aiixi -é 012X2 = («n + 012)^ ,
y2 = O21X! + 022X2 = («21 + a22)y-

On a alors :
cov(j/i,j/2) = (yi-ÿï)
- failli - y) + 012(2:2 - p)][a2i(a:i - y) + «22(2:2 - y)]
= ai1a2i(2ri - y)3 + (ana22 + a12a2i)(xi - y)(x2 - y)
+012022(2:2 - y)2
= «11«21 • <72 + (011022 + 012021) • 0 + 012022 ' O"
= (anO2i + a12a22)a2 ± 0.
Autrement dit, dans le cas général (si 011021 + 012022 / 0), les deux variables j/i et y2
ne sont pas indépendantes mais sont corrélées.
Cet exemple donne une illustration de la notion de corrélation.
Néanmoins, la notion d’indépendance de deux variables n'est pas toujours évidente. Con
sidérons l’exemple simple de la corrélation des deux variables x et y — x3. A priori, nous
pouvons penser qu elles sont corrélées.
D'après la définition (23), la covariance est donnée par
cov(ar, y) = (x — .F) [y — y) = xÿ -x-ÿ=x3 — x3-x.

Dans le cas général, cette expression est différente de zéro, c’est-à-dire que x et x2 sont
effectivement corrélées. Mais il suffit que l’on prenne le cas particulier d'une fonction de
distribution f(x) paire, par exemple la distribution de Gauss (voir paragraphe suivant)
avec y = 0, pour que x3 = x = 0 et pour que la corrélation disparaisse ! Cet exemple
n'est pas très exotique : dans le cas d’un gaz dont les vitesses des molécules obéissent à
la distribution de Maxwell (voir paragraphe 3.1.3), les composantes de la vitesse (i^, vy
et v2) et l'énergie (E = m(v2 + v2 + v|)/2) ne sont pas corrélées. A posteriori, on peut
comprendre qualitativement ce résultat : la valeur de x est caractérisée par son module
et son signe tandis que x2 n'est caractérisé que par le module de x. Les signes + et —
sont équiprobables en vertu de la symétrie de f(x), c'est pourquoi x et ,f“ se trouvent
décorrélées.
1.2 Distribution de Gauss

La première distribution continue que l’on étudie ici est la distribution de Gauss.
Cette distribution est la plus fréquente en physique, c’est pourquoi, dans la littérature,
on l’appelle aussi la distribution normale. Dans cet ouvrage, nous utiliserons les
deux dénominations. Nous verrons, dans le paragraphe suivant consacré au théorème
central limite, pourquoi cette distribution joue un rôle si particulier. Pour l’instant
nous étudions surtout ses propriétés.
Figure 1.5 : Les distributions de Gauss pour plusieurs jeux de paramétres m et <j
Supposons qu’une valeur physique varie d’une façon continue dans un intervalle de
moins l’infini jusqu’à plus l’infini1. La densité de probabilité /(a:) de trouver la valeur
physique aléatoire x pour une distribution normale est donnée par
/(*) =
2<r2 J
La distribution normale est caractérisée par deux paramètres y et a. Leur sens est
clairement visible sur la figure 1.5 où nous avons présenté plusieurs distributions
correspondant à des y et a différents : y donne la position de la distribution, a son
étalement.
Notons que le facteur devant la fonction exponentielle est choisi pour que la probabilité
totale soit normée :
f (^~^)2
f(x)dx 1 2<r2 e y dy = 1.
1 Nous avons déjà dit, au paragraphe précédent, que la plupart des valeurs physiques varient dans
des limites finies, mais, dans les situations expérimentales concrètes, les valeurs réelles ne sont
jamais proches des limites et ainsi l’hypothèse d’infinité de l’intervalle de variation n’a aucune
conséquence sur l’applicabilité des résultats obtenus.
Rappelons au lecteur que le calcul de l'intégrale
f + C° 2
I= / e~x dx (25)
J — oo
qui se rencontre souvent en physique est simple.
Il suffit de considérer /2 (intégrale sur tout le plan xy) et de passer en coordonnées polaires
dans l'intégrale double :
dxdye +y )
D'où I = y/îr.
Calculons la moyenne et la variance de cette distribution. Par définition, la valeur

moyenne de x est égale à
= 0 + y ■ 1 = y.
Ainsi, le paramètre y peut être interprété comme la valeur moyenne de x. Notons

aussi que x = y est le maximum de la fonction f(x) et que cette distribution est
symétrique par rapport à ce point.
De la même façon, on calcule la variance de la distribution normale :
+°° (z-rf
- oo >/27r<7
= 2<r2—1 = f/ + 0° ÿ2e~y2 dy = <r2.
J—oo
(La dernière intégrale peut être calculée, par intégration par parties.) Nous voyons
pourquoi, dès le début, nous avons désigné par a le deuxième paramètre de cette
distribution.
Il est relativement facile de calculer des moments d’ordre plus élévé de la distribution de
Gauss. Il faut introduire la fonction génératrice des moments centraux qui, par définition,
est égale à
Pour la calculer il suffit de faire le changement de variable y = (x — y)/\/2a et de

compléter l’argument de la fonction exponentielle en faisant apparaître (y — fft/y/^)2.
Ces changements de variable nous permettent de retrouver l'intégrale (25).
Ainsi, pour la fonction génératrice des moments centraux on obtient l'expression
( 2,2 ï 00 , / 2,-2\k 00 ,
— exp =£1 ’ )
(4 ™
k 1 fc=Q v 7 n=0
On voit que tous les moments impairs sont nuis (/i2n+i = 0), ce qui est évident en vertu
de la symétrie de la distribution normale par rapport à x = y. Les moments pairs sont
(27)
Pour voir l'utilité des fonctions génératrices, prenons un exemple qui interviendra au
paragraphe suivant. Considérons la distribution d’une grandeur physique y = ax + b qui
est une fonction linéaire d'une autre grandeur x distribuée selon la loi normale avec une
moyenne y et une variance a2.
La fonction génératrice des moments est égale à
M' = = ebteaxt = ebt ,
donc
= ebt Mx(at).
Selon notre hypothèse, la distribution de x est une distribution de Gauss (26). D'où
(28)
Cette expression prouve que la grandeur y a aussi une distribution normale de valeur
moyenne ay + b et de variance a2a2. Les deux résultats sont presque évidents : la trans
lation change juste la valeur moyenne et le changement d’échelle multiplie la moyenne par
a et la variance par a2 (le résultat était prévisible vu les dimensions de ces grandeurs).
Comme la distribution de Gauss est entièrement déterminée par les deux valeurs y, a
et que la plupart des grandeurs physiques peuvent être décrites par cette distribution,
les résultats expérimentaux peuvent, être caractérisés par deux valeurs seulement . Par
convention, on présente ces derniers sous la forme2
xexp = x ± A.r = y ± a. (29)
Il faut expliquer ce que cette écriture symbolique signifie. Premièrement, en présen

tant un résultat de cette manière, on suppose que la distribution de la grandeur
2 Les normes ISO proposent d’utiliser la notation ux plutôt que Arr. Cependant, dans ce livre,
nous garderons l’écriture Arr plus habituelle pour les physiciens.
physique mesurée est gaussienne. Deuxièmement, on prend la valeur moyenne de la

distribution pour la valeur “réelle” de la grandeur x et sa largeur a pour l’erreur. Cette
forme d’écriture est une convention générale que tout le monde accepte en gardant
bien en tête ces hypothèses. On ne peut pas dire que la valeur “réelle” de x varie de
la valeur minimale xmin = fi — a à une valeur maximale xmax = fi + a. C’est faux !
Sous cette écriture se cache une interprétation en termes de probabilité.
Rappelons que la probabilité de trouver une valeur physique dans un intervalle de zq
à £2 est égale à l’intégrale de la densité de probabilité dans ces limites. Pour une dis
tribution donnée, on peut calculer les intégrales qui nous intéressent numériquement.
En particulier, pour la distribution de Gauss (figure 1.6), la probabilité de trouver la
valeur x dans l’intervalle [p — a, p + <r] est :
V [fj. - <r, fi + <r] — 68,27%,
dans l’intervalle [// — 2<r, fi + 2a] :
V [fi - 2a, fi + 2a] - 95,45%,
dans l’intervalle [p — 3<r, fi + 3<r] :
V [fi - 3<r, h + 3<r] — 99,73%.
Ces résultats montrent encore une fois à quel point l’interprétation fi + a et fi — a

comme valeurs maximale et minimale possibles de x est approximative.
Pour une distribution de Gauss, la probabilité de retrouver x en dehors de cet in
tervalle est égale à 1/3, c’est-à-dire très importante ! Autrement dit, si l’on mesure
Figure 1.6 : La distribution de Gauss

une grandeur x plusieurs fois, environ un tiers des résultats se trouve en dehors de
p ± <t et seulement deux tiers dans l’intervalle. De ce point de vue, il n’y a rien de
dramatique si le résultat sort de cet intervalle. Par contre, si le résultat se trouve
aussi en dehors de l’intervalle [/z — 3<r, p + 3a], la situation devient beaucoup plus
préoccupante. La probabilité d’un tel événement pour la distribution de Gauss est
seulement de 0,3 %, c’est-à-dire qu’elle est négligeable, vu le nombre d’expériences
réalisées habituellement au laboratoire (de quelques unités jusqu’à quelques dizaines).
L’apparition du résultat en dehors de l’intervalle de 3a signifie, la plupart du temps,
qu’il existe une erreur soit dans le déroulement de l’expérience, soit dans les calculs
de n et de a.
Dans le paragraphe 3.1, nous reviendrons sur la définition de n et de a à partir d’un
nombre limité de mesures ainsi que sur la précision d’une telle détermination. Si l’on
ne peut obtenir la valeur de a expérimentale qu’à un facteur 2 près, on ne doit pas
prendre à la lettre les valeurs des probabilités obtenues avec un a théorique.
Pour l’instant, que retenir sur la distribution de Gauss (ou normale) ? D’abord, le fait
qu’une très grande majorité de grandeurs physiques se décrit, au moins en première
approximation, par cette distribution. Cette circonstance explique son importance en
physique. Cette distribution est caractérisée par deux paramètres : la valeur moyenne
H associée à la “vraie” valeur de la grandeur physique et la largeur a associée à l’erreur
expérimentale. C’est la raison pour laquelle le résultat d’une expérience s’écrit sous
la forme y, ± a ; l’interprétation d’une telle écriture est que la probabilité pour que la
valeur physique mesurée se trouve dans cet intervalle est égale à 2/3. Si le résultat
sort de l’intervalle /j. ± 3a, alors il est très probable qu’une erreur se soit glissée dans
nos mesures ou dans les calculs de /j. ou de a.
1.3 Autres distributions élémentaires
Au paragraphe précédent, nous avons souligné que la distribution de Gauss est la

plus fréquente dans la nature. Cependant, elle n’est pas la seule possible. D’autres
distributions de probabilité interviennent fréquemment dans la vie courante ; men
tionnons en particulier les distributions de Student, de Poisson, de Lorentz, ainsi que
la distribution binomiale et celle du x2-
Les distributions de Student et du x2 sont indispensables en physique, mais elles
sont relativement complexes. Nous leur consacrerons les paragraphes spéciaux dans
le troixème chapitre du livre où nous aborderons des problèmes plus avancés.
La distribution binomiale sera la première étudiée parmi celles qui décrivent des
grandeurs discrètes. Il faut dire qu’elle n’est, pas fréquemment rencontrée dans les
expériences mais elle est simple et instructive.
Nous obtiendrons la distribution de Poisson comme une certaine limite de la distri
bution binomiale. Cette “transformation” sera le premier exemple du passage d’une
distribution vers une autre. Plus tard, nous verrons que ces distributions se trans
forment en une distribution normale dans la limite d’un grand nombre de mesures.
La formulation plus rigoureuse de cette propriété sera donnée au paragraphe suivant
où nous démontrerons qu’il s’agit d’un résultat général valable pour presque toutes les
distributions. La seule exception (physiquement intéressante) à cette règle est donnée

par la distribution de Lorentz.
Ici, il faut noter que la “transformation” d’une distribution en une autre n’est pas
d’un intérêt purement académique ou pédagogique. C’est un problème pratique car
une telle opération peut nous permettre de remplacer, au moins dans une première
approche, plusieurs distributions de probabilité complexes par des distributions plus
simples et plus générales et trouver ainsi un langage commun pour une description
uniforme de grandeurs physiques très diverses.
1.3.1 Distribution binomiale
Cette distribution décrit des grandeurs discrètes qui peuvent prendre seulement deux
valeurs. Supposons qu’un événement ait deux réalisations possibles A et B. Soient p
la probabilité, de la réalisation A, q = 1 — p la probabilité de la réalisation B. Si cet
événement se répète N fois, on peut déterminer la probabilité PAr(n) que la réalisation
A se produise n fois. La probabilité d’obtenir successivement n fois la réalisation A
puis N — n fois la réalisation B est égale à pnqN~n = prl(l — p)N~n. Vu que l’ordre
de réalisations A et B est sans importance, il faut multiplier cette probabilité par le
nombre de possibilités d’extraire n objets parmi N objets, c’est-à-dire par
V!____
s'm _ ____
N ~ nl(N - n)!
Finalement, la probabilité Pn(™) que la réalisation A se produise n fois est égale à :
Cette densité de probabilité est celle de la distribution binomiale. Elle est caractérisée
par deux paramètres N et p. Plusieurs exemples de cette distribution sont donnés
sur la figure 1.7.
Comme exemple physique simple, considérons N particules d’un gaz sans interaction
distribuées uniformément dans un volume V. Chaque particule a une position aléa
toire dans ce volume et a une probabilité p — v/V de se manifester dans une partie v
du volume V. Dans ces conditions la probabilité Pa’Çi) de trouver n particules dans
v est donnée par (30).
Il est facile de vérifier que la densité de probabilité (30) est normée conformément à
l’équation (2) :
jV N
£ e»(») = £ n p” (i - = [p + (1 - />)]" = 1" = 1. (31)

n =0 n=0 ' ’’
Déterminons la moyenne du nombre n. Par définition (voir (6')), elle est égale à
N N
»= nPN(n) = nPN(n).
-Pjv(u)
0,4
0,3
0,2
0,1
0,0
0 2 4 6 8 n
Figure 1.7 : La distribution binomiale pour trois valeurs du paramètre p, N étant fixé : .V = 10
Nous avons utilisé le fait que le terme avec n = 0 est nul ; changeons la variable de
sommation en posant k = n — 1 :
N
nPN(n)
n=l
= Np^+^l-p)^-1 = Np. (32)
Nous aurions pu prévoir ce résultat directement car si la probabilité de réalisation A

est égale à p, à la suite de N événements, le nombre moyen de réalisations A doit être
égale à Np.
Pour calculer l’écart-type, prenons la définition (7') et utilisons l’expression (8) :
N
<r2 = (n — n)2 n2 — n2 — 77 n2PAi(îi) — (Np)2
n~ 0
N N
77 n(n “ 1)Pn(k) + 77 «^(n) - (Np)2.
n=0 n=0
Pour calculer la première somme, nous utilisons la même astuce que pour le calcul de
n dans (32) :
N N
77 n(n ~ l)f’iv(n) = 77 n(n ~ l)f’iv(n)
n~0 n=2
= N(N - l)p2 V ------------------ (N — 2)1------------------ 2 _ ,(Ar_2)_(rl_2)

[ (n-2)!O-2)-(n-2))!P 1 P>
= N(N - l)p2.
Ainsi, nous avons pour la variance :
<r2 = A(A - l)p2 + Np - (Ap)2 = Ap(l - p).
Autrement dit, l’écart-type est égal à :
<r = i/Ap(l - p). (33)
La fonction génératrice des moments (14) de la distribution binomiale est
_ N N
MM = e- = 2e"PA.(„) = 2——
= Ê „!(aA1„)! ('*’■)" (i-pA” = (i-f>+î»‘)".
n=0 v 7
La première et la deuxième dérivées de cette fonction en t = 0 définissent les moments
, dM^(0) , ti
Pi = ———= Np(l- p + pe) e‘ = Np,
dt lr=o
ri = É^ffiqA.(w_1)p2(1_p + pe.p-»e«
+ Np (1 — p + pe')^ =: A(A — l)p2 + Np.

It=o
Ainsi la moyenne et la variance de la distribution binomiale sont données par :
n = p) = Np,
a2 = 7^ -n2 = p'2- (pÇ)2 = A(A — l)p2 + Np- (Np)2 = Np(l-p)
conformément à (32) et (33).
Les résultats (32) et (33) peuvent paraître triviaux mais ils sont fondamentaux pour
toute la statistique : la valeur moyenne n est proportionnelle au nombre de mesures
n~N
tandis que l’écart-type est proportionnel à la racine de N
ff ~ y/N.
Pour comprendre l’importance de ces résultats, rappelons que la valeur moyenne est
associée à la valeur d’une grandeur physique xexp et l’écart-type à son incertitude (voir
la discussion suivant la formule (29)). Si l’on définit l’erreur (l’incertitude) relative 6
comme le rapport
6 = =, (34)
n
on voit que cette valeur est inversement proportionnelle au nombre de mesures N
8~4=- (35)
y/N
Cela signifie que, plus l’on fait de mesures, plus la précision est grande ; une conclusion
évidente, presque triviale. Ce qui est beaucoup moins évident, c’est la dépendance
fonctionnelle de 8 avec N. La formule (35) montre que la précision relative décroît
seulement comme la racine de N. Pour augmenter la précision par un facteur de 10,
il faut multiplier le nombre d’expériences, et ainsi le coût, par 100 ! Une expérience
précise peut coûter très cher et, ici, on en comprend la raison. Vu qu’une bonne
précision est chère, il faut savoir de quelle précision on a vraiment besoin. C’est une
question non triviale et nous y reviendrons à la fin du livre.
Nous avons obtenu la formule (35) à partir de la distribution binomiale mais elle
restera valable quelle que soit la situation expérimentale. Nous reviendrons sur cette
question au paragraphe 2.1.
1.3.2 Distribution de Poisson
Etudions maintenant un autre phénomène particulièrement intéressant : la trans

formation d’une distribution dans une autre. Prenons comme point de départ la
distribution binomiale dans laquelle nous augmentons le nombre de mesures N. Nous
considérons la limite quand N est très grand (TV oo) mais en imposant que le
produit Np reste constant Np = const = p (c’est-à-dire p —> 0).
Nous voulons trouver la probabilité Pp(n) que la réalisation A se produise n fois au
cours de toutes les mesures :
NI
Pp(n) = lim pn (1 -p)N~n
N -¥ oo nl(N — n)!
p —> 0
Np = p
et du fait que p = p/N,
N(N - 1)...(N-n + 1)
PfAn) = lim (l-p)N-n.
N —> oo Nn
p -¥ 0
Np = p
Rappelons que n restant fini, il est toujours petit par rapport à N. Donc,
jV(jV-l)...(jV-n+l) f O ( n — 1\
Nn \ NJ ' ' ' \ N J
lorsque N tend vers l’infini.
On peut réécrire (1 — p)N~n comme
L’expression dans le dénominateur tend vers 1 quand N oo, par contre
Hm = e-,.
AT-s-œ \ N/
Finalement, pour la probabilité P^(n), on obtient
(36)
n!
C’est la distribution de Poisson.
On peut vérifier aisément qu’elle est normée :
OO OO n
n —0 n—0
que sa moyenne est égale à p :

OO OO n OO
«= = e-^ £2 =
n=0 n=l ' ' k=o
et que sa variance est p (soit un écart-type a = y/p) :
<r2 = (n — n)2 = rijri — 1) + n — n2

oo oo n
= ^n(.n~ i)P^n) + p- p2 21! + A<~

= p~ + P — pJ = p.
Nous aurions pu prévoir ces résultats à partir des expressions relatives à la distribu
tion binomiale (32—33).
La fonction génératrice des moments (14) de la distribution de Poisson est

OO
(*) en‘P^(n)
n=0
=e exp [)Ue(] = exp [/z(eÉ — 1)] .

n=U n=0
Le lecteur intéressé retrouvera aisément la moyenne et la variance de cette distribution à

l'aide des deux premières dérivées de la fonction prises en t = 0.
Notons que la distribution de Poisson ne dépend que d’un seul paramètre p = Np. La
forme de cette distribution pour plusieurs valeurs de p est présentée sur la figure 1.8.
I
I
0,4
i
W
0,3
1 /t =. 3
0,2 \ p, = 5
/•
- '/ ' '*

0,1 -/ if * M =8
/ / X \ S '*'„
1 7 "x
0,0 t--ae -A—1—

0 3 6 9 12 n
Figure 1.8 : La distribution de Poisson pour plusieurs valeurs du paramètre p.
Cette distribution de probabilité est souvent rencontrée en physique atomique ou en

physique nucléaire, car le nombre de particules comptées par un détecteur est distribué
selon cette loi à condition que le flux de particules reste constant.
Prenons un exemple. Supposons qu’à l’aide d’un détecteur on compte des particules
et que l’on enregistre leur nombre pendant une certaine durée, disons 1 seconde. Ces
mesures seront décrites par la distribution de Poisson.
Pour le vérifier, divisons notre intervalle de temps (de 1 s) en TV petits sous-intervalles,
disons de 1 nanoseconde (1 ns = 10“9 s). Supposons que le nombre moyen de par
ticules enregistrées pendant 1 s soit égal à p = 8. Alors la probabilité de détection
d’une particule dans un sous-intervalle est égale àp = p/N = 8-10-9. Il est important
que cette valeur soit faible pour que l’on puisse négliger la probabilité de détection de
deux particules dans un sous-intervalle de temps.
En principe, c’est une distribution binomiale où la réalisation A est l’apparition d’une
particule dans le détecteur et la réalisation B est son absence. Les conditions de la
limite (N -4- oo, p 0, Np = const) sont satisfaites (N = 109, p = 8 ■ 10“9, Np = 8)
et la distribution devient une distribution de Poisson avec une moyenne p = 8
on
(figure 1.8). n est le nombre de particules détectées pendant 1 seconde. Cet exemple
montre un “passage” entre différentes distributions. On a remplacé une distribution
à deux paramètres (binomiale) par une autre beaucoup plus simple (de Poisson) qui
ne contient qu’un seul paramétre.
1.3.3 Distribution de Lorentz

La distribution de Lorentz, qui porte parfois aussi le nom de Cauchy, a une place
particulière en statistique.
D’une part, la fonction de Lorentz (37) est très importante en physique car elle décrit
des systèmes qui se trouvent dans un état dit de résonance. Ce phénomène se carac
térise par une grande amplification des paramétres du système. Il est connu et utilisé
en mécanique (pour mettre en marche une balançoire, un enfant doit effectuer ses
mouvements périodiques avec une certaine fréquence) ou en électromagnétisme (tous
les postes de radio ou de télévision utilisent le phénomène de résonance pour choisir
une station). En physique microscopique, une résonance décrit, entre autres, la durée
de vie d’une particule ou d’un système de particules.
D’autre part, la fonction de Lorentz apparaît comme une distribution de proba
bilité surtout en mécanique quantique, c’est-à-dire en physique microscopique. C’est
pourquoi cette distribution de probabilité se manifeste relativement rarement dans
les problèmes macroscopiques et, en particulier, dans les expériences en travaux pra
tiques.
Néanmoins, elle donne un exemple de distribution pour laquelle les définitions stan
dards de la statistique ne sont pas toujours valables. Cette raison à elle seule est
suffisante pour que l’on étudie cette distribution de manière plus approfondie.
La distribution de Lorentz est donnée par la fonction
(37)
= 7T (a: — æ0vT,
-------- )2 +—a22
qui dépend de deux paramèteres ,rn et a (figure 1.9).

Le coefficient devant la fonction est choisi pour que la probabilité totale de trouver
une valeur quelconque de x soit égale à 1.
+oo
/ ■oo
f(x)dx = 1.
Le calcul de cette intégrale ne représente aucune difficulté car la primitive de cette

fonction est bien connue (arctangente).
On peut voir facilement que cette distribution est symétrique par rapport à .rn qui
est aussi le maximum de cette fonction. En ce qui concerne le coefficient a, son
interprétation est aussi claire ; il représente la moitié de la largeur à mi-hauteur et
caractérise ainsi l’étalement de cette fonction.
Cependant, on rencontre de vrais problèmes quand on veut trouver la moyenne et la
variance en utilisant nos définitions habituelles.
Figure 1.9 : La distribution de Lorentz
D’après la définition (6), la valeur moyenne de x est égale à
Pour calculer cette intégrale, faisons le changement de variable £ = x — æq
e dj
x= + ajg
£2 + a2 £2 + a2'
Le deuxième terme est égal à .rn en vertu de la normalisation de la distribution. On

peut dire que la première intégrale est nulle car la fonction que l’on intègre est impaire
par rapport à £ = 0. Formellement, ceci est faux. Du point de vue mathématique,
cette intégrale est divergente. Elle n’est égale à zéro que si l’on considère ce que
l’on appelle sa valeur principale. Autrement dit, si l’on prend d’abord un intervalle
d’intégration fini et symétrique (—R, R) et si l’on calcule ensuite la limite lorsque
R oo. Donc, la valeur moyenne peut être considérée égale à .rn mais l’on constate
que le calcul de l’intégrale est un peu délicat.
Le vrai problème apparaît quand on veut établir la variance, car l’intégrale correspon
dante
2_ « /+” Çr-*o)2 . _ £ ræ ?
2T (x - æ0)2 + a2 7T £2 + a2
diverge. Cela signifie que l’écart-type, qui était pour nous la caractéristique de la
largeur d’une distribution, n’existe pas au sens de la définition (7). Néanmoins,
l’étalement de la fonction de Lorentz peut être décrit par le paramètre a.
La fonction génératrice (14) ou (15) de la distribution de Lorentz n'existe pas non plus
à cause de la divergence de l’intégrale correspondante. Cependant, il est possible de
remédier à ce problème. Au lieu de la définition issue de la transformation de Laplace, on
peut choisir pour fonction génératrice une définition issue de la transformation de Fourier
(voir la discussion à la fin du paragraphe 1,1,3) :
Mx(t) (38)
où la fonction exponentielle d’un argument réel a été remplacée par la fonction ex
ponentielle d'un argument purement complexe (pour simplifier la discussion, on prend
x = .rn = 0).
Avec cette définition, la fonction génératrice existe et elle est égale à :
eixt d.r = el'|«.
(39)
a2 + æ2
Cette intégrale, relativement compliquée, peut être calculée directement en utilisant la
théorie des fonctions des variables complexes. Cependant, on peut obtenir ce résultat
indirectement en utilisant le fait qu’en prenant la transformation de Fourier d’une fonction
puis la transformation de Fourier inverse de la fonction obtenue, on retrouve la fonction
initiale. Ainsi si F(t) est la transformation de Fourier de f(x)
alors
Dans notre cas, en prenant
on obtient
1 r+œ
— / e~âeixtdt
-I a+oo -i /*0
— e-^+f^dt+_ eta+ixtdt.
Jo 27t J_,c
1 f 1 1 1 _ « 1
2tt ( ix — a ix + a ) tt a2 + x2 ’
où nous avons utilisé le fait que a > 0. Ainsi l'expression de la transformation de Fourier
directe (40) nous donne la formule (39).
Nous sommes en présence d’une distribution pour laquelle les définitions générales
des valeurs moyennes ne sont pas valables. Cette particularité de la distribution de
Lorentz a des conséquences très importantes. Nous verrons au paragraphe suivant
que c’est la seule distribution qui ne se transforme pas en une distribution de Gauss
lorsque le nombre de mesures devient grand.
1.3.4 Distribution gamma
Cette distribution hérite son nom d'une fonction spéciale dite fonction T ou intégrale
d'Euler de deuxième espèce. La fonction T est définie par l'intégrale
(x > 0) (41)
En principe, x dans cette expression peut être complexe. Nous n'étudierons pas toutes
les propriétés de cette fonction, mais nous nous bornerons à la plus intéressante :
(42)
qui se démontre très simplement : il suffit d'intégrer (41) une fois par parties.
Pour x entier, x = n, nous obtenons
= n! (43)
car
/•OC
r(l) = / e~tdt= 1.
Jo
Autrement dit, la fonction T est une généralisation de la fonction factorielle n! au cas
d'un argument non entier, ou même complexe (dans la littérature, on rencontre parfois
l'écriture x! qui signifie T(a:+ 1)).
Notons que pour les valeurs demi-entières x = n + 1/2, la fonction T peut aussi être
écrite sous une forme relativement simple
(44)
2"
Le changement de variable = u la ramène à l’intégrale (25).

La distribution de probabilité liée à la fonction T est décrite par la fonction
1
f(x,a,/3) = —------- ---- ttî0*’ , (a > -1, X? > 0) (45)
M ; r(a+ l)/3“+1
pour x > 0. Cette fonction contient deux paramètres3. Notons que (3 est simplement un
paramètre d'échelle. Le choix de la constante devant la fonction de x est dicté, comme
d'habitude, par la normalisation de la probabilité totale, ce qui se vérifie facilement à l'aide
Figure 1.10 : La distribution gamma pour plusieurs valeurs du paramétre a, 0 étant fixe : 0 — 1
de (41). Quelques exemples de la distribution gamma (pour (3 — 1) sont représentés sur

la figure 1.10.
Calculons la moyenne et la variance de cette distribution. Par définition,
Nous avons utilisé la définition de la fonction T et sa propriété (42).

Pour calculer la variance, utilisons l’expression (8) :
<72 = (x — ï)2 = X2 — æ2.
Le calcul de a:2 est relativement simple :
1 T(a + 3)
Xa+2e~x^dx = ^2 = /?2(a + 2)(a + 1).
L(a+ 1 ),<>+' r(a+l)
Ainsi la variance de cette distribution est donnée par
<r2 = /?2(a + 2)(a + 1) - /?2(a + l)(a + 1) = /?2(a + 1).
3 Notons la ressemblance formelle entre la distribution gamma et celle de Poisson : si l’on remplace
n par a et p. par x/(3. Cependant, il ne faut pas oublier que les rôles des variables et des
paramètres sont inversés dans ces distributions.
Complétons l'étude de la distribution gamma par sa fonction génératrice.

Par définition (14),
i rœ
Af'(t) = —------ ——- / xae~xêxtdx.
r(« + l)^1 Jo
Ecrivons /?“+1 sous la forme
«+1
a+1
■(1
l-{3t
et introduisons une nouvelle variable p = /?/(! — (3t). L'expression pour Af'(t) devient
1 1
Af'(t) =
(1 -/?/)“+! r(a + l)p“+1
L’intégrale dans cette expression est égale à T(a + l)pa+1 et finalement M'(t) s'écrit
1
M'(t) = (46)
(1 - /?/)“ + ! '
Nous verrons un exemple physique de la distribution gamma lié à la distribution de Maxwell

des vitesses au paragraphe 2.2.3 consacré à la distribution y2.
1.4 Théorème central limite

Considérons maintenant un des aspects les plus importants de la statistique qui con
cerne le théorème central limite. Ce théorème représente non seulement un résultat
mathématique puissant mais il est particuliérement important pour ses applications
physiques. Il affirme que, dans presque toutes les expériences, on peut travailler avec
une distribution de Gauss.
La formulation exacte de ce théorème est la suivante :
Soit x une grandeur physique aléatoire avec une moyenne p et une variance a2.
Si a2 est fini, alors la distribution de la valeur moyenne sur un grand nombre
n de mesures (n —ï oo)
1 n
x = -ÿ jXi
i=I
tend vers une distribution de Gauss avec une moyenne p et une variance <r2/n.
Avant de démontrer ce théorème, soulignons un fait très important : on ne fait aucune

hypothèse sur la forme de la distribution de la grandeur aléatoire x ! Elle peut même
avoir une distribution discrète. Il faut seulement que la variance soit finie. Cette
condition est presque toujours satisfaite dans la plupart des expériences, mais nous
citerons un peu plus tard un exemple physique où cette limitation est violée et où la
distribution ne tend pas vers une distribution normale. Néanmoins, cette situation
reste rare et quand les conditions du théorème sont remplies, celui-ci nous garantit
que, pour obtenir un résultat précis et fiable, il faut mesurer plusieurs fois la valeur
de x et calculer sa moyenne.
Vu l’importance du théorème central limite, nous donnons ici sa démonstration qui
peut, cependant, être oubliée lors d’une première lecture.
Considérons la fonction génératrice des moments centraux pour t —t 0 :
Mx(t) = [e(æ-= 1 + + ^2|y + o(t3) = l + 0 + <72|y + o(t3). (47)
ici, nous avons fait le développement limité de la fonction exponentielle et nous avons
utilisé le fait que la valeur moyenne de x est égale à /j, et que le carré de l'écart-type est
fini et égal à <r2 (13). Introduisons d'abord une valeur auxiliaire
x—n
dont la fonction génératrice des moments est donnée par
(x —
O = Mw(t) = exp
<Ty/n
Pour t fixe, t/y/n tend vers 0 lorsque n tend vers l'infini. Nous pouvons ainsi utiliser le
développement (47) par rapport au paramètre t/y/n :
t2
Mw (t) = 1 + cr2 ----- 1- O
2'.a2n
Introduisons maintenant une nouvelle variable z liée à la valeur moyenne introduite dans
l'énoncé du théorème
1
x = ~yXi
i=i
par une relation linéaire

n
ï=i
Toute les valeurs W{ apparaissant dans la dernière expression ont la même distribution car
les différents Xj ont des distributions équivalentes. Nous pouvons alors utiliser la propriété
(21) de la fonction génératrice des moments, selon laquelle la fonction génératrice des
moments d'une somme de n grandeurs aléatoires ayant la même distribution est égale à
la n-ième puissance de leur fonction génératrice :
3
Mz(t) = [Mw(t)]n
Lorsque n tend vers l'infini, cette expression tend vers
Mz(t)
On reconnaît ici la fonction génératrice (26) des moments d'une distribution de Gauss
avec une moyenne nulle et une variance <r2= 1. Autrement dit, dans la limite où n est
grand, la grandeur z a une distribution normale avec une moyenne nulle et une variance
unité. La valeur moyenne X est liée à z par
Nous avons déjà démontré qu'une fonction linéaire (ici X) d'une grandeur aléatoire z
avec une distribution normale a aussi une distribution normale (voir (28)). Ainsi la valeur
X, dans la limite où n est grand, a une distribution de Gauss avec une moyenne fi et une
variance <r2/n.
Nous pouvons encore remarquer que l'erreur relative 8x sur la valeur moyenne X, intro
duite dans la formule (34), est inversement proportionnelle à la racine carrée de n.
Soulignons que, dans la démonstration, aucune hypothèse n'a été faite sur la forme de la
fonction de distribution de x et qu'ainsi ce résultat est très général.
Le théorème que nous venons de démontrer est particuliérement important pour les
expériences physiques car il nous donne la garantie que, si le nombre de mesures
est suffisant, nous obtiendrons tôt ou tard une valeur physique ayant une distribution
bien connue. Cependant, il s’agit d’un théorème limite, c’est-à-dire que le passage vers
une distribution de Gauss ne se réalise que si n est suffisamment grand. Dans une
situation concrète, il faut savoir à quel point la distribution de la grandeur mesurée
est proche de la distribution de Gauss et quand le nombre de mesures est suffisant.
Pour l’instant, la conclusion physique principale du théorème central limite est que
toutes les grandeurs physiques, ou presque, ont une distribution de Gauss ; de plus
nous savons ce qu’il faut faire pour que la distribution devienne une distribution
normale. Pour éclaircir cet aspect du théorème, donnons-en une autre formulation,
plus “physique”, que l’on peut aussi rencontrer dans les livres sous le nom du théorème
central limite :
Si une grandeur physique subit l’influence d’un nombre important de facteurs

indépendants et si l’influence de chaque facteur pris séparément est petite, alors
la distribution de cette grandeur est une distribution de Gauss.
Les points importants dans cette formulation du théorème sont la présence d’un
grand nombre de facteurs extérieurs, leur indépendance et leur faible influence sur
la grandeur physique.
Les deux formulations du théorème sont relativement proches l'une de l'autre. Dans la
deuxième, n joue le rôle du nombre de facteurs indépendants ; x, peut être considérée
comme la valeur de la grandeur x influencée par un seul facteur i. Ainsi on retrouve
presque la même démonstration du théorème. Pour n mesures indépendantes on peut
affirmer que les Xj ont la même distribution et ainsi la même valeur de <r2, mais pour n
facteurs indépendants, on ne peut plus dire qu'ils vont donner la même distribution à x.
avec les mêmes valeurs de fi et de <r2. Toutefois cela n’est pas un obstacle au théorème.
Pour le démontrer, il faut remplacer une simple valeur moyenne arithmétique X par une
expression plus complexe. Le lecteur, amateur de mathématiques, pourra mener lui-même
cette étude.
Donnons maintenant le contre-exemple annoncé au début du paragraphe. Dans ce cas

les conditions du théorème ne sont pas satisfaites et les calculs de la valeur moyenne
ne peuvent sauver la situation, la distribution n’étant pas gaussienne. C’est celui de la
distribution de Lorentz discutée au paragraphe 1.3.3 pour laquelle l’écart-type diverge.
Il est facile de voir que, pour la distribution de Lorentz, le théorème central limite ne
s'applique pas. Autrement dit, la condition d'existence d'un écart-type fini est essentielle
à ce théorème et n'est pas simplement une condition pour faciliter la démonstration.
Si x est distribué selon une loi lorentzienne, la valeur moyenne
,Y = ly> = ïi + ^ + ...+5i
n i=i n n n
a aussi la distribution de Lorentz.

La fonction génératrice de x^n définie par (38) est égale à :
= exp | = Mx = exp
(à comparer avec (39)). Donc la fonction génératrice de X est, en vertu de (21),
Mx(t) = _ e- 'I- ;
il s'agit d'une lorentzienne et non d'une gaussienne !
En physique, cette distribution est caractéristique de la forme d’une raie dans les
transitions électromagnétiques. Cet exemple ne signifie pas, cependant, que toutes
les raies mesurées expérimentalement ont une forme lorentzienne. Nous verrons plus
tard que l’appareil avec lequel on effectue les mesures modifie aussi la forme de la
distribution et que, pour une distribution de Lorentz initiale, on peut mesurer une
distribution de Gauss. Notre exemple de la distribution de Lorentz, bien qu’il soit
très important en physique, reste néanmoins une exception.
Pour illustrer le théorème central limite, considérons quelques exemples. Commençons

par un exemple numérique simple. Nous pouvons faire cette expérience élémentaire
à la maison : dans l’annuaire téléphonique, choisissons 200 numéros au hasard et
calculons pour chaque numéro la somme S4 des quatre derniers chiffres. Une telle
expérience a été effectuée avec “Les Pages Blanches” du département de l’Isère de
l’année 1999 où nous avons pris les 200 premiers numéros de la page 365. Les résultats
sont présentés sur la figure 1.11 sous la forme d’histogramme : nous avons reporté,
pour chaque valeur de S4 calculée, sur ces 200 numéros, le nombre de réalisations NSi.
Il faut comparer ce résultat avec la distribution de Gauss représentée par une ligne
discontinue :
(./• -p,sj2}
fH = 200-^-
V s4 2<t?4 J
avec les paramétres /j.Si = 18 et aSi k 5,2. Les valeurs de ces paramétres ont été
calculées selon (19) et (20) en supposant que chaque chiffre dans un numéro télé
phonique est distribué selon une distribution discrète constante avec une moyenne
(9 + 0)/2 = 4,5 et une variance (9 — 0)2/12 = 6, 75 (à comparer avec (10) et (11)).
La coïncidence entre la courbe et l'histogramme est impressionnante ! Notons que le
théorème central limite suppose que les distributions de x, doivent être les mêmes et
indépendantes (ce qui semble être crédible dans notre expérience). Alors la somme sn,
pour n termes dans la somme, aura une distribution proche de celle de Gauss lorsque
n oo. Dans notre cas, n = 4, mais nous voyons que la distribution de Gauss est
déjà une très bonne approximation de la distribution de s^.
Figure 1.11 : La distribution de la somme S4 des quatre derniers chiffres

dans un numéro de téléphone
Un autre exemple classique nous montre comment l’augmentation de /i transforme la

distribution de Poisson en une distribution de Gauss4.
4 A cause de la ressemblance formelle entre les distributions gamma et de Poisson, on peut utiliser
exactement la même approche pour démontrerque, dans la limite a —> oo, la distribution gamma
donne une distribution de Gauss. Nous laissons cet exercice au lecteur.
Rappelons que, pour la distribution de Poisson (36), la probabilité de trouver n événe

ments dans un intervalle donné est égale à
Augmentons la valeur du paramétre //. Les nombres d’événements n0 pour lesquels

les probabilités P^(«o) sont sensiblement différentes de zéro doivent être proches de la
valeur p ; ainsi nous considérons la limite n >> 1 pour laquelle nous pouvons utiliser
la formule de Stirling donnant n!
n! ~ V2ênlnn~n
et écrire la probabilité Pp(n) sous la forme
^(n) ~
Pour simplifier cette expression dans la limite p, n >> 1, utilisons une approche
assez connue dite “méthode du col”. Notre fonction P^(n) contient deux facteurs, le
premier, 1/y/n, qui varie lentement avec n et le deuxième, e“A(n)) qUi a Une variation
très rapide avec n du fait de la fonction exponentielle ; ici
_/p(n) = n(lnn — ln /z) + p — n.
On peut voir aisément que la fonction jp(n) possède un seul minimum pour n = p et
qu’elle peut être développée en série de Taylor au voisinage de ce point :
•M") Zp(p) +/p(p)(" “P) + - P)2 + •• • -
Nous avons utilisé ici le fait que jp(p) = 0 et f'^p) = 0, car n = p est un minimum
de la fonction, et nous n’avons gardé que le premier terme non nul. Comme nous
l’avons déjà remarqué, la probabilité P^(n) ne sera sensiblement différente de zéro
qu’au voisinage de n = p. Au-delà de cette région, elle est très petite à cause de la
fonction exponentielle décroissante. Au voisinage de ce point, on peut écrire que
(n-^)2/2^
Dans cette expression, nous avons remplacé la fonction qui varie lentement avec n par
sa valeur au point n = p. La distribution ainsi obtenue est une distribution de Gauss
avec une moyenne p et un écart-type y/~p. D’ailleurs, il est tout à fait normal que la
moyenne et la variance restent les mêmes que pour la distribution de Poisson. Sur
la figure 1.8, nous avons donné quelques exemples de la distribution de Poisson avec
plusieurs valeurs de p. Plus la valeur de p est grande, plus la distribution devient
symétrique par rapport au maximum qui est aussi la valeur moyenne.
Nous avons déjà vu au paragraphe 1.3.2 que la distribution de Poisson peut être
obtenue à partir de la distribution binomiale lorsque le nombre de mesures N est
grand et que p est petit, le produit p = Np restant constant. Cela signifie également
que, dans le cas d’un grand nombre de mesures, la distribution binomiale tend vers
la distribution de Gauss. Cependant, il faut interpréter ces limites avec précaution.

On ne peut pas dire que la distribution de Gauss est un cas particulier de celle de
Poisson lorsque y, —> oo. La distribution de Gauss générale est caractérisée par deux
paramètres indépendants : la valeur moyenne et l’écart-type. La distribution de Gauss
obtenue de la distribution de Poisson dans la limite y, oo ne dépend que d’un seul
paramètre.
Sur la figure 1.12, nous récapitulons les relations entre ces trois distributions.
Un autre exemple d’une distribution qui tend vers la distribution de Gauss quand le
nombre de mesures augmente sera donné plus loin lorsque nous étudierons la distri
bution de Student (en 4.3).
Pour l’instant, considérons un exemple physique instructif issu d’une expérience réelle
où nous verrons le fonctionnement du théorème central limite dans sa deuxième for
mulation ainsi que ses conditions de validité. Il s’agit d’une expérience récente faite
au CERN sur un énorme anneau d’accélérateur de particules dont le périmètre est
de 27 kilomètres. Pour étudier les propriétés fondamentales des particules élémen
taires, les expérimentateurs du CERN ont eu besoin de déterminer avec une très
grande précision l’énergie des particules qui tournent dans l’anneau de l’accélérateur.
En augmentant la précision de leurs mesures, les physiciens ont découvert à un cer
tain stade un phénomène très étrange : l’énergie du faisceau variait selon les heures
de la journée. On a dû consacrer beaucoup de temps et d’efforts, rejeter beaucoup
d’hypothèses avant d’arriver à comprendre et à démontrer que l’origine de ce com
portement bizarre se trouvait dans le mouvement de la Lune autour de la Terre. Cet
effet gravitationnel est clairement visible sur l’océan : c’est le phénomène des marées.
Cependant, cet effet existe aussi pour la croûte terrestre et donne lieu à des déplace
ments d’environ trente centimètres chaque jour. Cette variation minime cumulée sur
toute la longueur de l’accélérateur modifie sa circonférence de 1 mm et change ainsi
l’énergie des particules.
Ce cas, assez curieux, donne à la fois un exemple d’erreur systématique liée à la né
gligence d’un phénomène physique et donne une belle illustration du “mécanisme” du
théorème central limite (la nécessité d’avoir plusieurs petits facteurs). Il y a beaucoup
de facteurs qui peuvent influencer l’énergie des particules dans un accélérateur : les
variations du champ magnétique terrestre, les changements de pression barométrique,
le mouvement de la Lune, etc. Chacun de ces facteurs paraît être peu important. Si
c’est le cas, et si l’on ne recherche pas une trop grande précision, les conditions du
théorème central limite sont satisfaites et la distribution d’une valeur physique reste
gaussienne. Dès qu’on veut augmenter la précision d’une expérience, les facteurs
qui auparavant étaient supposés négligeables deviennent importants et se manifestent
sous forme d’erreurs systématiques.
Soulignons les conclusions à retenir. D’abord, pour la plupart des expériences phy
siques faites au laboratoire, l’hypothèse selon laquelle la distribution d’une grandeur
physique est une distribution de Gauss constitue une très bonne hypothèse de départ.
C’est le théorème central limite qui nous le garantit. De plus, si jamais on a le moindre
doute sur la forme de la distribution, ce même théorème nous indique comment on
peut contourner le problème : il faut faire plusieurs mesures et travailler sur la valeur
moyenne qui est forcement décrite par la distribution normale.
Poisson
—T OO
Gauss
Figure 1.12 : Les relations entre les distributions binomiale, de Poisson et de Gauss
Néanmoins, il ne faut pas oublier “le point faible” de ce théorème : comme c’est un
théorème limite, le nombre de mesures doit être grand, et donc l’expérience peut
devenir chère. Pour contrôler la déviation à la loi gaussienne et savoir combien de
mesures sont nécessaires, une analyse plus approfondie est indispensable : elle est
l’objet des paragraphes suivants.
Cette page est laissée intentionnellement en blanc.
Chapitre 2
Fonctions d’une variable aléatoire
On peut formuler un problème assez général et très important pour les applications
physiques. Supposons que soit connue la fonction de distribution de probabilité f(x)
d’une variable aléatoire x (en particulier, la moyenne de cette distribution x = /j,x et
sa variance <rx = (x — x)2). Quelle est alors la fonction de distribution de probabilité
g(y) d’une variable aléatoire y (en particulier, yy et <ry) lorsque la relation entre y et
x est donnée par une fonction connue y = y(x) ? C’est, en statistique, le phénomène
de la propagation des erreurs.
2.1 Propagation des erreurs
Au chapitre précédent, nous avons vu que la valeur moyenne et la variance sont les
caractéristiques majeures d’une distribution de probabilités. Elles peuvent même
être suffisantes pour décrire toute la distribution et l’on les interprète alors comme
valeur de la grandeur et son incertitude (erreur). Ceci est vrai, en particulier, dans
le cas de la distribution de Gauss qui est la plus fréquemment rencontrée dans les
expériences. C’est pourquoi nous allons trouver d’abord la relation entre les moyennes
et les variances de x et de y — y(x). La relation entre les variances porte le nom de
la formule de propagation des erreurs.
2.1.1 Formule de propagation des erreurs
Commençons simplement par chercher la relation entre yx et <rx, d’une part et /iy
et <ry, d’autre part. Nous nous limitons, pour l’instant, au cas d’une seule variable
!/ = y(x).
Développons cette fonction en série de Taylor au voisinage de x = yx :
y(x) = + y'(yx) (* - p®) + y (x - y-)2 + • • • (48)

La valeur moyenne de y est égale à
y-y = y = y(y^) + o + a? +...
L’approximation standard consiste à négliger dans cette expression tous les termes
sauf le premier :
yy-y(yY) soit y(x)~y(x). (49)
C’est un résultat qui pourrait sembler évident mais cette expression est approximative.
Elle n’est exacte que si la fonction y(x) est linéaire.
D’une façon tout à fait analogue, nous pouvons calculer la variance de y :
^ = (y-ÿY - (y(x) -y(y*)Y-
A partir du développement en série de Taylor (48) nous avons :
y(x) - y(yY) = y'(yY) (x- yx) +...
Pour conserver la cohérence de nos expressions, gardons uniquement le terme linéaire.

Alors,
<Yy (x - yYY Y'YyY = <YX y'2(yY),
soit
<ry -|î/'(^)kr- (50)
Il s’agit encore d’une expression approchée qui ne prend une valeur exacte que si la
fonction est linéaire. Nous reviendrons sur la précision de cette approximation à la
fin du chapitre.
Nous pouvons généraliser les résultats (49) et (50) au cas de plusieurs variables. Soit
y = y(x1,x2,... ,xn) une fonction de n variables. Pour abréger, utilisons des nota
tions “vectorielles” :
X = x1,x2,... , xn,
p. = pi, P2, • . . , Pn >
ici ps = xi. Développons la fonction en série de Taylor au voisinage de x = y. Au

premier ordre, on obtient :
n
y(x) ~ y(y) + ^(xi (51)
2=1 x = p,
Cette expression donne pour la valeur moyenne y(x) :
py = y(x) ~ j/(p) = p(pi, p2, • •. , p»), (52)

II - Fonctions d’une variable aléatoire 53
et pour la variance :
dy
<7^ ~ (y(x) - y(p)Y ~ ES dy (xi-y^xj - yj).
dxi dxj
i=l j = l
Supposons que les variables xi soient indépendantes (nous verrons dans ce chapitre le
cas plus général sans cette hypothèse supplémentaire). Alors
_______________ ^,2> si i = j,
(xi - /J.i)(xj - /j.j) = (53)
0, si i y j.
Finalement, pour l’écart-type <ry, on obtient :
(54)
Nous avons ainsi résolu le problème posé au début du paragraphe. L’expression (54)
permet de calculer l’écart-type <ry de y si les écarts <rs de Xj sont connus.
Réécrivons cette dernière formule en remplaçant1 ax et ay par Aa: et Ay :
i*»)2=è (êL_s)(w- <55)

Ici, toutes les dérivées sont calculées pour aq = yi,xz = yz, • • • ,x„ = yn, c’est-à-dire
que tous les Xi doivent être remplacés par leurs valeurs moyennes yi.
Soulignons encore une fois que pour obtenir cette expression nous avons utilisé deux
hypothèses importantes : la première est l’indépendance des grandeurs a:,-, la deuxième
est que, dans le développement en série de Taylor de y, nous nous limitons seulement
aux deux premiers termes.
2.1.2 Exemples de propagation des erreurs
Les exemples les plus simples et les plus fréquents concernent la somme et le produit
(ou le rapport) de deux valeurs physiques. Pour la somme de deux valeurs aq et xz
y = xx +xz
l’expression (55) s’écrit
(Ai/)2 = (Aii)2 + (Aa:2)2 soit Ay = \/(Aa:i)2 + (Aa:2)2, (56)

car les deux dérivées sont
dy _ dy _ 1
dx^ dx-z
1 Rappelons que, dans ce livre, nous conservons les “anciennes” notations Aa; au lieu de ux.
Pour le produit de deux variables
y = 2:12:2
les dérivées sont

dy
a— =
0X2
et la formule (55) donne
(57)
Dans cette expression ainsi que dans les expressions suivantes nous écrivons æi et .r2
à la place de y\ et p2. Ce choix est volontaire car expérimentalement il est possible
de déterminer mX1 et mX2 et non et p2. Pour ne pas introduire chaque fois de
nouvelles notations, gardons partout .rj et i2 qui ne représentent pas des fonctions
mais des valeurs expérimentales.
D’une façon analogue, pour le rapport
zi
y = —,
X-2
nous obtenons
Les deux dernières expressions de Aj/ peuvent être réunies sous une forme plus com
mode si l’on passe à l’incertitude relative ^y/y :
(58)
Cette formule se généralise facilement au cas du produit et du rapport d’un nombre

arbitraire de n variables :
Les formules (56) et (58) ont une structure similaire : la racine carrée d’une somme
de carrés. Pour des estimations rapides et simplifiées, on applique les majorations
suivantes :
Ai/ = \/(Aaq)2 + (Ai2)2 < Aaq + Ai2 (59)
et
(60)
x
II — Fonctions d’une variable aléatoire 55
(on “déduit” parfois cette formule en calculant la dérivée de log y). Cependant l’utilisa
tion de ces majorations n’est justifiée que si l’on veut une évaluation grossière de
l’incertitude. La différence entre la vraie valeur de l’incertitude (58) et sa majoration
(60) peut être importante. Par exemple, si l’on suppose des incertitudes relatives sur
Xi de 5%, la formule exacte donne une incertitude Ay/y = 7%, tandis que sa majora
tion conduit à une valeur beaucoup plus grande : 10% ! Plus les variables sont nom
breuses, plus la différence est grande. Ceci s’explique simplement car l’augmentation
de l’incertitude en fonction du nombre n des variables est en dans l’expression
(58') et en n dans la majoration du type (60).
L’expression (55) ou les cas particuliers (56) et (58) donnent une idée sur la façon de
diminuer l’incertitude : il faut toujours se battre contre la plus grande incertitude.
Si une des incertitudes est seulement trois fois plus petite que les autres, on peut
pratiquement la négliger. Cette approximation donne une erreur supplémentaire de
10% dans les calculs d’incertitude (c’est une erreur de deuxième ordre).
Le meilleur choix des conditions expérimentales (des appareils et des méthodes de
mesure) consiste à avoir si possible les mêmes contributions de toutes les variables
différentes dans l’expression (55), ce qui minimise cette incertitude.
Parfois, nous rencontrons des fonctions plus compliquées. Prenons un exemple :
Nous pouvons appliquer la formule (55) directement. Pour le faire nous calculons les
dérivées :
dy _ 1 . dy _ _______1_______ &y_ ______ X-2______
dxi 2y/x1 + xilxz ’ dx-2 2x3y/x! + a^/a^ ’ &x3 2x3y/x1 + x3/x3
et obtenons l’expression suivante de l’incertitude sur y :
1 a?2\2 (Aa?3)2
Ai/ = (61)
2 + x3/x3 ■J’3 J x%
Le problème est que, pour des fonctions compliquées, nous obtenons toujours un
résultat “compliqué” et qu’ainsi la probabilité d’avoir une erreur arithmétique lors de
la dérivation ou lors des applications numériques est très grande.
Il est préférable de procéder autrement : on décompose la fonction initiale en fonctions
élémentaires et on fait les opérations successivement. Dans l’exemple précédent :
y = y/zi, Zi=Xx + Z2, z3-—■
Pour chaque formule, on obtient aisément les incertitudes :
Azi = y(Aa:i)2 + (Az2)2, Az2 — z2
La probabilité d’erreur dans cette approche est beaucoup plus faible.

Il existe un autre avantage à cette procédure, celle de permettre d’analyser facilement

le rôle et la contribution de chaque variable x;. Soient
a?i=2,0±0,l, a?2 = 5,3±l,2, x3 = 1,216 ± 0,004.
Nous voulons calculer l’incertitude de y à 10% près. Nous voyons que Ax3/x3 est
beaucoup plus grande que A.x3/x3. Ainsi, l’expression de Az2 peut être simplifiée
par
Aa:2 Aa:2
Az2 ~ z2----- = ----- .
X3
Nous notons aussi que Az2 ~ 1 est beaucoup plus grande que Azi = 0,1 et ainsi,
pour Azi, nous obtenons l’expression
Finalement, l’incertitude sur y est égale à
1 Aa?2
Aj/ ~
2y x3
une expression beaucoup plus simple que (61). Le résultat est y = 2,5 ± 0, 2.
Il faut souligner que l’exemple précédent n’est pas artificiel. La raison de ce phénomène
un peu étrange est liée au fait qu’il est difficile d’effectuer une expérience où toutes
les sources d’incertitudes ont la même importance : il existe une ou deux incertitudes
dominantes. Il faut en profiter car le gain de temps dans le calcul de l’incertitude
peut être assez grand, surtout pour des mesures répétitives. De plus, cette analyse
par étapes est utile pour élucider les véritables sources d’incertitudes et ainsi prévoir
des possibilités d’amélioration de l’expérience.
Notons une fois de plus que notre expression (55) n’est pas une formule exacte. Dans
sa démonstration, nous avons supposé que le développement en série de Taylor peut
être limité à la dérivée première. Autrement dit, nous remplaçons la fonction y = y(x)
par la fonction linéaire :
!/(*) ~ y(y) + j/(p)(a: -y).
Cette hypothèse signifie que la forme de la distribution reste inchangée : si x, par

exemple, est distribuée selon une loi normale, y est aussi distribuée selon une loi
normale.
Il existe des situations où la dérivée y1 (y) s’annule et cette approche n’est plus valable.
Un exemple est donné par la fonction y — x2 avec y = 0. La distribution de Gauss
est remplacée par la distribution y2 (voir paragraphe 3.1.3).
Il existe des situations moins “dramatiques” où la dérivée est non nulle mais où il faut
tenir compte des dérivées supérieures. Par exemple pour la fonction y = cotg x et
x ± Ai = (10 ± 2)°, la valeur de |y(x — Ax) — y(x)| = |cotg 8°— cotg 10°| ~ 1,44 est
assez différente de + àx) — y(x) | — |cotg 12°— cotg 10°| ~ 0, 97. C’est la raison
pour laquelle, pour les fonctions “rapides”, l’écriture yexp ± Ay est remplacée par
_ +Aj/i
y - yexp _^y2 ,
où Aî/i = |y(x + àx) — y(x) | et Aï/2 = |j/(a: — &x) — y(x) |. Dans notre cas,
+0,97
y = 5, 67 -1,44
La valeur de y ne suit plus une distribution de Gauss, cependant, la probabilité que la

vraie valeur de y se trouve dans l’intervalle [ifexp — Aj/i, î/exp + Aî/2] reste “gaussienne”,
à peu près 68%. Nous reviendrons sur cet aspect du problème, à la fin du chapitre,
lors de la discussion sur les intervalles de confiance.
Ce phénomène peut apparaître même pour un monôme y = xn lorsque x n’est pas
très grand par rapport à &x. C’est pourquoi il faut toujours se souvenir que notre
approche approximative n’est correcte que si les incertitudes restent petites.
2.1.3 Cas des variables corrélées
Cherchons à généraliser la formule de propagation des erreurs (54) au cas de plus de deux
variables corrélées. Nous considérons le passage de n variables {a^} à n variables {y.;}
liées entre elles par des relations générales :
y, = yi(xi,x2,... ,xn) soit ÿ=y(x). (62)
Nous voulons trouver la relation entre les matrices de covariance de x et de y. De manière

analogue à (23), on définit la matrice de covariance par :
f cov(aq,a:i) cov(æi,æ2) ••• cov(æ1,a:„) \

cov(a:2>î) cov(a:2!^2) ••• cov(a:2,^n)
_D(£) = cov(-c, x) =
\ cov(æ„,a:1) cov(æ„,a:2) cov(æ„, xn) /
De même, D(y) = cov[ÿ,y). Nous utilisons la lettre D pour cette matrice dans le but de
souligner sa relation avec la variance (24).
Conformément au (51), nous avons :
%•(*) - %-(Â) +
Î=1
Nous voyons que
%•(£) ~ yj(fi) = yjiyr,^,... ,yn),
en accord avec (52).

Un élément cov(j/;, j/y) de la matrice de covariance D(y) s’écrit
cov(yi,yj) ~ [yi(x) - Vi(y)][yj (x) - yj(y)]
dyj
EE
fc = l Z=1
dxi g=p
(xk - yk)(xi - yt). (63)
Ici, pour les valeurs moyennes apparaissant dans (63), nous avons des expressions plus
compliquées que (53) :
(xk -yk)(xi - yi) = cov(xk,xt).
L'expression (assez volumineuse) de la matrice de covariance D\y) peut être écrite sous
une forme beaucoup plus compacte si l'on introduit la matrice du Jacobien de la trans
formation (62) :
/ dyY dyi dyr \

dxi dx2 ''' dxn
(64)
dyn dyn dyn

dxi dx2 ''' dxn /
Toutes les dérivées sont calculées au point x = y. A l'aide de cette matrice l'expression
(63) s'écrit :
D(y} = JD(x)J\ (65)
la matrice étant la matrice transposée de J.

Dans notre exemple illustratif du paragraphe 1.1.5, nous avons choisi une transformation
linéaire Soient xi et ,r-2 deux grandeurs physiques indépendantes avec la même moyenne
y et la même variance <r2. Introduisons deux grandeurs ly et j/-2 qui leur sont liées par
une relation linéaire :
yi = aux! + a12x2
<
y2 - a2ixi + a22x2
la matrice de covariance de x est diagonale :
la matrice du Jacobien s écrit comme :

“12 A .
<222 J ’
et ainsi la matrice de covariance D(y) est donnée par :
/ a?i + a^2 011021 + O12Û22

D(y) = <rI2 •
\ 011021 + 0^2022 a21 + a22
Comme illustration de la formule de propagation des erreurs dans le cas des variables
corréllées, considérons un exemple dans lequel nous voulons déterminer la valeur d'une
résistance R ainsi que la puissance P dégagée par cette résistance. Si nous connaissons le
courant I qui traverse la résistance et la tension U aux bornes de celle-ci, nous trouvons
immédiatement
R=j et P = UI.
Les incertitudes relatives sur R et P sont selon (58)
(66)
et
(67)
Nous aurions pu choisir une autre approche. En ayant calculé la valeur de la résistance
R = U/I, nous pouvons déterminer P à partir de la formule
P = RI2.
Cette relation, compte tenu de (66), nous donnerait
en contradiction évidente avec (67). Où se trouve l'erreur dans notre raisonnement ?

Pour obtenir l'expression (55) nous avons utilisé l'indépendance des variables. Ici, cette
hypothèse n’est pas satisfaite car R et I ne peuvent pas être considérés comme variables
indépendantes. Donc, la relation (68) n'est pas correcte.
Pour montrer formellement la corrélation entre R et P nous utilisons la procédure décrite
au début du paragraphe et nous calculons le Jacobien (64) de passage des variables U.I
aux variables P, R :
I U
1/1 -U/I2
La matrice de covariance (65) D(P, R) prend la forme
D(P,R) = JD(U,I)Jy
_ ( I U \( (AU)2 0 W / 1/1 \
1/1 -U/I2 J \ 0 (A/)2 J \ U -Ujl2 J
/ (IAU)2 + (U AI)2 (AU)2-U2(AI/I)2 \
\ (AU)2-U2(AI/I)2 (AU)2/I2 + (AI)2U2/U /
Comme il se doit nous retrouvons sur la diagonale les expressions des incertitudes
(AP)2 = (IAU)2 + (UAI)2 et (Afi)2^ ,
qui peuvent être réécrites sous les formes (67) et (66) respectivement, alors que les
éléments non diagonaux nous donnent la covariance de R et P
cov(P, R) = cov(R, P) = (AU)2 - (AI)2.
Il est intéressant de remarquer que la corrélation entre P et R est nulle lorsque les
contributions à l'incertitude AP et AR de la tension et du courant sont identiques
AU _ AI
U ~ I '
Il s'agit d'un argument supplémentaire pour effectuer les mesures en faisant en sorte que
toutes les contributions des différentes sources d'incertitude soient à peu près les mêmes.
Pour retrouver l'expression correcte de AP, à partir de P = RI2, compte tenu de la
corrélation entre R et I, calculons d'abord cov(R, I). D'après (63), nous avons :
,D n dR dl 2 ÔR 91 ,TTT. 9R9I ,TT . 9R9I.xrr,2
= -<„,((/,/) + — — (AP) .
En vertu de l'indépendance de deux variables I et U
cov(7, U) = cov((7, /) = 0 et
Donc,
cov(jR, /) = (A/)2 = . i . (A/)2 = -^(A/)2. (69)
L'incertitude sur P s'écrit alors :

(M <Afl>2+2^fir°«w/>+(A,)2'
En utilisant les expressions des dérivées

9P _ r2 a^=w'
ôr
et la formule (69), nous obtenons
(AP)2 = I4 (AR)2 - 4/2 RI ■ y (A/)2 + 4P2/2 (A/)2 = I4 (AR)2
en accord avec les expressions (66) et (67).
2.2 Distribution de probabilité d’une fonction

DE VARIABLE ALÉATOIRE
Nous pouvons maintenant résoudre un problème plus complexe et trouver la fonction de

distribution de la variable y = y(x) qui est une fonction d'une variable aléatoire x.
2.2.1 Fonction biunivoque
Nous supposons, tout d'abord, que cette fonction y — y(x) est biunivoque, c'est-à-dire
qu'à une valeur de x correspond une seule valeur de y et inversement. Nous présentons
sur la figure 2.1 un exemple de fonction de ce type.
Figure 2.1 : Une fonction biunivoque y = y(x)
Nous savons que la probabilité de trouver la valeur de x dans l'intervalle compris entre x
et x + dx est égale à :
V[x, x + dx] = f(x)dx. (70)

Nous cherchons la fonction g(y) qui nous donne la même probabilité de trouver la valeur
de y dans l'intervalle compris entre y et y + dy :
'P[y,y + dy]=g(y)dy. (71)
Il suffit de réécrire (70) en remplaçant x par y. Pour cela nous devons, d'abord, introduire
la fonction inverse :
x = x(y).
Ceci est possible car notre fonction y(x) est biunivoque. On a alors
f(x) = f[x(y)]. (72)
Il nous reste à remplacer dx par dy comme nous le faisons dans les changements de
variables d'intégration. La seule différence réside dans le fait que la densité de probabilité
ne peut jamais être négative. C'est pourquoi nous définissons
dx(y)
dx = dy
dy
si la dérivée dx(y)/dy est positive, et
dx(y)
dx = — dy
dy
si la dérivée dx(y)/dy est négative. Les deux dernières expressions peuvent être réunies
sous une forme compacte :
dx(y}
dx = dy. (73)
dy
Les formules (72) et (73) nous donnent
f(x)dx = f[x(y)] dy.
La comparaison avec (71) nous permet d'obtenir le résultat final :
dx(y)
y(y) = f[x(y)] (74)
dy
2.2.2 Cas général
Si la fonction y = y(x) n'est pas biunivoque (figure 2.2), la tâche devient un peu plus
compliquée. Il faut d'abord introduire toutes les branches univoques pour la fonction
inverse : æi = xi(y), x? = x?(y), ... ,Xf. = Xf. (y), puis faire la somme sur toutes ces
branches (la probabilité de trouver y dans l'intervalle entre y et y + dy est égale à la
somme de toutes les probabilités d'apparition de x entre xt et Xj + dxt).
Figure 2.2 : Une fonction non biunivoque y = y(x)
Ainsi la généralisation de l'expression (74) s'écrit :

ctai(2/) dx2(y) dxk(y)
g(y) f[xi(y)] + /[®2(!/)] + • --flxkÇy)]
dy dy dy
k
dxi(y)
(75)
Î=1
dy
Prenons l'exemple y(x) = a:2, avec une fonction de distribution de probabilité de x égale
à f(x). La fonction y(x) = a:2 n'est pas biunivoque car pour deux valeurs de x différentes
on peut avoir la même valeur de y : y(x) — x2 — (—a:)2. Il existe donc deux branches de
la fonction inverse :
xi(y) = y/ÿ et x^y} = —y/y-

Leurs dérivées sont :
dx^y) _ 1 dx2(y) ___ 1
dy 2y/ÿ dy 2y/ÿ'
Ainsi la densité de probabilité g(y) est donnée par

dxx(y) dx2(y) 1 î
M/ + /(-Vÿ)
g(y) = f[xi(y)] + f[xAy)] 2^
dy dy
soit
= /(va + A-va (76)
2^
Les formules obtenues sont valables dans le cas d’une fonction d'une variable y = y(x).
On peut les facilement généraliser au cas où nous voulons passer de n variables indé
pendantes aq, X2,... , xn = x à n variables indépendantes y^,y2,. ■ ■ ,yn = y à l'aide
d'une transformation yi = yi(xi, X2, ■ ■ ■ , xn) = yi(x). Alors la densité de probabi
lité f(x1,X2,-.-,xn) = f(x) (voir (18)) se transforme en une densité de probabi
lité g(yi,y2, ■ ■ ■ ,yn) — g(y) à l’aide d'une relation qui est la généralisation de (74)
établie dans le cas d’une seule variable. Il faut introduire la transformation inverse
Xi = Xi(yi,y2,... ,yn) = Xi(y). La densité de probabilité g(y) est
<9(a?i, a?2, ■ ■ ■ ,xn)

9(y) = f(xi(y),x2(y),... ,xn(y)) x (77)
d(yi,y-2,- •• ,yn)
où |ô(a:i, £2, • • • , xn)/d(yi, y-z, ■ ■ ■ , J/«)| est la valeur absolue du Jacobien de cette trans
formation. Cette formule est analogue à celle utilisée pour un changement de variables
d'intégration. La seule différence est la présence du module déjà discutée prcédemment.
Pour les fonctions qui ne sont pas biunivoques, il faudra faire la somme sur tous les
branches comme on l’a fait pour une fonction y = y(x).
2.2.3 Exemple physique
Pour montrer l’importance de ce type de problèmes, non seulement pour la statistique

mais également pour la physique en général prenons un exemple illustratif. Il s’agit
d’une collision élastique entre deux corps (deux particules) de même masse m. D’après
les principes bien connus de la mécanique, nous savons que le mouvement des deux
corps est la résultante du mouvement du centre de masse et du mouvement relatif
par rapport à ce centre. Habituellement, on introduit un système des coordonnées
correspondant au centre de masse car c’est dans ce référentiel que la description
théorique de l’interaction entre les deux corps est la plus simple. Cependant, l’étude
expérimentale se fait dans le système dit du laboratoire, c’est-à-dire dans le système
où, avant la collision, un des corps était au repos. Supposons que nous connaissions les
caractéristiques de l’interaction dans le système du centre de masse avec, par exemple,
une distribution angulaire isotrope des particules après la collision. Qu’observons-
nous expérimentalement, autrement dit, quelle sera la distribution angulaire dans le
système du laboratoire ?
Avant de chercher la relation entre les deux fonctions de distribution angulaires, rap
pelons la relation entre les angles de diffusion dans le système du laboratoire (fig
ure 2.3 a) et dans le système du centre de masse (figure 2.3 b).
Avant la collision dans le référentiel du laboratoire, un corps se déplace avec une vitesse
Vo et le deuxième est fixe. Après la collision, les deux particules ont des vitesses Vj
et V2 qui font les angles 0^ et 02 avec le vecteur Vo. La collision est élastique, c’est-à-
dire que la structure interne des particules reste intacte et que l’énergie cinétique est
conservée. Ainsi les lois de conservation de l’énergie et de l’impulsion
-2
mV>
2
mVo + 0 = mVi + mV2
(a) (b)
Figure 2.3 : Les vitesses et les angles dans le système du laboratoire (a)
et dans le système du centre de masse (b)
nous montrent que 14 et 14 sont perpendiculaires :
0j +02 =
2
La vitesse du centre de masse est égale à
- __ mV0 + 0 _ Vo
cm m+m 2
Dans le système du centre de masse (figure 2.3 b), les particules ont les vitesses iq et
«2 de modules égaux mais de directions opposées :
14 J4
2 ’ 2 '
Après la collision, les modules des vitesses restent inchangés en vertu de l’élasticité
de la collision :
l-'lI = |fl|
|fl l-'lI = |V2|
1-1 = |f2 l-l = —
et la collision donne lieu “simplement” à une rotation d’un angle % qui est l’angle de
diffusion dans le système du centre de masse. Dans le système du laboratoire après
la collision, les vitesses sont égales à :
17 17
Vi = fl + y, 14 = f2 + y.
Si l’on représente graphiquement (figure 2.4), par exemple, la première relation, on

voit toute de suite que
7T - X
= (78)
2
Figure 2.4 : Relation entre les angles dans le système du laboratoire

et dans le système du centre de masse
Deux relations lient les angles polaires de diffusion dans les deux systèmes. L’angle
azimutal, bien évidemment, reste invariant et nous le désignerons par <p.
Par ailleurs, l’angle solide dans le système du centre de masse dQcm = srn.xdxd<p est
lié à l’angle solide dans le système de laboratoire dQ;a;> = sin#id#idç? par la relation
dQ.cm = 2sin2#id#idç? = 4cos#idQ(a;>. (79)
Comme nous l’avons dit, dans le système du centre de masse la distribution angulaire
est isotrope. Cela signifie que la probabilité dP que la particule 1 parte dans un angle
solide dQcm divisée par d£lcm ne dépend pas de l’angle :
dP 1
fem(X,<p) = = cte = —.
dClcm 47T
La valeur de cette constante est égale à 1/47T car la probabilité est normée à 1. Vu la
relation entre les angles solides (79), nous pouvons réécrire /Cm(x,Ç’) sous la forme
t dP dP 1 r ,
Jcm\X,P) — 37;--- — -,----- a
d\lcm 4 cos Pi4 cos te
Ainsi nous avons la distribution angulaire dans le système du laboratoire qui d’après
(78) s’écrit :
, V?) - “ | COS 01 0 < 0\ < 7T/2
0 01 > tt/2
Les deux fonctions de distribution sont représentées sur la figure 2.5.

La conclusion physique est très simple : une distribution angulaire isotrope dans le
système du centre de masse se manifestera expérimentalement par une distribution
anisotrope dans le système du laboratoire. De plus, on peut économiser du temps en
restreignant les mesures à Æj < 7r/2.
Du point de vue mathématique, nous avons vu que le changement des variables angu
laires implique une modification de la forme de la distribution (la fonction constante
a été remplacée par une fonction linéaire).
Figure 2.5 : Les distributions angulaires dans le système du centre de masse (a)
et dans le système du laboratoire (b)
2.2.4 Précision de la formule

DE PROPAGATION DES ERREURS
Nous avons déjà souligné que la formule de propagation des erreurs, largement utilisée
dans le traitement des résultats expérimentaux, est une formule approchée (sauf dans
le cas presque trivial d’une fonction linéaire). Cette approximation est parfois assez
grossière puisque pour obtenir la formule de propagation des erreurs nous avons utilisé
la relation (49) : y(x) ~ y(x), alors que toute la statistique est basée, par la définition
de la variance, sur l’importance de la différence entre y = x2 et y ~ x2.
Dans certains cas, nous pouvons obtenir l’expression exacte de la variance a2 sans
utiliser la formule de propagation des erreurs. Considérons l’exemple très simple d’une
fonction produit de deux variables indépendantes :
y - xi x2.
Cette fonction peut être mise sous la forme équivalente :
y = yi y2 + yi(x2 - y2) + y2(xi - pi) + (2:1 - jUi)(ar2 - P2), (80)
c’est-à-dire sous la forme d’un développement en série de Taylor au voisinage du point
= yi,x2 = y2. L’expression (80) contient un nombre fini de termes : une constante
p-; y2 ; les contributions avec les dérivées premières
dy dy
dx\
— ^2,
dx2 =
ÆT = AU ,^2 = ^2
et un seul terme avec les dérivées secondes puisque

= n d2 y = 1
dx^ dxl ’ dxidx2
Compte tenu de l’indépendance de an et x2, nous pouvons calculer exactement la
variance de y :
= (y~ Pi P2)2 - [^1(2:2 - P2) + - ^1) + (2:1 - Hi)(x2 - y2)]2

-
2 2 +1 h22 a2r, +1 2 2
La formule de propagation des erreurs (57)
est obtenue en négligeant le dernier terme dans le développement (80). Ainsi cette
formule conduit à une erreur supplémentaire dans le calcul de (Ai/)2 = <r2 égale à
_2 _2 ÿ
^Xi ^X2 ‘
On pourrait penser qu’il est facile d’améliorer la formule de propadgation des erreurs
en poussant plus loin le développement de la fonction en série de Taylor. Cette
proposition apparaît dans certains livres sur l’analyse des données. Techniquement,
c’est un exercice simple, bien qu’il soit assez pénible (il faut faire très attention et
garder correctement tous les termes de même ordre dans le développement et dans
les calculs intermédiares). Cependent des problèmes majeurs apparaissent dans cette
voie.
Considérons l’exemple simple d’une fonction d’une seule variable y = y(x). Comme
pour la formule de propagation des erreurs, développons cette fonction en série de
Taylor au voisinage de x — y? = x :
y(x) ~ y(x) + y'(x)(x - x) + ^j/"(æ)(a: - x)2 + ^y"'(x)(x - x)3 + ...
Nous conservons volontairement le terme du troisième ordre car il donnera en fait une
contribution à la variance du même ordre que le terme du seconde ordre. La valeur
moyenne de ÿ prend alors la forme
ÿ ~ y(x) + ^y"(x)a2 + ^/"(x)nx3,
où apparaît le troisième moment de la distribution yX3 = (x - x)3 introduit en (12),

qui caractérise l’asymétrie de la distribution de x. Ainsi, pour la variance, nous
obtenons
<Yy = (y - DY y'2<Yx + y'yf'y^ + + ^y"2(Hx4 - ^),
où est en outre introduit le quatrième moment = (a: — x)4-

Le problème est résolu formellement mais le prix à payer est l’introduction de mo
ments centraux d’ordres supérieurs non utilisés jusqu’à présent et dont la détermina
tion expérimentale peut s’avérer délicate. Pour obtenir une expression plus précise
de la variance, on a sacrifié la simplicité de la description des grandeurs physiques.
Rappelons, que dans la plupart des situations, nous travaillons avec des distributions
gaussiennes. La prise en compte du terme linéaire dans la formule de propagation
des erreurs nous garantit la conservation du langage utilisé (la variable y est aussi
décrite par la distribution normale). Il est vrai que, si x est décrite par une distri
bution gaussienne, nous pouvons exprimer tous les moments d’ordres supérieurs à
l’aide de la variance (voir (27)), mais le problème vient du fait que la variable y n’est
plus gaussienne (on peut vérifier que la distribution de y est asymétrique : yy3 0).
Quand la distribution de y est gaussienne, un écart-type a une interprétation pré
cise. Dans le cas contraire il peut la perdre. La question qui se pose est de savoir s’il
est l’intéressant d’obtenir une expression plus précise de l’incertitude d’une grandeur
physique si l’on ne peut plus l’interpréter avec précision.
Pour mieux comprendre, étudions sur un exemple le “passage” d’une distribution
gaussienne a une distribution plus complexe. Soient et X2 deux variables gaus
siennes. Quelle est la distribution de leur rapport
Appliquons l’approche générale présentée dans le paragraphe 2.2.2. Il faut passer des
variables et X2 aux variables y et z ~ X2 (cette dernière joue le rôle d’une variable
auxiliaire) et intégrer sur z.
Pour simplifier les relations, supposons que les valeurs moyennes yi sont positives et que
les incertitudes sont faibles par rapport aux valeurs moyennes (<r,- ■< yi}. Cela signifie
que la distribution cherchée reste proche d'une distribution gaussienne. Si /(^î) et 7(^2)
sont les fonctions de distribution des variables a: 1 et X2
(Xj - /JLjf
f(xi) = 1
selon (77), la fonction de distribution g(y) de la variable y prend la forme
Ô(Xi,X2)
f(xi(y, z))f(x2(y,z)) dz.
d(y,z)
Le Jacobien de la transformation x 1 — yz, X2 — z est égal à
dx\ ÔX2
â(x1,x2) dy dy z 0
d(y,z) dxi dx2 y 1
dz dz
Ainsi l'intégrale g(y) prend la forme

1 r+æ f fag -Pl)2 AJ2!
expt zdz.
2<T2 2al J
Cette dernière intégrale peut être calculée si l'on utilise la valeur de l'intégrale auxiliaire2
■x/tÏ b
2 A3/2
2 L’astuce pour calculer J(A, B) est classique : il faut utiliser la méthode de dérivation par rapport
au paramètre B :
e—Az24-fîz d /‘+00 e~Az2+Bz fît" d

zdz = dz =
dB V a~ôb
La dernière intégrale se remêne à l’intégrale connue (25) par le changement linéaire de variable
y = y/Âz — B/2y/Â.
y2 1 Pi P2
Avec A — —7 + et B — y—? H--- ?, on trouve finalement après quelques calculs
2(7 ] 2(72 <7 j ^2
laborieux mais sans difficulté majeure
z\_ 1 Ao(y) f (y-yn)'2] 1 f (y-yo)2) /O1X
~ vÂ(y) ^(y) exp l 2A2(!/) J ~ V2ÏÏA(y) 6XP l ^2(y) / ' ( }
Dans cette expression

Pi
yo = —,
y-2 P2
La fonction (81) s’écrit sous une forme qui ressemble beaucoup (surtout si l’on fait
l’approximation supplémentaire A^(y)/A2(y) ss 1) à la distribution de Gauss, mais
sa largeur dépend de y.
Un exemple d’une telle distribution est tracé sur la figure 2.6 (pour yi/y? — 1,
(T’i/yi = 0,3 et <72/y> - 0, 2).
Figure 2.6 : La fonction de distribution g(y) de y = a?i /a?2 (ligne continue) comparée
à une fonction gaussienne (ligne pointillée).
On constate que, lorsque les incertitudes relatives sont faibles (<7,; ■< pi). la fonction
de distribution g(y) est très proche d’une gaussienne : c’est une fonction qui est très
piquée au voisinage de y = yo = pi/p? (on peut donc garder la dépendance rapide de
y dans la fonction exponentielle, mais remplacer partout ailleurs y par yo) avec une
largeur <ry dont le carré est égal à
2
rr2 h2 rr
. PI a22
<7 y2 ~ A (y)ly=yo 9 i 9 9
^2 ^2 ^2
Donc, en première approximation, on retrouve une distribution gaussienne avec une

moyenne yo = y-JHz et une incertitude <ry en parfait accord avec la formule de
propagation des erreurs (55).
Si l’on veut ne pas se limiter à de cette approximation, on peut remarquer que la
fonction g(y) n’est pas tout a fait symétrique par rapport à y = y0 et aucune gaus
sienne, même avec une largeur calculée à partir de la formule de propagation des
erreurs améliorée, ne peut décrire correctement cette distribution. Ce fait est illustré
sur la figure 2.6 où la fonction de distribution (81) est comparée avec une fonction
gaussienne pour laquelle la moyenne et la variance cr? sont calculées à l’ordre
supérieur du développement en série de Taylor3
ss 0,15.
Notons que ces valeurs sont très proches de la moyenne yy et de la variance <r/ calculées
avec la fonction de distribution (81) :
yy ss 1,05, ay æ 0,16.
Néanmoins, la différence entre ces deux fonctions est évidente.
On remarquera que la nouvelle fonction (81) dépend de trois variable y0 = y\/y2,
et <72/112, tandis qu’une gaussienne ne dépend que de deux variables. En
principe, des mesures précises de la fonction de distribution g(y) peuvent permettre
d’avoir non seulement des informations sur la variable y mais aussi sur et (une
des quatre caractéristiques des distributions initiales <Ti, y2, <t2 restera toujours
inconnue mais on pourra avoir les rapports entre elle et les autres).
En conclusion de ce paragraphe, on constate que “l’amélioration” de la formule de
propagation des erreurs, grâce à l’augmentation du nombre de termes dans le dévelop
pement en série de Taylor, ne représente aucune difficulté. Mais cela n’a pas beaucoup
d’intérêt puisque l’interprétation du résultat obtenu en termes de probabilités reste
assez limité.
2.3 Niveau de confiance et

INTERVALLE DE CONFIANCE
Nous avons déjà étudié des distributions très différentes : symétriques et asymétriques ;
définies sur un intervalle fini, demi-infini et infini ; déterminées par un ou plusieurs
paramètres. Si nous conservons la même approche, la description des données expéri
mentales devient assez lourde (pour chaque grandeur physique on est obligé d’indiquer
la loi de probabilité et ses paramètres). Sans doute, une telle approche est indispen
sable pour rester précis dans la description des données (sans approximer les distri
butions de toutes les grandeurs par une loi gaussienne). Cependant, il est possible de
3 Nous laissons au lecteur le soin de retrouver ces expressions.
proposer une autre forme de description des données expérimentales qui permet, au
moins en première approximation, d’unifier les résultats de distributions différentes.
La notion unificatrice sera, bien évidemment, celle de probabilité.
On peut commencer par le cas le plus simple, celui d’une distribution de Gauss. Dans
le paragraphe 1.2, nous avons vu qu’une grandeur décrite par cette loi de probabilité
est entièrement définie par deux valeurs n et <r et que le résultat, écrit sous la forme
H ± <t, a une interprétation rigoureuse en termes de probabilités. Autrement dit, si
l’on connaît n et <r on peut donner la probabilité Pr pour que x prenne une valeur
dans l’intervalle de = /i — rcr à x2 = fJ- + rcr (quelle que soit la valeur de r) :
rx^ = n+r<7
Pr exp
J iTi —fd—ra
Au lieu de caractériser la variable x par /J. et a, on peut la décrire par l’intervalle

3^2] et par la probabilité Pr de trouver x dans cet intervalle. Cette probabilité
s’appelle le niveau de confiance et l’intervalle correspondant l’intervalle de confiance.
Plus la probabilité est élévée, plus grand est l’intervalle correspondant (pour que l’on
soit certain de trouver x dans cet intervalle). Bien sûr, pour présenter un résultat, on
peut choisir une valeur quelconque de r (et la valeur de Pr correspondante), mais les
intervalles les plus fréquemment utilisés sont ceux qui correspondent à un (r = 1) ou
deux (r = 2) écart-types. Autrement dit, on choisit les niveaux de confiance de 68 %
ou 95 %.
Pour une distribution de Gauss, les relations entre les niveaux de confiance et les
intervalles de confiance correspondants d’une part, et les valeurs de /J. et <r d’autre
part, sont simples. Pour /j. et <r donnés et Pr choisie, on calcule facilement l’intervalle
[a?i,æy] (voir paragraphe 2.1). Et inversement, si l’on connaît [aq,;^] et la probabilité
Pr, on peut retrouver /i et <7. Si, par exemple, Pr = 95 %, alors r = 2 et on peut
calculer p. = |(aq + x2) et <7 = |(;C2 — aq).
Dans le Tableau 2.1 la probabilité Pr pour que x soit incluse dans l’intervalle symétrique
[a?i = n — r<7, x2 = n + rcr] est donnée pour 7 valeurs de r.
Tableau 2.1 : Probabilité Pr (en %) pour que la valeur d’une variable gaussienne x soit dans
l’intervalle [/x — r<z, p, + r<z] pour diverses valeurs de r
r 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5
Pr 0,00 38,29 28,27 86,64 95,45 98,76 99,73 99,95
A l’inverse, connaissant Pr, on peut toujours déterminer r et ainsi trouver l’intervalle

de confiance. Par exemple, à une probabilité Pr = 95,0% correspond r = 1,960, à
Pr = 99, 00% correspond r = 2, 576 et à Pr = 99, 9% correspond r = 3,290.
Les avantages d’une telle présentation sont, d’une part, qu’elle est suffisamment infor
mative (elle nous donne le domaine de variation de la valeur de x et la probabilité de l’y
trouver) et, d’autre part, qu’elle est aisément généralisable aux autres distributions.
Quelle que soit la distribution f(x), on peut décrire le résultat observé par le niveau
de confiance Pr et l’intervalle de confiance [a?i, 2:2]
Il est vrai que pour une distribution non gaussienne, la détermination de la moyenne
et de la variance à partir de Pr et [2:1,212] peut être plus complexe que pour une
distribution gaussienne ; mais si l’on dispose d’une information exhaustive (forme de
la distribution et autres paramètres nécessaires comme, par exemple, le nombre de
mesures effectuées) ce problème peut être résolu.
Des exemples d’utilisation des niveaux et des intervalles de confiance seront présentés
lors de la discussion d’utilisation de la distribution de Student (pour un nombre limité
de mesures) ou encore de la distribution y2 (pour l’ajustement des paramètres).
Notons qu’un tel language permet de présenter d’une façon très informative un autre
type de résultats expérimentaux : les résultats négatifs, c’est-à-dire le fait qu’un
phénomène attendu n’est pas observé. Toute la physique des particules en est une
bonne illustration : pendant très longtemps on cherche une particule, on ne la trouve
pas, mais on continue jusqu’au jour où l’on obtient un résultat positif. On a cherché
ainsi la particule véhiculant l’interaction forte, proposée par Yukawa, ou du positon
(antiparticule de l’électron) dont l’existence avait été prédite par Dirac. Aujourd’hui
recherche le boson de Higgs (selon les modèles actuels, c’est une particule qui serait
responsable de l’existence de la masse de toutes les autres particules) : les recherches
de cette particule ont débuté il y a plus de quarante ans mais n’ont toujours pas
abouti.
Quand un résultat négatif est obtenu, on peut quantifier cet échec : on peut dire,
par exemple, que, dans le domaine de variation des paramètres où la recherche a été
menée, la probabilité de trouver une particule est inférieure à une certaine valeur.
D’habitude, une particule se manifeste par un signal x dans un détecteur. Quand
aucun signal n’est enregistré, on peut considérer que ce signal est inférieur à une
certaine valeur x,, et ce, avec une certaine probabiliteé Pr(x < 2q).
C’est pour ce type de résultats qu’il est utile d’introduire des niveaux de confiance
dont l’intervalle est limité d’un seul côté. On a alors affaire à un intervalle unilatéral
(contrairement à un intervalle bilatéral introduit au départ). La probabilité que x
soit plus petit que est alors égale à
ri
/ -oo
f(x)dx.
Avec une distribution de Gauss, on peut facilement trouver la valeur de (ou de r)

telle que la probabilité d’obtenir x < = n + r<r, soit égale à Pr :
^2=^+r<7
(g - ^)2
Pr
/ -00 2<r2
Evidemment, pour une même probabilité Pr, les intervalles unilatéraux et bilatéraux
ne sont pas les mêmes. Par contre, si l’on sait calculer les intervalles unilatéraux, par
soustraction, on obtient facilement les intervalles bilatéraux, et vice versa.
Quelques exemples numériques sont donnés dans le Tableau 2.2.
Tableau 2.2 : Probabilités Vr (en %) pour que la valeur d’une variable gaussienne x soit
inférieure à fj, + r?
r 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5
Pr 50,00 69,15 84,13 93,32 97,72 99,38 99,87 99,98

Chapitre 3
Expériences avec un nombre limité
DE MESURES
Ce chapitre présente l’intérêt d’expliciter la procédure à adopter dans telle ou telle

situation expérimentale. Il comprend plusieurs paragraphes consacrés à des ques
tions précises qui apparaissent lors du traitement des résultats expérimentaux. Nous
essayons de montrer les différents “niveaux” d’un tel traitement, qui vont d’une con
sidération très simple pouvant prendre quelques minutes jusqu’à une analyse assez
sophistiquée à laquelle il faut consacrer beaucoup plus de temps. Le choix d’une
analyse dépend de la qualité du résultat que nous désirons obtenir, de l’effort et du
temps que nous sommes prêts à y consacrer. Il faut souligner qu’en physique comme
dans la vie la méthode de traitement des résultats est choisie pour minimiser le rap
port qualité/prix. De plus, ayant obtenu un résultat, nous devons nous assurer qu’il
est “raisonnable” et que notre analyse est bien autocohérente. Nous illustrerons ces
étapes du travail et répondrons aux diverses questions précédentes.
3.1 Echantillon, valeur moyenne

ET ÉCART-TYPE
En général, lors d’une expérience, il est difficile de connaître la distribution de la

valeur physique mesurée x et ainsi de déterminer la valeur moyenne de la distribution
/i et sa variance <r2. La seule information dont nous disposons est un ensemble de
résultats, c’est-à-dire un nombre fini de mesures {a:,} = , X2, £3, • ■ . ,xn. A partir
de ces mesures nous tentons de construire des valeurs qui tiendront lieu de moyenne
H et de variance <r2.
La solution de ce problème est construite en deux étapes. D’abord, par analogie avec
les définitions “théoriques”, nous introduisons la moyenne et la variance expérimen
tales. Ensuite, nous devrons les interpréter en termes de probabilité. A priori, il est
évident qu’avec un nombre fini de résultats {a:,}, la moyenne et la variance expérimen
tales ne sont plus suffisantes pour décrire la distribution de la grandeur physique x.
Nous aurons donc besoin de distributions plus compliquées que celles de Gauss et
nous les présentons dans ce chapitre.
3.1.1 Définitions et propriétés
Une expérience de physique donne un nombre fini de mesures. Cet ensemble de

résultats {a:,} s’appelle un échantillon. Comment à partir de ces résultats obtenir des
informations sur la valeur moyenne p et sur la variance <r2 ? La réponse intuitive est
presque évidente, surtout compte tenu du théorème central limite.
La valeur qui remplace la moyenne p peut être construite simplement comme la
moyenne arithmétique de tous les résultats :
(82)
Nous appellerons cette valeur la moyenne estimée à partir d’un échantillon ou plus
simplement la moyenne expérimentale pour la distinguer de la vraie moyenne p que
nous appellerons aussi la moyenne théorique.
Cette moyenne expérimentale peut être considérée comme une grandeur physique.
Elle est la somme de n grandeurs indépendantes car nous supposons que les mesures
{a:,} sont indépendantes. Pour n grandeurs indépendantes, la fonction de distribution
se factorise en un produit de fonctions de distribution (voir (18)). (Afin d’alléger les
démonstrations nous n’écrivons pas les intégrales multiples pour exprimer les valeurs
moyennes qui sont symbolisées par une barre). Ainsi, la valeur moyenne de m est
égale à
m = —n1 2" "xJ = p. (83)

2=1
(à comparer avec (19)) et la variance à

1 n n 2
<Yn = (m - P-Y = S 52 “ ^(^ “ ~ (84)
i=l j = l
(voir la démonstration de la formule (17) et comparer avec (20)).

Soulignons le résultat déjà établi lors de la démonstration du théorème central limite :
l’écart-type de la valeur moyenne expérimentale crm décroît comme 1/y/n. De plus,
en vertu de ce théorème, nous pouvons dire que la distribution de m devient de plus
en plus proche de la distribution normale quand le nombre de mesures n augmente
(pour l’instant nous n’avons fait aucune hypothèse supplémentaire sur la forme de la
distribution de x).
Le deuxième problème est celui de la variance. Par analogie avec la valeur moyenne
on définit la variance expérimentale comme
(85)
III — Expériences avec un nombre limité de mesures 77
L’apparition de n — 1 à la place de n dans le dénominateur peut paraître un peu

surprenante. Mais on peut la justifier même qualitativement : une seule mesure est
suffisante pour avoir une information concernant la moyenne mais on a besoin d’au
moins deux mesures pour pouvoir apprécier l’écart par rapport à la valeur moyenne.
En fait, le véritable argument pour ce choix est la condition d’égalité de la valeur
moyenne de la variance expérimentale s2 et de la variance <r2.
D’après notre définition (85), la valeur moyenne de la variance expérimentale s2 est
égale à :
_ i " ________
s2 = ----- - Y2 (a:,-- m)2. (86)
fci
Ecrivons le terme sous la somme en utilisant le fait que les valeurs moyennes de Xi et
de m sont identiques et égales à /i :
(xi — m)2 = [(aq — /j.) — (m — /z)]2 = (a:,- — p.)2 — 2(arj — n)(m — /j.) + (m — /j.)2.
Le premier terme dans cette expression donne, par définition, <r2, le troisième <r2/n,
en vertu de (84). Pour calculer le deuxième terme explicitons la différence
1 "
m - /-'■ = - ~ n)-
i=l
Alors,
_________________________ 1 " __________________________ a2
(ar, - n)(m - /j.) = - ^2 (xi ~ - p) = —,
n fc=i
car dans cette somme il n’existe qu’une seule contribution différente de zéro pour
k = i. Finalement, nous obtenons la valeur moyenne de la variance :
Ainsi nous avons construit une grandeur s2 qui, dans la limite d’un grand nombre de
mesures, nous donne la vraie variance <r2 de la grandeur physique x. Mais nous avons
déjà décidé de travailler avec la moyenne m. Nous avons donc à définir la variance s2,
de cette grandeur (ou l’écart quadratique moyen) à partir des résultats expérimentaux
{a:;}. Cette définition est évidente :
(88)
Lorsque n tend vers l’infini, cette valeur tend vers zéro comme <r2/n conformément
à (84).
Il faut maintenant changer les conventions décrites au paragraphe 1.2. Désormais

un résultat expérimental sera caractérisé par la valeur moyenne m (82) et par l’écart
quadratique moyen (88). Soulignons que cet écart est une caractéristique de m
et représente ainsi l’incertitude sur cette dernière valeur et non pas sur x. Si l’on
veut déterminer la variance de x il faut utiliser la définition (86). Bien évidemment,
les deux valeurs m et sm ne sont plus suffisantes pour présenter toute l’information
expérimentale (les deux définitions contiennent explicitement un troisième paramètre,
le nombre de mesures n). Plus tard nous compléterons cette description et nous en
donnerons une interprétation exacte à l’aide des probabilités, comme cela a déjà été
fait pour la distribution de Gauss.
Par analogie avec les formules (86) et (83), on peut définir la covariance, le coefficient
de corrélation et les moments d'ordre supérieur pour un échantillon. Ainsi, par exemple,
la covariance de deux variables x et y est donnée par
(89)
où rnx, my et mxy sont les valeurs moyennes de x, de y et du produit xy selon la défintion

(83). Le coefficient de corrélation est alors égal à
^xy — (90)
Sx Sy
où sx et sy représentent les racines carrées des variances expreimentales de x et de y

définies dans (86).
Nous aurons également besoin des moments centraux m/. pour k > 3, qui peuvent être
définis par
(91)
3.1.2 Précision de la variance expérimentale

ET CHIFFRES SIGNIFICATIFS
Il faut aller plus loin dans l’analyse des nouvelles définitions. Pour la valeur moyenne
m, l’incertitude expérimentale est donnée par la racine carrée de sa variance, autrement
dit par sm. Mais cette valeur sm étant une valeur déterminée à partir des données
expérimentales, possède sa propre incertitude. Nous devons savoir l’estimer. Mal
heureusement, on ne peut pas obtenir un résultat général pour toute distribution ;
c’est pourquoi on fait l’hypothèse supplémentaire que la grandeur x est distribuée
selon la loi normale.
Le problème devient facile à résoudre bien que sa démonstration soit assez longue.
La mesure de l’incertitude est la racine carrée de l’écart quadratique moyen. Si l’on
veut calculer l’erreur de on doit calculer la variance correspondante :
D(sm) = (Sm - Sm) = sm ~ (sm) ■

Pour calculer écrivons d'abord s2, sous la forme

n n n
n(n-l)-s^ = ^(xi - m)2 = '^(xi - p.)2 - 2(m-^^(xi - p.) + n(m-/j.)2
i=l 2= 1 f=l
n
= — /j,)2 — 2(m — /j.) • n(m — /j.) + n(m — ^)2
2=1
22
- ~ aO2 - n(m- ^)2-

2=1
(m — /ï)2 peut être mis sous la forme

1 n n
(m-fi)2 = ^^(xi-^-^Xk-fi)
2=1 k=l
1 1
~ ^7 /2(a:» ~ A) + ^2 z2 {xi - — fl)-
2=1 2,fc=l, i^k
Ainsi s2, est donnée par
Prenons le carré de cette expression et calculons la valeur moyenne à un facteur

multiplicatif n2(n — l)2 près. Nous obtenons trois termes. Le premier, est donné par
x ' î=1 k=l
/ — 1\2 n _______ n ________________ |

= ) $ 52 (^ - a)4 + 52 (^ - a)2(^ - a)2 ?
' 71 S î-1 J
= _ ,
où nous avons introduit, en accord avec (12), les moments centraux
/«*■ = (xi ~ n)k

pour k = 2 et k = 4.
Le deuxième terme est nul :
1 n . n
-52^12 (^-a)(^-a) = o,
2=1 k ,/=l,Æ^/
car, en vertu de la condition k l dans la deuxième somme, il contient seulement les

puissances impaires de (xi — /j.) dont la valeur moyenne est nulle (voir la remarque après
l'équation (26)). Finalement, pour le troisième terme, nous avons

1 n n i
52 - V) ■ 52 =
i J = 1 ,i^j k
du fait que les puissances impaires de (a:, — /j.) donnent zéro ; ainsi, dans ce produit, les
termes non nuis correspondent à i — k, j — l ou j — k, i — l. Le résultat final pour .s4,
est :
____ 1 '(" - 1) 2 l . 2(n- 1) 2
s4 “R H------ ----- H------------ p2
n2(n -l)2. n n n
J_ n2 — 2n + 3 9
1^4 +
n3 n — i1---- P-2 ■
------
~- &
m n(n-l)’
la variance D(s2n) est donnée
n—3 9
------- 7^2 • (92)
n—1
Dans cette expression, on peut utiliser le fait que, pour une distribution normale, — <r2
et p.4 = 3<r4 (voir (27)) :
L’incertitude relative (34) sur la valeur de la variance expérimentale est égale à
s“=\~i- (93)
Une fois de plus nous retrouvons une dépendance de la forme 1/y/n ; autrement dit.
il est assez difficile d’avoir une très bonne précision sur les incertitudes dans une
expérience : on a besoin de plusieurs dizaines de mesures pour s’approcher de la
précision de l’ordre de 10%. Nous reviendrons sur la formule (93) dans un paragraphe
spécial consacré à la précision des incertitudes.
La précision d’une expérience Ax est déterminée à partir des données expérimentales
et possède aussi sa propre incertitude. Sa connaissance est très importante dans
l’analyse des résultats car elle est liée directement à leurs interprétations en termes
de probabilités. Une erreur d’un facteur 2 dans Ax peut modifier complètement les
conclusions.
Dans certaines situations, on peut connaître de manière assez exacte la précision sur
l’incertitude Ax. S’il s’agit d’une incertitude purement statistique nous avons montré
que l’incertitude relative sur la variance expérimentale est d’après (93)
6g2^ — 6g2 —
n— 1
Ax est proportionnel à la racine carrée de .s/, et ainsi son incertitude relative est
égale à
_ A(Aæ) 1 _ / 1
~ Ax ~ 2 Ss- ~ y 2(n - 1) ' (94)
Soulignons que cette fonction décroît très lentement avec le nombre de mesures n. Sa
courbe est présentée sur la figure 3.1. Pour 5 — 6 mesures, est à peu près égale à
1/3 et il faut effectuer une cinquantaine de mesures pour avoir une incertitude relative
de l’ordre de 10%.
0,0 ---------- '---------- '---------- 1---------- 1---------- ■---------- 1---------- ■---------- 1-------- »
0 10 20 30 40 n
Figure 3.1 : L’erreur relative sur l'incertitude 8^x en fonction du nombre de mesures n
En travaux pratiques, nous obtenons difficilement une précision sur l’incertitude

supérieure à 10%. Nous pouvons le regretter mais il faut s’en contenter en gagnant
du temps de calcul comme nous l’avons fait au paragraphe précédent.
La précision de l’incertitude et le nombre de chiffres significatifs qu’il faut garder dans
un résultat final sont directement liés (il vaut mieux conserver un peu plus de chiffres
lors de calculs intermédiaires pour éviter les erreurs d’arrondissement). Si la précision
de l’incertitude est de l’ordre de 10—30%, il faut retenir un ou deux chiffres significatifs
dans l’incertitude. Le nombre de chiffres dans la valeur x doit être cohérent avec le
nombre de chiffres dans l’incertitude.
Par exemple, nous avons obtenu un résultat xtIV = 1, 37685 • 10-3 avec une incertitude
Ax = 4,87611 • 10-5. Dans le résultat final de Ax, il faut retenir un chiffre Ax =
5 • 10-5 si est proche de 30% ou deux chiffres Ax = 4, 9 • 10-5 si est plutôt
proche de 10%. Selon ces deux cas, nous garderons trois ou quatre chiffres pour
exprimer la valeur de xm> soit xm — 1, 38 • 10-3 ou xm — 1, 377 • 10-3 respectivement.
Le résultat final s’écrit
x = (1,38 ±0,05) -1(T3 soit x = (1,377 ± 0,049) ■ 10“3.
3.1.3 Distribution x2
Pour étidier les caractéristiques de la variance expérimentale (85), trouvons la fonction

de distribution d’une variable aléatoire y liée aux variables aléatoires aii, x2,... ,xn
par la fonction
n
X2n=y(x1,x2,... ,xn) = ^x2i. (95)
3=1
Supposons que les variables x^,x2,... ,xn sont distribuées selon une loi normale, avec
une moyenne nulle et une variance unité. Pour une seule variable y(x) = x2 le résultat
général a déjà été exprimé par (76). Pour la distribution de Gauss cette formule s’écrit
comme
y(y) =
Autrement dit, g(y) représente une distribution gamma avec a = —1/2, (3 = 2 et a une
fonction génératrice
1
Pour la somme des n variables indépendantes (95) nous pouvons utiliser la propriété (21)
et écrire la fonction génératrice de y2 :
= Mm]" = (1-l ()„a- 4 (»)

Cette expression signifie que y2 a une distribution gamma avec a = n/2—let/? = 2:
W = (97)
Ainsi nous avons trouvé ce que l’on appelle la distribution de probabilité y2.
Sa valeur moyenne est
X2 = /?(« + 1) = n (98)
et sa variance
D(Y/) = //2(a±l) = 2n. (99)
Quelques exemples de la distribution \2 sont donnés sur la figure 3.2.

Figure 3.2 : La distribution x2 pour n = 4,8,16
Dans la limite d’un grand nombre de mesures n —» oo, la distribution y2 tend, comme
il se doit, vers celle de Gauss. Nous ne démontrons pas ici ce résultat. Notons
simplement que le changement formel de variable y/2 -4 /t et n/2 - 1 -I n nous
donne la densité de probabilité pour la distribution de Poisson (36) qui tend vers la
distribution de Gauss lorsque n —> oo.
Notons que la ressemblance formelle entre ces deux distributions, déjà mentionée lors
de la discussion de la distribution gamma, conduit à des relations utiles. Par exemple,
les intervalles de confiance (voir paragraphe 2.3) pour la distribution de Poisson et
pour la distribution y2 sont liés entre eux :
Pour démontrer cette relation, on fait le changement de variable z = ar/2 et on intègre

n fois par parties :
Nous sommes passés d’une distribution à n variables à une nouvelle distribution d’une
seule variable. Une question assez naturelle peut être posée : où et quand les autres
variables ont-elles disparu ? Pour mieux voir et comprendre la technique de ce “tour
de passe-passe”, prenons un exemple bien connu de la physique statistique : un gaz
de particules sans interaction qui se trouve à l’équilibre thermodynamique à la tem
pérature T. Chaque composante v, (z — x, y, z) de la vitesse des particules du gaz a
une distribution maxwellienne :
. / m f mv? )
où m est la masse des particules, k la constante de Bolzmann.

Quelle est. la loi de distribution de l’énergie des particules ? L’énergie est liée à la
vitesse par une relation du type (95) :
mv2
La probabilité de trouver les composantes de la vitesse dans les intervalles compris

entre vx et vx + dvr, vy et vy + dvy, vz et vz + dvz est égale à
r/ j j ( m \3/2 f + '’y + C) L, j 4
j(fr, vy, vz)dvxdvydvz = J exp S---------- > dvxdvydvz.
Nous ne sommes intéressés que par l’énergie des particules et ainsi les directions de
la vitesse n’ont aucune importance. Nous pouvons écrire l’élément de volume dans
l’espace de vitesses dvxdvydvz sous la forme v2dvd£lv, où v est le module de la vitesse
et dQ„ l’angle solide dans cet espace. Calculons l’intégrale sur c’est-à-dire la
somme sur toutes les directions possibles. Après une telle sommation, dvxdvydvz se
transforme en 47rv2dv. Le dernier pas concerne le passage de la vitesse à l’énergie :
v= et dv — dE/y/^mE.
On en déduit la distribution de probabilité en énergie. La probabilité de trouver la
particule avec une énergie dans l’intervalle compris entre E et E + dE est égale à :
g(E)dE= e kr y/ÊdE.
C’est une distribution gamma avec a = 1/2 et f3 = kT. En posant s = ‘lE/kT et

g(e)de — g(E)dE, on a
2 c-e/2
9(£) =
v5F 23/2
soit une distribution y2 avec n — 3.

Le paramètre n dans la distribution de y2 est le nombre de degrés de liberté. Dans
cet exemple, y2 a trois degrés de liberté. Le passage des vitesses à l’énergie fait
“disparaître” deux degrés de liberté (deux variables) lors de l’intégration sur l’angle
solide.
Considérons une autre grandeur directement liée à la variance expérimentale (86) :

n
w = y^(aij — m)2
i=i
qui peut être mise sous la forme

n n n n
w = yy x2—2m ■ yj Xi+m2 • yy 1 = x2 — 2m ■ nm + m2 • n
2=1 2=1 2=1 2=1
n
= a:2 — nm2. (100)
i=i
Nous verrons que cette grandeur est également distribuée selon x2 mais avec n — 1
degrés de liberté ! Il est possible de prévoir ce résultat et même de le comprendre qual
itativement. Certains arguments qualitatifs ont été développés au paragraphe 2.1.1,
lors de la discussion du facteur n — 1 dans la définition de la variance expérimentale.
Il faut aussi noter que les n grandeurs z, = Xi — m sont liées par la relation
n
Zzi = °-
i=i
et qu’ainsi dans la formule (100) nous avons n — 1 et non pas n variables indépendantes.
Le principe d'une démonstration plus rigoureuse est le suivant. Nous voulons passer de
n variables indépendantes x^, x?,. . . ,xn = x à n variables indépendantes ÿi, 3/2, • • • , Un
= y â l'aide d'une transformation yi = yi(xit x-z,... , xn) = yi(x). Pour cela, on utilisera
la formule (77) introduite â la fin du paragraphe 2.2.2.
Effectuons une transformation linéaire orthogonale
n
yi — y2 CijXj->
avec
n n
= (ioi)
1=1 J=1
Une rotation dans l’espace euclidien à n dimensions est un exemple d’une telle transfor
mation. Le Jacobien est alors égal à 1 et, en vertu de (77), la fonction de distribution est
inchangée. La formule (101) nous garantit que la forme de la distribution reste gaussi
enne :
n M
1 1 Al
/(*) (2tt)”/2 (2^2e 1=1 -Ily2ïïe 2
= a(y)-
La condition (101) peut encore s’exprimer à l'aide des coefficients Cÿ sous la forme :
2^CijCjk — dik - |
î f h si î' = kt (102)
j=i 1
Dans le cas particulier où

n
2/1 = ci
i=l
la condition (102) prend la forme

n
y? ctj= (z — 2)-
j=i
Pour notre fonction w (100), choisissons
(103)
et les autres y, avec i > 2 de façon arbitraire. Néanmoins, les fonctions y, possèdent les
propriétés suivantes (rappelons que tous les Xj ont les mêmes y, et cr) :
n n
W = ^7 CijXj = y? Cÿ = ^-0 = 0,
1=1 1=1
et
n n n n n
D(y<) = y? = LL T? y? CijCikôjk • (T2 - <T2 y^ CijCij - <r2,
j=i fc=i j=i fc=i j=i
qui ont été établies en utilisant l’indépendance des xt et la relation (102). Ainsi les
variables y, sont distribuées selon une loi gaussienne avec une moyenne nulle et une
variance <r2.
Les expressions (101) et (103) nous permettent de réécrire w sous la forme
(104)
i=2
Autrement dit, la grandeur w est distribuée selon la loi y2 avec n — 1 degrés de liberté.
Ainsi nous pouvons utiliser les résultats établis sur la distribution y2 (98—99) et en
déduire immédiatement que
s2 — a2 et D(s2) — ------- >

n—1
résultats que nous avons déjà obtenus différemment (voir (87) et (93)).
Notons sans démonstration que, dans un cas général, le nombre de degrés de liberté
p d’une distribution y2 pour la somme de carrés du type (104) est égale à
p = n — (105)
où l est le nombre de relations linéaires entre {a:,}.
3.2 Distribution de Student

Pour pouvoir interpréter les résultats expérimentaux en termes de de m (82) et de sm
(88), on a besoin de la fonction de distribution de la variable
t = y(xltx2, ■. ■ ,ïn) = ——- (106)
où m et sm sont définies par (82) et (88).
La solution du problème est relativement simple si nous exprimons cette fonction sous la
forme
t — y/n — X
V(n~ !)« • Sm/'a'
OÙ
m — /j et S*2 = («-l)n^ = (n-l)^-

vjy/n
La variable j/i a une distribution normale (car tous les x^ ont la même distribution normale)
avec la moyenne nulle (83) et la variance unité (84). La variable y2 est distribuée selon
Xn-i comme nous venons de le démontrer (104). Ainsi nous connaissons les distributions
de et de y2 et nous voulons trouver la distribution du rapport t = yrjyfÿï, en utilisant
les règles connues de transformation des distributions.
La densité de probabilité de j/i et y2 est égale à :
y./2 1 • e-y2/2
5(2/1 ’2/22 = ' r(^)2("-1)/2
avec 2/1 qui varie de —oo jusqu'à +oo et y2 qui varie de 0 jusqu’à +oo. Transformons
d'abord cette densité en faisant le changement de variables
22(2/1,2/2) = 2/2,
soit par transformation inverse
2/1 (zi, z2) =

y2(zi,Z-2) = Z2.
Le module du Jacobien de cette transformation est égal à ,/z-j et, conformément à (77),
la nouvelle densité de probabilité /i(zi,z2) est
z^1
/î(zi,z2) = y/zi-
r(^) 2(-^’
Pour obtenir la densité de probabilité f(t) nous intégrons /i(zi,Z2) par rapport à Z2 et
utilisons la relation f(t) = f(z^)\dz\/dt\ :
/(î) = r h^^dz.
/(*)
y/n — 1 Jo y/n — 1
e-(ï?22)/2 z”2’ 1 . e-^2/2
yfti^n - 1)
Le changement de variable
z2(zf + 1)
u=
2
ramène cette intégrale à une fonction T.
Figure 3.3 : La distribution de Student pour n = 2 (distribution de Lorentz),

n = 5, et n — oo (distribution de Gauss)
Finalement la distribution f(t) s’écrit
A-i(t) = (107)
où t a n — 1 degrés de liberté. Les variables initiales et y^ (soit X2_ï) en ont 1

et n — 1 respectivement. L’intégration sur z2 a éliminé une variable (un degré de
liberté) : 1 + (n — 1) — 1 = n — 1. La constante C dans l’expression (107) est égale à
Pour n donné, les fonctions T dans la formule ci-dessus peuvent être explicitées à
l’aide de (43) et (44).
Cette fonction (107) est relativement simple. Pour n = 2, on retrouve la distribution
de Lorentz. Pour n > 2, la distribution t. de Student représente, grosso modo, une
certaine puissance de cette distribution. Vu la discussion du paragraphe 1.3.3, nous
pouvons tout de suite dire que, pour n donné, seuls les moments Hk avec k < n — 1
peuvent être définis.
On peut aussi calculer facilement la valeur moyenne et la variance de cette distribution
lorsque cette dernière existe :
t=0 et
Dans la limite n —> oo, la distribution de Student se transforme en distribution

gaussienne. La démonstration est simple et peut être réalisée par le lecteur intéressé.
Plusieurs exemples de la distribution de Student sont présentés sur la figure 3.3.
La figure 3.4 est une version élargie de la figure 1.12 ; elle montre les relations qui
existent entre les différentes distributions. Notons que nous avons regroupé la dis
tribution T (45) et celle de Poisson (36) par suite de la ressemblance formelle de
leurs dépendances fonctionnelles. Néanmoins, il ne faut pas oublier que les rôles des
variables et des paramètres sont inversés dans ces distributions.
Il - xjp ?=2
Poisson Gamma
n= a a = n/2 — 1
binomiale Gauss
Student Lorentz
Figure 3.4 : Les relations entre les différentes distributions

3.2.1 Petit nombre de mesures
Commençons par un exemple concret : nous mesurons n fois la longueur l d’une plaque
métallique et ainsi obtenons des résultats {/1J2, • ■ • ,ln}- Soient n — 6, = 4372 mm,
/2 — 4364 mm, Z3 — 4342 mm, I4 — 4338 mm, l5 — 4354 mm et Ig = 4330 mm. Quelle
est la longueur de la plaque ?
Ier niveau d’analyse

L’objectif est d’avoir une idée sur l’ordre de grandeur des paramètres du problème.
Il est logique de supposer que la vraie valeur de la longueur se trouve entre la valeur
minimale et la valeur maximale mesurées et que l’écart entre ces deux valeurs donne
une estimation de l’incertitude. Nous prenons comme estimation :
, Imaz "I" Imin *"max Imin
lr — ---------------
1 2 2
Dans notre cas, lmax = 4372 mm et lmin = 4330 mm, ou
lj = (4351 ± 21) mm.
Le résultat est simple et rapide. Peut-on lui donner crédit ? Pourquoi pas ? Quels
sont les justificatifs mathématiques d’un tel résultat ? Nous ne les avons pas. Nous
avons obtenu une idée de la valeur mesurée et l’interprétation de la dernière formule
ne peut aller au-delà de ce que nous avons fait : la valeur cherchée est la moyenne
entre les valeurs maximale et minimale mesurées et l’incertitude est la moitié de l’écart
correspondant. Il est difficile d’interpréter cette analyse en termes de probabilités.
IIe niveau d’analyse

Son but est d’obtenir la valeur de la longueur et de l’incertitude sur cette valeur et,
en outre, de pouvoir les interpréter en termes de probabilités comme nous l’avons fait
au début de ce livre (voir le paragraphe 1.2).
Supposons de plus que la distribution de la longueur l est celle de Gauss. Avec cette
hypothèse supplémentaire, nous pouvons utiliser la distribution de Student étudiée au
début du paragraphe 3.2. Nous avons vu que si une grandeur physique est distribuée
selon une loi normale, alors la valeur
m — u,
t = ------ -
est décrite par la distribution de Student f„_i(t) (107). Dans cette expression, /i est
la vraie valeur de la grandeur mesurée (dans notre cas, la longueur Z), m la moyenne
estimée à partir des résultats expérimentaux (82)
1 "
m = - Y\,
n
i=I
et la variance expérimentale de cette moyenne (88)

Soulignons une fois de plus que m et sm sont entièrement définis par les résultats
expérimentaux. La forme de la distribution de Student est relativement proche de celle
de Gauss (elle est la même dans la limite n —> oo) et ainsi nous allons vite comprendre
par analogie avec la distribution de Gauss comment nous pouvons l’utiliser.
En termes de probabilités, la phrase “t a la distribution de Student” signifie que la
probabilité de trouver la vraie valeur /j. de l dans l’intervalle compris entre m — smt.vp
et m + smt„p est égale à :
+ (109)
«/ - t ts’p
(comme toujours, c’est l’aire de la surface sous la courbe de la fonction de distribution ;

voir la figure 3.5). Dans la notation t„p nous avons introduit les deux paramètres
dont dépend ce coefficient : p = n — 1 qui est le nombre de degrés de liberté de
notre problème et la probabilité P désirée. Cette probabilité est le niveau de confi
ance et l’intervalle correspondant, l’intervalle de confiance qui ont été définis dans le
paragraphe 2.3.
Nous connaissons la fonction pour un nombre de mesures donné, c’est pourquoi
nous pouvons établir une bijection entre la valeur de t^p qui nous définit l’intervalle
et la probabilité P (109). Nous pouvons calculer la probabilité qui nous intéresse et
déterminer numériquement la valeur correspondante du coefficient t„p qui s’appelle le
coefficient de Student. Ces résultats numériques sont représentés dans le tableau 3.1.
Ils donnent la valeur de t„p à prendre pour que, pour n = p + 1 mesures, la probabilité
de trouver la vraie valeur dans l’intervalle compris entre rn-s,,,!^ et m + smtvp soit
égale à P.
Figure 3.5 : La distribution de Student pour n — 6

Tableau 3.1 : Les coefficients de Student t^-p correspondant à un nombre u de degrés de liberté
et à une probabilité V
V 0,2 0,4 0,5 0,6 0,7 0,8 0,9 0,95 0,99

V
1 0,325 0,727 1,000 1,376 1,963 3,078 6,314 12,706 63,657
2 0,289 0,617 0,816 1,061 1,386 1,886 2,920 4,303 9,925
3 0,277 0,584 0,765 0,978 1,250 1,638 2,353 3,182 5,841
4 0,271 0,569 0,741 0,941 1,190 1,533 2,132 2,776 4,604
5 0,267 0,559 0,727 0,920 1,156 1,476 2,015 2,571 4,032
6 0,265 0,553 0,718 0,906 1,134 1,440 1,943 2,447 3,707
7 0,263 0,549 0,711 0,896 1,119 1,415 1,895 2,365 3,499
8 0,262 0,546 0,706 0,889 1,108 1,397 1,860 2,306 3,355
9 0,261 0,543 0,703 0,883 1,100 1,383 1,836 2,262 3,250
10 0,260 0,542 0,700 0,879 1,093 1,372 1,812 2,228 3,169
11 0,260 0,540 0,697 0,876 1,088 1,363 1,796 2,201 3,106
12 0,259 0,539 0,695 0,873 1,083 1,356 1,782 2,179 3,055
13 0,259 0,538 0,694 0,870 1,079 1,350 1,771 2,160 3,012
14 0,258 0,537 0,692 0,868 1,076 1,345 1,761 2,145 2,977
15 0,258 0,536 0,691 0,866 1,074 1,341 1,753 2,132 2,947
16 0,258 0,535 0,690 0,865 1,071 1,337 1,746 2,120 2,921
17 0,257 0,534 0,689 0,863 1,069 1,333 1,740 2,110 2,898
18 0,257 0,534 0,688 0,862 1,067 1,330 1,734 2,101 2,878
19 0,257 0,533 0,688 0,861 1,066 1,328 1,729 2,093 2,861
20 0,257 0,533 0,687 0,860 1,064 1,325 1,725 2,086 2,845
30 0,256 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,756
œ 0,253 0,524 0,674 0,842 1,036 1,282 1,645 1,960 2,576
En pratique cela signifie que la valeur de l’incertitude dépend du nombre de mesures et

de la probabilité avec laquelle nous voulons connaître la vraie valeur dans l’intervalle
indiqué :
A/ = smtv-p. (110)
Dans les conditions limites d’un grand nombre de mesures, les coefficients de Student
t„p coïncident avec les valeurs données par la distribution de Gauss (voir la dernière
ligne du tableau 3.1). Par exemple, pour une probabilité (un niveau de confiance) de
95%, le coefficient t1/=0o;7’=o>95 = 1, 96. Quand le nombre de mesures n’est pas élevé,
par exemple n = 3, pour la même probabilité il faut prendre AZ beaucoup plus grand
ti/=2;'P=O,95 = 4, 3.
Désormais, pour un nombre fini n de mesures, notre résultat s’exprimera sous la forme
lexp i AZ — TTl ± Smti/p (111)
dont l’interprétation est un peu plus compliquée que dans le cas de la distribution
de Gauss : nous sommes obligés de donner le nombre de mesures effectuées et la
probabilité choisie pour pouvoir utiliser un coefficient de Student.
III - Expériences avec un nombre limité de mesures 93
Dans l’exemple de la longueur de la plaque,
lu = m = = 4350 mm
et
— 6,6 mm.
Pour présenter le résultat final (111), choisissons, par exemple, une probabilité de
95%, alors le coefficient de Student = 2,57 et A/ — 17 mm. Ainsi la
valeur moyenne de la longueur est :
ln = (4350 ± 17) mm
avec un niveau de confiance de 95% pour les 6 mesures effectuées.

Soulignons un point très important déjà mentionné au début du paragraphe 2.3.
L’incertitude A/ dans cette expression est l’incertitude sur la moyenne m et non pas
sur la longueur l elle-même ! Dans le cas d’un grand nombre de mesures, la variance
de la valeur moyenne s2, tend vers zéro et non pas vers la véritable variance <r2.
Si nous voulons avoir une estimation de la véritable variance il nous faut utiliser la
définition (85)
1 "
S2 = nsm = - m)2-
Dans notre exemple, s = a/6 • 6, 6 mm = 16 mm. C’est la raison pour laquelle nous
avons écrit “la valeur moyenne de la longueur” et non pas “la longueur” tout court.
Nous voyons que le deuxième niveau d’analyse est plus rigoureux et plus riche d’infor
mation que le premier, mais il est aussi notablement plus lourd dans son traitement
et surtout dans son interprétation.
Dans le résultat final, nous avons gardé deux chiffres significatifs mais on aurait pu
n’en garder qu’un seul. Montrons comment évaluer l’incertitude de l’incertitude.
L’estimation “théorique” obtenue dans (94) ne dépend que du nombre de mesures n,
et conduit pour l’incertitude relative à
J^ = LL«0,3 (30%).
Rappelons que pour obtenir cette estimation, chaque mesure xi est supposée avoir
une distribution de Gauss.
Il est possible d’obtenir une estimation expérimentale de cette valeur à partir des
données obtenues. Pour cela, on utilise les formules (94) et (93)
JW2)
S2
et les valeurs experimentales de et s^. Pour D(s^), on utilise la formule

générale (92) dans laquelle les moments “théoriques” p-j et P4 sont remplacés par
leurs valeurs expérimentales rn-2 et mt_ introduites dans (91).
Dans notre exemple,
m-2 ss 2. 6 ■ 10" mm". m4 ss 9. 2 ■ 104 mm4, D(s^) æ 406 mm4.
Finalement, pour <5^, on obtient
^- 0,23 (23%)
en parfait accord l’estimation “théorique”.
IIIe niveau d’analyse

En fait, nous pouvons aller plus loin dans notre analyse des données expérimentales.
Pour utiliser la distribution de Student, nous avons fait l’hypothèse supplémentaire
que la longueur l est distribuée selon la loi normale. Est-ce vrai ? Nos mesures
correspondent-elles à une telle hypothèse ? Il n’est pas très facile de trouver la réponse
à ces questions, surtout pour un nombre si faible de mesures. Néanmoins nous pouvons
essayer.
Si la distribution de la longueur est vraiment gaussienne, on doit s’attendre à avoir à
peu près deux tiers de résultats dans l’intervalle compris entre p - a et p + cr et un peu
moins de la moitié dans l’intervalle compris entre p — <r/2 et p + <r/2 (ceci est facile
à vérifier en utilisant la dernière ligne du tableau 3.1). Nous ne connaissons ni p ni
<t mais nous pouvons les estimer à partir de m et s. Dans notre exemple, m — 4350
mm, s = 16 mm. Ainsi nous pouvons attendre 2 — 3 mesures dans l’intervalle compris
entre 4342 mm et 4358 mm et 4 dans l’intervalle compris entre 4334 mm et 4366 mm.
L’expérience nous donne 2 et 4 respectivement. Ceci n’est pas mal, surtout si l’on se
souvient que s a aussi son incertitude et qu’elle n’est pas négligeable (son incertitude
est égale à 5 mm ; estimation que l’on obtient à partir de la formule (92)).
Une analyse supplémentaire n’est pas du tout superflue. Supposons que dans nos
6 mesures nous ayons trouvé les résultats : 4334, 4335, 4365, 4337, 4363 et 4366
mm. On peut vérifier aisément que, pour cette deuxième série de mesures, on ob
tient exactement les mêmes valeurs de m et de sm. Mais dans ces conditions, on ne
trouve aucune mesure dans l’intervalle compris entre 4342 mm et 4358 mm et 6 dans
l’intervalle compris entre 4334 mm et 4366 mm (au lieu de 2 — 3 et 4) ! Qu’est-ce que
cela signifie ?
On peut remarquer que, dans la deuxième série, les résultats semblent se regrouper
autour de deux valeurs et non autour d’une seule. Il existe deux explications possi
bles. Soit c’est un véritable phénomène lié probablement à une erreur systématique
(par exemple la plaque est légèrement courbée et, pour deux côtés, on mesure deux
valeurs différentes). Soit ces résultats sont liés à la faible statistique (6 mesures, ce
n’est pas beaucoup). En tout cas, la conclusion est la même : nos résultats ne sont
apparemment pas cohérents avec le traitement choisi et, avant de présenter le résultat
final, il faut élucider ce problème. La moindre des choses est de remesurer la longueur
de la plaque pour augmenter sensiblement (!) la statistique.
On aurait pu voir qu’il y a probablement un problème dans les données expérimen

tales en comparant les estimations “théorique” et expérimentale de La valeur
“théorique”
~ 0,30
est très différente de celle obtenue à partir des données expérimentales :
~ 0,14.
Cette différence peut servir d’indication sur l’existence d’un problème dans les don
nées. Compte tenu de fait que pour obtenir l’estimation “théorique” nous n’avons
utilisé que l’hypothèse de normalité de la distribution, c’est cette hypothèse qui doit
être vérifiée en premier lieu.
En fait, il existe une procédure relativement simple (critères de Pearson) qui permet de
voir si la distribution à laquelle on a affaire est une gaussienne. Cette procédure est
basée sur la vérification des relations précises qui existent entre les moments centraux
différents d'une distribution gaussienne (voir (27)). Dans ce livre, nous ne présentons pas
ces critères car, dans les expériences simples, ils ne sont pas souvent utilisés.
Nous avons compris que la méthode d’analyse des données expérimentales dépend
de la rigueur et de la précision du résultat que nous voulons obtenir. Notons que
le premier niveau, bien qu’il ne possède pas de bases mathématiques profondes et
qu’il ne soit fondé que sur notre “bon sens”, donne presque toujours des résultats
acceptables. La plupart du temps, il donne tout à fait correctement la valeur de la
grandeur physique (à <r près).
Par contre, l’incertitude estimée dans cette méthode peut être assez différente de
l’incertitude exacte par un facteur deux-trois ou même plus (dans notre exemple,
nous avons obtenu une estimation de 21 mm au lieu de s = 16 mm ; nous verrons
d’autres exemples où cette différence est encore plus grande). Le premier niveau
d’analyse des données est utile, surtout si l’on tient compte de la facilité avec laquelle
les résultats sont obtenus.
On peut dire que le deuxième niveau est un niveau fondamental. Il donne les résultats
avec une interprétation précise, y compris pour l’analyse postérieure plus sophistiquée.
Cette étape est indispensable lors d’une expérience effectuée en travaux pratiques.
Le troisième niveau est presque obligatoire si nous effectuons une véritable expérience
de physique en laboratoire. Il touche des aspects un peu différents de la statistique :
il essaie d’analyser la validité des hypothèses qui forment notre théorie. Dans notre
exemple, nous avons tenté de vérifier l’hypothèse sur la forme de la distribution pour
la longueur. Jusqu’ici nous n’avons pas considéré ce type de problèmes en statistique.
Ces problèmes sont importants surtout pour une expérience réelle de physique, mais
ils nécessitent des résultats statistiques beaucoup plus fournis que ceux que nous
pouvons obtenir lors de travaux pratiques classiques.
3.3 Deux résultats expérimentaux
Un autre problème apparaît lorsque l’on veut comparer des résultats expérimentaux.
Avant de discuter le cas de deux grandeurs décrites par la distribution de Student,
commençons par celui de deux grandeurs décrites par une distribution gaussienne.
A partir de deux résultats, ± Aæj et æ2 ± il faut introduire leur différence
X= — £2 qui a également une distribution gaussienne avec une moyenne nulle et
une variance AA2 = Aæ2 + Aa:^- Si la valeur de X est compatible avec 0, compte
tenu de son incertitude, alors les deux résultats sont compatibles.
Par exemple, on veut savoir si la température dans une pièce varie dans le temps.
On a effectué deux mesures à une heure d’intervalle et on a obtenu deux valeurs
Ti = 25, 2 ± 0, 2 ’C et T2 = 24,5 ± 0, 2 ’C. La différence T = Tj - T2 = 0, 7 ’C doit
être comparée avec 0. On voit que cette valeur dépasse 2<tt (avec <tt = 0,3 ’C) et
l’on peut raisonnablement conclure que la température a effectivement varie.
Etudions maintenant un exemple de deux grandeurs décrites par la distribution de
Student.
Supposons qu’un collègue ait mesuré la longueur de la même plaque métallique et
qu’il ait obtenu la valeur
lc = (4355 ± 13) mm
avec la même probabilité V = 95% mais pour n = 10 mesures. Rappelons que notre
résultat, pour n = 6 mesures, est
ln = (4350 ± 17) mm.
Ces deux valeurs sont légèrement différentes et nous voulons savoir si elles sont com
patibles. Si oui, pouvons-nous les regrouper d’une certaine façon pour augmenter la
statistique et ainsi améliorer la précision ?
3.3.1 Comparaison de deux résultats expérimentaux
Comme au paragraphe 3.2.1, nous montrerons deux niveaux de solutions possibles.

Il est très simple. On voit que les deux résultats se recouvrent compte tenu des
incertitudes présentées et notre conclusion est immédiate : les deux valeurs sont com
patibles. Encore une fois, dans cette approche, nous ne pouvons pas dire exactement
quelle est la probabilité d’avoir cette différence entre les résultats.

Formulons d’abord cette question d’une façon plus générale et plus précise. Soient
deux séries de nx et de ny mesures {a?i, æ2,... , r,,r} et {yi, y2,... , yny}- Dans chaque
cas, nous pouvons calculer les moyennes et my (82) et les variances et
(88) expérimentales.
Nous désirons savoir quelle est la probabilité pour que la valeur absolue de la différence
| mx — my | soit supérieure ou inférieure à une valeur donnée. Le problème est à nouveau
l’absence d’information sur les véritables valeurs de y et de <r2. Il peut être contourné
en utilisant le fait que la variable
- my
où
nx ny
- mx)2 +
$2 _ i=l________________ 3 = 1_________________
^37 “F ^y 2
a une distribution de Student avec p = nx + ny — 2 degrés de liberté.
La démonstration de cette propriété suit exactement la démonstration utilisée pour obtenir

la distribution de Student (voir paragraphe 3.2). C'est pourquoi ne seront notées que les
petites modifications à apporter.
Réécrivons t sous la forme t = y/nx + ny — 2 • Y^/y/Y? où
et
Le numérateur Yj est la somme de deux grandeurs distribuées selon la loi normale et

sa distribution est donc normale. La moyenne de cette distribution est nulle car elle est
proportionnelle à la différence des moyennes mx — my = y — y = 0. La variance de Yj
est l'unité car la variance de mx est <r2/nx, la variance de my est <r2/ny et la variance
de la différence mx — my est donc égale à <r2/n,r + <r2/ny (voir éq.(17)).
Le dénominateur Y-^ représente, à un facteur 1/<t2 près, la somme de deux variables
indépendantes
ri y
- mx)2 et ^(ÿj - niy)2 (112)
3=1 3=1
qui ont les distributions Xn„-1 avec ~ 1 degrés de liberté et Xnv-i avec — 1 degrés
de liberté respectivement (voir (104)). Leurs fonctions génératrices des moments sont
1
YL? (s) = et MXny-SS>> (1 _ 2s)("*-1)/2
(1- 2s)("^1)/2
(voir (96)). Ainsi la fonction génératrice de la somme

nx ny
- mxŸ + ^(ÿi - mÿ)2
i=l i —1
est égale à
1
(1 - 2s)(”-+r1!'-2)/2’
où nous avons utilisé la propriété (21). Autrement dit, cette somme a la distribution
Xn^+n -2 avec p = r!J-+r!y — 2 degrés de liberté (nous avons nx+ny mesures avec deux
relations linéaires qui fixent mx et my ; voir la remarque (105)). Ensuite nous retrouvons
la démonstration du paragraphe 3.2.
Nous sommes maintenant en mesure de répondre à notre question puisque nous avons
établi une relation univoque (109) entre la valeur de t et la probabilité P.
Dans notre exemple, mx = 4355 mm, my = 4350 mm, nx = 10, ny = 6. Pour
connaître s2 nous devons calculer les sommes (112). Dans notre expérience
ny
- mÿ)2 = 1304 mm2.
i=l
Il faut calculer la somme correspondante à l’expérience faite par notre collègue. A

partir de sa valeur de Amr = 13 mm et des relations
2 1
Amr — —9 ; P=0,95 ' et, s mx
' Î=1
nous avons
Amx \2
Y(x< - mx)2 nx(nx - 1)
Ï=1
= 9 ; P=0,95 J
mm2 ~ 2978 mm2.
Donc,
1304 + 2978
mm2 ~ 306 mm2
10 + 6-2
et la valeur de t correspondante à s2 est égale à
5
t = —. ~ 0, 55.
x/306(l/10 + 1/6)
Dans le tableau 3.1, nous voyons que la probabilité qui correspond au coefficient de
Student t ~ 0, 55 pour v = 14 degrés de liberté est P ~ 0, 4.
Ceci signifie que la probabilité de trouver la différence |mr — mÿ| inférieure à 5 mm

était de 40%. Il était même plus probable (60%) de trouver cette différence supérieure
à 5 mm. Ainsi le “désaccord” de nos deux expériences est tout à fait acceptable et nous
pouvons confirmer notre conclusion intuitive par une considération plus rigoureuse.
Notons que le critère qualitatif appliqué dans la première approche (recouvrement
des barres d’erreurs) est rapide mais parfois assez dangereux. Quand nous utilisons
de telles notions nous nous référons à la distribution de Gauss et nous examinons
la probabilité pour que mx se trouve dans l’intervalle [mÿ — Amy,my + Amy], ou
inversement la probabilité pour que my se trouve dans l’intervalle [mr — Amæ, mx +
Amr]. Pour la distribution de Gauss, la probabilité d’apparition d’un événement en
dehors de l’intervalle [/z — <r, p + f] est relativement grande, à peu près 1/3. Même pour
une différence |mæ — mÿ| = 15 mm notre conclusion basée sur ce critère reste la même
car cette différence est compatible avec les incertitudes des deux séries de mesures
(A = |(Amr + A niy) = 15 mm). Le traitement correct nous donne un coefficient
de Student t ~ 1, 65 auquel correspond une probabilité de presque 90%. Cela signifie
que la probabilité de trouver une différence de 15 mm ou plus est très faible, de
l’ordre de 10%. La méthode qualitative basée sur la distribution de Gauss donne une
probabilité trois fois plus forte que celle attendue avec notre méthode correcte basée
sur la distribution de Student !
La contradiction apparente s’explique par le fait que notre estimation de <r (pour
laquelle nous avons choisi la demi-somme de Amr et de Amÿ) était grossière. Nous
verrons que l’incertitude dans l’expérience qui accumule les résultats de deux expéri
ences est plutôt de 10 mm. La valeur de |mr — mÿ| = 15 mm correspondrait ainsi à
1,5<r. Pour la distribution de Gauss, la probabilité de trouver un événement en dehors
de l’intervalle [p— 1,5<r, /z + 1,5<r] est aussi de l’ordre de 10%. Ainsi nous retrouvons
la cohérence entre les deux approches.
La conclusion est la suivante : on peut utiliser le critère de recouvrement des incerti
tudes à condition de les recalculer en utilisant la méthode décrite ci-dessous.
Nous avons montré comment il est possible de comparer les moyennes de deux expériences.
Il existe une méthode analogue pour comparer les variances expérimentales, désignée par
le critère T de Fisher, qui donne la probabilité pour que le rapport s^/s^ soit différent
de 1. Pour cela, il faut introduire une distribution spéciale de ce rapport que l'on peut
obtenir à partir des distributions connues de et et en utilisant des règles générales
formulées au paragraphe 2.2.2. Dans ce livre, nous ne présentons pas ce critère car
cette distribution est relativement complexe et son utilité pratique bien moindre que la
distribution de Student : si deux échantillons sont vraiment incompatibles, cela apparaît
surtout sur les moyennes et dans une moindre mesure sur les variances.
3.3.2 “Addition” de deux résultats expérimentaux
Nous sommes assez convaincus que les deux résultats ne sont pas contradictoires et
désirons savoir comment les “réunir” pour avoir une meilleure statistique et plus de
précision sur la grandeur mesurée.
Nous obtenons assez facilement la formule exprimant la moyenne pour les deux séries
de mesures
E Xi + i=l
E Vi
(H3)
nx + Tly
si nous connaissons les moyennes pour les deux expériences séparément
et
remplaçons les sommes dans (113) par mxnx et myny :
(114)
Il est utile de réécrire cette formule autrement. Rappelons les relations entre les
variances expérimentales s2 de la grandeur et celles de ses valeurs moyennes s2,
(voir éqs. (88) et (110))
et
Quand le nombre de mesures dans chaque expérience est relativement grand, s2 ~

<r2 ~ s2. De plus t^p ~ = tvp. Alors nous pouvons remplacer dans (114)
•tA/p) ( (fti/p \ ~ ( syûy'P \ ( <rti/p

J ~ 'Ai«J y ~ \ Amÿ J ~ \^rny
et obtenir l’expression
m.r | mu
(Am.J2 (Am,)2
(H5)
(Am^)2 (Am,)2
où est introduite l’incertitude Aml+ÿ comme
1 _ 1 1
(Aml+ÿ)2 (Amr)2 + (Amÿ)2' (H6)
Ainsi l’expression (115) prend la forme
mx
où wx et wy peuvent être interprétés comme les poids relatifs de deux expériences.

Cette formule a une signification très simple : moins l’expérience est précise (grande
valeur de Ams), moins importante est sa contribution (faible valeur de l/(Am,-)2)
dans le calcul de la moyenne (115).
Dans notre exemple de deux expériences, nous obtenons
mx+y = 4353 mm, Aml+ÿ ~ 10 mm.
Il est logique, compte tenu du fait que les mesures du collègue étaient plus précises,
que mx+y soit plus proche de sa valeur mx.
Les formules (115) et (116) peuvent être généralisées facilement pour un nombre
arbitraire n d’expériences :
i«v = [Amvj-y , -- = i- . (ns)

v 7 ■A-' (Am,)2 (Ams)2 “ (Am,-)2
Il est vrai que cette façon de calculer la moyenne sur plusieurs expériences n’est pas
toujours mathématiquement irréprochable mais elle donne la possibilité d’avancer et
de réunir les connaissances obtenues dans des expériences parfois très différentes.
S’il a été possible de vérifier auparavant que ces séries de mesures sont compatibles
(compatibilité des moyennes et des variances), l’erreur introduite par cette procédure
est très faible. Même l’hypothèse d’égalité des coefficients de Student pour un grand
nombre de mesures n’est pas mauvaise. Dans le tableau 3.1, on voit que le coefficient
de Student varie peu avec p. Par exemple pour P = 0,95, t change seulement de
10% quand u passe de 10 à 30. De plus, cette variation est une correction dans
l’incertitude, autrement dit, c’est une correction de deuxième ordre.
C’est la raison pour laquelle cette approche est très utilisée en physique quand on veut
profiter de résultats d’expériences différentes (parfois assez coûteuses) pour obtenir la
valeur “universelle” de telle ou telle constante physique fondamentale.
3.4 Autres sources d’erreurs
L’incertitude naturelle d’une grandeur physique n’est pas la seule possible. Une autre
source importante d’incertitude est l’appareil de mesure. Par l’appareil, nous sous-
entendons non seulement l’appareillage utilisé pour faire une expérience mais, plus
généralement, la méthode de mesure choisie.
Nous voulons savoir quelle est l’influence de l’appareil sur la valeur physique ou, en
d’autres termes, comment il modifie la fonction de distribution initiale. Nous verrons
qu’il y a d’abord une modification “triviale” de cette distribution : celle-ci s’élargit, ce
qui signifie que les erreurs d’appareil s’ajoutent aux erreurs naturelles de la grandeur
physique.
Cependant, une autre modification de la fonction de distribution est aussi possible.
L’appareil peut décaler la valeur moyenne, donc l’appareil mesure une valeur systéma
tiquement plus grande (ou plus petite) que la valeur “réelle”. Ces erreurs s’appellent les
erreurs systématiques. Elles ne sont pas forcément de nature aléatoire et ne pourront
pas être traitées directement à l’aide des techniques qui ont été présentées jusqu’ici.
L’analyse de ce type d’erreurs, qui est plus complexe, fait l’objet de ce paragraphe.
3.4.1 Incertitudes d’appareil
Pour étudier l’influence d’un appareil sur la valeur mesurée, choisissons d’abord un
appareil très simple — un pèse-personne mécanique. Son principe de fonctionnement
est élémentaire : le poids d’un objet dont nous voulons connaître la masse m est
compensé par la contraction d’un ressort. Ce dernier est lié à une aiguille qui indique
sur un cadran la valeur de la masse. Si le coefficient de raideur est égal à k, le
déplacement du ressort et celui de l’aiguille est
mg
où g est l’accélération du champ de pesanteur. Supposons que l’incertitude sur la

valeur de g soit négligeable devant les autres incertitudes. Ainsi, l’incertitude sur A.r
s’écrit conformément à (58)
La particularité de cette formule vient du fait que l’incertitude de mesure com

prend deux contributions, l’une issue de l’incertitude naturelle Am et l’autre issue
de l’appareil de mesure Afc.
Une expression analogue peut être obtenue dans un cas plus général. La probabilité
de trouver une valeur physique x, caractérisée par sa fonction de distribution f(x),
dans l’intervalle [æ, x + d.r] est égale à f(x)dx. Cependant, la probabilité pour que
l’appareil donne cette valeur dans un autre intervalle [x1, x' + dx'] n’est pas nulle.
Désignons cette probabilité par S(x, x')dx'.
Pour déterminer la probabilité (F(x')dx') de détection par l’appareil de la valeur
physique dans l’intervalle [x1, x' + dx'], on doit multiplier la probabilité [f(x]dx] pour
que cette valeur se trouve dans [æ, x + dæ], par la probabilité (S(x, x')dx') pour que
l’appareil donne la valeur dans [a:', x' + dx'] et calculer la somme (ou l’intégrale) pour
toutes les valeurs x possibles :
F(x')dx' = J f(x)dx S(x, x']dx'
soit
F(x) = I S(x', x) f(x')dx'. (119)
On peut dire qu’au lieu de la vraie fonction de distribution f(x), l’appareil nous donne
une fonction de distribution modifiée F(x).
La fonction S(x,x') s’appelle la fonction de résolution (la terminologie vient de
l’optique). Quelle est la forme de cette fonction ? La réponse à cette question est
difficile. La plupart du temps, la fonction de résolution S(a:,a:') ne dépend que du
module de la différence x — x' :
S(x ,x) = S(|a: — a/|). (120)

Cette propriété signifie que l’appareil n’introduit pas d’erreur systématique, c’est-à-
dire qu’il ne modifie pas la valeur moyenne de la distribution.
La valeur moyenne /lf pour la distribution F(x) est

+oo r+co r+co
/ ■CO
xF(x)dx= I
2 —co
I
2—co
x S(x',x) f(x')dx'dx.
A l aide de (120) et en introduisant la variable t = x — x' nous obtenons

+co y + co
/ •OO
+co
!
7—CO
(t + x') S(\t\) f(x')dx'dt
r+co r+oo r+co
=
/ •CO
tS(|t|)dt • /
0-1 + 1 ■/if =
J— CO
f(x')dx' + /
7—CO
S(|t\)dt ■ I
<7—00
x'f(x')dx'
Nous avons tenu compte de la normalisation de f(x) et de S(t) :

+co r+co
/ -co
f(x)dx = 1, /
7—CO
S(t)dt = 1
et du fait que S(|t|) est une fonction paire. Il n’y a pas d'erreur systématique :
HF _ _ p.
Dans les mêmes conditions, nous pouvons montrer facilement que l’appareil ne peut
qu'élargir la distribution initiale. La variance de la distribution F(x) est
/•+oo r+oo />+co
<Tp = / (x ~ /j.)2 F(x)dx = / / (t + x’ — n)2 S(|f |) f(x'}dx'dt
J — oo J — oo J — oo
+oo r+co r+co r+co
/ ■CO
t2S(|t|)df • /
J —CO
f(x'}dx' + 2 I
J—CO
+co
fS(|t|)df • /
J —CO
r+co
(x1 — /J.}f(x')dx'
r+co
/ ■CO
S(|t|)dt • /
r+co
2 —CO
(x' - fi)2f(x')dx'
= / t2S(|f|)dt • 1 + 2 • 0 • 0 + 1 • <T2 = <T2 + / t2S(|f\)dt.

J — co 7—co
D'où
_2 C2
&F — <Tf ■
Comme pour les fonctions de distribution, on peut affirmer que si les conditions du
théorème central limite sont satisfaites (c’est-à-dire s’il y a plusieurs facteurs indé
pendants qui agissent sur la fonction de résolution et si l’influence de chacun de ces
facteurs est petite), cette fonction a la forme de Gauss :
1 (x — x'}2 1
S(x — x') =
2<r2 J
avec une variance Cette fonction ne dépend que de |æ — a:'| et la moyenne de

F(x) coïncide avec la moyenne de f(x). En résumé, dans les conditions du théorème
central limite, il n’y a pas d’erreur systématique et l’appareil ne change pas la valeur
moyenne.
Nous ne considérerons que le cas où la fonction de résolution S(x — F) et la fonction
de distribution f(x) sont décrites par des fonctions de Gauss. Soient la variance de
S(x — x1 ), /j. et (Tj la. moyenne et la variance de f (x). On peut alors calculer l’intégrale
(119) et obtenir la fonction de distribution F(x), donnée par l’appareil, qui a aussi
une forme gaussienne :
(x — F)2 1
2^ J’
Il existe deux façons de calculer l'intégrale

i r+cxo
--------------- / e-(^-F)2/2Ol
27ras<Tf
La première est directe : on fait le changement de variable
<?f
V -p) -
\ps +
pour retrouver l'intégrale bien connue (25).

La deuxième est plus élégante : il faut passer par la transformation de Fourier de cette
intégrale et utiliser deux propriétés de la transformation de Fourier (la transformée de
Fourier d'une gaussienne est une gaussienne et la transformée de Fourier d'une convolu-
tion de deux fonctions est le produit de leurs transformées). Nous laissons cet exercice
aux lecteurs familiers de la transformation de Fourier.
Ce calcul permet de vérifier que la variance <Tp de la fonction F(æ) est égale à la
somme des variances a2. et <rj :
2 — A2 _L A2
<Tp — <Tg + <rf-
Dans une expérience réelle deux situations extrêmes peuvent être rencontrées. Celle
où 1a. variance de l’appareil est négligeable devant la largeur naturelle (<rg -A <r2) et
l’appareil ne change rien ; celle où la variance d’appareil est plus importante que la
variance initiale (a2 A> <rj) et on peut alors prendre l’incertitude de l’appareil comme
l’incertitude de l’expérience.
En général, la détermination de la fonction de résolution n’est pas aisée. Pour les
appareils simples utilisés en travaux pratiques, la connaissance précise de la fonction
S(x, x') n’est pas indispensable. On peut se limiter à la calibration de l’appareil avec
une fonction f(sc) bien définie. Dans l’exemple d’un pèse-personne, on doit peser des
poids connus (les étalons) et repérer les indications correspondantes. Ainsi on obtient
une échelle de l’appareil utilisable pour la mesure de poids inconnus. Les fonctions
obtenues de cette manière se présentent souvent sous la forme d’une courbe ou d’une
table d’étalonnage.
Pour un appareil digital, l’incertitude de mesure est indiquée dans la description.
Pour un appareil à aiguille, la précision est caractérisée par la classe de l’appareil qui
est toujours marquée sur son cadran au-dessus du symbole de position de l’appareil.
L’incertitude de l’appareil est égale au produit de sa classe par la pleine échelle utilisée
pour la mesure, divisé par 100 :
classe • pleine échelle
incertitude = --------------—------------ .
100
Pour diminuer l’incertitude de mesure, il faut donc toujours travailler avec les échelles
les plus sensibles possibles (les échelles qui donnent la déviation maximale acceptable).
Dans la plupart des cas, on travaille avec des appareils de classe 0,5 ; 1,0 ; 1,5 ou 2,5.
Pour les expériences plus sophistiquées, cette procédure simple n’est plus suffisante.
L’expérimentateur doit faire une étude approfondie du nouvel appareil pour avoir le
maximum d’informations sur la fonction de résolution 5(æ',a?) : vérifier si elle ne
dépend que de |.r — -r'| ou, sinon, établir la forme de cette fonction, etc.
3.4.2 Erreurs systématiques
On peut mentionner trois sources d’erreurs systématiques : la méthode de mesure

choisie, le mauvais fonctionnement de l’appareillage et les erreurs d’expérimentateur.
Nous allons étudier toutes ces sources d’erreurs et de voir ce qu’il faut faire dans ces
cas.
Erreurs liées à la méthode de mesure
Un exemple simple d’erreur systématique provenant de la méthode de mesure est
donné par la détermination d’une résistance inconnue Rx. On peut la mesurer à l’aide
d’un voltmètre ayant une résistance Ry et d’un ampèremètre ayant une résistance Ra-
Supposons que ces valeurs soient, inconnues ; on sait seulement que Ry est grande par
rapport à Rx et que Ra est petite par rapport à Rx. On branche l’ampèremètre en
série avec la résistance inconnue. Le branchement du voltmètre peut être effectué de
deux façons : (I) on peut mesurer la tension aux bornes de la résistance Rx (figure 3.6)
ou (II) on peut mesurer la tension aux bornes de la résistance et de l’ampèremètre
(figure 3.7).
Si on détermine la valeur expérimentale -Rexp de la résistance inconnue Rx comme le
rapport de la tension affichée sur le voltmètre et du courant traversant l’ampèremètre,
pour ces deux branchements, on obtient les relations suivantes entre Rexp et Rx :
, Ry
1 Lexp
Ry + Rx
Rexp — + RA ■
Si les appareils choisis sont de bonne qualité, pour un assez grand domaine de valeurs
de la résistance Rx, telles que Ry Rx Ra, on a ReXp ~ Tïêxp? — Rx- Néanmoins,
(I)
Figure 3.6 : Premier schéma possible pour mesurer la valeur d’une résistance
la première méthode donne toujours des valeurs systématiquement plus petites que la
vraie valeur de Rx, tandis que la deuxième donne des valeurs systématiquement plus
grandes. Dans les deux cas, on a une erreur systématique plus ou moins importante
en fonction des relations entre Rv,Ra et Rx.
(II)
Figure 3.7 : Deuxième schéma possible pour mesurer la valeur d’une résistance
On peut donc dire que la première méthode est préférable pour mesurer des petites
résistances tandis que la deuxième est plus adaptée aux grandes résistances. Cepen
dant les deux méthodes donnent une erreur systématique qu’on ne peut éliminer qu’en
connaissant les valeurs de Ry et Ra.
Proposons une troisième façon de mesurer la résistance. Pour cela, nous avons besoin
d’une résistance variable dont nous pouvons établir la valeur Rv, de deux résistances
identiques R et d’un appareil de mesure (d’un ampèremètre ou d’un voltmètre, au
choix). Le schéma de branchement est présenté sur la figure 3.8.
Si Rx est égale à Rv, alors le courant Ia qui passe par l’ampèremètre (ou le voltmètre)
est nul. On peut le voir à partir de l’expression de Ia :
1 Rx~ Rv I
(121)
2A R-, + Rx
I étant le courant aux bornes du circuit,
A — 1 -L R 2^ + A, + Rx
+ a2R(Rv + Rxy
où Ra est la résistance de l’appareil (Ra ou Ry).

(III)
h A
h
Figure 3.8 ; Troisième schéma possible pour mesurer la valeur d’une résistance
L'expression (121) peut être obtenue de la façon suivante. Nous introduisons les courants
R, R, h, R (figure 3.8) et écrivons le système de 5 équations
’ I=R+R
I = R +h
< R =R+R
RRV + 11R = RRX + RR
RRa H- RR = RR.
Nous exprimons R, R et R en fonction de R R et R
R —R+R
* R —I R —R
.R=I-R
et obtenons deux équations
f RV(R + R) + RR = R*(I- R -R)-R(I-R)

( RaR + R(R — R) = RR•
En éliminant R, il est possible d’écrire
1 r I __ r IR R , IR + IR
a2R + 2 — 2R + Rr + Rt, a2R+Rx + RR
Cette relation nous donne la formule (121).
Nous devons faire varier la résistance R,: jusqu’à annuler le courant R.

Quels sont les avantages d’une telle méthode par rapport aux méthodes précédentes ?
Premièrement, il n’y a pas d’erreurs systématiques liées à la méthode. Si nos appareils
sont précis nous obtiendrons exactement la valeur
Deuxièmement, nos mesures sont extrêmement simples : nous voulons annuler le

courant et nous ne devons faire aucun calcul. Troisièmement, il est relativement
facile de vérifier si le zéro est bien établi. Supposons que la valeur du courant est
non nulle Ia = /0 0, mais tellement petite que notre ampèremètre n’arrive pas à le
détecter. Pour s’affranchir du problème, il suffit d’augmenter le courant extérieur I
d’un facteur n, afin que le courant Ia augmente aussi d’un facteur n (voir (121)) et
qu’il redevienne détectable. Ainsi nous pouvons corriger la valeur de Rv pour rétablir
le zéro.
Les inconvénients possibles de cette méthode sont la difficulté de trouver une résistance
variable de bonne qualité et la durée d’une telle expérience.
Dans l’exemple précédent apparaissent deux conceptions différentes d’une expérience.
Dans la première approche, nous devons d’abord calibrer les appareils de mesure
(voltmètre et ampèremètre) à l’aide d’étalons et ensuite les utiliser pour mesurer des
valeurs physiques inconnues. Dans la deuxième approche, nous comparons directe
ment la valeur inconnue à l’étalon. La deuxième approche est généralement plus
précise mais elle est aussi plus coûteuse. Ces deux conceptions de mesure sont uti
lisées partout dans la vie courante. Le choix dépend de la précision recherchée et des
moyens disponibles. Par exemple nous pouvons mesurer une masse, soit à l’aide d’un
pèse-personne qui utilise un ressort préalablement calibré, soit à l’aide d’une balance
qui équilibre la masse inconnue par des poids connus.
Erreurs liées au fonctionnement d’appareils

Le deuxième type d’erreurs systématiques est lié au mauvais fonctionnement de l’appa
reillage ou au changement des conditions de déroulement de l’expérience. Ces erreurs
peuvent être diverses et elles dépendent de l’expérience concrète. L’exemple le plus
simple est le mauvais réglage du zéro de l’appareil. Avant toute mesure il faut s'assurer
que le zéro est réglé correctement. Cette vérification ne prend pas beaucoup de temps
mais elle permet d’éviter des erreurs grossières et elle doit devenir une habitude pour
l’expérimentateur.
L’instabilité des conditions de déroulement de l’expérience donne lieu à une dérive
systématique des mesures. Par exemple la position du zéro d’un wattmètre peut
varier lors d’une expérience. Un autre exemple d’une telle erreur est la mesure de
la vitesse d’une boule métallique dans un liquide visqueux. Si cette expérience dure
longtemps, la température du liquide peut varier avec la variation de la température
ambiante et ce changement modifie la viscosité du liquide.
Erreurs d’expérimentateur
Finalement les erreurs de l’expérimentateur constituent le troisième type d’erreurs
systématiques. Par exemple certaines personnes évitent tel ou tel chiffre lors des
estimations de fractions de divisions d’échelle d’un appareil. Ou encore, quand on
modifie les paramètres d’une expérience, le système a besoin d’un certain temps pour
se mettre en équilibre et les indications des appareils peuvent être instables pendant
quelques secondes, fl ne faut pas se précipiter pour faire les mesures. Lors des mesures
d’un intervalle de temps, une erreur systématique peut être introduite par le fait que
des personnes différentes ont des vitesses de réaction différentes.
Une erreur presque inévitable intervient lors de la lecture des indications des appareils
à aiguille : il existe toujours une certaine distance entre l’aiguille et l’échelle et le
résultat lu dépend de l’angle de vision. De plus, si l’aiguille se trouve entre deux
divisions d’échelle, il y aura une erreur liée au choix de la valeur retenue.
Toutes ces erreurs sont presque inévitables. Il faut savoir les estimer en sachant bien
que ces estimations sont personnelles, subjectives, de la responsabilité de l’expérimen
tateur.
3.4.3 Comment éviter les erreurs systématiques ?
Pour éviter ces erreurs on peut donner quelques recommandations pratiques. Les er
reurs systématiques proviennent souvent du mauvais fonctionnement de l’appareillage
ou de l’expérimentateur lui-même. Ce dernier paragraphe contient quelques recom
mandations générales qui permettront d’éviter une grande partie de ces erreurs.
Commençons par les questions de planification et de réalisation d’une expérience sont
d’une importance fondamentale. Même dans le cas d’une manipulation relativement
simple en travaux pratiques il faut leur consacrer quelques minutes. Quels sont les
points auxquels il faut faire attention ?
Les conditions de déroulement de l’expérience

Une manipulation dure plusieurs heures et demande un effort mental assez important.
L’expérimentateur peut être fatigué et il peut se tromper. C’est pourquoi il faut
commencer par la préparation de la place de travail : on ne laisse que les objets
indispensables (le cahier d’expérience, la calculatrice, un stylo, etc.), l’endroit doit
être bien éclairé, la température ambiante ne doit pas être trop élevée et surtout
rester stable, il faut éviter les courants d’air. La stabilité de la température rend le
travail plus confortable et diminue les erreurs systématiques liées aux changement des
conditions de l’expérience. Il faut placer l’appareillage de façon telle que les appareils
les plus fréquemment utilisés soient facilement accessibles.
Vérification des choses évidentes

Parfois, il vaut mieux vérifier des choses qui paraissent évidentes. Les appareils ne
doivent pas bouger. Si la base de l’appareil est considérée comme horizontale il faut,
au moins, le vérifier à l’œil nu. En optique, la condition importante est l’alignement
de tous les appareils sur un même axe. Ainsi nous éviterons beaucoup d’erreurs sys
tématiques et le processus expérimental sera accéléré. Si nous utilisons un circuit
électrique alimenté directement par le réseau EDF, nous devons mesurer la tension
car elle peut être différente de 220 V. Les appareils alimentés par des piles ont la
“mauvaise habitude” de tomber en panne d’alimentation au moment le plus impor
tant de l’expérience. Pour éviter ce problème il faut vérifier l’état des piles avant
l’expérience.
Symétrie apparente
Si le montage possède des éléments identiques, il faut les interchanger et répéter la
mesure. Par exemple, sur la figure 3.8, nous avons un schéma pour déterminer une
résistance inconnue Rx dans lequel nous utilisons deux résistances supposées iden
tiques R. Il faut s’en assurer expérimentalement en permutant ces résistances lorsque
le courant qui passe par l’ampèremètre est nul. Si, avec les résistances interchangées,
le courant devient différent du zéro, il faut soit remplacer les résistances soit aug
menter l’incertitude de mesure. En travaux pratiques, on utilise fréquemment des
appareils polyvalents qui peuvent mesurer le courant, la tension ou même la résis
tance. Si l’on utilise deux appareils de ce type dans la même expérience, on peut les
interchanger et vérifier la stabilité du résultat.
Quand on mesure la différence de deux températures avec deux thermomètres dif
férents il faut aussi les interchanger. Si le résultat n’est pas le même on doit prendre la
demi-somme des deux mesures comme valeur expérimentale. Si l’un des thermomètres
(ou les deux) est affecté par une erreur systématique, cette procédure permettra de
s’en affranchir.
Expérience préliminaire
Une expérience scientifique est toujours précédée d’une manipulation préliminaire.
Son but est multiple. L’expérimentateur “apprend” la manipulation, s’entraîne à
effectuer les opérations qui seront les plus fréquentes, vérifie le fonctionnement des
divers éléments. Dans cette manipulation, on essaie d’obtenir une idée sur l’intervalle
des valeurs de chaque grandeur physique ainsi que sur leurs incertitudes. Cette mani
pulation préliminaire permet de déterminer la stratégie future pour toute l’expérience.
Même en travaux pratiques il faut essayer d’effectuer une expérience préliminaire, bien
que le temps soit très limité. Il faut, au moins, prendre connaissance de l’appareillage
et surtout de ses composantes qui n’ont pas été étudiées auparavant. Si, pendant
l’expérience, il faut changer d’échelle et si on ne sait pas effectuer cette opération, on
risque non seulement de perdre du temps mais aussi de perdre une partie des données.
Planification d’une expérience

La manipulation préliminaire fait partie d’un problème plus général de planification
d’une expérience. En travaux pratiques, il faut cerner exactement les points les plus
délicats et les plus importants du point de vue physique ainsi que l’enchaînement
entre les différentes parties de l’expérience.
Un autre aspect important de la planification est l’ordre chronologique des mesures
lorsqu’il s’agit de déterminer une dépendance en fonction d’un paramétre (courant,
fréquence, température, etc.). Si on cherche, par exemple, la puissance P dégagée par
une résistance en fonction du courant I qui passe dans le circuit et qui varie de 0 à
10 A (la, limite de notre ampèremètre), on s’attend à une dépendance telle que :
P(/) = Po + al + bl\
La présence de la constante Po peut être expliquée par l’existence de sources de

chaleur, celle de la fonction linéaire par l’effet Peltier et celle de la fonction quadratique
par l’effet Joule.
Six points (entre 0 et 10 A avec un pas de 2 A) sont largement suffisants pour définir
les paramètres Pq, a et b. Si nous voulons augmenter la précision sur ces valeurs,
nous pouvons prendre un pas plus petit, 1 A. Dans notre système, il n’y a pas de
dépendance rapide en fonction du paramètre et il vaut mieux choisir des points de
mesures distribués de manière uniforme sur tout intervalle de variation du courant.
Cependant, il ne faut pas perdre de temps en fixant les valeurs de I exactement à
1 A ou 2 A. Si nous mesurons la puissance pour I — 1, 95 A au lieu de / = 2, 00 A,
la précision sur les paramètres sera la même. Pour accélérer la manipulation nous
pouvons faire les mesures en augmentant progressivement le courant avec un pas de
2 A de 0 à 10 A. L’avantage est que notre système trouvera chaque fois son équilibre
assez rapidement. De plus, nous nous attendons à une dépendance régulière P(I) et
pouvons contrôler que la puissance varie lentement avec la variation du courant.
Le problème concernant l’ordre des mesures apparaît quand il existe une source
d’erreurs systématiques (par exemple, si la température de la pièce monte progressive
ment pendant l’expérience, elle modifie le paramètre Po). Avec l’ordre précédent nous
ne trouverons jamais cette source d’erreurs : la fonction P(P) sera toujours régulière
et continue. Par contre, si nous choisissons un ordre différent des mesures : I = 0,
10, 2, 8, 4, 6 A, les points expérimentaux “oscilleront” autour d’une courbe continue
et ces oscillations seront plus grandes que les incertitudes des mesures. Un simple
changement de l’ordre des mesures peut nous aider à détecter une erreur systéma
tique.
C’est à l’expérimentateur de décider quel est l’aspect de la manipulation le plus im
portant : la rapidité et la simplicité des mesures ou la sécurité.
Si nous étudions une grandeur dont la dépendance en fonction d’une variable est assez
rapide comme, par exemple, la recherche de la fréquence propre d’un circuit RLC par
une mesure de la tension en fonction de la fréquence, la logique doit être différente.
La tension aux bornes de la résistance peut être approchée par la formule
2
1
U(i/) = u0 + U1
(!/ - l/„)2 +
L’expérience comprend deux étapes. D’abord, nous déterminons le comportement

général U(iz) avec un pas qui peut être assez grand, 15 Hz (quatre points noirs sur la
figure 3.9). Le but de cette étape est de déterminer approximativement la position de
la résonance : nous voyons que i/o se trouve entre 30 et 50 Hz. Ensuite, nous devons
répéter nos mesures au voisinage de i/o avec un pas beaucoup plus faible, 2 Hz (carrés
blancs sur la figure 3.9). Il n’y aucun intérêt à faire des mesures avec ce petit pas loin
de i/0 si nous ne nous intéressons qu’à la position de la résonance.
Ces exemples élémentaires montrent que l’ordre et le pas des mesures dépendent de
différents facteurs et l’expérimentateur doit chaque fois décider quels sont les critères
les plus importants pour effectuer ces choix.
Enregistrement des résultats

Lorsque nous enregistrons les résultats, le but est de ne pas introduire d’erreurs sup
plémentaires. Le remède est trivial : nous devons noter immédiatement tous les
résultats pour ne rien oublier. L’écriture doit être simple, concise et elle doit contenir
un minimum d’explications nécessaires pour que nous puissions plus tard comprendre
et interpréter ces résultats sans aucune ambiguïté. Une écriture claire et facilement
lisible dépend de notre expérience personnelle et elle viendra au fil des années.
2,0
/
/
1, ± L
20 30 40 50 60 70 v, Hz
Figure 3.9 : Détermination de la position d’une résonance
La façon la plus traditionnelle d’enregistrement des résultats est l’utilisation d’un

cahier d’expérience. L’avantage principal d’un tel cahier par rapport aux feuilles sé
parées est qu’il est plus difficile de le perdre. L’inconvénient est que même les mesures
simples ne s’effectuent jamais dans un ordre parfait et que notre enregistrement peut
être assez disparate. Il n’est pas toujours commode de coller dans ce cahier des feuilles
de papier millimétré avec des courbes ou des listings d’ordinateur. Cependant, le
cahier d’expérience reste le meilleur moyen pour éviter la perte d’information. Il
est utile de numéroter ses pages et de réserver une page au début pour la table des
matières.
Inscription des résultats

Tous les résultats doivent être notés immédiatement, dans leur forme brute et sans
la moindre modification. Par exemple, si l’échelle d’un voltmètre est de 5 V, dans le
cahier d’expérience il faut noter le nombre de divisions d’échelle ainsi que la valeur
de pleine échelle. Si, par hasard, nous nous trompons lors de la multiplication par 5
nous ne serons plus capables de corriger cette erreur plus tard.
Recopier des résultats est très dangereux. Il ne faut jamais utiliser les brouillons
pour copier ensuite les résultats dans le cahier de manipulation. Cette opération est
triplement dangereuse. Premièrement, nous perdons du temps. Deuxièmement, nous
pouvons introduire des erreurs supplémentaires. Mais le danger le plus important
vient du fait que, lorsque nous copions les résultats, nous ne pouvons pas éviter la
sélection.
Dans le bilan d’une expérience, on n’utilise pas toutes les mesures effectuées. Assez
fréquemment, on décide que telle ou telle mesure n’est pas très parlante ou simplement
inutile. Autrement dit, nous sélectionnons les résultats. Cette procédure est parfaite
ment correcte à condition que nos critères de sélection soient objectifs et justes. Si,
plus tard, nous décidons que nous nous sommes trompés dans le choix des critères,
nous devons avoir la possibilité de revoir l’ensemble des mesures initiales. La seule
solution à ce problème est de conserver tous les résultats des mesures.
Par exemple, nous mesurons des différences de températures à l’aide des deux ther
momètres. Nous devons enregistrer les indications de deux appareils et ensuite calculer
la différence. Si l’un des appareils fonctionne mal et donne, de temps en temps, une
valeur fausse nous pourrons trouver plus facilement cette erreur si nous avons deux
enregistrements séparés. Nous verrons alors les fluctuations dans les indications de ce
thermomètre. Si nous ne notons que la différence nous ne saurons jamais lequel des
deux thermomètres fonctionne mal.
Ordinateur
L’ordinateur devient de plus en plus présent en travaux pratiques. C’est très bien car
il permet d’accélérer l’acquisition des données d’une façon spectaculaire. Cependant,
il faut comprendre que l’ordinateur ne peut pas faire des miracles et la précision d’une
seule mesure faite avec l’ordinateur n’augmente pas pour autant ! Quand l’écran de
l’ordinateur affiche huit chiffres significatifs, nous devons savoir qu’en réalité le nombre
de chiffres significatifs reste le même que si nous avions fait la mesure nous-mêmes.
Simplement, l’appareil qui sert d’interface entre l’appareil de mesure (un voltmètre,
un thermomètre, etc.) et l’ordinateur ne sait pas arrondir correctement le résultat.
Le nombre de chiffres affichés est défini par le nombre de digits d’ordinateur et non
par la véritable précision de l’expérience. Ce phénomène pose un vrai problème :
l’acquisition automatique des données rend difficile la détermination de l’incertitude
de mesure car l’appareil de mesure est souvent inaccessible. La solution consiste à
répéter l’expérience ou une partie de celle-ci. Nous obtiendrons des résultats différents
et déterminerons ainsi l’incertitude en utilisant l’approche décrite dans ce livre.
Schémas et tableaux
Les schémas et les tableaux sont des formes très pratiques pour limiter l’écriture et
éviter ainsi les erreurs inutiles. Il ne faut pas que le schéma d’une expérience soit
trop détaillé et qu’il soit proche d’une photographie. Il doit contenir le minimum
nécessaire d’informations en expliquant l’idée de l’expérience, en donnant une des
cription de l’appareillage et les notations utiles. On a parfois besoin d’un schéma
complet dans lequel l’échelle est soigneusement respectée. Mais dans la plupart des
situations, l’échelle est consciemment modifiée. Par exemple, dans le schéma présenté
sur la figure 4.4. la vraie taille de la résistance inconnue Rx peut être de quelques
millimètres tandis que la résistance variable R.v représente un appareil d’une dizaine
de centimètres. Dans cette expérience, ces résistances jouent le même rôle et le dessin
souligne leur “équivalence”.
Tous les résultats des mesures doivent être écrits de préférence, sous la forme d’un
tableau. Il vaut mieux noter les valeurs de la même grandeur physique dans une
colonne, car l’œil compare plus facilement deux chiffres écrits l’un sous l’autre. La
première ligne de chaque colonne doit contenir le nom de la grandeur, son symbole
et ses unités. Si possible, il faut préparer les tableaux avant la manipulation. Il
est toujours utile de réserver quelques colonnes supplémentaires. Elles peuvent être
nécessaires pour noter immédiatement les incertitudes sur les valeurs (surtout si elles
varient lors de l’expérience) ou, plus tard, les résultats obtenus lors du traitement des
données. Par exemple, si nous mesurons la résistance inconnue comme rapport de la
tension à ses bornes au courant qui la traverse, nous devons préparer six colonnes :
pour la tension et son incertitude, pour le courant et son incertitude et pour la ré
sistance et son incertitude. Si, de plus, les échelles de ces appareils ne sont pas des
multiples de 10, il vaut mieux préparer des colonnes supplémentaires pour noter les
mesures brutes comme nous l’avons discuté auparavant.
Calculs arithmétiques
Lors des calculs arithmétiques, il ne faut pas se précipiter sur la calculatrice. Prenons
un exemple. Nous déterminons la valeur de la chaleur spécifique C d’un liquide de
masse m contenu dans une boîte. Pour cela, nous chauffons ce récipient à l’aide d’une
petite résistance plongée dans le liquide. Le courant qui passe par la résistance est /, la
tension aux bornes de celle-ci U, la durée du chauffage t. En première approximation,
si nous négligeons les pertes de chaleur (par la surface de la boîte ou pour chauffer la
résistance elle-même, etc.) la chaleur spécifique est donnée par :
C _ mAT
où AT est la différence des températures après et avant le chauffage. Soient les valeurs
expérimentales : m = 17, 6 g, U = 10, 7 V, I = 42 mA, t = 23, 7 s, AT = 0, 36 K.
L’ordre de calculs doit être le suivant. Dans l’expression initiale
10,7 V -42 mA -23,7 s
~ 17,6 g -0,36 K
nous réécrivons toutes les valeurs dans le même système d’unités (par exemple, SI) :
10,7 V • 42•10-3 A -23,7 s

17,6-10-3 kg -0,36 K
nous séparons les chiffres et les unités :
10,7 • 42 • ÎO-3 -23,7 V A s

_ 17,6-10-3 ■ 0,36 kg K ’
nous faisons les opérations arithmétiques à l’aide d’une calculatrice et nous transfor
mons les unités :
J
1,68- 103
kg K
Ici, trois remarques s’imposent.
Premièrement, il est utile de réécrire l’avant-dernière expression sous la forme
1,07 - 4,2 ■ 2,37 101 - 10~2 ■ 101

1,76 • 3,6 10-2 -10_1
où nous avons séparé les chiffres significatifs et les ordres de grandeur : si la valeur de
x ■ 10rl est plus grande que 5 • 10rl nous l’écrivons comme 0,æ - 10ri+1, sinon nous ne
changeons rien. L’avantage d’une telle représentation est que nous voyons immédia
tement l’ordre de grandeur : 103. La valeur de la première fraction, dans la plupart
des situations, sera alors de l’ordre de 1 (de 0,1 à 10).
Deuxièmement., dans le résultat intermédiaire nous gardons, pour l’instant, trois
chiffres significatifs 1,68, bien que les valeurs de AT et de I n’en contiennent que deux.
Nous le faisons volontairement pour éviter les erreurs supplémentaires d’arrondi. Dans
le résultat final, après avoir calculé l’incertitude sur C, nous ne laisserons que le nom
bre de chiffres significatifs correspondant à cette incertitude (peut être un seul).
Troisièmement, dans la dernière expression, nous avons choisi les unités kJ/kg-K et
non pas J/kg-K, car nous connaissons la chaleur spécifique de l’eau 4,18 kJ/kg-K et
cette valeur nous est très familière. Même si le liquide dans le récipient n’est pas de
l’eau, il faut toujours avoir les repères physiques qui peuvent servir comme moyens
de contrôle de la validité de notre résultat.
3.4.4 Comment travailler avec

LES ERREURS SYSTÉMATIQUES ?
Que faire avec les erreurs systématiques ? Comment peut-on travailler avec ? Si c’est
possible, il vaut mieux les éviter ou, au moins, essayer d’éliminer ces sources d’erreurs
(comme, par exemple, vérifier la position du zéro de l’appareil).
Parfois, on ne peut pas éliminer la source de ces erreurs mais on peut introduire une
correction permettant de diminuer l’erreur. Par exemple, si nous effectuons la mesure
d’une puissance électrique supposée constante à l’aide d’un wattmètre. Au début de
l’expérience, nous avons noté une valeur de 4,50 W et nous savons que l’incertitude
sur cette valeur déterminée à partir de la classe de l’appareil est de 0,02 W. A la
fin de notre expérience, nous voyons que le wattmètre indique une valeur de 4,42
W. Que devons-nous faire dans cette situation ? Il faut débrancher le wattmètre du
circuit et voir la valeur affichée. S’il indique —0,07 W, cela signifie que le zéro de
l’appareil a dérivé et que la puissance mesurée à la fin de l’expérience était égale en
fait à 4,49 W. La différence par rapport à la valeur initiale est due, probablement, à la
précision de nos mesures. Il faut obligatoirement noter ce phénomène dans le cahier
d’expérience, mais pour les calculs ultérieurs on prendra une valeur de la puissance
P = (4, 50 ±0,02) W.
Si l’appareil débranché indique une valeur 0,00 W, cela signifie que la différence entre
les deux valeurs de la puissance est due à la variation réelle de la puissance dans le
circuit. Dans ce cas, nous devons utiliser lors des calculs ultérieurs une valeur de la
puissance P — (4, 46 ±0, 04) W ; dans notre cahier d’expérience nous devons noter ce
phénomène et que l’incertitude a été calculée non pas à partir de la classe de l’appareil
mais qu’elle a été estimée grossièrement par AP = (Pmax — Pmm)/2.
Les erreurs systématiques et statistiques sont de nature différente. Cependant, pour

des raisons de commodité, les deux s’écrivent sous la même forme ±Ai. Il ne faut
pas oublier que, pour les erreurs statistiques, cette écriture suppose une interprétation
précise en termes de probabilités. En revanche, pour les erreurs systématiques il n’en

est pas de même : leurs valeurs sont obtenues par des estimations parfois grossières
et subjectives. C’est pourquoi, dans la littérature scientifique, le résultat final d’une
expérience se présente sous la forme
x = Æexp ± Aa:stat ± Aæi ± Ai2, (122)
où Aa:stat est une erreur statistique et Aaq et Aæ2 sont des erreurs systématiques
introduites par des raisons différentes. Formellement, ces erreurs n’obéissent pas aux
mêmes lois que les incertitudes statistiques. En particulier, la formule de propagation
des erreurs (55) ne peut pas être appliquée aux erreurs systématiques. On peut le
voir dans un exemple très simple. A l’aide d’un voltmètre nous avons mesuré deux
tensions Vi = 7, 5 V et V2 = 6, 3 V. Les incertitudes statistiques sont respectivement
AVi = 0,4 V et AV2 = 0, 3 V. Il existe aussi une erreur dans la position du zéro du
voltmètre que nous estimons à AVo = 0, 1 V. Ainsi, nous pouvons écrire
V1 = 7,5 ±0,4 ±0,1 V,
V-2 = 6,3 ±0,3 ±0,1 V.
Si nous voulons calculer la différence v = Vj — , nous obtenons la valeur

v = 1,2 ±0,5 V.
La seule incertitude présente est statistique et calculée selon (56). Le décalage du
zéro d’appareil ne peut pas influencer la différence des deux tensions.
Par contre, si nous voulons calculer la somme V = Vi ± V2, le résultat sera
V = 13, 8 ±0,5 ±0,2 V.
Les erreurs systématiques sur la position du zéro s’ajoutent dans ce cas. En principe,
on peut utiliser la formule de propagation d’erreurs à condition d’introduire les cor
rélations entre les erreurs. Dans notre cas, le module du coefficient de corrélation est
égal à 1. Nous conseillons au lecteur intéressé d’obtenir la formule correspondante.
L’écriture d’un résultat sous la forme (122) est la seule acceptable. Néanmoins, le
travail avec une telle expression devient compliqué. C’est pourquoi on introduit aussi
une incertitude totale de l’expérience qui réunit toutes les sources d’incertitudes :
A a: = \/(Aa:stat)2 ± (Aar)2 + (Aa^)2-
Cette expression n’est pas mathématiquement irréprochable mais elle est très pra
tique, par exemple dans la comparaison rapide de deux résultats expérimentaux.
Cette formule nous aide à comprendre, par exemple, quelle incertitude il faut choisir,
celle de l’appareil ou celle de la lecture, quand nous effectuons des mesures avec les
appareils à aiguille. Supposons que notre appareil de mesure soit un ampèremètre de la
classe 4 avec une pleine échelle de 5 A et que cette échelle possède 100 divisions. Ainsi
l’erreur d’appareil est égale à Aa:app = 0, 2 A. Nous estimons que notre incertitude de
lecture est égale à la moitié de la division d’échelle : Aa:iect = 0,025 A. L’incertitude
de mesure est alors
Aï = ŸÂifapp)2 ± (Aîeet)2 ~ Ax.app = 0,2 A.
Si notre ampèremètre est de la classe 0,1, alors Aa:app = 0,005 A et
Ax = y(Azapp)2 + (Aîeet)2 ~ Aa:iect = 0,025 A.
Ces deux exemples ne sont pas très réalistes : ils servent surtout à illustrer la procédure
à appliquer pour estimer les incertitudes. En pratique, tous les appareils ont une
échelle telle que l’incertitude de lecture soit compatible avec celle de l’appareil :
Aâpp — A2qect.
Autrement dit, notre ampèremètre devrait être de la classe 1 ou 0,5. Dans ces con
ditions, on peut dire que l’incertitude de mesure est approximativement égale à la
division d’échelle. Cette estimation est utilisée quand on ne dispose pas d’information
sur la classe de l’appareil. Par exemple, pour les appareils avec l’affichage numérique,
l’incertitude peut être estimée grossièrement à 1 dans le dernier digit (à condition,
bien évidemment, que les indications de l’appareil aient été stables tout le long de la
mesure).
Chapitre 4
Ajustement des paramètres
On rencontre des nombreuses situations dans lesquels on des paramètres sont déter
minés à partir des données expérimentales. Par exemple, on a une fonction qui dépend
d’un paramètre et on veut trouver la valeur de ce dernier pour que cette fonction repro
duit bien les données. Habituellement, on cherche la meilleure valeur du paramètre,
son incertitude et une manière d’évaluer la qualité de la description des données
par la fonction choisie. Cette procédure est appelée ajustement des paramètres.
Avant d’évoquer des approches concrètes d’ajustement, définissons quelques proprétês
générales des paramètres déduits des données expérimentale.
En principe, différentes expressions peuvent être proposées pour définir la valeur d’un
paramètre à partir des données expérimentales. Par exemple, si l’on fait une série de
N mesures d’une grandeur1 X pour laquelle on obtient les résultats X\,X2,... ,Xn,
on peut proposer comme valeur de X la moyenne de tous les résultats
où la moyenne des valeurs maximale et minimale
X*2 — H-
Xi et X2 sont des estimations différentes de la même grandeur X. Comme nous

l’avons déjà discuté dans ce livre, les deux estimations peuvent être utilisées dans des
situations différentes.
On peut donner quelques importantes caractéristiques des telles estimations. La pre
mière est l’existence d’une erreur systématique. Si
# AL
1 Ici, on parle d’une grandeur X pour utiliser les exemples déjà abordés dans ce livre, mais on
aurait pu également parler d’un paramètre X.
l’estimation est dite biaisée. On a déjà vu l’importance de cette notion dans la

discussion de la variance expérimentale au paragraphe 3.1.1. Dans la définition (86),
on a dû diviser la somme par N — 1 et non pas par N, précisément, pour éviter une
erreur systématique dans cette définition. Si l’estimation n’est pas biaisée, on dit
également qu’elle est correcte.
La deuxième caractéristique importante d’une estimation est son efficacité. Parmi
toutes les estimations possibles, l’estimation efficace est celle dont la variance est la
plus petite.
Regardons le rôle de cette notion d’efficacité sur un exemple déjà étudié : l’addition
de résultats expérimentaux (voir paragraphe 3.3.2).
Quelle est la meilleure façon de calculer la moyenne de résultats expérimentaux dif
férents ? Soient N résultats , ar2, - - - ,XN qui, en tant que variables aléatoires, ont
la même moyenne 'xï = = .. . = = p mais des variances différentes <rX1 = <7X,
<7j-2 — <72, . . - , <7j-— <7JV -
A partir de ces données, on peut construir une combinaison linéaire

N
= 52 Pixi
£=1
dans laquelle les différents résultats sont pondérés par des poids inconnus pi. Choisis
sons ces poids en imposant comme condition l’efficacité de l’estimation. Autrement
dit, on cherche à ce que la variance de X soit minimale.
Avant de calculer la variance de X, on impose que X ait la même moyenne p que les
{*<} :
__ N N
= 52 = P"
2*=1 2=1
Cette condition donne

N
^Pi=l- (123)
i— 1
La variance de X se calcule très facilement en écrivant l’indépendance des {aq} :

------------- . N N N
= (x - xy = ^p^ - p)(xk -p) = ^2p?<7?.
1 = 1 fc = l 1=1
<7^- peut être considérée comme fonction de TV—1 variables indépendantes pi,p2, • • • ,Pn-i
(Pn doit être exprimée en fonction des autres variables à partir de (123)) :
<^x(Pl,P2, • • ■ ,PN-l) =
{P1<^+PÎ<?1 + + (1-P1 -P2 - . - - - PN- 1 )2<7at } •

Pour que <7^-(pi,P2, - - -PN-i) soit minimale, il faut que les dérivées partielles corres
pondantes soient nulles :
^x(Pi,P2, •••Pat-i) _ Q
dpi
IV - Ajustement des paramètres 121
Ainsi on obtient N — 1 conditions :
2^1(7^ _ 2(1 -pi -p2 - .. = 0,

2p2^2-2(1-Pi -P2- ...-Pn-i)(^n =0,
On peut écrire à nouveau ce système sous la forme
Pi =
P2 =
Pn-i
°N-l
où A = pi + P2 + • • - + Pn-i - En faisant la somme de ces équations on obtient :
soit
N-I a
E
A= fcl '
AT-1 ,
i+ E
i=i '
Finalement, on trouve les poids p{ qui sont inversement proportionnels aux variances
1 1
Pi=^ N
E^
i= 1
Ainsi pour X et on retrouve l’expression (118) :

N 2 1 N 1
x = Î2 AF xi>
i=ia‘ X i=1 i
On voit que ces caractéristiques (estimation biaisée, efficacité) sont très importantes
pour pour optimiser le choix des paramètres.
Nous allons exposer maintenant deux méthodes les plus fréquemment utilisées (la
méthode des moindres carrés et celle du maximum de vraisemblance) pour ajuster
des paramètres.
4.1 Méthode des moindres carrées
Revenons sur la question posée au début de ce chapitre : si dans notre fonction

théorique, des paramètres libres existent, comment pouvons-nous les choisir pour
avoir le meilleur accord avec les points expérimentaux ? Par exemple, quelle est la
meilleure façon de tracer une droite qui passe par les points expérimentaux représentés
sur la figure 4.1 ?
Figure 4.1 ; Tracé de la fonction linéaire
Nous disposons de n mesures indépendantes {j/Jxp} = y^p, y-z?, - • - , y'n‘‘ d’une gran
deur physique y pour n valeurs de son argument {a:;} = , x^,... ,xn. Supposons
que notre fonction y = y(x) dépende aussi de k paramètres {dj} = ai, a?,... , a*.
Cette formulationdu problème suppose que les valeurs y, sont décrites par les variables
aléatoires tandis que les {a:,} sont définis d’une façon déterministe. En pratique, cette
hypothèse signifie que les incertitudes Aa\ sont négligeables. Ainsi les paramètres {aj}
sont également décrits par les variables aléatoires dont nous devons déterminer non
seulement les valeurs moyennes mais aussi les variances.
4.1.1 Idée de la méthode des moindres carrés
Dans un cas général, c’est un problème assez complexe. C’est pourquoi nous faisons
l’hypothèse supplémentaire que y est une fonction linéaire de ses paramétres {aj} qui
s’écrit
k
y = y(a1,a2,. .. ,ak;x) = âifi(x),
1=1
IV — Ajustement des paramètres 123
où les fonctions {fi(a:)} sont connues. Il peut s’agir de monômes comme fi(x) — xl,
dans ce cas nous cherchons les coefficients de développement en série de Taylor ou
de fonctions trigonométriques cosinus et sinus et obtenons un développement en série
de Fourier. Ainsi, malgré cette hypothèse sur la linéarité par rapport aux coefficients
{ay}, notre problème reste assez général et particulièrement utile pour les applications
physiques.
Pour déterminer k paramètres, il faut que le nombre de points expérimentaux n soit
égal ou supérieur à k. Par exemple, pour une droite, nous avons besoin d’au moins
deux points pour définir la pente et la constante à l’origine. Nous supposons donc
que n > k.
Une approche assez générale pour choisir des paramètres est donnée par la méthode
des moindres carrés. Dans cette méthode on affirme que les meilleurs paramètres {aj}
sont tels qu’ils minimisent la somme des carrés :
n
(y'” - y(ai, q2, ■ ■ ■ ,ak;xi))2
R(ai,a2, - ,afe) = 5^ (124)
2=1
C’est une somme sur tous les points expérimentaux i = 1,2,... , n qui réunit ainsi la
totalité de l’information expérimentale. Chaque terme de la somme est le carré de
la différence entre la valeur mesurée j/texp et la valeur théorique y(ai ,a2,... ,a(.;Xi)
calculée pour cette valeur de Xj. Plus proches sont la théorie et l’expérience, plus petite
est la contribution de ce terme. Chaque terme est pondéré par un poids conformément
à son erreur <7Z (voir le paragraphe 3.2.2). Plus grande est <7;, moins importante est
la contribution de ce point. De plus, nous supposons que nous connaissons les vraies
variances de chaque point <7?. En pratique, nous ne pouvons obtenir que les valeurs
expérimentales (Ar/?xp)2.
Le critère utilisé (le minimum de la somme des carrés) n’est pas le seul critère possible.
Cependant, on peut démontrer un théorème mathématique (dit de Gauss-Markov)
selon lequel les paramètres déterminés par la méthode des moindres carrés sont les
plus précis : leur variance sera plus petite que les variances des coefficients obtenues
avec tous autres critères. Cette affirmation reste vraie quelle que soit la forme de la
distribution de probabilité (autrement dit, il n’est pas nécessaire de supposer que les
{r/;Xp} soient distribuées selon la loi normale et le critère reste toujours valable). Mal
gré l’importance de ce théorème, nous ne donnons pas ici sa démonstration. Le lecteur
intéressé peut la retrouver dans les livres de mathématiques. Notons simplement que
l’idée de la démonstration est proche de celle que nous avons utilisée au début de ce
chapitre pour retrouver la formule (118). Il faut noter que la méthode des moindres
carrés est souvent utilisée dans des situations où ses conditions de validité ne sont pas
vraiment remplies (ou si l’on n’est pas sûr qu’elles soient remplies). La raison pour
cela en est simple : on ne dispose pas d’autre méthode présentant la même simplicité
et la même puissance.
Dans ce livre, nous nous sommes surtout intéressés à la démarche et nous allons
montrer maintenant comment appliquer la méthode pour obtenir les valeurs des
paramètres et leurs incertitudes.
Pour trouver le minimum de la somme
(125)
nous devons résoudre un système d'équations linéaires :
dai
soit
(126)
Dans le cas général, il est plus facile de travailler avec une écriture matricielle. Pour cela,
introduisons la matrice T7 de n lignes et de k colonnes :
/ /i(î)M k(Xi)/(Ti ... fk(Xl)/<Ti \

fi(x2)/<r2 h{x2)/(T2 ... fk(x2)/<72
y
\ fi(xn)/<rn f2(xn)/<rn ... fk(xn)/<rn /
le vecteur (soit la matrice d'une colonne et de n lignes)
/ \
y= yT/v-i
ynP/Vn /
\
et le vecteur (soit la matrice d'une colonne et de k lignes)
< ai >
d2
A=
\ ak /
Avec ces notations matricielles, la somme R (125) s'écrit
R = (y — fa)t (y — fa)
et les équations (126)
(^FjA = J^y. (127)
Nous voulons trouver le vecteur A à partir du vecteur connu y. En multipliant (127) par
la matrice (T^T7)-1, nous obtenons le résultat :
A= = jy. (128)
Les vecteurs A et V sont liés par une transformation linéaire avec un Jacobien J, c’est
pourquoi nous pouvons utiliser la relation (65) pour les variances :
£)(>!) = (129)
La matrice de covariance -D(V) est diagonale car toutes les mesures yf sont indépen
dantes. De plus elle est égale à la matrice unitaire vu la normalisation du vecteur y :
/ 1 0 . • 0 \
0 1 . . 0
dm =
l 0 0 . ■ 1 /
Ainsi, l'expression (129) prend la for me
D(A) = JDty^r = (T7^)”1^ [(77T77)“177T]T = (7^ T7)”1. (130)
Grâce aux formules (128) et (130) nous avons trouvé les valeurs des paramètres {a^} et
leurs incertitudes. Bien que la matrice D(V) soit diagonale, la matrice -D(-d) ne l'est pas
(les paramètres {aj} ne sont pas indépendants).
Explicitons (128) et (130) pour les cas les plus simples.

Fonction constante
y= ai,
la matrice T7 se dégénère en une seule colonne :
/ 1/(7! \
l/<72 1
T7 = ) ) • •
0*2
\ 1/<T„ /
La matrice devient un nombre
(77T77) — —g + — + ... -I—

01 0-2 O-n
De même
(^TJ2) = £
i=l
Le résultat (128) prend la forme
sW
” ! n 1
ai (131)
et l’expression (130) pour la variance devient
(132)
Si toutes les erreurs sont les mêmes, cri — <r2 — ... — <rn — <r, nous retrouvons nos
formules pour la moyenne (82) et pour la variance (84) :
n £2
1
ai - -
n 2=1
n
Fonction linéaire
y = ai + a2x,
la matrice T7 prend la forme :
( IM Xi/<Ti \
T (
l/<r2 ^2/^2 l/<r2 • l/<Tn
y=
\ Xl/<?1 X2j(T2 .. • %n /&n
xn /'a’n /
la matrice (77T77) est une matrice (2 x 2)
/ En W E xi/^.2 \
2=1
(77T77) =
\ E xi/(r‘i E xV^
2=1 2 =1
et
/ E yr/^î \
(^Ty) = 2=1
\ E y?v ■ Xi/<?1
2=1 /
La matrice inverse de (77T77) qui est aussi la matrice de covariance (130) s’écrit
/ E \
1
D(A) = (77T77)-1 2=1
)
À
\ - E xi/î
2=1 /
où
n
2=1
sn
2 =1
Xi
<r?
Les expressions (128) donnent
(133)
Les éléments _D(_4)n et £>(.4)22 de la matrice de covariance définissent l’incertitude

sur ai et sur <22
1 n 2
2
Aa2 = <7 ai
A 1=1
<7?3 ’
(134)
Aa| — <t a2 2
Â
Dans le cas général, l’élément D(yt)i2 est différent de 0, ce qui signifie que les deux
paramètres ai et a2 sont corrélés :
1 n
cov(ax,a2) (135)
A i=l
a?'
3
Remarque très importante. Supposons que toutes les valeurs {r/"”} soient dis
tribuées selon une loi normale. Les conditions de minimisation (126) ou (128) fixent k
relations entre les {y"f} • Ainsi, la somme Rmin où nous avons remplacé les {«/} par
leurs valeurs venant de la minimisation (128) a une distribution y2 avec (n — k) degrés
de liberté, conformément à la formule (105). Pour les {r/"”} distribuées selon une loi
normale, la notation standard de cette somme est y2 : Rm;n = Xmin- Rappelons que
la valeur moyenne de Xmin selon (98) est
y'mm
2 . (136)
alors que son erreur est selon (99)
A*min = = y/Wjl-k). (137)
Autrement dit, si tous nos calculs sont corrects et cohérents et si toutes nos hypothèses
sont vérifiées, nous devons obtenir pour la somme de carrés R"?n une valeur proche
de (n — k).
A cause de cette relation avec la distribution y2, la méthode de moindre carrés est
également appelée la méthode y2.
L’hypothèse de la forme gaussienne des distributions yt donne une autre interprétation
du critère du minimum des carrés. La probabilité dP que les yi se trouvent dans les
intervalles [j/"”, i/"p + dy.;] s’écrit alors
dP = ---- -----(27\jvt)/2a/exp
2 1 ( 2
r dJ V^ - - dyN, (138)
où R est défini par (124). Ainsi le minimum de R(a\, a2, • • • ,ak), fonction des
paramètres ai,a2)... , a/j, correspond au maximum de cette probabilité. On peut
dire que les “meilleures valeurs” de ai,a2)... , a/. sont celles qui attribuent la plus
grande probabilité au résultat observé.
4.1.2 Exemple d’une fonction linéaire
Sur la figure 4.1, nous avons présenté un exemple de données expérimentales (10
points) pour lesquelles nous voulons ajuster une droite y — ai ± a2a:. Les valeurs
numériques correspondantes sont réunies dans le tableau 4.2.
Pour une estimation rapide on peut utiliser une procédure presque intuitive. A l’œil
nu, on trace toute la famille des courbes linéaires qui passent par les points expérimen
taux et on choisit les valeurs maximale et minimale de a;. La valeur approximative
et son erreur peuvent être définies simplement comme :
~max 1 mm „max __ min
approx
et Aaappr°x = ui ai
ai
2 2
Dans notre cas, pour les lignes (1) et (2) on obtient
aappr°x = 5|5±Q|5|
aapprox = _0)5±0, 1.

Dans le tableau 3.2, nous avons explicité tous les résultats intermédiaires nécessaires
pour calculer a! et a2. L’application directe des formules (133) —(134) nous donne le
résultat final :
ai = 5, 43 ±0,26,
a2 = -0,452 ±0,039. (139)
Nous gardons deux chiffres significatifs dans l’incertitude Aa2 afin d’avoir, pour les
grandes valeurs de x, le même nombre de chiffres significatifs dans a2a: et dans ai-
Nous pouvons estimer aussi le coefficient de corrélation (22) de deux paramètres
cov(ai,a2)
Qai a2 -0,90.
Aai Aa2
Sa valeur absolue est relativement grande, donc ces paramètres sont fortement corrélés.
Nous avons pris conscience de cette corrélation lors de notre analyse rapide : pour passer
Tableau 3.2 : L’ajustement des coefficients ai et ai pour une droite
Xi 1 2 3 4 5 6 7 8 9 10 S
5,4 3,8 4,0 4,0 3,5 2,1 2,9 2,0 1,1 1,7
0,6 1,1 0,2 0,5 0,5 0,6 0,6 1,1 0,2 0,4
2,78 0,83 25 4 4 2,78 2,78 0,83 25 6,25 74,25

ya"p!2
2,8 1,7 75 16 20 16,7 19,4 6,6 225 62,5 445,7
3 3 225 64 100 100 136 53 2025 625 3334
15,0 3,1 100 16 14 5,8 8,1 1,7 27,5 10,6 201,8

(Aÿ'’») =
15,0 6,3 300 64 70 35 56,4 13,2 247,5 106,3 913,7
y^ 5,0 4,5 4,1 3,6 3,2 2,7 2,3 1,8 1,4 0,9
0,4 0,4 0,3 0,6 0,4 1,0 1,0 0,0 2,3 4,0 10
(As/rp)2
de la droite (1) à la droite (2) il faut changer non seulement la pente a-i mais aussi la
constante a\. Ceci n’est pas toujours le cas. Dans une situation où l'origine x = 0 se
trouve à peu près au milieu des points expérimentaux, le passage d'une droite extrême à
une autre se fait seulement par la modification de la pente a^. L'erreur sur la constante et
le coefficient de corrélation sont petits dans ce cas-là. Ceci peut également se voir grâce
à la formule (135). Quand tous les {#$} sont du même signe, le coefficient de corrélation
est grand. Quand l'origine x = 0 se trouve au milieu des points expérimentaux, la somme
correspondante est proche de zéro.
IIIe niveau d’analyse

Dans l’interprétation d’une expérience de physique, nous ne pouvons pas nous limiter aux
calculs des paramètres et à leurs incertitudes. Nous devons aussi nous assurer que notre
hypothèse, selon laquelle les résultats expérimentaux peuvent être décrits par une fonction
linéaire, est correcte.
Supposons que notre collègue affirme que la meilleure approximation de ces points expé
rimentaux n'est pas une fonction linéaire y(x) — ai + a-jX, mais une constante :
!/(*) = ai-
Il applique les formules (131) et (132) et il obtient
ai = 2, 72 ±0,12.
Il suffit de regarder la figure 3.3 pour voir qu'il se trompe. Son hypothèse est fausse, mais
comment pouvons-nous le prouver ?
La différence entre nos deux résultats se trouve dans la valeur de la somme xjkin qu'il
faut calculer après avoir choisi les valeurs des paramètres {aj}. Conformément à (136)
et (137), dans notre ajustement de 10 points avec 2 paramètres, on obtient \,2„„ = 8
avec une incertitude — 4. La valeur obtenue dans la dernière ligne du tableau 3.2
(X„„n)exp — 10 est en très bon accord avec cette estimation (les valeurs de sont
calculées avec les paramètres (139)). Par contre, pour l’analyse de notre collègue, on
s’attendrait à obtenir X2lin = 9 avec ~ 4 tandis que la valeur expérimentale est
(Xmin)exp — 145 ! Voilà la contradiction !
Nous pouvons reformuler ces conclusions en termes de probabilité car nous avons déjà
étudié la distribution y2 au paragraphe 2.3.2. Dans le tableau 3.3, nous présentons les
valeurs x2 et les probabilités P pour que x2 soit plus grande ou égale à y2 avec un
nombre donné de degrés de liberté.
Pour notre collègue, la probabilité de trouver y2 plus grand que 21,7 pour u — 9 est
inférieure à 1%. La probabilité de trouver x2 proche de 100 est alors négligeable. Ainsi
son hypothèse est réfutée.
Tableau 3.3 : Les valeurs xl et les probabilités P pour que x2 > xl
pour u degrés de liberté pour une droite
V 0,98 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,01

U
1 0,001 0,016 0,064 0,148 0,455 1,074 1,642 2,706 6,635
2 0,040 0,211 0,446 0,713 1,386 2,408 3,219 4,605 9,210
3 0,185 0,584 1,005 1,424 2,366 3,665 4,642 6,251 11,345
4 0,429 1,064 1,649 2,195 3,357 4,878 5,980 7,779 13,277
5 0,752 1,610 2,343 3,000 4,351 6,064 7,289 9,236 15,086
6 1,134 2,204 3,070 3,828 5,348 7,231 8,558 10,645 16,812
7 1,564 2,833 3,822 4,671 6,346 8,383 9,803 12,017 18,475
8 2,032 3,490 4,594 5,527 7,344 9,524 11,030 13,362 20,090
9 2,532 4,168 5,380 6,393 8,343 10,656 12,242 14,684 21,666
10 3,059 4,865 6,179 7,267 9,342 11,781 13,442 15,987 23,209
11 3,609 5,578 6,989 8,148 10,341 12,899 14,631 17,275 24,725
12 4,178 6,304 7,807 9,034 11,340 14,011 15,812 18,549 26,217
13 4,765 7,042 8,634 9,926 12,340 15,119 16,985 19,812 27,688
14 5,368 7,790 9,467 10,821 13,339 16,222 18,151 21,064 29,141
15 5,985 8,547 10,307 11,721 14,339 17,322 19,311 22,307 30,578
16 6,614 9,312 11,152 12,624 15,338 18,418 20,465 23,542 32,000
17 7,255 10,085 12,002 13,531 16,338 19,511 21,615 24,769 33,409
18 7,906 10,865 12,857 14,440 17,338 20,601 22,760 25,989 34,805
19 8,562 11,651 13,716 15,352 18,338 21,689 23,900 27,204 36,191
20 9,237 12,444 14,578 16,266 19,337 22,775 25,038 28,412 37,566
Dans notre cas, la probabilité de trouver x2 > 10 pour v — 8 est approximativement

égale à 25%. En fait, cette valeur est assez grande. Il faut se rappeler que la distribution
X2 est asymétrique et que l'interprétation des résultats avec cette distribution est un peu
particulière. Pour illustrer ses propriétés dans notre cas, divisons les valeurs de x2 en 4
intervalles : Ir = [0, 4[, I2 — [4, 8[, I3 = [8, 12[et I4 — [12, oo[. Le pas correspond à la
racine carrée de la variance. A l’aide du tableau 3.3, nous évaluons les probabilités pour
que la valeur de y2 se trouve dans l’intervalle correspondant : Pi ~ 0,15, P2 ~ 0,40,
P3 ~ 0, 30, P4 ~ 0, 15. Nous voyons que les probabilités d’obtenir de très grandes et de
très petites valeurs de y2 sont faibles. Leur apparition signifie que le choix de la fonction
était mauvais. En physique, on considère que le choix d'une fonction est correct si la
valeur de X2 par degré de liberté est proche de 1.
Il existe un autre argument important qui conduit à interpréter ces probabilités avec beau
coup de prudence. Rappelons que nous avons remplacé partout dans nos calculs les vraies
variances <r? par les valeurs expérimentales (Aj/^)2, car nous ne connaissons que ces
dernières. La différence entre <Tj et Aj/^xp peut être de l’ordre de 10%. Ainsi nous sommes
capables de déterminer y2 à 10 — 20% près.
En conclusion, notons que la comparaison des deux premiers niveaux d’analyse montre
bien deux particularités caractéristiques de ce genre d’évaluation rapide : l’approche
simple reproduit assez bien les valeurs de ai et de 02, mais les incertitudes sur ces
valeurs peuvent être très différentes des valeurs exactes. L’avantage du troisième
niveau réside en la possibilité de confirmer ou d’infirmer le choix de la dépendance
fonctionnelle.
La méthode des moindres carrés est une approche très efficace et elle est largement
suffisante pour les expériences faites en travaux pratiques. Néanmoins, il existe des
situations où on ne peut pas l’appliquer, par exemple lorsque le nombre d’événements
est petit et que l’on ne peut pas évaluer correctement les incertitudes, ou quand les
incertitudes sur x ne sont pas négligeables X\,X2,--. ,xn. Dans ces situations, on
utilise une autre approche plus générale basée sur la fonction dite de vraisemblance.
4.2 Méthode du maximum de vraisemblance
Une des hypothèses utilisées pour développer la méthode des moindres carrés était la
forme gaussienne de la distribution des r/;. On peut démontrer que cette condition peut
être légèrement affaiblie mais que, de toute façon, cette approche n'est pas valable pour
une distribution quelconque. C'est pourquoi on peut chercher à proposer une approche
plus générale du problème.
4.2.1 L’IDEE DE LA MÉTHODE

DU MAXIMUM DE VRAISEMBLANCE
L’idee de la méthode du maximum de vraisemblance est assez simple (pour simplifier

encore la présentation, nous supposons qu’il n’y qu’un seul paramètre a ; la généralisation
au cas de plusieurs paramètres est relativement simple). Utilisons la démarche adaptée
à la fin du paragraphe 4.1.1, où nous avons interprété la méthode des moindres carrés
comme celle qui donne la probabilité maximale de retrouver les valeurs expérimentales
avec une fonction théorique.
En utilisant les fonctions de distribution f(xi; a) des variables2 indépendantes X.;. on écrit
la probabilité de trouver les valeurs de X{ dans les intervalles [a:2-, x, +
dP — f(xi;a)f(x2;a) .. . /(xjy ; a)dxidx2 ■ ■ -dx^.
Pour que cette probabilité soit maximale, il faut que la fonction
L(a) = f(xi;a)f(x2;a) . ..f(xN;a)
ait un maximum. Cette fonction s’appelle la fonction de vraisemblance, et la condition

du maximum de vraisemblance prend naturellement la forme
Ai(<.) = o.
A partir de cette condition, on trouve la valeur du paramètre a. Il est parfois plus commode
de minimiser le logarithme de cette fonction que la fonction elle-même.
On desire, par exemple, trouver la moyenne /J. inconnue d'une fonction de distribution
gaussienne. Supposons que la fonction de distribution est la même pour tous les X{ (avec
la même variance inconnue <r2) :
(*»' - a)2 1
f(Xi) =
2<r2 J ’
Le logarithme de la fonction de vraisemblance s’écrit alors

N
(ïj - /J.)2
ln = -^2 + Ain (141)
i —1
2rr2
et sa dérivée
^lnLW = Ê
1=1
s’annule pour
Â= (142)
Le signe' sur /j. souligne que la méthode du maximum de vraisemblance nous indique com
ment estimer ce paramètre ; autrement dit, elle fournit une estimation. Bien évidemment,
dans ce cas simple, on retrouve une expression connue de la moyenne.
Mais cette méthode est vraiment très générale. Par exemple, pour une distribution bino
miale (qui est une distribution discrète I), on peut trouver la valeur la plus vraisemblable
2 Pour avoir la même écriture qu’au début du chapitre, la variable aléatoire est représentée par la
lettre x.
de la probabilité inconnue p si, au cours de N expériences, un événement se produit x

fois. La fonction de vraisemblance, d'après (30), s'écrit
et son maximum correspond au maximum du logarithme
ln L(p) = x lnp + (N — x) ln(l — p).
(dans cette expression, nous avons volontairement omis une constante qui ne dépend pas
de p). Alors
d , rv x N—x
ln L(p = -0
dp p 1—p
pour np = x. Autrement dit, la valeur la plus vraisemblable de p est
(143)
Malheureusement, la méthode du maximum de vraisemblance ne peut pas résoudre tous

les problèmes. En particulier, les estimations obtenues par cette méthode peuvent être
biaisées. Revenons à l’exemple d’une distribution gaussienne avec le logarithme de la
fonction de vraisemblance
+ )V1„ ‘
2<r2
et déterminons l'estimation pour la variance.

La dérivation de cette expression par rapport à <r conduit à l’équation
soit
?2
2=1
Comme nous l’avons déjà vu plusieurs fois, pour avoir une estimation correcte (non biaisée)
il faut diviser la somme par TV — 1 et non pas par N (voir, par exemple, (85)).
En conclusion de ce paragraphe, donnons quelques remarques concernant les relations

entre les deux méthodes proposés d'ajustement des paramètres.
Tout d’abord, la méthode des moindres carrés peut être considérée comme un cas parti
culier de la méthode du maximum de vraisemblance : si l’on prend comme fonction de
distribution3 de j/?* une gaussienne avec des “moyennes” i/th(a;Xj) dépendant de un (ou
plusieurs) paramètre(s), on a
^))21
J
et le logarithme de la fonction de vraisemblance donne (à une constante près) la somme
R (125) avec le signe moins. Ainsi le maximum de vraisemblance correspond au minimum
de la somme des carrés.
Cette correspondance n'est pas surprenante, compte tenu de l’argumentation choisie pour
développer la méthode du maximum de vraisemblance. De plus, elle permet d’utiliser la
puissance de la méthode des moindres carrés pour évaluer, par exemple, les incertitudes
sur les valeurs des paramètres (voir le paragraphe suivant).
Enfin, si la méthode du maximum de vraisemblance soit plus souple que la méthode des
moindres carrés, on doit se souvenir qu elle n’est pas parfaite : les estimations qu elle
propose peuvent être biaisées et il est plus difficile d’avoir un jugement sur la qualité de
l'ajustement des paramètres. Rappelons que la méthode des moindres carrés (par la valeur
de y2 obtenue) peut nous dire si notre hypothèse sur la forme de la fonction à ajuster est
correcte ou non. Au contraire, dans la méthode du maximum de vraisemblance, ce type
de critère n’existe pas.
4.2.2 Inégalité de Cramér-Rao-Fréchet
Un aspect important de la méthode du maximum de vraisemblance est le calcul des

incertitudes sur les valeurs des paramètres.
Commençons par la fonction de vraisemblance d’une distribution normale (140) et cher
chons l’incertitude sur /J.. Nous avons déjà calculé le logarithme de la fonction de vraisem
blance dans (141) de cette distribution. On peut ajouter à cette expression une constante
indépendante de /i comme, par exemple,
La représentation de cette fonction de n est une parabole dont le maximum se trouve au

point p = p. Pour N = 1, la parabole correspondante
lni(A) =-^(A-Â)2. (144)
est présentée sur la Figure 4.2.

3 Pour retrouver exactement les même expressions que dans la méthode de y2, on reprend les
notations pour les variables aléatoires et pour l’argument des fonctions.
Figure 4.2 : Le logarithme de la fonction de vraisemblance d’une distribution gaussienne
Cette courbe est à la base de l’analyse des fonctions de vraisemblance dépendant d'un
paramètre. Le segment de droite reliant les deux branches de la parabole pour ln L —
— 1/2, caractérise un intervalle de confiance
p — <T < /J. < x + <T
correspondant à une probabilité de 68,27 %, pour une distribution gaussienne. D’une façon
analogue, le segment de droite reliant les deux branches de la parabole pour ln L = —2
correspond à un intervalle de confiance de 95,45 %.
On peut démontrer pour une classe assez large de distributions (pas forcément gaus
siennes) qui ne dépendent que d'un seul paramètre, qu'il est possible de trouver les inter
valles de confiance de la même façon.
Par exemple, dans le cas d’une distribution binomiale abordée dans le paragraphe précé
dent, on peut tracer le logarithme de la fonction de vraisemblance en fonction de p. Pour
x = 2 et N — 10, cette fonction
ln L(p) = 2 lnp + 8 ln(l — p) + 5,450.
est présentée sur la Figure 4.3 (dans cette expression, on a ajouté une constante pour
que la valeur maximale de ln£(p) soit égale à 0). Ce n’est pas une parabole mais elle
lui ressemble quelque peu. D'ailleurs, on peut souvent approximer les fonctions de ce
type par des paraboles au voisinage du maximum (ce qui signifie qu'on peut approcher la
fonction de distribution par une gaussienne). La position du maximum de cette fonction

nous donne la valeur de l'estimation (143) : p= 0,2.
Figure 4.3 : Le logarithme de la fonction de vraisemblance

pour une distribution binomiale avec x = 2 et N = 10
A partir de cette courbe, nous pouvons facilement trouver tous les intervalles de confiance
désirés. Par exemple, pour un intervalle de confiance de 95,45%, la solution de l'équation
ln L(p) = 2 lnp + 8 ln(l — p) + 5, 450 = —2
donne [0,036 ; 0,505]. On remarque que cet intervalle n'est pas symétrique par rapport
à p = 0, 2.
Une autre approche existe pour déterminer l'incertitude sur la valeur des paramètres dans
la méthode du maximum de vraisemblance. Elle est beaucoup plus pratique, surtout
lorsque la fonction de vraisemblance dépend de plusieurs paramètres. Cette approche
porte le nom d'inégalité de Cramér-Rao-Fréchet. Donnons sa démonstration dans le cas
où la vraisemblance L(a) ne dépend que d'un seul paramètre a, mais le résultat peut être
généralisé au cas de plusieurs paramètres.
Soit â l'estimation du paramètre a. Cette estimation est biaisée par une erreur systéma
tique /3(a), c’est-à-dire que la valeur moyenne de a est égale à4
a + /3(a).
4 Pour simplifier la présentation des formule, nous utiliserons l'écriture f .. ,dX qui signifie une
intégrale multiple sur toutes les variables xi.
En dérivant cette relation par rapport à a et utilisant le fait que l'estimation a n'est
fonction que des données expérimentales {a?;}, on obtient
(145)
Calculons maintenant la dérivée par rapport à a de la relation de normalisation de la

vraisemblance
que l'on peut mettre sous la forme

d ln L(a)
/ da
(146)
En multipliant cette relation par a et en le soustrayant de (145), on obtient

f ôlnL(a) d/3(a)
/ (a - a)--- —y-l-L(a)dX = 1 +
J oa da
Si l’on applique l’inégalité de Schwartz5
y f2(x)dx y g2(x)dx > Çj f(x)g(x)dx^

aux fonctions
La première intégrale représente la variance <7^ du paramètre a, pour laquelle on obtient

finalement l’inégalité recherchée :
(147)
5 Pour démontrer cette inégalité, il suffit de remarquer que l’intégrale /(A/(æ) + g(x))2d.x est
positive quelque soit la valeur de A. Ainsi l’équation
n’a pas de racines réelles non nulles. Donc, le discriminant doit être négatif. Cette condition
nous donne l'inégalité recherchée.
La valeur moyenne du carré de la dérivée logarithmique de la vraisemblance peut être mise

sous la forme
/dlnL(q)\2 _ <92 lnL(q)

\ da J da2
(pour obtenir cette relation, il suffit de calculer la dérivée de l'équation (146) par rapport
à q).
Ainsi l'inégalité (147) prend une autre forme équivalente
1 , dp{a) y
1 da
d2 ln L(a
da2
Pour que cette inégalité devient une égalité, il faut que, dans l’inégalité de Schwartz, les
fonctions f et g soient les mêmes à un facteur multiplicatif A près, c'est-à-dire que
(149)
Autrement dit, la vraisemblance doit avoir une forme gaussienne (à comparer avec l'équation
(144))
L(q) <x exp (150)
Notons que, dans ce cas, la dérivée seconde du logarithme de la vraisemblance est une
constante :
<92 ln L(q) _
da2 A
Ainsi, pour la variance, on obtient
soit
Comme exemple d'utilisation de la formule de Cramér-Rao-Fréchet, considérons la distri

bution de Maxwell déjà étudiée dans le paragraphe 3.1.3. Supposons que soit mesuré le
module de la vitesse des molécule d'un gaz et que nous voulions déterminer la température
à partir des résultats de N mesures effectuées : v2 (i = 1,... , N).
La fonction de distribution /(v) du module de vitesse v s’écrit
(151)
donc, le logarithme de la vraisemblance prend (à une constante près qui ne nous intéresse
pas) la forme
L'estimation de la température T s'obtient en annulant la dérivée par rapport à T de

cette expression :
N
_ 2 1 A mr2
(152)
3k N 2
Cette expression correspond à l'intreprétation physique bien connue de la température

comme mesure de l'énergie cinétique moyenne des molécules. On peut vérifier aisément
que cette estimation n’est pas biaisée (elle ne contient pas d'erreur systématique), ce qui
signifie que sa valeur moyenne est égale à T :
Pour démontrer ce résultat, calculons la valeur moyenne de T en utilisant la forme explicite

de la distribution de Maxwell (151). La valeur moyenne du carré de la vitesse pour chaque
molécule i, est d'après (27), égale à
On obtient, ainsi pour T :
- 2 1 A mv? 2 1 3k
T=— — > —-=— — N— T = T.
3k N 2 3k N 2m
d/3
Le paramètre T n'est pas biaisé, donc, —— = 0.
dT
De même, on calcule la variance de ce paramètre en utilisant la procédure appliquée pour
obtenir la formule (84) :
Pour obtenir ce résultat, nous avons utilisé l'indépendance des variables Vi et le fait que,
d'après (27),
D'après la formule de Cramér-Rao-Fréchet, la variance de la température est donnée par
■> 1
ar > =■
~ fï2 ln L(T)
dT2
On peut calculer facilement la dénominateur de cette expression :
ô2ln£(a) _ 2 A mv2 3N _ 2 3kT 3N _ 3 N

Th2 ~ kT^ ~2 2T2 ~ kT^ N T ~ 2T2 ~ 2 T2'
7 =1
Ainsi, dans le cas de la distribution de Maxwell, l'inégalité devient l'égalité.

On voit que l'estimation de la température définie par (152) est une estimation non biaisée
et efficace.
On peut aisément vérifier que la condition (149) est satisfaite et que la vraisemblance
peut encore s'écrire sous la forme (150). Nous laissons au lecteur le soin de retrouver la
valeur de A correspondante ainsi que le coefficient de normalisation.
Conclusion
En conclusion, on retiendra les points suivants.

Le problème de la détermination de la valeur d’une grandeur physique est inséparable
de celle de son incertitude car toutes deux font partie d’une description unique en
termes de probabilités. En utilisant ce langage probabiliste, nous ne pouvons plus
répondre facilement à la question par laquelle nous avons commencé cet ouvrage :
“Quelle est la valeur de telle grandeur ?” Mais en donnant comme réponse la valeur et
son erreur (et les autres paramètres si, par exemple, la distribution de probabilité n’est
pas gaussienne), nous apportons une information plus riche et surtout plus cohérente.
Sans connaître l’incertitude il est impossible de savoir si l’on peut avoir confiance
en une valeur mesurée : avons-nous obtenu seulement un ordre de grandeur ou
avons-nous réussi à avoir plusieurs chiffres significatifs ? C’est l’incertitude qui donne
l’information sur la fiabilité des résultats et sur leur qualité.
On comprend ainsi qu’il est toujours nécessaire d’avoir une estimation, même grossière,
de l’erreur expérimentale. En fait, la détermination de l’incertitude n’est pas plus dif
ficile que la détermination de la valeur elle-même. L’incertitude est évaluée avec sa
propre précision. C’est très important dans les applications car il doit y avoir adéqua
tion entre la méthode choisie pour obtenir la valeur moyenne avec son erreur et la
précision recherchée : il ne faut pas utiliser des méthodes lourdes et complexes si l’on
cherche une précision de 10%.
L’approche statistique est une approche extrêmement puissante et informative, mais
elle a ses limites : elle doit être appliquée avec beaucoup de précautions aux erreurs
systématiques qui mettent en jeu des paramètres plus difficiles à analyser.
Finalement, il faut souligner que rien ne peut remplacer le bon sens de l’expérimen
tateur, ni dans le choix de la méthode d’analyse ni dans l’appréciation des résultats.
Nous espérons que les différents aspects qui ont été abordés contribueront à démystifier
un domaine qui rebute souvent les expérimentateurs. 11 existe, certes, une littérature
abondante sur ce domaine, notamment dans les pays anglo-saxons, mais souvent très
spécialisée ou dispersée. Quelques ouvrages de référence sont donnés dans la biblio
graphie pour permettre d’approfondir certaines questions ou pour trouver d’autres
exemples d’application, mais les problèmes les plus courants ont été traités dans cet
ouvrage volontairement synthétique.
Bibliographie
R.J. Barlow, “A Guide to the Use of Statistical Methods in the Physical Sciences”,
Jonh Wiley fc Sons, Chichester, New York, Brisbane, Toronto, Singapore, 1989.
E. Belorizky, “Probabilités et statistiques dans les sciences expérimentales”, Nathan,

Paris, 1998.
G. Cowan, “Statistical Data Analysis”, Clarendon Press, Londres, 1987.
D.J. Hudson, “Lectures on Elementary Statistics and Probability”, CERN 63-29,

1963 ;
D.J. Hudson, “Statistics Lectures II: Maximum Likelihood and Least Squares Theory”,
CERN 64-18, 1964.
L. Lyons, “A practical guide to Data Analysis for Physical Sciences Students”, Cam
bridge University Press, Oxford, 1991 ;
L. Lyons, “Statistics for nuclear and particle physicists”, Cambridge University Press,
Oxford, 1986.
M. Neuilly et CETAMA, “Modélisation et estimation des erreurs de mesure”, Lavoisier,

Technique et Documentation, Londres, Paris, New York, 1998.
M.R. Spiegel, “Théorie et applications de lastatistique”, Mc-Graw-Hill, Londres, 1987.
G.L. Squires, “Practical Physics”, McGraw-Hill, Londres, 1968.
B.N. Taylor, Ch.E. Kuyatt, “Guidelines for Evaluating and Expressing the Uncertainty
of NIST Measurement Results”, NIST Technical Note 1297, 1994
(http://physics.nist.gov/cuu/Uncertainty/bibliography.html) ;
“Guide pour l'expression de l’incertitude de mesure”, BIPM, CEI, FICC, ISO,
OIML, UICPA, UIPPA, ISBN 92-67-20188-3, 1995
(http.//www. iso.ch/iso/fr/prods-services/otherpubs/Metrology. html).
B.L. Van der Waerden, “Statistique mathématique”, Dunod, Paris, 1967.

Index
“Addition” de deux mesures ........................................................................................ 99

Ajustement des paramètres ...................................................................................... 119
Chiffres significatifs ...................................................................................................... 78

Coefficient de corrélation .................................................................................. 24, 127
Coefficient de Student ......................................................................................... 91, 97
Comparaison de deux résultats ................................................................................. 96
Corrélations .................................................................................................. 23, 57, 125
Covariance (voir aussi matrice de covariance) ........................................................ 29
Degré de liberté .................................................................................... 91, 97, 127, 130

Distribution binomiale ......................................................................................... 31, 49
Distribution constante ......................................................................................... 18, 66
Distribution gamma ............................................................................................. 40, 89
Distribution de Gauss (normale) ................................................................ 25, 42, 89
Distribution de Lorentz (deCauchy) .......................................................... 37, 45, 89
Distribution de Maxwell ............................................................................. 25, 84, 139
Distribution de Poisson ............................................................................... 34, 49, 89
Distribution de Student ............................................................................... 87, 89, 90
Distribution y2 .................................................................................... 82, 89, 127, 130
Ecart quadratique moyen ........................................................................................... 77

Ecart-type .................................................................................................................... 18
Echantillon .................................................................................................................... 76
Erreur .............................................................................................................................. 8
Erreur systématique ............................................................................. 9, 101, 105, 116
Estimation .................................................................................................................. 119
Estimation biaisée ............................................................................................. 120, 140

Estimation efficace ........................................................................................... 120, 140
Fonction de distribution ...................................................................................... 16, 17

Fonction de distribution de plusieurs variables ...................................................... 20
Fonction génératrice des moments ........................................................................... 19
Fonction génératrice des moments centraux ............................................................ 20
Incertitude d’appareil ........................................................................................... 9, 102

Incertitude naturelle ............................................................................................. 8, 101
Incertitude statistique ......................................................................................... 9, 116
Intervalle de confiance ......................................................................................... 72, 91
Matrice de covariance ......................................................................................... 57, 125

Méthode de moindres carrés (y2) ........................................................................... 122
Méthode de maximum de vraisemblance ............................................................... 131
Moments ....................................................................................................................... 19
Moments centraux ....................................................................................................... 19
Moyenne ....................................................................................................................... 17
Moyenne expérimentale ............................................................................................... 76
Niveau de confiance .............................................................................................. 72, 91
Probabilité .................................................................................................................... 11
Propagation des erreurs ........................................................................................ 51, 53
Précision de la variance expérimentale .................................................................... 78
Théorème central limite ............................................................................................. 42
Variable (grandeur) continue ........................................................................ 14, 16, 17

Variable (grandeur) discrète ......................................................................... 14, 16, 17
Variables indépendantes ................................................................................ 13, 21, 23
Variance ....................................................................................................................... 18
Variance expérimentale ............................................................................................... 77
Vraisemblance ............................................................................................................. 132
Table des matières
Préface ............................................................................................................... 5
Pourquoi les incertitudes existent-elles ? .................................................................... 7
Chapitre 1. Rappels sur la théorie des probabilités.............................................. 11

1.1. Probabilités .................................................................................................... 11
1.1.1. Définitions et propriétés .................................................................. 11
1.1.2. Grandeurs discrètes et continues, fonction de distribution ....... 13
1.1.3. Propriétés de la fonction de distribution ....................................... 17
1.1.4. Fonction de distribution de plusieurs variables .......................... 20
1.1.5. Corrélations ...................................................................................... 23
1.2. Distribution de Gauss .................................................................................. 25
1.3. Auitres distributions élémentaires ............................................................. 30
1.3.1. Distribution binomiale ................................................................... 31
1.3.2. Distribution de Poisson ................................................................. 34
1.3.3. Distribution de Lorentz ................................................................. 37
1.3.4. Distribution gamma ....................................................................... 40
1.4. Théorème central limite ............................................................................... 42
Chapitre 2. Fonctions d’une variable aléatoire .................................................... 51

2.1. Propagation des erreurs ............................................................................... 51
2.1.1. Formule de propagation deserreurs ............................................... 51
2.1.2. Exemples de propagation deserreurs .............................................. 53
2.1.3. Cas des variables corrélées ........................................................... 57
2.2. Distribution de probabilité d’une fonction de variable aléatoire ........... 61
2.2.1. Fonction biunivoque ........................................................................ 61
2.2.2. Cas général ....................................................................................... 62
2.2.3. Exemple physique ............................................................................. 64
2.2.4. Précision de la formule de propagation des erreurs ..................... 67

2.3. Niveau de confiance et intervalle de confiance ........................................ 71
Chapitre 3. Expériences avec un nombre limité de mesures .............................. 75
3.1. Echantillon, valeur moyenne et écart-type................................................. 75
3.1.1. Définitions et propriétés ................................................................... 76
3.1.2. Précision de la variance expérimentale et chiffres significatifs .. 78
3.1.3. Distribution y2 ................................................................................. 82
3.2. Distribution de Student ............................................................................... 87
3.2.1. Petit nombre de mesures ................................................................. 90
3.3. Deux résultats expérimentaux .................................................................... 96
3.3.1. Comparaison de deux résultats expérimentaux .......................... 96
3.3.2. “ Addition ” de deux résultats expérimentaux ............................ 99
3.4. Autres sources d’erreurs ........................................................................... 101
3.4.1. Incertitudes d’appareil ................................................................... 102
3.4.2. Erreurs systématiques ................................................................... 105
3.4.3. Comment éviter les erreurs systématiques ? .............................. 109
3.4.3. Comment travailler avec les erreurs systématiques ? ................ 115
Chapitre .4. Ajustement des paramètres ............................................................. 119
4.1. Méthode des moindres carrés ................................................................... 122
4.1.1. Idée de la méthode des moindres carrés ..................................... 122
4.1.2. Exemple d’une fonction linéaire ................................................... 128
4.2. Méthode du maximum de vraisemblance ............................................... 131
4.2.1. Idée de la méthode du maximum de vraisemblance .................. 131
4.2.2. Inégalité de Cramêr-Rao ............................................................... 134
Conclusion .................................................................................................... 141
Bibliographie ................................................................................................. 143
Index .............................................................................................................. 145
Table des matières ...................................................................................... 147
Imprimé en France - JOUVE, 11, bd de Sébastopol, 75001 Paris - France

N° 314554A. Dépôt légal : Octobre 2002

Konstantin Protassov - Analyse Statistique Des Données Expérimentales

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Konstantin Protassov - Analyse Statistique Des Données Expérimentales

Transféré par

Droits d'auteur :

Formats disponibles

Collection Grenoble Sciences

DIRIGÉE PAR JEAN BORNAREL

Directeur scientifique de Grenoble Sciences

Comité de lecture pour

Grenoble Sciences reçoit le soutien

Collection Grenoble Sciences

Grenoble Sciences - Rencontres Scientifiques

J’aimerais remercier mes collègues enseignants et chercheurs qui ont lu le manuscrit

Le but de la majorité des expériences en physique consiste à comprendre un phénomène

(incertitude) supplémentaire. Cette incertitude, due à l’impossibilité de mesurer avec

deuxième est l’incertitude statistique due à l’impossibilité de mesurer précisément la

1.1.1 Définitions et propriétés

P(A +B)= P(A) + P(B) - P(AB).

■p(“soit le roi, soit une carte de cœur”)

On peut réécrire P (AB) comme

Ainsi, la dernière formule prend la forme

P(AB) = P(A) -P(B/A).

Si l’événement A n’a pas d’influence sur la probabilité d’événement B, on dit alors

Dans ces conditions, on obtient pour la probabilité d’apparition de deux événements

P(AB) = P(A) ■ P(B), (3)

ce qui montre que les probabilités des événements indépendants se multiplient. On

Vu que P(AB) = R(“roi de cœur”) = 1/52, on conclut que

et ainsi, dans le jeu de 52 cartes, ces deux événements sont indépendants.

On s’aperçoit facilement que

p'A>p<B> = éS = é1vÀ=p'-4B’’ (4>

1.1.2 Grandeurs discrètes et continues,

On peut continuer ainsi notre expérience en diminuant l’échelle et en augmentant le

Figure 1.3 : Fonction de la densité de probabilité

avons exactement la même relation de normalisation :

où P(xi) est la probabilité de trouver la valeur Xi.

1.1.3 Propriétés de la fonction de distribution

Comment pouvons-nous caractériser la fonction de distribution de probabilité f(x) ?

La barre sur x est la notation standard indiquant la valeur moyenne arithmétique.

pour une variable continue, et par

pour une variable discrète.

Prenons l’exemple le plus simple : une distribution de probabilité constante (voir

La valeur de cette constante est définie par la condition de normalisation (5).

Figure 1.4 : Distribution constante

La valeur moyenne de X pour cette fonction de distribution est

La fonction exponentielle peut être développée en série

Donc pour t = 0, on obtient

D’une façon analogue, on introduit la fonction génératrice des moments centraux :

1.1.4 Fonction de distribution de plusieurs variables

Examinons maintenant la situation un peu plus complexe où nous avons affaire à

La généralisation de ces définitions au cas de N variables est évidente.

où chaque fonction représente la densité de probabilité de la variable correspondante.

la somme des deux valeurs

= (ai! + aq - (ïï + ^ïï))2

+2(aq - aq)(aq - x2) + (æ2 - x2)2] f(x]_,x2)dx^dx2.

On sépare cette expression en trois intégrales et on utilise la propriété (16)

' 1 + 2 • 0 • 0 + 1 • <7^ = <7^ _|_ <7^ = .

Par analogie, pour N grandeurs indépendantes a?i, £2, • • • , %n, on a

de ces grandeurs. La moyenne de la somme X est égale à

c’est-à-dire à la somme des moyennes et la variance de X est donnée par

soit la somme des variances.

Pour la fonction génératrice des moments

on obtient facilement d’après (18)

fi(xi) = h(x2) = ...= fN(xN) = f(x),

îij — (xt fj-i)(xj fj.j). (22)

COV ( Xî, Xj ) — (x> yi'ÿ (*^j P'j ) — Xj y; p>j. (23)

cov(arj, ar2) = <r? et qtj = 1. (24)

Si les variables x, et Xj sont indépendantes, le coefficient de corrélation est nul : q,j — 0.

0 < |<Zvl < 1.

Il faut expliquer ce que cette écriture symbolique signifie. Premièrement, en présen

Etudions maintenant un autre phénomène particulièrement intéressant : la trans