Vous êtes sur la page 1sur 90

Universit Joseph Fourier, Grenoble I

Licence Sciences et Technologies 2


e
anne
STA230 : Mthodes Statistiques pour la Biologie
Cours de Statistique
http ://ljk.imag.fr/membres/Bernard.Ycart/STA230/
Table des matires
1 Donnes et Modles 3
1.1 Donnes unidimensionnelles . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 chantillons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Moyenne empirique . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.3 Variance empirique . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Expriences alatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1 vnements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 Axiomes des probabilits . . . . . . . . . . . . . . . . . . . . . . 10
1.2.3 Probabilits conditionnelles . . . . . . . . . . . . . . . . . . . . 13
1.3 Variables alatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.1 Loi dune variable alatoire . . . . . . . . . . . . . . . . . . . . 15
1.3.2 Variables alatoires discrtes . . . . . . . . . . . . . . . . . . . . 16
1.3.3 Variables alatoires continues . . . . . . . . . . . . . . . . . . . 19
1.3.4 Fonction de rpartition et fonction quantile . . . . . . . . . . . . 20
1.3.5 Esprance et variance . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3.6 Thormes limites . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.4 Distribution empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.4.1 Statistique et probabilits . . . . . . . . . . . . . . . . . . . . . 28
1.4.2 Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.4.3 Modles probabilistes . . . . . . . . . . . . . . . . . . . . . . . . 32
2 Estimation paramtrique 36
2.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.1 Modles paramtrs . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.2 Estimateurs et estimations . . . . . . . . . . . . . . . . . . . . . 38
2.1.3 Qualits dun estimateur . . . . . . . . . . . . . . . . . . . . . . 39
2.1.4 Exemples destimateurs . . . . . . . . . . . . . . . . . . . . . . . 42
2.2 Intervalles de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.2.1 Intervalles de dispersion . . . . . . . . . . . . . . . . . . . . . . 45
STA230 Cours de Statistique UJF Grenoble
2.2.2 Dnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.2.3 Echantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . 51
2.2.4 Normalit asymptotique . . . . . . . . . . . . . . . . . . . . . . 53
3 Tests statistiques 56
3.1 Statistiques de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.1.1 Modles probabilistes rfutables . . . . . . . . . . . . . . . . . . 56
3.1.2 Rgles de dcision . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.1.3 Seuil et p-valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.1.4 Risques et puissance . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2 Tests paramtriques classiques . . . . . . . . . . . . . . . . . . . . . . . 64
3.2.1 chantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . 64
3.2.2 Test sur la moyenne dun grand chantillon . . . . . . . . . . . . 65
3.2.3 Test sur la valeur dun quantile . . . . . . . . . . . . . . . . . . 66
3.2.4 chantillons apparis . . . . . . . . . . . . . . . . . . . . . . . . 67
3.3 Comparaison dchantillons indpendants . . . . . . . . . . . . . . . . . 68
3.3.1 Test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.3.2 Test de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.3.3 Normalit asymptotique . . . . . . . . . . . . . . . . . . . . . . 70
3.4 Test dajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.4.1 Distance du khi-deux . . . . . . . . . . . . . . . . . . . . . . . . 70
3.4.2 Pratique du test . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.5 Test dindpendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.5.1 Tableau de contingence . . . . . . . . . . . . . . . . . . . . . . . 74
3.5.2 Khi-deux de contingence . . . . . . . . . . . . . . . . . . . . . . 75
4 Rgression linaire 78
4.1 Rgression linaire simple . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.1.1 Reprsentations graphiques . . . . . . . . . . . . . . . . . . . . 78
4.1.2 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.1.3 Droite de rgression linaire . . . . . . . . . . . . . . . . . . . . 81
4.2 Modle linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.2.1 Intervalles de conance et de prdiction . . . . . . . . . . . . . . 85
4.2.2 Test de pertinence de la rgression . . . . . . . . . . . . . . . . 88
4.2.3 tude des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . 89
2
STA230 Cours de Statistique UJF Grenoble
1 Donnes et Modles
Ce chapitre prsente le vocabulaire de la statistique descriptive sur les donnes uni-
dimensionelles. La notion de modle que lon peut ajuster un caractre statistique est
assez subtile, et de multiples exemples seront fournis pour aider sa comprhension.
Elle est pourtant essentielle, mme si nous ne mettrons laccent que sur quelques mo-
dles de base. Les deux plus importants sont le modle binomial et le modle gaussien,
qui devront absolument tre compris.
1.1 Donnes unidimensionnelles
1.1.1 chantillons
la base de toute tude statistique, il y a une population, forme dindividus sur
lesquels on observe des caractres. Pour xer les ides, il est plus facile de penser en
termes de population humaine. Les individus sont des personnes, et les caractres ob-
servs peuvent tre morphologiques (taille, poids, couleur des yeux), physiologiques
(groupe sanguin, numration globulaire, taux de cholestrol) ou psychologiques (r-
actions des tests ou rponses une enqute dopinion). Mme si nous choisirons
prioritairement nos exemples dans les caractres humains, il faut garder lesprit des
notions de population et de caractre plus gnrales. Voici quelques exemples.
Population Caractre
Elments chimiques Nombre disotopes
Galaxies Nombre dtoiles
Etoiles Magnitude
Chromosomes Nombre de gnes
Gnes Nombre de bases protiques
Villes Taux dimposition
Pays Produit intrieur brut
Films Recettes
Mois de lanne Montant des exportations
Un caractre est dit :
qualitatif, si les valeurs ne peuvent pas tre ordonnes (groupe sanguin, couleur
des yeux, vote pour un candidat).
ordinal, si les valeurs peuvent seulement tre ordonnes : leurs dirences ne sont
pas interprtables (opinions exprimes sur une chelle de valeurs)
quantitatif, quand les valeurs sont numriques (mesures physiques, physiologiques,
conomiques).
Les valeurs que peut prendre un caractre sappellent les modalits.
Pour des raisons de facilit de traitement informatique ou mathmatique, on cherche
se ramener des caractres quantitatifs par un codage. Si le caractre initial est quali-
tatif, le codage sera souvent binaire. Le cas le plus simple est celui dun rfrendum, o
3
STA230 Cours de Statistique UJF Grenoble
il ny a que deux modalits codes 0 et 1. Pour un nombre quelconque m de modalits,
on pourra les coder par un vecteur de m boolens : si la valeur observe sur un individu
est l, le vecteur associ cet individu a toutes ses coordonnes nulles sauf la l-ime
qui vaut 1. Dans le cas des caractres ordinaux, on eectue souvent le codage sur les
premiers entiers. Il faut se souvenir que le codage est arbitraire et que les rsultats
numriques que lon obtient aprs codage peuvent dpendre de celui-ci. Des techniques
spciques permettent de traiter plus particulirement les caractres qualitatifs et or-
dinaux. Nous nous limiterons ici pour lessentiel aux caractres quantitatifs.
La statistique intervient quand il est impossible ou inutile dobserver un caractre
sur lensemble de la population. On lobserve alors sur une sous-population de taille
rduite, en esprant tirer de lobservation des conclusions gnralisables toute la po-
pulation. Si les donnes dun caractre quantitatif sont recueillies sur n individus, le
rsultat est un n-uplet de nombres, entiers ou dcimaux, (x
1
, . . . , x
n
), que lon appelle
chantil lon ou srie statistique, de taille n. On rserve plutt le terme dchantil lon
au rsultat de n expriences menes indpendamment les unes des autres, et dans des
conditions identiques (lancers de ds, mesure du poids de n nouveaux-ns,. . . ). On
appellera plutt srie statistique le rsultat de n expriences qui ne sont pas inter-
changeables. Le cas le plus frquent est celui o la population est constitue dinstants
successifs (relevs quotidiens de tempratures, chires mensuels du chmage,. . . ). On
parle alors de srie chronologique (gure 1).
0 52 104 156 208 260
0
100
200
300
400
500
600
700
800
900
.
Milliers de cas
Semaines

+
+
+
+
+
+
+
++++++
++
++++++++++++++++++++++
+++++++++++
+++++
++
+
+
+
+
+
+
+
+
+++
++++++++++++++++++++++++
+
++++
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++++++++++++++++++++++++++++++
++++++++
+++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
++
++++++++++++++++++++++++++++
+
+
+
+
+
+
+
+
+
+
+++++++++++++++++++++++++++++++++++
++++++++++++
++
Fig. 1 Srie chronologique : cas de grippe en France par semaine sur 5 ans.
On distingue souvent les caractres discrets (ceux qui ne prennent que peu de moda-
lits distinctes) des caractres continus (pour lesquels toutes les valeurs observes sont
a priori direntes). La frontire entre continu et discret est beaucoup moins claire en
pratique quen thorie. Tout recueil de donnes se fait avec une certaine prcision, et
dans une certaine unit. Si une taille est mesure avec une prcision de lordre du cen-
4
STA230 Cours de Statistique UJF Grenoble
timtre, tout chire correspondant une quantit infrieure au centimtre ne contient
aucune information et doit tre limin. Cela signie que la taille en centimtres est une
valeur entire, donc un caractre discret, mme si on le modlise par une loi normale qui
est une loi continue. Dautre part, direntes techniques statistiques (histogrammes,
distance du chi-deux) imposent de regrouper les donnes en classes, ce qui revient les
rendre discrtes, les nouvelles modalits tant les direntes classes.
0 10 20 30 40 50 60 70 80 90 100
100
102
104
106
108
110
112
114
116
118
120
122
124
126
128
130
Tailles
Individus

+
+
+
++
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
Fig. 2 Echantillon de 100 tailles denfants de 6 ans, en centimtres.
Une fois recueilli, lchantillon (x
1
, . . . , x
n
) se prsente comme une liste de nombres
peu lisible, dont la principale caractristique est une plus ou moins grande variabilit. Le
traitement statistique consiste tudier cette variabilit, pour en extraire linformation
quelle contient, savoir ce qui est gnralisable lensemble de la population. Les
techniques de statistique descriptive auront pour but de compresser lchantillon, de le
rsumer par des quantits calcules et des reprsentations graphiques, an dextraire
linformation.
On ne traite pas un chantillon sans avoir une question prcise lui poser. tant
donn un chantillon de tailles de lles de 18 ans, le traitement ne sera pas le mme selon
que lon sera un nutritionniste qui cherche tudier linuence du rgime alimentaire
sur la croissance, ou un fabriquant de vtements qui fait une tude de march.
Ne confondez pas :
les statistiques comme ensemble de donnes chires sur un phnomne variable
(les statistiques du commerce extrieur, du chmage).
la statistique en tant que discipline scientique dont le but est dextraire de
linformation dun chantillon en vue dune prdiction ou dune dcision.
une statistique calcule partir dun chantillon comme rsum de ses proprits
(moyenne, variance. . . ).
5
STA230 Cours de Statistique UJF Grenoble
1.1.2 Moyenne empirique
La statistique la plus vidente calculer sur un chantillon numrique, celle dont
linterprtation est la plus intuitive, est la moyenne empirique.
Dnition 1. La moyenne empirique dun chantil lon est la somme de ses lments
divise par leur nombre. Si lchantil lon est not (x
1
, . . . , x
n
), sa moyenne empirique
est :
x =
1
n
(x
1
+ +x
n
) .
La moyenne est donc le centre de gravit des donnes, aectes de coecients gaux
pour chaque individu. Elle peut tre considre comme une valeur centrale, mme si
elle nest pas gale une des modalits.
0 10 20 30 40 50 60 70 80 90 100
100
102
104
106
108
110
112
114
116
118
120
122
124
126
128
130
Tailles
Individus

+
+
+
++
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
Fig. 3 Moyenne dun chantillon de 100 tailles denfants de 6 ans
La moyenne est associative. Si on runit deux chantillons, de tailles respectives
n
x
et n
y
, de moyennes respectives x et y, alors la moyenne du nouvel chantillon sera
(n
x
x +n
y
y)/(n
x
+n
y
).
Si (x
1
, . . . , x
n
) est un chantillon et si on pose pour tout i = 1, . . . , n, y
i
= ax
i
+b,
o a et b sont deux constantes, alors la moyenne empirique de lchantillon (y
1
, . . . , y
n
)
est y = ax +b. En particulier, si a = 1 et b = x, le nouvel chantillon a une moyenne
nulle. Centrer les donnes cest leur retrancher la moyenne empirique de manire la
ramener 0.
Un cas particulier important est celui des donnes binaires. On est souvent amen
construire un chantillon binaire partir dun chantillon numrique, ne serait-ce que
pour le regroupement en classes. Soit A un sous ensemble de R (un intervalle dans le
cas dune classe). Notons I
A
(x) sa fonction indicatrice qui vaut 1 si x A, 0 sinon.
Si (x
1
, . . . , x
n
) est un chantillon valeurs relles, alors (I
A
(x
1
), . . . , I
A
(x
n
)) est un
6
STA230 Cours de Statistique UJF Grenoble
chantillon binaire, dont la moyenne empirique est appele la frquence empirique de
A. Cest simplement la proportion des valeurs de (x
1
, . . . , x
n
) qui appartiennent A.
Un des inconvnients de la moyenne empirique, vue comme valeur centrale dun
chantillon, est dtre sensible aux valeurs extrmes. Une valeur manifestement trs
dirente des autres est souvent qualie de valeur aberrante. Quelle soit ou non le
rsultat dune erreur dans le recueil ou la transcription, on ne peut pas la considrer
comme reprsentative. Supposons que sur un chantillon de 10 valeurs, toutes soient
de lordre de 10, sauf une, qui est de lordre de 1000. La moyenne empirique sera de
lordre de 100, cest--dire trs loigne de la plupart des valeurs de lchantillon. Pour
palier cet inconvnient, on peut dcider de ne pas tenir compte des valeurs extrmes
dans le calcul de la moyenne. On obtient alors une moyenne lague.
1.1.3 Variance empirique
Les notions de variance et dcart-type servent quantier la variabilit dun chan-
tillon en mesurant sa dispersion autour de la moyenne. La dnition est la suivante :
Dnition 2. Soit (x
1
, . . . , x
n
) un chantil lon et x sa moyenne empirique. On appel le
variance de lchantillon la quantit, note s
2
, dnie par :
s
2
=
1
n
n

i=1
(x
i
x)
2
.
On appelle cart-type de lchantil lon la racine carre de la variance.
En dautres termes, la variance est la moyenne des carrs de lchantillon centr.
Lavantage de lcart-type sur la variance est quil sexprime, comme la moyenne, dans
la mme unit que les donnes. On utilise parfois le coecient de variation, qui est le
rapport de lcart-type sur la moyenne.
Pour calculer la variance dun chantillon, on dispose de deux formules qui donnent
le mme rsultat.
s
2
=
1
n
_
(x
1
x)
2
+ + (x
n
x)
2
_
=
1
n
_
(x
2
1
2x
1
x +x
2
) + + (x
2
1
2x
1
x +x
2
)
_
=
1
n
(x
2
1
+ +x
2
n
)
2
n
x(x
1
+ +x
n
) +x
2
=
1
n
(x
2
1
+ +x
2
n
) x
2
Vous pouvez donc retenir que :
La variance est la moyenne des carrs moins le carr de la moyenne.
7
STA230 Cours de Statistique UJF Grenoble
0 10 20 30 40 50 60 70 80 90 100
100
102
104
106
108
110
112
114
116
118
120
122
124
126
128
130
Tailles
Individus

+
+
+
++
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
Fig. 4 Tailles denfants de 6 ans. La zone grise correspond la moyenne, plus ou
moins un cart-type.
Dans le cas particulier des donnes binaires, codes sur 0 et 1, la moyenne est le nombre
de 1 divis par le nombre total de donnes : cest la frquence empirique de 1. La
variance napporte aucune information supplmentaire. En eet, si tous les x
i
valent 0
ou 1, alors x
2
i
= x
i
et donc :
s
2
= x x
2
= x(1 x) .
Une fois la moyenne calcule, nous avons vu quon pouvait centrer les donnes pour
se ramener une moyenne nulle. La variance des donnes centres est la mme que
celle de lchantillon initial. Une fois cette variance calcule, on peut rduire les donnes
centres en les divisant par lcart-type. On obtient ainsi un nouvel chantillon dont la
moyenne est nulle et la variance gale 1. On parle dchantillon rduit. Remarquons
que les donnes rduites sont des nombres sans unit. On peut donc comparer deux
chantillons rduits mme si les donnes initiales ntaient pas exprimes dans la mme
unit.
Linconvnient de lcart-type tel quil a t dni plus haut, est quil a tendance
sous-estimer lgrement lcart des donnes par rapport leur moyenne. La raison
mathmatique de ce dfaut est lie la notion de biais dun estimateur. On peut en
saisir la raison intuitive sur un exemple simple.
Supposons que lon joue trois fois un jeu dont lenjeu est 1 euro. Chaque rsultat
vaut donc +1 (gain) ou 1 (perte). Si le jeu est quitable, on sattend ce que la
moyenne vaille 0 et lcart-type 1. Or sur trois parties, les rsultats possibles lordre
8
STA230 Cours de Statistique UJF Grenoble
prs sont les suivants.
(x
1
, x
2
, x
3
) x s
2
(1, 1, 1) 1 0
(1, 1, 1)
1
3
8
9
(1, 1, 1)
1
3
8
9
(1, 1, 1) 1 0
En aucun cas lcart-type empirique ne peut atteindre 1 ! Le moyen de corriger cette
sous-estimation systmatique est de multiplier la variance par n/(n1), o n est la taille
de lchantillon. On parle alors de variance non biaise. Cest la raison de la prsence
sur certaines calculatrices de deux touches de calcul de lcart-type, une marque
n
(notre s), lautre
n1
qui retourne s
_
n
n1
.
1.2 Expriences alatoires
1.2.1 vnements
Convenons dappeler exprience alatoire une exprience dont on ne peut ou ne veut
pas prvoir compltement le rsultat. Autrement dit une exprience qui pourra donner
des rsultats dirents si elle est rpte (apparemment dans les mmes conditions).
Lensemble des rsultats possibles dune exprience alatoire est en gnral cod de
manire nen retenir que certains aspects. Jouer pile ou face consiste lors du lancer
dune pice ne sintresser qu la face sur laquelle elle tombe en oubliant le nombre
de rotations en lair, le point de chute. . . On note lensemble de tous les valeurs
possibles que peut prendre ce codage. Les lments de sont les ventualits. Voici
quelques exemples.
Exprience
Lancer dune pice {Pile, Face}
Observer le spin dune particule {+1, 1}
Relever ltat dune case mmoire {0, 1}
Interroger un lecteur avant un rfrendum {Oui, Non}
Lancer un d {1, 2, . . . , 6}
Jouer la roulette {0, 1, . . . , 36}
Compter les clients dune le dattente N
Observer une dure de fonctionnement R
+
Le codage en ventualits relve dun choix de modlisation qui comporte un certain
arbitraire. Si on joue pair ou impair la roulette, = {0, Pair, Impair} convien-
dra tout autant que = {0, 1, . . . , 36}. Le nombre de clients dans une le dattente
un instant donn ne peut pas tre suprieur la population de la terre. Aucune
dure de fonctionnement sans panne na jamais dpass quelques sicles. Plus gnra-
lement, toute grandeur observe peut tre code par les valeurs dun ensemble ni (les
9
STA230 Cours de Statistique UJF Grenoble
nombres reprsentables en machine), compte tenu de sa prcision et de son tendue. Ici
comme dans les autres domaines des mathmatiques appliques, linni ou le continu
ne sont que des approximations destines simplier le traitement mathmatique. Des
expriences alatoires peuvent tre simules sur ordinateur, par lappel de fonctions
particulires, dites gnrateurs pseudo-alatoire.
Quil sagisse dun rsultat de simulation ou de toute autre exprience, parler dex-
prience alatoire, cest choisir de ne sintresser quaux rsultats possibles, et oublier
en fait les conditions de lexprience. Si on matrise parfaitement la vitesse initiale de
la pice, la rsistance de lair et la hauteur par rapport au sol, alors le problme de
savoir sur quelle face elle va tomber devient un problme de mcanique, que lon peut
rsoudre au moins en thorie. Quil existe ou non des expriences dont le rsultat soit
parfaitement imprvisible est un problme de physique quantique ou de philosophie
(Dieu joue-t-il aux ds ?), mais pas de probabilits. Le hasard au sens du probabiliste
nest quun expdient, un choix de modlisation qui consiste recouvrir dun voile
pudique la complexit des phnomnes que lon ne matrise pas, pour nen retenir que
certains aspects observables.
Un vnement est un fait dpendant du rsultat dune exprience alatoire (ou
plutt de son codage en ventualits) dont on pourra dire lissue de lexprience sil
est ralis ou non. On peut donc lassimiler lensemble dventualits pour lesquelles
il est ralis, qui est un sous-ensemble de .
Evnement A
Le rsultat du d est pair {2, 4, 6}
La dure est infrieure 100 heures [0, 100]
Pour le codage {Pile,Face}, la pice tombe sur la tranche nest pas un vnement,
pas plus que la personne interroge na pas compris la question pour un codage {Oui,
Non} des rponses.
Toutes les combinaisons logiques dvnements sont encore des vnements. Si A
est un vnement, son contraire not A en est un aussi. Si A et B sont des vnements,
A et B, not A B, ainsi que A ou B, not A B, sont aussi des vnements.
1.2.2 Axiomes des probabilits
Une loi de probabilit, ou distribution de probabilit, est une fonction P qui un
vnement A associe un nombre P[A], sa probabilit. Ce nombre traduit les chances que
lvnement a de se produire. Le moyen le plus intuitif de dnir une telle fonction est
de rpter lexprience alatoire, et dassocier tout vnement sa frquence empirique.
Si n est le nombre dexpriences, n
A
le nombre de fois o lvnement A sest produit,
la frquence empirique de A est le rapport n
A
/n. Voici par exemple 20 rptitions dune
exprience dont les ventualits sont 0, 1 et 2.
0 , 1 , 1 , 1 , 0 , 0 , 1 , 2 , 1 , 2 , 0 , 1 , 1 , 2 , 2 , 0 , 0 , 0 , 0 , 2 .
10
STA230 Cours de Statistique UJF Grenoble
Dans cet exemple, la frquence empirique de {0} est 8/20, celle de {1, 2} est 12/20. Lin-
convnient est que la frquence empirique changera si on renouvelle les n expriences.
En dautres termes lensemble des n rptitions constitue une nouvelle exprience ala-
toire. Cependant nous avons tous en tte une ide de la loi des grands nombres selon
laquelle les frquences empiriques sur un grand nombre de rptitions varient peu. Voici
quatre calculs successifs de la frquence empirique de {0}, sur 20 000 rptitions de la
mme exprience que ci-dessus.
0.3304 , 0.3273 , 0.3364 , 0.32415 .
Les proprits que lon attend dune loi de probabilit sont celles des frquences expri-
mentales. On les considre comme des axiomes de dnition.
A1 Pour tout vnement A, 0 P[A] 1.
A2 La probabilit de lvnement certain est 1 : P[] = 1.
A3 Si (A
i
)
iN
est une suite dvnements disjoints deux deux (A
i
et A
j
ne peuvent
pas se produire en mme temps si i = j), alors :
P[
_
iN
A
i
] =

iN
P[A
i
] .
Une consquence immdiate des axiomes A2 et A3 est la relation entre les probabilits
dun vnement A et de son contraire, not A.
P[A] = 1 P[A] .
Une loi de probabilit est croissante par inclusion, daprs A1 et A3 : si A B, alors
P[A] P[B].
Les lois de probabilit que lon manipule en pratique sont de deux types particuliers,
les lois discrtes et les lois continues.
1. Lois discrtes
Lensemble des ventualits est ni ou dnombrable :
= {
i
, i I N} .
Toutes les parties de sont des vnements. Comme tout vnement est une runion
nie ou dnombrable de singletons, il sut de dnir la probabilit de chaque singleton :

i
, P[{
i
}] = p
i
.
Pour tout A , la probabilit de A sera alors dtermine par A3 :
P[A] =

i
A
P[{
i
}] =

i
A
p
i
.
Exemple : Si lensemble des rsultats est ni = {
1
, . . . ,
n
} et si aucune informa-
tion ne permet de distinguer les rsultats, il est naturel dassocier chaque ventualit
11
STA230 Cours de Statistique UJF Grenoble
la probabilit 1/n. La probabilit de tout vnement A est alors Card(A)/n. Cette pro-
babilit particulire sappelle lquiprobabilit. Tous les calculs dans ce cas se ramnent
des dnombrements :
probabilit =
nombre de cas favorables
nombre de cas possibles
.
2. Lois continues
Lensemble des ventualits est R. Les vnements sont les intervalles, et tous les
sous-ensembles de R que lon peut former en combinant des intervalles par intersections
et runions. En thorie de la mesure, on les appelle des borliens.
Dnition 3. On appelle densit de probabilit une fonction de R dans R
+
, continue
par morceaux et dintgrale 1.
f(x) 0 , x R et
_
R
f(x) dx = 1 .
tant donne une densit de probabilit, on dnit une loi de probabilit sur R en
associant tout vnement A lintgrale de la densit sur cet vnement :
P[A] =
_
A
f(x) dx .
Exemple : Pour lexprience alatoire consistant tirer au hasard un rel dans [0, 1]
(par simulation), on considrera sur R la loi de probabilit continue, de densit :
f(x) =
_
1 si x [0, 1] ,
0 sinon.
Elle donne tout intervalle inclus dans [0, 1] une probabilit gale sa longueur.
Comme dans lexemple ci-dessus, il est frquent quune densit soit strictement
positive sur un intervalle (ventuellement non born) de R, et nulle ailleurs. Lintervalle
sur lequel f est strictement positive sappelle le support de la loi.
On peut voir une probabilit comme une rpartition de masse sur lensemble des
ventualits. La masse totale vaut 1. Dans le cas discret, elle est rpartie sur chacune
des ventualits en grains de plomb distincts. Dans le cas continu, elle est rpartie
sur tout un intervalle de R, qui devient comme un l de masse 1 dont la densit de
masse serait variable. Calculer la probabilit dun vnement, cest calculer sa masse.
part cette analogie, quel sens pratique a la notion de probabilit ? Peut-on mesurer
physiquement des probabilits ? Le seul sens concret que lon puisse leur donner est
celui, intuitif, de la loi des grands nombres. Pile a une chance sur deux de se produire
signie pour nous si je lance la pice un grand nombre de fois, Pile sortira environ
une fois sur deux.
12
STA230 Cours de Statistique UJF Grenoble
Intuition : La probabilit dun vnement est la limite de ses frquences empiriques
sur un grand nombre dexpriences indpendantes.
Cette intuition comporte plusieurs coins dombres. Que les frquences empiriques con-
vergent sous certaines hypothses est un thorme (cest ce thorme qui porte le nom
de loi des grands nombres). Pourquoi rajouter ladjectif indpendantes ?
Imaginez une machine de prcision lancer les pices : un bras articul muni dun
plateau, reli un ressort rglable une valeur xe une fois pour toutes. Mettons le
ressort sous tension, posons la pice sur le plateau, ct pile, et lchons le ressort. Au
premier essai on ne pourra pas prvoir si la pice tombera sur pile ou face. Mais linfor-
mation apporte par le rsultat du premier essai permettra de prvoir les suivants : les
expriences ne seront pas indpendantes. Les frquences empiriques vaudront 1 ou 0
mais ne fourniront aucun renseignement sur le fait que la pice soit quilibre ou non.
Lobjectif principal du paragraphe suivant est de prciser les notions de dpendance
et dindpendance dvnements et dexpriences alatoires.
1.2.3 Probabilits conditionnelles
La connaissance dune information sur une exprience peut modier lide quon se
fait de la probabilit dun vnement. La probabilit dattendre plus dune heure au
guichet est suprieure sil y a beaucoup de monde devant vous.
Dnition 4. Soient A et B deux vnements tels que P[B] = 0. La probabilit condi-
tionnel le de A sachant B est :
P[A| B] =
P[A B]
P[B]
.
Interptation : Le fait de savoir que B est ralis rduit lensemble des rsultats
possibles de B. partir de l, seules les ventualits de AB ont une importance.
La probabilit de A sachant B doit donc tre proportionnelle P[AB]. Le coecient
de proportionnalit 1/P[B] assure que lapplication qui A associe P[A|B] est bien une
probabilit, pour laquelle B est lvnement certain.
Point de vue frquentiste : Si on admet la loi des grands nombres, la probabilit doit
tre vue comme une limite de frquences empiriques. Avec les notations du paragraphe
prcdent, n
AB
/n (resp. n
B
/n) est la frquence empirique de A B (resp. B), et on
a :
P[A| B] =
P[A B]
P[B]

n
AB
/n
n
B
/n
=
n
AB
n
B
.
Il faut donc voir la probabilit conditionnelle P[A| B] comme la limite quand le nombre
dexpriences tend vers linni de la proportion de fois o A est ralis parmi les
expriences o B lest aussi.
Une loi de probabilit conditionnelle est une loi de probabilit. En particulier, si A
1
et A
2
sont disjoints (incompatibles) alors :
P[A
1
A
2
| B] = P[A
1
| B] +P[A
2
| B] .
13
STA230 Cours de Statistique UJF Grenoble
aussi :
P[A| B] = 1 P[A| B] .
La dnition des probabilits conditionnelles sutilise souvent sous la forme :
P[A B] = P[A| B] P[B]
= P[B| A] P[A] .
Si (B
i
)
iI
est une famille dnombrable dvnements disjoints deux deux, dont la
runion est lvnement certain (partition de ), alors :
P[A] =

iI
P[A B
i
] =

iI
P[A| B
i
] P[B
i
] .
Cest la formule des probabilits totales. Mais aussi, pour tout j I :
P[B
j
| A] =
P[B
j
A]
P[A]
=
P[A| B
j
] P[B
j
]

iI
P[A| B
i
] P[B
i
]
.
Cest la formule de Bayes.
Lide intuitive dindpendance de deux vnements est la suivante : A et B sont
indpendants si le fait de savoir que B se produit ou non ne modie pas les chances
de A. Ou encore : sur un grand nombre dexpriences, la proportion des fois o A sest
produit quand B tait ralis est approximativement la mme que quand il ne ltait
pas.
Exemple :
A : La bourse de New-York est en hausse.
B : Il pleut Paris.
Dire que A et B sont indpendants, cest dire que la bourse de New-York est en
hausse aussi souvent quand il pleut Paris que quand il ne pleut pas.
En terme de frquences, on crira :
n
AB
n
B

n
AB
n
B

n
A
n
.
Soit pour les probabilits :
P[A|B] = P[A| B] = P[A] ,
ou encore,
P[A B]
P[B]
= P[A] .
14
STA230 Cours de Statistique UJF Grenoble
Dnition 5. Deux vnements A et B sont indpendants si :
P[A B] = P[A] P[B] .
Deux expriences alatoires sont indpendantes si tout vnement observable lissue
de lune est indpendant de tout vnement observable lissue de lautre.
Attention : Il ne faut pas confondre indpendants et incompatibles. Pour deux
vnements incompatibles on a P[AB] = P[A]+P[B]. Deux vnements incompatibles
de probabilits non nulles ne sont jamais indpendants. Si lun des deux se produit,
lautre ne peut pas se produire.
La dnition dindpendance se gnralise de la faon suivante.
Dnition 6. Les vnements A
1
, . . . , A
n
sont indpendants si pour tout sous-ensem-
ble dindices {i
1
, . . . , i
k
} {1, . . . , n}, la probabilit de lintersection est le produit des
probabilits :
P[
k

j=1
A
i
j
] =
k

j=1
P[A
i
j
] .
Des expriences alatoires E
1
, . . . , E
n
sont indpendantes si pour tout n-uplet dvne-
ments A
1
, . . . , A
n
, o A
i
est observable lissue de E
i
, les n vnements A
1
, . . . , A
n
sont indpendants.
Une suite (E
n
)
nN
est une suite dexpriences indpendantes si pour tout n les exprien-
ces E
1
, . . . , E
n
sont indpendantes.
Dans les dnitions que nous avons donnes jusquici se trouve un cercle vicieux :
Une probabilit est une limite de frquences sur des expriences indpendantes. Deux
vnements sont indpendants si la probabilit de leur intersection est le produit des
probabilits.
Les deux notions de probabilit et dindpendance sont donc indissociables, et en
un sens impossibles dnir en pratique. Tout ce que lon peut faire, cest montrer
la cohrence de leurs dnitions. Une probabilit tant donne pour les vnements
observables lissue dune exprience alatoire, cette probabilit est bien limite de
frquences empiriques quand la mme exprience est rpte indpendamment. Cest
la loi des grands nombres.
1.3 Variables alatoires
1.3.1 Loi dune variable alatoire
Une variable alatoire est un nombre dpendant du rsultat dune exprience ala-
toire. Lenjeu est la localisation de ce nombre : dterminer quelles sont ses chances
de tomber sur telle ou telle partie de R. Cette localisation conduit associer toute
variable alatoire une loi de probabilit sur R.
15
STA230 Cours de Statistique UJF Grenoble
Dnition 7. On appelle loi de la variable alatoire X la loi de probabilit P
X
sur R,
dnie pour tout borlien A de R par :
P
X
[A] = P[X A] .
En pratique, on oublie le codage initial en ventualits et la loi P sur , pour
ne retenir que la loi P
X
sur R. Si on nobserve quune seule variable alatoire X, on
pourra dailleurs considrer que les ventualits sont les valeurs relles quelle peut
prendre, et munir cet ensemble de la loi de X. Pour des raisons de modlisation autant
que de commodit mathmatique, on distingue deux types de variables alatoires. Les
variables alatoires discrtes ne prennent quun nombre ni ou dnombrable de valeurs
(en gnral entires). Les variables alatoires continues peuvent a priori prendre toutes
les valeurs dans un intervalle de rels. Cette distinction correspond bien sr celle dj
introduite pour les lois de probabilit.
En gnral, on sera amen rpter une mme exprience pour en faire une nouvelle
exprience globale, et donc observer plusieurs variables alatoires lissue dune
exprience. La notion dindpendance entre variables alatoires joue un rle important
dans ce qui suit.
Dnition 8. Les variables alatoires X
1
, . . . , X
n
sont dites indpendantes si pour tout
n-uplet (A
1
, . . . , A
n
) de borliens de R, les vnements X
1
A
1
, . . . ,X
n
A
n
sont
indpendants. Une suite (X
n
) de variables alatoires indpendantes est tel le que pour
tout n les variables alatoires (X
1
, . . . , X
n
) sont indpendantes.
Lindpendance est donc une proprit des vnements X
i
A
i
. On en dduit
que si X et Y sont indpendantes, alors toute fonction de X est indpendante de toute
fonction de Y .
1.3.2 Variables alatoires discrtes
Dnition 9. On dit quune variable alatoire est discrte si el le ne prend quun
nombre ni ou dnombrable de valeurs :
X {x
k
, k K N} .
Dans ce cas, la loi de la variable alatoire X est la loi de probabilit sur lensemble des
valeurs possibles de X qui aecte la probabilit P[X = x
k
] au singleton {x
k
}.
En pratique, lensemble des valeurs que peut prendre X est N ou une partie de N.
Dterminer la loi dune variable alatoire discrte cest :
1. Dterminer lensemble des valeurs que peut prendre X.
2. Calculer P[X = x
k
] pour chacune de ces valeurs x
k
.
16
STA230 Cours de Statistique UJF Grenoble
Point de vue frquentiste. Rappelons que le seul sens pratique que lon puisse
donner la notion de probabilit est celui dune limite de frquences empiriques. Cest
aussi le sens quil faut donner la notion de loi discrte.
Rptons n fois indpendamment lexprience alatoire lissue de laquelle X est
mesure. On obtient ainsi un n-uplet (X
1
, . . . , X
n
) de variables alatoires indpendan-
tes de mme loi que X (cela sappelle un chantil lon). On peut sur ce n-uplet calculer
les frquences empiriques des vnements X = x
k
:
f
n
({x
k
}) =
1
n
_
I
{x
k
}
(X
1
) + +I
{x
k
}
(X
n
)
_
.
Daprs la loi des grands nombres cette frquence doit converger vers P[X = x
k
].
Pour tout n les frquences empiriques {f
n
({x
k
}) , k K} dnissent une loi de proba-
bilit discrte sur lensemble des x
k
.
On reprsente souvent graphiquement les lois discrtes par des diagrammes en b-
tons : il sagit de tracer au dessus de labscisse x
k
un segment vertical de longueur gale
P[X = x
k
].
Les lois discrtes les plus courantes sont les suivantes. La loi binomiale est la plus
importante.
Loi uniforme. La loi uniforme sur un ensemble ni est la loi des tirages au hasard
dans cet ensemble, ou quiprobabilit. Elle donne la mme probabilit 1/n tous les
lments de lensemble, sil est de cardinal n.
Loi de Bernoulli. Les plus simples des variables alatoires discrtes sont les indica-
trices dvnements. Si A est un vnement de probabilit p, la variable alatoire I
A
prend la valeur 1 si A est ralis, et 0 sinon. Sa loi est la loi de Bernoul li de paramtre
p.
P[I
A
= 0] = 1 p , P[I
A
= 1] = p .
Les deux autres exemples de base sont la loi binomiale et la loi hypergomtrique.
Loi binomiale. On rpte la mme exprience n fois indpendamment et on compte
le nombre de fois o lvnement A se produit. On considrera la rptition des n
expriences comme une nouvelle exprience globale. Comme seul lvnement A nous
importe, on pourra ne retenir de lexprience globale quun n-uplet de boolens du
type :
(A, A, A, A, A, . . . , A, A),
quil sera plus simple de transformer en un n-uplet de 0 et de 1. Notons :
X
i
=
_
1 si A est vrai lissue de la i-me exprience,
0 si A est faux lissue de la i-me exprience.
S
n
=
n

i=1
X
i
le nombre de fois o A est ralis au cours des n expriences.
17
STA230 Cours de Statistique UJF Grenoble
Si p dsigne la probabilit de lvnement A, la variable alatoire X
i
suit la loi de
Bernoulli de paramtre p. La variable alatoire S
n
prend ses valeurs dans lensemble
{0, . . . , n}. Pour dterminer sa loi, ce sont les vnements du type S
n
= k qui nous
intressent. Du fait de lhypothse dindpendance des expriences, la probabilit dun
rsultat quelconque de lexprience globale est un produit de probabilits. Par exemple :
P[(A, A, A, A, A, . . . , A, A)] = p (1p) p p (1p) . . . (1p) p .
Tout n-uplet particulier contenant k 1 et n k 0 a pour probabilit p
k
(1p)
nk
.
Il y en a :
_
n
k
_
=
n!
k! (nk)!
;
cest le nombre de manires de choisir k indices parmi n. Do :
P[S
n
= k] =
_
n
k
_
p
k
(1 p)
nk
, k = 0, . . . , n .
Dnition 10. On dit quune variable alatoire X suit la loi binomiale de paramtres
n et p (note B(n, p)) si :
1. X prend ses valeurs dans lensemble {0, 1, . . . , n}
2. P[X = k] =
_
n
k
_
p
k
(1 p)
nk
, k = 0, . . . , n .
retenir : Le nombre doccurrences dun mme vnement de probabilit p, au cours
de n expriences indpendantes suit la loi binomiale B(n, p).
Remarque : Cest une bonne habitude prendre que de vrier que la somme des
probabilits calcules vaut 1. Ici :
n

k=0
_
n
k
_
p
k
(1p)
nk
= (p + (1p))
n
= 1, par la
formule du binme de Newton (do le nom de loi binomiale).
Loi hypergomtrique. La loi hypergomtrique est la loi des tirages sans remise.
Dune population de taille N, on extrait au hasard un chantillon (sous-ensemble) de
taille n. Parmi les N individus, m sont marqus. Le nombre X dindividus marqus
sur les n individus choisis, suit la loi hypergomtrique de paramtres N, m et n,
La variable alatoire X prend ses valeurs dans lensemble {0, . . . , n}, et pour tout
k {0, . . . , n} :
P[X = k] =
_
m
k
_ _
Nm
nk
_
_
N
n
_
,
o par convention
_
i
j
_
= 0, si j {0, . . . , i}.
On rencontre frquemment cette loi dans les jeux de hasard.
Variable alatoire N m n
Nombre das dans une main au poker 32 4 5
Nombre das dans une main au bridge 52 4 6
Nombre de bons numros sur une grille au loto 49 6 6
Nombre de bons numros sur une grille au Kno 70 20 4, 5, . . . , 10
18
STA230 Cours de Statistique UJF Grenoble
1.3.3 Variables alatoires continues
Dnition 11. Soit X une variable alatoire valeurs dans R et f
X
une densit de
probabilit sur R. On dit que X est une variable alatoire continue de densit f
X
si
pour tout intervalle A de R on a :
P[X A] =
_
A
f
X
(x) dx .
La loi de la variable alatoire X est la loi continue sur R, de densit f
X
.
Pour dterminer la loi dune variable alatoire continue, il faut donc calculer sa
densit. De manire quivalente, on dtermine la loi dune variable continue en donnant
la probabilit quelle appartienne un intervalle I quelconque.
Une variable alatoire continue X, de densit f
X
, tombe entre a et b avec une probabilit
gale :
P[a < X < b] =
_
b
a
f
X
(x) dx .
Plus la densit f
X
est leve au-dessus dun segment, plus les chances que X a dat-
teindre ce segment sont leves, ce qui justie le terme densit.
La probabilit pour une variable alatoire continue de tomber sur un point quel-
conque est nulle.
P[X = a] =
_
{a}
f
X
(x) dx = 0 .
Par consquent :
P[ X [a, b] ] = P[ X [a, b[ ] = P[ X ]a, b] ] = P[ X ]a, b[ ] .
Notons aussi que modier une densit en un nombre ni ou dnombrable de points
ne change pas la valeur des intgrales sur des segments, ni par consquent la loi de
probabilit correspondante. La valeur de la densit en un point particulier importe
peu.
Comme dans le cas discret nous donnons quelques exemples de base. Les densits sont
donnes en un point x quelconque de R.
Loi uniforme. La loi uniforme sur un intervalle est la loi des tirages au hasard dans
cet intervalle. Si a < b sont deux rels, la loi uniforme sur lintervalle [a, b] est note
U(a, b). Elle a pour densit :
1
b a
I
[a,b]
(x) .
Attention ne pas confondre Nombre au hasard et variable alatoire. Le sens
intuitif de au hasard est uniformment rparti : un nombre au hasard entre 0 et 1
est en fait une variable alatoire de loi U(0, 1). Il existe bien dautres lois de probabilit
continues, non uniformes.
19
STA230 Cours de Statistique UJF Grenoble
Loi normale. La loi normale, loi de Gauss, ou de Laplace-Gauss, est la plus clbre des
lois de probabilit. Son succs, et son omniprsence dans les sciences de la vie, viennent
du thorme central limite que nous verrons plus loin. La loi normale de paramtres
R et
2
R
+
est note N(m,
2
). Elle a pour densit :
1

2
e

(xm)
2
2
2
.
Loi gamma. La loi gamma de paramtres a > 0 et > 0, note G(a, ) a pour densit :

a
(a)
x
a1
e
x
I
R
+(x) ,
o est la fonction gamma, dnie par : (a) =
_
+
0
e
x
x
a1
dx.
Pour n entier, a = n/2 et = 1/2, la loi G(n/2, 1/2) est appele loi du khi-
deux n degrs de libert, et note X
2
(n). Cest la loi de la somme des carrs de n
variables alatoires indpendantes de loi N(0, 1). On lutilise pour les variances empi-
riques dchantillons gaussiens.
Loi de Student. La loi de Student n degrs de libert, T (n) est la loi du rapport
X/
_
Y/n, o les variables alatoires X et Y sont indpendantes, X de loi N(0, 1), Y
de loi X
2
(n). Elle a pour densit :

_
n+1
2
_

n
_
n
2
_
_
1 +
x
2
n
_

n+1
2
.
On lutilise pour tudier la moyenne empirique dun chantillon gaussien.
Loi de Fisher. La loi de Fisher de paramtres m et n (entiers positifs), est la loi du
rapport (X/n)/(Y/m), o X et Y sont deux variables alatoires indpendantes, de lois
respectives X
2
(n) et X
2
(m). Elle a pour densit :
n
n
2
m
m
2

_
n+m
2
_

_
n
2
_

_
m
2
_
x
1+
n
2
(m+nx)

n+m
2
I
R
+(x) .
On lutilise pour comparer des variances dchantillons gaussiens.
1.3.4 Fonction de rpartition et fonction quantile
La fonction de rpartition dune variable alatoire X valeurs dans R (ou plus
exactement de sa loi) est la fonction F
X
, de R dans [0, 1], qui x R associe :
F
X
(x) = P[X x] .
Les proprits principales sont les suivantes.
20
STA230 Cours de Statistique UJF Grenoble
Proposition 1.
La fonction de rpartition caractrise la loi. En particulier,
a < b R, P[ X ]a, b] ] = F
X
(b) F
X
(a) .
F
X
est une fonction croissante, continue droite avec une limite gauche en
tout point.
lim
x
F
X
(x) = 0 et lim
x+
F
X
(x) = 1 .
Lois discrtes. La fonction de rpartition dune variable alatoire discrte est une
fonction en escalier. Si la variable alatoire prend les valeurs x
k
, k = 1, 2, . . ., supposes
ranges par ordre croissant, alors la fonction de rpartition F
X
prend les valeurs :
F
X
(x) =
_

_
0 pour x < x
1
P[X = x
1
] pour x [x
1
, x
2
[
.
.
.
P[X = x
1
] + +P[X = x
k
] pour x [x
k
, x
k+1
[
.
.
.
-1 0 1 2 3 4 5
0.0
0.1
0.2
0.3
0.4
0.5
.


Probabilites
-1 0 1 2 3 4 5
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
.


Repartition
Fig. 5 Diagramme en btons et fonction de rpartition de la loi du nombre de bons
numros pour 4 numros cochs au Kno.
Voici par exemple la loi et les valeurs direntes de la fonction de rpartition pour
le nombre de bons numros pour 4 numros cochs sur une grille de Kno (gure 5).
k 0 1 2 3 4
P[X = k] 0.2512 0.4275 0.2538 0.0622 0.0053
P[X k] 0.2512 0.6787 0.9325 0.9947 1
Lois continues. La fonction de rpartition dune variable alatoire continue est la
primitive de la densit qui sannule en :
F
X
(x) = P[X x] =
_
x

f
X
(t) dt .
21
STA230 Cours de Statistique UJF Grenoble
Cest une fonction continue sur R. En tout point x o f
X
est continue, F
X
est drivable
et :
F

X
(x) = f
X
(x) .
Loi U(a, b)
F
X
(x) =
_
x

1
b a
I
[a,b]
(t)dt =
_

_
0 si x a
x a
b a
si x [a, b]
1 si x b .
Loi N(,
2
)
F
X
(x) =
_
x

2
e

(t)
2
2
2
dt .
Il nexiste pas dexpression analytique pour la fonction de rpartition des lois normales.
Pour en calculer des valeurs approches, vous utiliserez des tables numriques, en vous
ramenant la fonction de rpartition de la loi N(0, 1), que nous noterons F.
F(x) = F
N(0,1)
(x) =
_
x

2
e

t
2
2
dt .
Tous les langages spcialiss ont un code dintgration numrique qui calcule la fonction
de rpartition de toutes les lois usuelles.
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
0.5
.
f(x)
x
Densite
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
.
F(x)
x
Repartition
Fig. 6 Densit et fonction de rpartition de la loi normale N(0, 1).
La fonction de rpartition est loutil privilgi des calculs de lois. Un cas frquent dans
les applications est celui o on connat la loi de X et on veut dterminer la loi dune
fonction. Comme exemple dapplication, nous allons dmontrer le rsultat qui permet
de ramener une loi normale quelconque la loi N(0, 1).
Thorme 1. Soit X une variable alatoire de loi N(0, 1) et Y = X+, avec R,
R
+
, alors Y suit la loi N(,
2
). Rciproquement, si Y suit la loi N(,
2
), alors
X =
Y

suit la loi N(0, 1).


22
STA230 Cours de Statistique UJF Grenoble
Dmonstration :
F
Y
(y) = P[X + y] = P
_
X
y

_
= F
X
_
y

_
.
La densit correspondante est :
f
Y
(y) =
1

f
X
_
y

_
=
1

2
e

(y)
2
2
2
,
et donc Y suit la loi N(,
2
).
La deuxime armation nest quune autre manire dexprimer la premire.
La deuxime amation est la plus utilise. Elle permet de ramener les calculs de
probabilit sur une loi normale quelconque aux calculs sur la loi N(0, 1). Si Y suit la
loi normale desprance et de variance
2
, alors X = (Y )/ suit la loi N(1, 0).
On calcule alors la probabilit pour Y dappartenir un intervalle quelconque, en se
ramenant la fonction de rpartition de la loi N(0, 1), note F, dont les valeurs se
lisent dans les tables.
P[a Y < b] = P
_
a

<
b

_
= F
_
b

_
F
_
a

_
.
La fonction quantile dune variable alatoire X (ou de sa loi de probabilit) est
la rciproque de sa fonction de rpartition. Quand cette fonction de rpartition est
strictement croissante, sa rciproque est dnie sans ambigit : pour tout rel u entre
0 et 1, Q
X
(u) est lunique rel x tel que F
X
(x) = u.
Mais une fonction de rpartition reste constante sur tout intervalle dans lequel
la variable alatoire ne peut pas prendre de valeurs. Cest pourquoi on introduit la
dnition suivante.
Dnition 12. Soit X une variable alatoire valeurs dans R, et F
X
sa fonction de
rpartition. On appelle fonction quantile de X la fonction, note Q
X
, de ]0, 1[ dans R,
qui u ]0, 1[ associe :
Q
X
(u) = inf{x : F
X
(x) u} .
Par convention, on peut dcider que Q
X
(0) est la plus petite des valeurs possibles
pour X et Q
X
(1) est la plus grande ; elles sont ventuellement innies.
Lois discrtes. La fonction quantile dune variable alatoire discrte est une fonction
en escalier, comme la fonction de rpartition. Si X prend les valeurs x
k
, k = 1, 2 . . .,
ranges par ordre croissant, la fonction de rpartition est gale :
F
k
= P[X = x
1
] + +P[X = x
k
] ,
23
STA230 Cours de Statistique UJF Grenoble
sur lintervalle [x
k
, x
k+1
[. La fonction quantile vaut :
Q
X
(u) =
_

_
x
1
pour u [0, F
1
]
.
.
.
x
k
pour u [F
k
, F
k+1
[
.
.
.
Par exemple, pour la loi gomtrique G(p), la fonction quantile est la fonction qui, pour
tout k = 1, 2, . . ., vaut k sur lintervalle [1 (1p)
k
, 1 (1p)
k+1
[.
Lois continues. Plaons-nous dans le cas le plus frquent, o la densit f
X
est stric-
tement positive sur un intervalle de R (son support) et nulle ailleurs. Si cet intervalle
est [a, b], la fonction de rpartition est nulle avant a si a est ni, elle est strictement
croissante de 0 1 entre a et b, elle vaut 1 aprs b si b est ni. Toute valeur u strictement
comprise entre 0 et 1 est prise une fois et une seule par F
X
. La valeur de Q
X
(u) est le
point x unique, compris entre a et b, tel que F
X
(x) = u.
La fonction quantile est un moyen de dcrire la dispersion dune loi. Si on ralise un
grand nombre de tirages indpendants de la mme loi (un chantillon), on doit sat-
tendre ce quune proportion u des valeurs soient infrieures Q
X
(u). Une valeur
importante est la mdiane, Q
X
(0.5). Les valeurs de la fonction quantile sont plus sou-
vent utilises en statistique que les valeurs de la fonction de rpartition. On utilise en
particulier frquemment les interval les de dispersion, compris comme devant contenir
une forte proportion des donnes.
1.3.5 Esprance et variance
Rappelons linterprtation dune loi de probabilit comme une rpartition de masse.
Lesprance dune loi de probabilit est le barycentre de cette rpartition de masse.
Lois discrtes. Considrons une variable alatoire discrte X, prenant ses valeurs
dans {x
k
, k K N}. Si la srie

kK
|x
k
|P[X = x
k
] converge alors lesprance E[X]
est :
E[X] =

kK
x
k
P[X = x
k
] .
Cest bien le barycentre des points dabscisse x
k
, aects des poids P[X = x
k
].
Lois continues. Soit X une variable alatoire continue, de densit f
X
sur R. Une
densit sinterprte comme une distribution de masse continue sur R. Cest encore
son barycentre que lon calcule. Si lintgrale
_
R
|x|f
X
(x) dx converge, alors lesprance
E[X] est :
E[X] =
_
R
x f
X
(x) dx .
Les proprits principales de lesprance sont les suivantes.
24
STA230 Cours de Statistique UJF Grenoble
Proposition 2. 1. Si X et Y admettent une esprance, alors :
a, b R E[aX +bY ] = aE[X] +bE[Y ] .
2. Si X et Y sont indpendantes et admettent une esprance alors :
E[XY ] = E[X] E[Y ] .
Le tableau 1 donne les esprances des lois usuelles, discrtes et continues.
Loi Esprance
Uniforme U({1, . . . , n})
n+1
2
Bernoulli B(1, p) p
Binomiale B(n, p) np
Hypergomtrique HG(N, m, n) n
m
N
Uniforme U(a, b)
a+b
2
Normale N(,
2
)
khi-deux X
2
(n) n
Student T (n) 0 si n > 1
Fisher F(n, m)
m
m2
si m > 2
Tab. 1 Esprances des lois usuel les.
La variance traduit la plus ou moins grande dispersion des valeurs prises autour de
lesprance.
Dnition 13. On appelle variance de X, et on note V ar[X], lesprance de la variable
alatoire (X E[X])
2
, si elle existe.
On dmontre que lexistence de la variance entrane celle de lesprance. Par contre
une variable alatoire X peut trs bien avoir une esprance mais pas de variance. Cest
le cas par exemple si X a pour densit :
f
X
(x) =
2
x
3
I
[1,+[
(x) .
Le calcul des variances est souvent simpli par le rsultat suivant.
25
STA230 Cours de Statistique UJF Grenoble
Proposition 3. La variance de X existe si et seulement si E[X
2
] existe et on a :
V ar[X] = E[X
2
] (E[X])
2
.
Dmonstration : Pour passer de la dnition la formule ci-dessus, il sut de dve-
lopper le carr et dutiliser la linarit de lintgrale.
V ar[X] = E[(X E[X])
2
]
= E[X
2
2XE[X] + (E[X])
2
]
= E[X
2
] 2E[X]E[X] + (E[X])
2
= E[X
2
] (E[X])
2
.

La variance mesure de combien les valeurs prises par X scartent de la valeur


moyenne E[X]. Elle nest pas homogne : si X est une longueur exprime en mtres,
V ar[X] est en mtres-carrs. On corrige ceci en introduisant lcart-type qui est la
racine carre de la variance. Les proprits principales de la variance sont les suivantes.
Proposition 4.
Pour tout a R : V ar[aX] = a
2
V ar[X].
Pour tout b R : V ar[X +b] = V ar[X].
Si X et Y sont indpendantes, alors :
V ar[X +Y ] = V ar[X] +V ar[Y ] .
Le tableau 2 donne les variances des lois usuelles, discrtes et continues.
1.3.6 Thormes limites
Le premier rsultat est la traduction mathmatique de lide intuitive de loi des
grands nombres.
Thorme 2. Soit X une variable alatoire admettant une variance. Soit (X
n
)
nN
une
suite de variables alatoires indpendantes de mme loi que X. Alors pour tout > 0 :
lim
n
P
_

X
1
+ +X
n
n
E[X]

>
_
= 0 .
Lide intuitive est que si on mesure une mme quantit alatoire au cours dune
suite dexpriences indpendantes, alors la moyenne arithmtique des valeurs observes
va se stabiliser sur lesprance. Comme cas particulier on retrouve la loi des grands
nombres pour la probabilit dun vnement. Pour une suite dexpriences indpen-
dantes notons X
i
lindicatrice de lvnement A la i-me exprience. Les X
i
suivent
la loi de Bernoulli de paramtre P[A] et (X
1
+ +X
n
)/n est la frquence empirique
de A.
26
STA230 Cours de Statistique UJF Grenoble
Loi Variance
Uniforme U({1, . . . , n})
n
2
1
12
Bernoulli B(1, p) p(1 p)
Binomiale B(n, p) np(1 p)
Hypergomtrique HG(N, m, n) n
m
N
_
1
m
N
_
Nn
N1
Uniforme U(a, b)
(ab)
2
12
Normale N(,
2
)
2
khi-deux X
2
(n) 2n
Student T (n)
n
n2
si n > 2
Fisher F(n, m)
2m
2
n
n+m2
(m2)
2
(m4)
si m > 4
Tab. 2 Variances des lois usuel les.
Lordre de grandeur de lerreur commise en approchant E[X] par la moyenne (X
1
+
+ X
n
)/n est de lordre de 1/

n. Cette estimation derreur sera prcise plus loin


par la notion dintervalle de conance, grce au thorme central limite.
Thorme 3. Soit (X
n
), n N

, une suite de variables alatoires indpendantes de


mme loi, desprance et de variance
2
nies. Posons :
n N

, X
n
=
X
1
+ +X
n
n
et Z
n
=

n
X
n

.
La loi de Z
n
converge vers la loi normale N(0, 1), cest--dire que pour tout a < b :
lim
n
P[a < Z
n
< b] =
_
b
a
1

2
e
x
2
/2
dx .
Interprtation : Dans le thorme central limite, est la valeur estimer. Les n va-
leurs X
1
, . . . , X
n
constituent un chantillon de mesures alatoires indpendantes des-
prance . La quantit (X
1
+ + X
n
)/n est la moyenne empirique de lchantillon,
qui daprs la loi des grands nombres doit converger vers lesprance . Le thorme
central limite donne la prcision de cette approximation. On peut le lire intuitivement
comme suit. Si n est assez grand alors Z
n
est trs probablement compris entre 3 et 3
(la probabilit est 0.9973). Soit encore :
X
1
+ +X
n
n

_

n
; +
3

n
_
,
27
STA230 Cours de Statistique UJF Grenoble
ou bien X
n
(moyenne empirique) est gale 3/

n prs. Nous formaliserons ceci


plus loin par la notion dintervalle de conance.
Le thorme central limite est utilis pour des valeurs nies de n. Lide concrte
est la suivante. Si n est assez grand, la variable centre rduite (esprance 0, variance
1) Z
n
associe la somme de n variables indpendantes suit approximativement la loi
N(0, 1). Si on ralise sufsamment de simulations de Z
n
et si on trace un histogramme
des valeurs obtenues, celui-ci ne sera pas trs loin de la courbe
1

2
e
x
2
/2
. Pas plus loin
en tout cas que si on avait simul des variables alatoires de loi N(0, 1). Si Z suit la
loi N(0, 1), alors Y = Z + suit la loi N(,
2
). On peut aussi dire que pour n assez
grand une somme de n variables alatoires indpendantes suit approximativement une
loi normale, dont lesprance et la variance sont respectivement la somme des esprances
et la somme des variances des variables que lon ajoute. Le problme est de savoir
partir de quelle valeur n est assez grand, pour la prcision dsire. Cela dpend
beaucoup de la loi des X
n
. Lapproximation est dautant meilleure que la loi des X
n
est plus symtrique.
Pour des lois plutt dissymtriques comme la loi exponentielle, lapproximation
normale nest pas valable pour des sommes de quelques dizaines de variables. On peut
la considrer comme justie partir de quelques centaines. En simulation, ce sont des
milliers, voire des millions de variables qui sont engendres, et lapproximation normale
est tout fait lgitime.
1.4 Distribution empirique
1.4.1 Statistique et probabilits
Les traitements statistiques relvent dun aller-retour permanent entre les donnes,
qui sont des collections de chires mesurs, et les modles probabilistes qui nont aucune
ralit physique, mais fournissent des outils pour dcrire la variabilit de ces donnes.
Dans cette dmarche, un premier pas consiste associer lchantillon une loi de
probabilit ctive. La distribution empirique associe un chantillon est la loi de
probabilit sur lensemble des modalits qui aecte chaque observation du poids 1/n.
Lide est la suivante. Supposons que lon souhaite augmenter articiellement le nombre
de donnes. Le moyen le plus simple serait de tirer au hasard de nouvelles donnes parmi
les valeurs observes, en respectant leurs frquences. En dautres termes, on simulerait
la distribution empirique.
Dnition 14. Soit (x
1
, . . . , x
n
) un chantil lon, c
1
, . . . , c
k
les valeurs distinctes prises
par les x
i
et pour h = 1, . . . , k :
n
h
=
n

i=1
I
c
h
(x
i
) ,
leectif de la valeur c
h
. La distribution empirique de lchantil lon est la loi de proba-
28
STA230 Cours de Statistique UJF Grenoble
bilit

P sur lensemble {c
1
, . . . , c
k
}, tel le que :

P(c
h
) =
n
h
n
.
La moyenne, la variance et lcart-type peuvent tre vus comme des caractristiques
probabilistes de la distribution empirique. La moyenne de lchantillon est lesprance
de sa distribution empirique.
Pour un caractre discret, le mode de la distribution empirique est la valeur qui a
la frquence la plus leve. Pour un caractre continu regroup en classes damplitudes
gales, on parle de classe modale. Une distribution empirique est dite unimodale si
la frquence maximale est signicativement plus grande que les autres. Elle peut tre
bimodale ou multimodale dans dautres cas.
Pour tudier une distribution empirique, la premire tape consiste trier les don-
nes par ordre croissant, savoir crire ses statistiques dordre.
Dnition 15. Soit (x
1
, . . . , x
n
) un chantil lon numrique. On appel le statistiques
dordre de lchantillon, les valeurs x
(1)
, . . . , x
(n)
gales aux x
i
ranges par ordre crois-
sant :
x
(1)
= min
i=1,...,n
{x
i
} x
(2)
x
(n)
= max
i=1,...,n
{x
i
} .
Voici par exemple un chantillon de taille 10 et ses 10 statistiques dordre.
5.7 , 3.2 , 8.4 , 4.1 , 6.9 , 5.3 , 1.7 , 3.2 , 2.5 , 7.4 ;
1.7 , 2.5 , 3.2 , 3.2 , 4.1 , 5.3 , 5.7 , 6.9 , 7.4 , 8.4 .
La fonction de rpartition empirique est la fonction de rpartition de la distribution
empirique.
Dnition 16. La fonction de rpartition empirique est la fonction qui un rel x
associe la proportion dlments de lchantil lon qui sont infrieurs ou gaux x. El le
est note

F. Dans le cas o tous les lments de lchantil lon sont dirents, el le vaut :

F(x) =
_

_
0 pour x < x
(1)
.
.
.
i
n
pour x
(i)
x < x
(i+1)
.
.
.
1 pour x x
(n)
.
Reprsenter graphiquement la fonction de rpartition empirique (en gnral on trace
seulement les points de coordonnes (x
(i)
,

F(x
i
))), donne une premire ide de la dis-
tribution empirique.
Dans le cas o lchantillon est discret (le nombre de valeurs direntes k est faible
devant la taille de lchantillon n), on reprsentera la distribution empirique par un
29
STA230 Cours de Statistique UJF Grenoble
diagramme en btons. Il consiste reprsenter les valeurs direntes c
1
, . . . , c
k
en abs-
cisse, avec au-dessus de chacune une barre verticale de hauteur gale sa frquence
empirique f(c
h
). Dans le cas o le nombre de valeurs direntes est trs faible (infrieur
10), et surtout pour des chantillons qualitatifs, on utilise aussi des reprsentations en
camembert (pie-chart) ou en barres. Elles consistent diviser un disque ou un rectangle
proportionnellement aux direntes frquences.
La reprsentation correspondant au diagramme en btons pour un chantillon consi-
dr comme continu (lorsque presque toutes les valeurs sont direntes), est lhisto-
gramme. On choisit un nombre de classes k et un intervalle de reprsentation [a
0
, a
k
]
que lon a dcoup en k intervalles [a
0
, a
1
], ]a
1
, a
2
], . . . , ]a
k1
, a
k
]. On remplace alors la
distribution empirique par une nouvelle loi de probabilit qui pour tout h = 1, . . . , k,
charge lintervalle ]a
h1
, a
h
] avec sa frquence empirique

P(]a
h1
, a
h
]) :

P(]a
h1
, a
h
]) =
1
n
n

i=1
I
]a
h1
,a
h
]
(x
i
) .
Tracer un histogramme consiste reprsenter les classes en abscisses, avec au dessus
de la h-ime un rectangle de hauteur f
h
/(a
h1
a
h
), donc de surface gale f
h
. Cette
reprsentation est celle dune densit de probabilit, constante sur chacune des classes.
Reprsenter un histogramme implique un certain a priori sur les donnes. On dcide
en eet que la frquence de chacune des classes est bien sa frquence empirique dans
lchantillon, mais que la distribution des donnes lintrieur de chaque intervalle est
alatoire, de loi uniforme sur cet intervalle.
100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.10
Frequences
Tailles

100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.10
Frequences
Tailles

Fig. 7 Tailles denfants de 6 ans. Histogramme rgulier et non rgulier.
1.4.2 Quantiles
La fonction quantile dune loi de probabilit est linverse (gnralis) de sa fonction
de rpartition. Si F dsigne la fonction de rpartition, la fonction quantile Q est la
fonction qui u ]0, 1[ associe :
Q(u) = inf{x : F(x) u} .
30
STA230 Cours de Statistique UJF Grenoble
La fonction quantile empirique dun chantillon est la fonction quantile de sa distribu-
tion empirique.
Dnition 17. Soit x = (x
1
, . . . , x
n
) un chantil lon et (x
(1)
, . . . , x
(n)
) le vecteur de ses
statistiques dordre. La fonction quantile empirique de lchantil lon est la fonction

Q
qui, pour tout i = 1, . . . , n, vaut x
(i)
sur linterval le ]
i1
n
,
i
n
].
u ]
i 1
n
,
i
n
] ,

Q(u) = x
(i)
.
Pour certaines valeurs de u, on donne un nom particulier aux quantiles

Q(u).
u

Q(u)
0.5 Mdiane
0.25, 0.75 Quartiles
0.1, . . . , 0.9 Dciles
0.01, . . . , 0.99 Centiles
La mdiane est une valeur centrale de lchantillon : il y a autant de valeurs qui
lui sont infrieures que suprieures. Si la distribution empirique de lchantillon est
peu dissymtrique, comme par exemple pour un chantillon simul partir dune loi
uniforme ou normale, la moyenne et la mdiane sont proches. Si lchantillon est dis-
symtrique, avec une distribution trs tale vers la droite, la mdiane pourra tre
nettement plus petite que la moyenne. Contrairement la moyenne, la mdiane est
insensible aux valeurs aberrantes.
Il y a une part darbitraire dans la dnition de la fonction quantile pour une distribu-
tion empirique : pour tous les points de lintervalle [x
(i)
, x
(i+1)
[ la fonction de rpartition
vaut i/n. Ce sont surtout des raisons thoriques qui nous ont fait choisir x
(i)
plutt
quun autre point comme valeur de

Q(i/n). Ce peut tre un assez mauvais choix en
pratique. Considrons lchantillon suivant, de taille 6.
1 , 2 , 3 , 7 , 8 , 9 .
La mdiane telle que nous lavons dnie vaut 3. Or comme valeur centrale, le milieu
de lintervalle [3, 7], savoir 5, simpose clairement. Dans le cas dchantillons de taille
paire, lintervalle [x
(
n
2
)
, x
(
n
2
+1)
[ sappelle linterval le mdian. La mdiane est parfois
dnie comme le milieu de lintervalle mdian.
Ce problme ne se pose que dans le cas de petits chantillons et pour les quan-
tiles

Q(u) pour lesquels u est de la forme i/n (le plus souvent la mdiane). Nous le
ngligerons dsormais et nous conserverons la dnition 17.
Mme sur de trs gros chantillons, les quantiles sont peu coteux calculer puisquil
sut de trier lchantillon par ordre croissant pour calculer les statistiques dordre et
donc tous les quantiles simultanment. Ils fournissent une visualisation facile de la
distribution empirique. Nous avons vu que la mdiane est une valeur centrale. Pour
31
STA230 Cours de Statistique UJF Grenoble
mesurer la dispersion, on peut calculer ltendue, qui est la dirence entre la plus
petite et la plus grande valeur. Mais cette tendue rete plus les valeurs extrmes que
la localisation de la majorit des donnes. On apprhende mieux la dispersion dun
chantillon par les intervalles inter-quartiles et inter-dciles.
Dnition 18. On appelle intervalle inter-quartiles linterval le [

Q(0.25),

Q(0.75)] qui
contient la moiti centrale des valeurs de lchantil lon. On appel le intervalle inter-
dciles lintervalle [

Q(0.1),

Q(0.9)] qui contient 80% des valeurs centrales de lchantil-
lon.
Ces intervalles sont la base dune reprsentation trs compacte de la distribution
empirique : le diagramme en bote (ou bote moustaches, box plot, box-and-whisker
plot). Il ny a pas de dnition standardise de cette reprsentation. Elle consiste en
une bote rectangulaire dont les deux extrmits sont les quartiles. Ces extrmits se
prolongent par des traits termins par des segments orthogonaux (les moustaches).
La longueur de ces segments varie selon les auteurs. Nous proposons de la xer aux
dciles extrmes. On reprsente aussi la mdiane par un trait dans la bote, et parfois
les valeurs extrmes par des points (voir gure 8).
b
b

Q(0) min{x
i
}

Q(0.1) dcile infrieur

Q(0.25) quartile infrieur

Q(0.5) mdiane

Q(0.75) quartile suprieur

Q(0.9) dcile suprieur

Q(1) max{x
i
}
Fig. 8 Diagramme en bote.
1.4.3 Modles probabilistes
Le postulat de modlisation sur lequel toute tude statistique est base est le sui-
vant : Les donnes observes sont des ralisations de variables alatoires.
32
STA230 Cours de Statistique UJF Grenoble
0 10 20 30 40 50 60 70 80 90 100
100
102
104
106
108
110
112
114
116
118
120
122
124
126
128
130
Tailles
Individus

+
+
+
++
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
Fig. 9 Tailles denfants de 6 ans. La zone grise correspond lintervalle inter-
quartiles. La mdiane est en trait plein, les dciles

Q(0.1) et

Q(0.9) en pointills.
Quand le rsultat dune exprience nest pas reproductible exactement, on suppose
quil est la ralisation dune variable alatoire. La thorie des probabilits fournit des
outils, comme la loi des grands nombres ou le thorme central limite, permettant
dextraire des donnes ce qui est reproductible et qui peut donc fonder une prdiction
ou une dcision.
Quand on traite des donnes, on sait bien que si un deuxime chantillon tait
recueilli dans les mmes conditions, celui-ci serait dirent du premier. Mais on es-
pre que le deuxime chantillon ressemblerait au premier au sens o sa moyenne, sa
variance, ses quantiles, seraient peu modis. Lobservation dchantillons successifs
produits par un algorithme de simulation permet de se faire une bonne ide de cette
ressemblance. Dans de nombreux cas, par exemple pour tout ce qui touche lhumain
(mesures de tailles, dosages sanguins, etc. . . ), la ressemblance dchantillons distincts
est valide par une longue exprience. En mdecine, on sait bien quil ny a pas deux
individus qui prsentent exactement les mmes ractions. Mais un comptage du nombre
moyen de globules rouges par litre de sang, eectu sur quelques centaines dindividus,
variera peu si on le renouvelle sur une autre population. Dans cette situation, comme
dans de nombreuses autres, les comptages eectus sur des individus dirents seront
considrs comme des tirages indpendants dune mme loi de probabilit. Cette loi
de probabilit dcrit la variabilit du phnomne. On considre en quelque sorte que
lchantillon aurait pu tre produit en rptant des simulations indpendantes de la loi.
Prenons lexemple des tailles des lles de 18 ans (mesures en centimtres ou bien
en tailles vestimentaires). Parler de la taille des lles de 18 ans na de sens que dans un
contexte probabiliste : deux lles direntes nauront jamais exactement la mme taille.
On eectue en fait deux hypothses de modlisation qui nont aucune base concrte :
33
STA230 Cours de Statistique UJF Grenoble
1. On peut associer toute lle de 18 ans une mesure prcise de sa taille.
2. Les tailles des lles de 18 ans sont des ralisations de variables alatoires indpen-
dantes et de mme loi.
Bien que fondes sur des objets abstraits, les consquences mathmatiques que lon
peut tirer des hypothses de modlisation mnent des prdictions et des prises de
dcisions conomiques ou politiques, qui sont tout fait concrtes et seront valides
par confrontation avec la ralit. Par exemple la distribution des tailles des lles de
18 ans a des consquences videntes sur lindustrie du prt--porter. Si un fabriquant
de vtements cible sa production sur les adolescentes, il devra ajuster ses patrons
la taille de ses acheteuses potentielles : la rpartition des vtements produits entre les
tailles les plus courantes, du 36 au 40, ne seront pas gales. Le fabriquant produira
probablement plus de robes en 36 quen 40. Cette rpartition ne serait pas la mme
pour des modles destins des personnes ges.
Quand considre-t-on quun chantillon peut tre modlis par une suite de va-
riables indpendantes ? Pour lessentiel quand il est vident que lordre dans lequel on
prend les individus na pas dimportance. Cest le cas pour toutes les mesures physiolo-
giques sur une population humaine. Ce nest pas le cas pour une srie chronologique o
les individus sont des instants successifs qui ne sont clairement pas interchangeables,
et donc pas indpendants. Dailleurs il serait sans intrt de considrer par exemple
les taux de chmage mensuels sur les trois dernires annes comme des ralisations de
36 variables alatoires indpendantes, puisque le but de lobservation est prcisment
de dtecter une tendance dans ces chires, cest--dire une dpendance permettant de
prvoir partiellement les chires venir. Dans ce cas, lide de base de la modlisation
consistera dire quil existe une fonction dterministe cache qui permet de prvoir
en partie le futur en fonction du pass. Les observations mensuelles sont vues comme
des perturbations alatoires de cette fonction dterministe. Dans le modle intervien-
dra alors la fonction dterministe cache et un certain n-uplet de variables alatoires
indpendantes et de mme loi, modlisant les perturbations alatoires.
Une situation analogue est celle o un caractre autre que celui qui est mesur, a
une inuence sur la variable dintrt. Par exemple, si on souponne que le nombre de
cigarettes fumes par jour a une inuence sur le taux de cholestrol, on considrera que
les taux de cholestrol mesurs sont des ralisations dune variable alatoire dont la loi
dpend du nombre de cigarettes. On supposera quil existe une dpendance dterministe
cache deviner, et que lon observe sur chaque individu cette dpendance, perturbe
par un facteur d au pur hasard. L encore, ce sont les perturbations alatoires qui
seront modlises par un n-uplet de variables alatoires indpendantes et de mme loi.
Dans toutes les situations o des rsultats exprimentaux ne peuvent pas tre consi-
drs comme exactement reproductibles, on se ramne un modle contenant un n-
uplet de variables alatoires indpendantes et de mme loi. Un choix important est
le type de la loi, discret ou continu. Quand il sagit dobserver un caractre qualitatif,
comme le groupe sanguin, ou ordinal, comme un classement dans un test psychologique,
le choix dun modle discret est impos par la nature des donnes. Le choix entre mo-
34
STA230 Cours de Statistique UJF Grenoble
dle discret ou continu nest pas toujours aussi clair. Reprenons lexemple des tailles
des lles de 18 ans. On peut mesurer ces tailles au centimtre prs, en tant conscient
de limprcision inhrente aux mesures. Si les rsultats observs sur un chantillon de
1000 individus prennent susamment de valeurs direntes, on choisira une loi conti-
nue (par exemple une loi normale). Direntes techniques statistiques pourront imposer
par la suite un regroupement en classes des donnes (tracs dhistogrammes, distance
du chi-deux,. . . ). Pour le fabriquant de vtements, les donnes brutes sont de peu din-
trt. Il cherchera au contraire traduire les observations en tailles vestimentaires, ce
qui impose un autre type de regroupement en classes et un modle discret.
35
STA230 Cours de Statistique UJF Grenoble
2 Estimation paramtrique
Comment connat-on la population du globe ? Comment dtermine-t-on dans quelles
limites se situe le nombre de globules rouges par litre de sang chez un individu en
bonne sant ? Comment sait-on combien dindividus sont connects internet ? Toutes
ces valuations sont dduites de modles probabilistes par les techniques statistiques
destimation paramtrique. La notion importante est celle dintervalle de conance, qui
permet dvaluer la prcision dune estimation ponctuelle.
2.1 Estimation ponctuelle
2.1.1 Modles paramtrs
Le postulat de modlisation sur lequel toute tude statistique est base est le suivant :
Les donnes observes sont des ralisations de variables alatoires.
Quand le rsultat dune exprience nest pas reproductible exactement, on suppose quil
est la ralisation dune variable alatoire. La thorie des probabilits fournit des outils,
comme la loi des grands nombres ou le thorme central limite, permettant dextraire
des donnes ce qui est reproductible et qui pourra donc fonder une prdiction ou une
dcision.
Quand on observe un caractre statistique sur une population, si lordre dans lequel
on prend les individus na pas dimportance, on choisira de considrer que les donnes
sont des ralisations de variables alatoires indpendantes et de mme loi. Cette loi de
probabilit dcrit la variabilit du caractre. Mme dans le cas o les individus ne sont
pas interchangeables, comme pour une srie chronologique, la modlisation consistera
se ramener, en soustrayant au besoin une fonction dterministe, au cas dun chantillon
de variables alatoires indpendantes.
Dnition 19. Soit P une loi de probabilit sur R. On appel le chantillon de la loi P
un n-uplet de variables alatoires indpendantes et de mme loi P.
Le mot chantillon prend en statistique deux sens dirents, selon que lon parle
des donnes observes ou du modle probabiliste. Lhypothse de modlisation consiste
voir lchantillon (observ) comme une ralisation dun chantillon (thorique) dune
certaine loi de probabilit P. En dautres termes, on considre que les donnes auraient
pu tre produites en simulant de faon rpte la loi de probabilit P. Pour viter
les confusions, nous dsignerons par donnes ou chantil lon observ, la squence de
nombres recueillie (x
1
, . . . , x
n
). Les chantillons (thoriques) au sens de la dnition
ci-dessus seront dsigns par des majuscules : (X
1
, . . . , X
n
).
La loi de probabilit P modlisant la variabilit des donnes na aucune ralit phy-
sique. Cependant elle est considre comme un objet cach. Tout se passe comme si
on disposait dun algorithme de simulation de la loi P, sans connatre P elle-mme :
Les donnes sont des appels indpendants de cet algorithme. Lobjet de lanalyse sta-
tistique est den extraire toute information utile sur P. Si lhypothse de modlisation
36
STA230 Cours de Statistique UJF Grenoble
par la loi P est correcte (lalgorithme simule eectivement cette loi), la loi des grands
nombres permet darmer que la distribution empirique des donnes est proche de P,
pour un grand chantillon. Mais deux chantillons observs, simuls selon la mme loi,
ont rarement la mme distribution empirique. An dextraire des donnes des informa-
tions reproductibles, on est amen rduire lensemble des lois possibles une famille
particulire de lois de probabilit.
On appelle problme dajustement le problme consistant dterminer, dans une fa-
mille de lois de probabilit donne, quelle est celle qui concide le mieux avec lchantil-
lon observ. Dans la situation la plus courante, celle que nous considrons ici, la famille
dpend dun ou plusieurs paramtres rels inconnus. Le problme est donc de dter-
miner quelle valeur du paramtre est la mieux adapte aux donnes, en un sens que
nous prciserons plus loin. On parle alors destimation paramtrique. Nous donnons
ci-dessous quelques exemples courants de situations statistiques, avec des familles de
lois communment choisies.
Echantillons binaires
Typiquement, la situation est celle o un mme vnement est observ ou non dans
une suite dexpriences indpendantes. Si on code les observations par 1 et 0, la mod-
lisation par une loi de Bernoulli simpose. Le paramtre inconnu est la probabilit de
lvnement. On lapproche bien videmment par sa frquence exprimentale.
Comptages
Un chantillon issu de comptages prend des valeurs entires positives. Plusieurs familles
de lois classiques peuvent tre utilises comme modles. Si les objets compts sont rela-
tivement frquents, dans une population de taille xe et assez faible, les lois binomiales
ou hypergomtriques sont des modles naturels (nombre de lles dans les fratries de
5 enfants par exemple). Si les objets compts possdent un caractre relativement rare
dans un grand ensemble (bactries, individus porteurs dun gne particulier,. . . ) on
utilise souvent une loi de Poisson. Pour des dures mesures en temps discret (nombres
de jours ou de semaines dincubation pour une maladie) on pourra utiliser une loi
gomtrique ou binomiale ngative. On se laisse souvent guider par la forme de la
distribution empirique pour le choix dun modle. Un diagramme en btons en gros
unimodal pourra suggrer de modliser par une loi binomiale ngative, mme sil ny
a pas de raison profonde qui rende ce choix naturel.
Variables normales
Les lois normales sont de trs loin les plus utilises parmi les modles probabilistes. Cela
tient deux causes. Lune est quelles permettent des calculs explicites faciles, quelle
que soit la taille de lchantillon. En particulier il est frquent de choisir un modle
normal pour de petits chantillons, sans pouvoir toujours justier ce choix. Lautre
raison tient au thorme central limite : chaque fois quune quantit provient du cumul
dun grand nombre de facteurs variables relativement indpendants entre eux, cette
quantit pourra tre modlise par une loi normale. Cest le cas pour les erreurs de
37
STA230 Cours de Statistique UJF Grenoble
mesures qui ont t la motivation historique de la loi normale, mais aussi pour de trs
nombreux paramtres physiologiques (tailles, poids, numrations sanguines, dosages
hormonaux . . . ).
Dures
Des dures mesures en temps continu sont modlises par des lois de probabilit
continues sur R
+
. En abilit, pour des dures de fonctionnement ou des dures de
rparation, les lois de Weibull sont souvent prfres. Les lois exponentielles en sont
un cas particulier.
Donnes unimodales asymtriques
Comme pour les caractres discrets, le choix dun modle pour un caractre continu
est souvent guid par la forme de la distribution empirique. Il arrive que lhistogramme
dun caractre continu soit trop dissymtrique pour quon puisse utiliser la loi normale.
Plusieurs familles de lois prsentent des dissymtries plus ou moins importantes. Cest
le cas pour les lois de Weibull, dj voques, mais aussi pour les lois gamma. Quand
les ordres de grandeur des donnes sont trs dirents, on peut les remplacer par leurs
logarithmes. Si le nouvel histogramme concide apparemment avec une loi normale, on
utilisera une loi log-normale comme modle pour les donnes initiales.
Dans tout ce qui suit, nous dsignerons par P

une loi de probabilit dpendant du


paramtre inconnu . Dans la plupart des exemples, le paramtre sera un nombre
rel, mais il peut aussi tre un entier, ou un couple de rels.
2.1.2 Estimateurs et estimations
Quand une famille de lois dpendant du paramtre inconnu a t choisie, cest de
lchantillon et de lui seul que lon peut tirer les informations. On appelle estimateur
du paramtre , toute fonction de lchantillon, prenant ses valeurs dans lensemble des
valeurs possibles pour . Evidemment, cette dnition un peu vague cache lespoir que
les valeurs prises par lestimateur soient proches de la valeur cible , qui est et restera
inconnue.
Il importe de bien distinguer les variables alatoires, lies la modlisation, de
leurs ralisations, identies aux donnes. Un chantillon (thorique) est un n-uplet de
variables alatoires indpendantes et de mme loi P

. Pour estimer , on propose un


estimateur, fonction de lchantillon :
T = (X
1
, . . . , X
n
) .
Cest aussi une variable alatoire. Le choix du modle et de lestimateur T est dconnec-
t du recueil des donnes. Cest en quelque sorte une planication que lon eectue
avant toute observation, et qui pourra servir plusieurs chantillons observs du mme
phnomne.
Une fois un modle choisi, on considrera un n-uplet de donnes (x
1
, . . . , x
n
) comme
38
STA230 Cours de Statistique UJF Grenoble
une ralisation des variables alatoires (X
1
, . . . , X
n
). La valeur (relle) prise par T :

= (x
1
, . . . , x
n
) ,
est lestimation (du paramtre au vu de lchantillon observ).
Prenons lexemple simple dune pice dont on ignore si elle est ou non truque. La
probabilit de tomber sur pile est le paramtre inconnu = p. On se propose de raliser
10 lancers de la pice, que lon modlisera par un chantillon de taille 10 de la loi de
Bernoulli de paramtre p. Le nombre de pile obtenu sur les 10 lancers est une variable
alatoire qui suit la loi binomiale B(10, p). Le quotient de cette variable alatoire par 10
(la frquence) est un estimateur de p. Eectuons maintenant les 10 lancers en notant
chaque fois 1 si pile sort, et 0 si cest face. Une ralisation de lchantillon est par
exemple :
0 , 1 , 1 , 0 , 1 , 1 , 1 , 0 , 0 , 1 .
Pour cette ralisation, la frquence empirique prend la valeur 0.6, que lon proposera
comme estimation de p. Bien videmment, 10 nouveaux lancers de la mme pice
pourront conduire une ralisation dirente de lchantillon, et une estimation
dirente de p.
2.1.3 Qualits dun estimateur
Pour un chantillon de taille n de la loi de Bernoulli de paramtre inconnu p, la
frquence empirique est un estimateur de p. Cest une variable alatoire qui prend ses
valeurs dans [0, 1]. Si n est grand, elle prend avec une forte probabilit des valeurs
proches de p, daprs la loi des grands nombres. Quel que soit le modle et le para-
mtre estimer, prendre des valeurs proches de ce paramtre au moins pour de grands
chantillons, est la qualit principale que lon attend dun estimateur. En toute rigueur,
on doit considrer une suite destimateurs (T
n
), o pour tout n, T
n
est une variable
alatoire fonction de lchantillon (X
1
, . . . , X
n
). Par abus de langage, on appelle encore
estimateur cette suite.
Dnition 20. On dit que lestimateur (T
n
) est convergent si pour tout > 0 :
lim
n
P[|T
n
| > ] = 0 .
Un estimateur convergent scarte donc du paramtre avec une faible probabilit,
si la taille de lchantillon est assez grande.
Lexemple de base destimateur convergent est la moyenne empirique. Nous noterons
X
n
la moyenne empirique de lchantillon (X
1
, . . . , X
n
) :
X
n
=
X
1
+ +X
n
n
.
La loi des grands nombres arme que X
n
est un estimateur convergent de lesprance
de X.
39
STA230 Cours de Statistique UJF Grenoble
Si le paramtre sexprime comme une fonction continue de E[X], alors limage de
X
n
par cette fonction est un estimateur convergent de , par la proposition suivante.
Proposition 5. Soit (T
n
) un estimateur convergent du paramtre , et une fonction
de R dans R, continue au point . Alors ((T
n
)) est un estimateur convergent de ().
Considrons par exemple comme modle la loi uniforme sur [0, ], o le paramtre
est inconnu. La moyenne empirique X
n
est un estimateur convergent de lesprance
de la loi, qui vaut /2. Donc T
n
= 2X
n
est un estimateur convergent de .
Mais dautres esprances sont calculables. Par exemple, si X suit la loi uniforme
sur [0, ], alors E[log(X)] vaut log() 1. Toujours daprs la loi des grands nombres,
(log(X
1
)+ +log(X
n
))/n est un estimateur convergent de log()1. Donc lestimateur
T

n
suivant est encore un estimateur convergent de :
T

n
= exp
_
log(X
1
) + + log(X
n
)
n
+ 1
_
.
La notion de convergence ne donne aucune assurance pratique que les valeurs prises
par un estimateur seront eectivement dans un rayon x autour de la vraie valeur du
paramtre, pour une taille dchantillon donne. On quantie la qualit des estimateurs
par la notion derreur quadratique.
Dnition 21. On appelle erreur quadratique de T
n
par rapport la quantit :
EQ(T
n
, ) = E[(T
n
)
2
] .
Lerreur quadratique est lie la convergence par la proposition suivante.
Proposition 6. Si lerreur quadratique de T
n
par rapport tend vers 0 quand n tend
vers linni, alors (T
n
) est un estimateur convergent de .
Dmonstration : Si |T
n
| > , alors (T
n
)
2
>
2
. Donc :
E[(T
n
)
2
] >
2
P[|T
n
| > ] .
Si E[(T
n
)
2
] tend vers 0, il en est de mme de P[|T
n
| > ].
Si deux estimateurs sont disponibles pour le mme paramtre , on dira que lun
est meil leur que lautre si son erreur quadratique par rapport est infrieure. Dans
lexemple ci-dessus, lerreur quadratique de T
n
vaut
2
/(3n), lerreur quadratique de
T

n
est quivalente
2
/n quand n tend vers linni, T
n
est donc meilleur que T

n
.
Mme pour un estimateur convergent, il peut se faire que les valeurs prises soient
dcales en moyenne par rapport la vraie valeur du paramtre. On dit alors que
lestimateur est biais.
40
STA230 Cours de Statistique UJF Grenoble
Dnition 22. On appelle biais de lestimateur T
n
par rapport la quantit :
B(T
n
, ) = E[T
n
] .
Lestimateur est dit sans biais si B(T
n
, ) = 0, il est dit asymptotiquement sans biais
si B(T
n
, ) tend vers 0 quand n tend vers linni.
Proposition 7. Lerreur quadratique de T
n
par rapport est la somme de la variance
de T
n
et du carr du biais.
Dmonstration : Par linarit de lesprance on a :
EQ(T
n
, ) = E[(T
n
)
2
]
= E[(T
n
E[T
n
] +E[T
n
] )
2
]
= E[(T
n
E[T
n
])
2
] + (E[T
n
] )
2
+ 2(E[T
n
] )(E[T
n
E[T
n
]])
= V ar[T
n
] + (B(T
n
, ))
2
+ 0 .

Quand un estimateur est sans biais, lerreur quadratique est gale la variance. Le
critre suivant, consquence immdiate des propositions 6 et 7 est souvent utilis pour
dmontrer quun estimateur est convergent.
Proposition 8. Si un estimateur est sans biais ou asymptotiquement sans biais et si
sa variance tend vers 0, alors il est convergent.
Quand le biais peut tre explicitement calcul, on aura videmment intrt le
corriger pour amliorer lestimateur. Reprenons lexemple de la loi uniforme sur [0, ].
Un estimateur naturel de est la plus grande valeur de lchantillon :
T

n
= max{X
1
, . . . , X
n
} .
Comme toutes les valeurs X
i
sont infrieures , lestimateur T

n
sous-estime systmati-
quement . On dmontre que son esprance est n/(n+1) et donc son biais vaut
/(n+1). On peut corriger le biais en introduisant :
T

n
=
n + 1
n
T

n
.
Ce nouvel estimateur est sans biais, et il est meilleur que T

n
.
Dans le tableau ci-dessous nous rassemblons les 4 exemples destimateurs du para-
mtre pour la loi uniforme U(0, ), qui ont t introduits jusquici. Le meilleur des
quatre est T

n
.
Estimateur Biais Erreur quadratique
T
n
0
2
/(3n)
T

n
/(2n)
2
/n
T

n
/n 2
2
/n
2
T

n
0
2
/n
2
41
STA230 Cours de Statistique UJF Grenoble
2.1.4 Exemples destimateurs
Jusquici nous avons dj rencontr la moyenne epirique, comme estimateur de
lesprance. Dans le cas particulier de donnes binaires, la moyenne empirique est la
frquence, lesprance est la probabilit. Il sagit destimateurs sans biais et conver-
gents. Dans cette section, nous illustrons les notions destimateur, de convergence et
de biais sur trois autres exemples, lestimation dune variance, le problme des questions
condentielles, et les comptages par capture-recapture.
Estimateurs de la variance
Soit (X
1
, . . . , X
n
) un chantillon dune loi inconnue P, qui sera suppose admettre des
moments de tous ordres. Nous avons vu que la moyenne empirique X
n
= (X
1
+ +
X
n
)/n est un estimateur convergent de lesprance. Cest un estimateur sans biais,
et sa variance est gale la variance de la loi P, divise par n. Comment estimer la
variance de P? Lestimateur le plus naturel est le suivant.
Dnition 23. On appelle variance empirique de lchantil lon (X
1
, . . . , X
n
) lestima-
teur :
S
2
n
=
1
n
n

i=1
(X
i
X
n
)
2
.
Si X dsigne une variable alatoire de loi P, S
2
n
est bien un estimateur convergent
de V ar[X] = E[(X E[X])
2
]. Mais ce nest pas un estimateur sans biais. En eet :
Proposition 9.
E[S
2
n
] =
n 1
n
V ar[X] .
Dmonstration : Calculons tout dabord E[X
2
n
].
E[X
2
n
] =
1
n
2
E[(X
1
+ +X
n
)
2
]
=
1
n
2
E
_
_
n

i=1
X
2
i
+
n

i=1

j=i
X
i
X
j
_
_
.
Par dnition dun chantillon, X
1
, . . . , X
n
sont indpendantes et de mme loi. Donc
E[X
2
i
] = E[X
2
] et E[X
i
X
j
] = (E[X])
2
, o X est une variable alatoire quelconque de
loi P. En reportant ces valeurs on obtient :
E[X
2
n
] =
1
n
2
_
nE[X
2
] +n(n 1)(E[X])
2
)
_
=
1
n
E[X
2
] +
n 1
n
(E[X])
2
.
42
STA230 Cours de Statistique UJF Grenoble
On a donc :
E[S
2
n
] =
1
n
E[X
2
1
+ +X
2
n
]
1
n
E[X
2
]
n 1
n
(E[X])
2
)
=
n 1
n
E[X
2
]
n 1
n
(E[X])
2
)
=
n 1
n
V ar[X] .

Pour transformer S
2
n
en un estimateur non biais, il sut de corriger le biais par
un facteur multiplicatif.
Dnition 24. On appelle variance empirique non biaise lestimateur :
S

2
n
=
n
n 1
S
2
n
=
1
n 1
n

i=1
(X
i
X
n
)
2
.
On peut estimer lcart-type par
_
S
2
n
ou bien
_
S

2
n
. Notons quen gnral aussi bien
_
S

2
n
que
_
S
2
n
sont des estimateurs biaiss de
_
V ar[X]. La dirence entre les deux
estimateurs tend vers 0 quand la taille n de lchantillon tend vers linni. Nanmoins,
la plupart des calculatrices proposent les deux estimateurs de lcart-type (touches
n
et
n1
). Certains logiciels calculent par dfaut la valeur de S

2
n
ou
_
S

2
n
, dautres S
2
n
ou
_
S
2
n
. Dans la suite, nous utiliserons surtout S
2
n
, malgr linconvnient du biais.
Questions condentielles
Certains sujets abords dans les enqutes dopinion sont parfois assez intimes, et on
court le risque que les personnes interroges se refusent rpondre franchement len-
quteur, faussant ainsi le rsultat. On peut alors avoir recours une astuce consistant
inverser alatoirement les rponses. Considrons une question condentielle pour la-
quelle on veut estimer la probabilit p de rponses positives. Lenquteur demande
chaque personne interroge de lancer un d. Si le d tombe sur 6, la personne doit
donner sa rponse sans mentir, sinon elle doit donner lopinion contraire la sienne. Si
lenquteur ignore le rsultat du d, il ne pourra pas savoir si la rponse est franche ou
non, et on peut esprer que la personne sonde acceptera de jouer le jeu. Gnralisons
lgrement la situation en tirant pour chaque personne une variable de Bernoulli de
paramtre . Si le rsultat de cette variable est 1, la rponse est franche, sinon, elle
est inverse. Soit n le nombre de personnes interroges. Lenquteur ne recueille que
la frquence empirique F
n
des oui. La proportion inconnue des oui lissue de la
procdure est q = p + (1 )(1 p), et la frquence F
n
observe par lenquteur est
un estimateur sans biais et convergent de q. Remarquons que si = 1/2, q vaut 1/2
quel que soit p. Mais si = 1/2, on peut exprimer p en fonction de q :
p =
q 1 +
2 1
.
43
STA230 Cours de Statistique UJF Grenoble
On peut donc proposer comme estimateur de p la quantit suivante :
T
n
=
F
n
1 +
2 1
.
Lesprance de T
n
est p. La variance de T
n
vaut :
q(1 q)
n(2 1)
2
=
p(1 p)
n
+
(1 )
n(2 1)
2
.
Lestimateur T
n
est sans biais, sa variance tend vers 0, il est donc convergent.
Pour n x, la variance de T tend vers linni quand tend vers 1/2. Elle est
minimale si = 0 ou 1 (mais alors la procdure perd tout son intrt). Le problme
est donc de choisir une valeur de qui soit assez grande pour que la condentialit soit
crdible, mais susamment loigne de 1/2 pour ne pas trop augmenter la variance de
lestimateur. Pour le d, la valeur de est 1/6 et le terme additionnel de la variance
est proportionnel (1 )/(2 1)
2
= 0.3125.
Comptages par capture-recapture
Comment estimer le nombre despces dinsectes vivant sur la terre, alors que de nom-
breuses espces sont encore inconnues ? Comment connat-on la population de baleines
dans les ocans ? Le comptage par capture-recapture permet dvaluer des tailles de
populations pour lesquelles un recensement exhaustif est impossible. La mthode est
base sur une ide simple. Considrons une population, de taille N inconnue. On pr-
lve dans un premier temps un groupe dindividus, de taille m xe. Ces individus
sont recenss et marqus de faon tre reconnus ultrieurement. Plus tard, on pr-
lve un nouveau groupe de taille n, et on observe le nombre X dindividus marqus
dans ce nouveau groupe. Si le deuxime prlvement est indpendant du premier, la
loi de X est la loi hypergomtrique de paramtres N, m et n, desprance nm/N.
On peut sattendre ce que la proportion X/n dindividus marqus dans le deuxime
chantillon soit proche de la proportion dindividus marqus dans lensemble de la po-
pulation, m/N. Il est donc raisonnable de proposer comme estimateur de N la quantit
suivante :
T =
nm
X
.
Linconvnient de cet estimateur est quil nest pas dni si X prend la valeur 0, ce qui
arrive avec une probabilit strictement positive. On peut corriger ce dfaut de deux
manires. La premire consiste remplacer X par X +1, ce qui ne devrait pas fausser
trop le rsultat si les nombres envisags sont assez grands. Posons donc :
T

=
nm
X + 1
.
La seconde manire consiste dcider de rejeter a priori les chantillons pour lesquels on
nobtiendrait pas dindividu marqu. Ceci revient remplacer X par une autre variable
44
STA230 Cours de Statistique UJF Grenoble
alatoire X

dont la loi est la loi conditionnelle de X sachant que X est strictement


positif. Posons donc :
T

=
nm
X

.
Pour des valeurs de N, m et n particulires, on peut calculer numriquement les esp-
rances et les carts-types de ces estimateurs. Le tableau ci-dessous rsume des rsultats
obtenus pour m = n = 100 et direntes valeurs de N.
N 200 300 400 500 1000 5000
E[T

] 197.0 295.1 393.1 491.1 981.3 4291.1


_
V ar[T

] 13.9 34.4 60.2 90.7 309.3 2459.5


E[T

] 201.0 304.2 409.6 517.5 1102.0 5767.9


_
V ar[T

] 14.5 36.6 65.6 101.5 420.2 2995.4


Les deux estimateurs sont biaiss, le premier a tendance sous-estimer la taille N de la
population, le deuxime la sur-estimer. Lcart-type augmente plus rapidement que
N. Il est naturel que la prcision relative soit dautant plus faible que les chantillons
recueillis sont petits devant la taille inconnue de la population.
2.2 Intervalles de conance
2.2.1 Intervalles de dispersion
Lerreur quadratique mesure la concentration dun estimateur autour de la valeur
du paramtre. Les intervalles de dispersion sont un autre moyen de mesurer la plus
ou moins grande concentration dune loi de probabilit. Ils sexpriment laide de la
fonction quantile. Si T est une variable alatoire, la fonction quantile de la loi de T est
la fonction de [0, 1] dans R qui u [0, 1] associe :
Q
T
(u) = inf{t t.q. P[T t] u} .
Dnition 25. Soit T une variable alatoire et un rel compris entre 0 et 1. On
appel le intervalle de dispersion de niveau 1 tout interval le de la forme :
[ Q
T
(), Q
T
(1 +) ] , avec 0 .
En statistique, les rels compris entre 0 et 1 sont de tradition. La mme tradition
leur aecte prioritairement les valeurs 0.05 et 0.01, plus rarement 0.02, 0.005 ou 0.001. Il
faut donc lire comme une faible proportion, et 1 comme une forte proportion.
Un intervalle de dispersion de niveau 1 pour T est tel que T appartient cet
intervalle avec probabilit 1. Il contient donc une forte proportion des valeurs que
prendra T, mme sil est en gnral beaucoup plus petit que le support de la loi.
45
STA230 Cours de Statistique UJF Grenoble
Il existe en gnral une innit dintervalles de dispersion de niveau donn. En voici
quelques uns, de niveau 0.99 pour la loi normale N(0, 1).
Q
X
() Q
X
(0.99 +)
0 2.3263
0.002 2.8782 2.4089
0.005 2.5758 2.5758
0.008 2.4089 2.8782
0.01 2.3263 +
Selon les valeurs de , on dit quun intervalle de dispersion de niveau 1 est :
unilatral infrieur si = 0,
unilatral suprieur si = ,
symtrique si = /2,
optimal si son amplitude est la plus courte parmi tous les intervalles de dispersion
de niveau 1.
Dterminer un intervalle de dispersion optimal requiert en gnral un calcul particulier,
sauf dans le cas o la loi est symtrique, comme une loi normale ou une loi de Student.
On dit que la loi de X est symtrique si pour tout u [0, 1],
Q
X
(u) Q
X
(0.5) = Q
X
(0.5) Q
X
(1 u) .
On dmontre que si la loi de X est symtrique, alors lintervalle de dispersion symtrique
est optimal. Cest le cas pour les lois normales et les lois de Student.
Les intervalles de dispersion des lois usuelles sont frquemment utiliss en Statis-
tique, ce qui justie lintroduction de notations particulires.
u

dsignera le rel F
1
(1 /2), o F
1
dsigne la fonction quantile de la
loi N(0, 1). Lintervalle [u

, u

] est lintervalle de dispersion symtrique (donc


optimal) pour la loi N(0, 1), de niveau 1 . Les valeurs les plus courantes sont
u

= 1.96 pour = 0.05 et u

= 2.5758 pour = 0.01.


t

dsignera le rel Q
T (n)
(1 /2), o Q
T (n)
dsigne la fonction quantile de
la loi de Student n degrs de libert (pour une valeur de n xe). Lintervalle
[t

, t

] est lintervalle de dispersion symtrique (donc optimal) pour la loi T (n),


de niveau 1 .
z

dsignera le rel Q
X
2
(n)
(1 ), o Q
X
2
(n)
dsigne la fonction quantile de la loi
de khi-deux n degrs de libert (pour une valeur de n xe). Lintervalle [0 , z

]
est donc lintervalle unilatral infrieur pour la loi X
2
(n), de niveau 1 .
f

dsignera le rel Q
F(m,n)
(1 ), o Q
F(m,n)
dsigne la fonction quantile de
la loi de Fisher de paramtres m et n (pour des valeurs de xes). Lintervalle
[0 , f

] est lintervalle de dispersion unilatral infrieur pour la loi F(m, n), de


niveau 1 .
A titre dexemple, nous reprenons lestimateur T

n
pour la loi uniforme U(0, ),
savoir le maximum des valeurs de lchantillon. Sa fonction quantile est la fonction qui
46
STA230 Cours de Statistique UJF Grenoble
0 3 6 9 12 15 18 21 24 27 30
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.10
.
loi gamma G(5,0.5)
Fig. 10 Intervalle de dispersion optimal de niveau 0.95 pour la loi gamma G(5, 0.5)
(loi du khi-deux de paramtre 10).
u [0, 1] associe :
Q
T

n
(u) = u
1/n
.
Pour et xs, lintervalle de dispersion [ Q
T

n
(), Q
T

n
(1 + ) ] a pour
longueur :
(1 +)
1/n

1/n
.
Il se trouve que lintervalle de dispersion optimal concide avec lintervalle de dispersion
unilatral suprieur ( = ). La borne de gauche est
1/n
, la borne de droite est .
Voici quelques valeurs pour la quantit
1/n
, qui tend vers 1 quand n tend vers linni.
n
.
.
. 0.05 0.01 0.001
10 0.741 0.631 0.501
100 0.970 0.955 0.933
1000 0.997 0.995 0.993
Quand la loi de la variable alatoire T est discrte, la notion dintervalle de dispersion
recle une certaine ambigit. Considrons par exemple la loi binomiale B(10, 0.6).
Voici les valeurs de sa fonction de rpartition.
i 0 1 2 3 4 5 6 7 8 9 10
F(i) 0.000 0.002 0.012 0.055 0.166 0.367 0.618 0.833 0.954 0.994 1
47
STA230 Cours de Statistique UJF Grenoble
Fixons 1 = 0.9. Pour les calculs utilisant les intervalles de dispersion, on applique
toujours un principe de prcaution, qui consiste garantir le niveau. On qualiera donc
dintervalle de dispersion de niveau 1 les intervalles dont la probabilit est suprieure
ou gale 1. Le tableau ci-dessous donne une liste dintervalles de dispersion de
niveau 0.9, avec leur probabilit exacte, pour la loi B(10, 0.6).
Intervalle [0, 8] [1, 8] [2, 8] [3, 8] [4, 9] [4, 10]
Probabilit 0.954 0.954 0.952 0.941 0.939 0.945
Deux intervalles sont damplitude minimale, [3, 8] et [4, 9]. On choisira celui dont la
probabilit est la plus grande, savoir [3, 8]. La gure 11 reprsente en fonction de p
les intervalles de dispersion optimaux, au sens dni ci-dessus, pour la loi binomiale
B(10, p), ainsi que les intervalles de dispersion symtriques.
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0
1
2
3
4
5
6
7
8
9
10
.
Intervalles de dispersion : loi binomiale
Fig. 11 Intervalles de dispersion optimaux (trait plein) et symtriques (pointills) de
niveau 0.9 pour la loi binomiale B(10, p).
2.2.2 Dnitions
En statistique, tout comme en physique, en chimie ou en biologie, donner un rsultat
sans indication sur sa prcision na que peu dintrt car il nest pas reproductible.
Reprenons lexemple dun lancer de pice truque, pour laquelle la probabilit p de
pile est inconnue. La frquence empirique de pile est lestimateur naturel de p. Si
48
STA230 Cours de Statistique UJF Grenoble
sur 100 lancers on obtient 60 pile, lestimation (ponctuelle) propose pour p est 0.60.
Mais ce rsultat nest pas reproductible. Si on renouvelle les 100 lancers, on obtiendra
probablement des estimations direntes.
Plutt que de donner une estimation ponctuelle, on proposera un interval le, choisi
de manire contrler par un niveau de conance, les chances que le rsultat aurait
dtre conrm si on renouvelait lexprience. On cherche distinguer les valeurs du
paramtre pour lesquelles lobservation (60 pile sur 100 lancers) est plausible, des va-
leurs pour lesquelles elle est trop peu vraisemblable. Notons F la frquence empirique
et n le nombre de lancers. La variable alatoire nF suit la loi binomiale B(n, p). Le
calcul numrique donne les valeurs suivantes.
Q
B(100,0.523)
(0.95) = 60 et Q
B(100,0.682)
(0.05) = 60 .
Pour toute valeur de p infrieure 0.523, la probabilit dobserver sur 100 tirages une
frquence suprieure 0.60 est infrieure 0.05. Pour toute valeur de p suprieure
0.682, la probabilit dobserver sur 100 tirages une frquence infrieure 0.60 est
infrieure 0.05. En dautres termes, pour tout p dans lintervalle [0.523, 0.682], on a :
60 [ Q
B(100,p)
(0.05) , Q
B(100,p)
(0.95) ] ,
cest--dire que 60 est dans linterval le de dispersion symtrique de niveau 0.9 pour
la loi B(100, p). Il est donc raisonnable de proposer [0.523, 0.682] comme intervalle
destimation pour la valeur de p.
La dnition dun intervalle de conance est la suivante.
Dnition 26. Soit (X
1
, . . . , X
n
) un chantil lon de la loi P

. On appel le intervalle
de conance de niveau 1 un interval le alatoire [T
1
, T
2
], o T
1
T
2
sont deux
statistiques, fonctions de lchantil lon, tel les que :
P[ [T
1
, T
2
] ] = 1 .
Si on ralise n simulations indpendantes de la loi P

, les variables alatoires T


1
et
T
2
prendront des valeurs particulires t
1
et t
2
. Lencadrement [t
1
, t
2
] sera alors vrai
ou faux. Pour = 0.05, si on rpte 100 fois la srie de n expriences pour obtenir 100
intervalles, on peut sattendre ce que cinq dentre eux ne contiennent pas .
En gnral, les intervalles de conance se construisent partir des intervalles de
dispersion dun estimateur. Soit T un estimateur de . Parmi les intervalles de disper-
sion de T, nous devons eectuer un choix cohrent (le mme pour toutes les valeurs de
). Le plus facile est de considrer lintervalle de dispersion symtrique :
[Q
T
(/2) , Q
T
(1 /2)] .
Sauf si la loi de T est symtrique (les intervalles symtriques sont alors optimaux), on
obtiendra des rsultats plus prcis en calculant les intervalles de dispersion optimaux
49
STA230 Cours de Statistique UJF Grenoble
(dont lamplitude est minimale). Ce choix tant eectu, xons le niveau 1 et notons
[q() , q()] lintervalle de dispersion pour la loi de T. Pour toute valeur de , on a :
P[ T [q() , q()] ] = 1 .
Si T est un estimateur convergent de et la taille de lchantillon est assez grande,
alors q() et q() sont proches de . En pratique, si P

est une loi continue, ce sont


des fonctions strictement croissantes de . On peut donc dnir leurs inverses q
1
(t) et
q
1
(t).
Proposition 10. Si q et q sont strictement croissantes, linterval le [q
1
(T) , q
1
(T)]
est un intervalle de conance de niveau 1 pour .
Dmonstration : La fonction q() tant croissante, on a :
q
1
(T) T q() ,
et de mme :
q
1
(T) T q() ,
soit :
[q
1
(T) , q
1
(T)] T [q() , q()] .
Ces deux vnements tant quivalents, leur probabilit est la mme, savoir 1, par
dnition de lintervalle de dispersion [q() , q()].
Exemple : loi uniforme sur [0, ].
Considrons un chantillon (X
1
, . . . , X
n
) de la loi U(0, ), et lestimateur convergent
T = max{X
1
, . . . , X
n
}. Nous avons vu que lintervalle de dispersion optimal de niveau
1 est lintervalle unilatral [
1/n
, ]. On a donc :
q() =
1/n
et q() = .
Ces fonctions sont strictement croissantes et donc inversibles :
q
1
(t) = t et q
1
(t) = t
1/n
.
Lintervalle [T, T
1/n
] est un intervalle de conance de niveau 1 pour . Remarquons
que lamplitude de lintervalle diminue (la prcision augmente) si n et augmentent
(le niveau de conance diminue). Supposons par exemple que pour 100 tirages de la loi
U(0, ), le maximum T ait pris la valeur 1.23. Pour = 0.05, la valeur numrique de
la borne suprieure est :
1.23 (0.05)
1/100
= 1.267405 .
Il est inutile de donner plus de chires signicatifs que nen a lestimation. Les arrondis
doivent toujours aller dans le sens de la garantie du niveau de conance (agrandissement
50
STA230 Cours de Statistique UJF Grenoble
de lintervalle). Les bornes infrieures seront donc arrondies par dfaut et les bornes
suprieures par excs. Ici, on donnera [1.23, 1.27] comme intervalle de conance pour
au niveau 0.95.
Quand la loi P

est discrte, lchantillon (X


1
, . . . , X
n
) et donc lestimateur T ne
peuvent prendre que certaines valeurs particulires. Dans ce cas, la fonction quantile
de T est une fonction en escalier et les fonctions q() et q() ne sont pas strictement
croissantes. Pour une loi discrte, le niveau des intervalles de dispersion nest pas exact.
On pourra seulement garantir que :
P[ T [q() , q()] ] 1 .
Quand il y a ambigi t sur la valeur prise par un intervalle de conance, les choix
eectuer iront toujours vers la garantie du niveau de conance. La procdure de calcul
devra tre telle que :
P[ [T
1
, T
2
] ] 1 .
La gure 12 illustre cette procdure pour la situation donne en exemple au dbut
du paragraphe. Les intervalles de dispersion optimaux pour une frquence empirique
sur un chantillon de taille 100 sont reprsents en fonction de p. Si la frquence de
1 dans lchantillon est 0.6, lintervalle de conance retourn sera celui de la gure,
correspondant aux abscisses o la droite horizontale dordonne 0.6 coupe q(p) et q(p).
2.2.3 Echantillons gaussiens
Ce paragraphe est consacr la construction dintervalles de conance de la moyen-
ne et de la variance, pour les chantillons gaussiens, autrement dit les chantillons de
la loi normale N(,
2
). Lavantage de cette situation est que les estimateurs naturels
de lesprance et de la variance ont des lois explicitement calculables. Nous notons
(X
1
, . . . , X
n
) un chantillon de la loi N(,
2
), X sa moyenne empirique et S
2
sa
variance empirique :
X =
1
n
n

i=1
X
i
et S
2
=
1
n
n

i=1
(X
i
X)
2
.
Nous rassemblons ci-dessous, et nous admettrons, les trois rsultats permettant de
calculer les intervalles de conance de et
2
.
Thorme 4. Si (X
1
, . . . , X
n
) est un chantil lon de la loi N(,
2
), alors :
1.
_
n

2
_
X
_
suit la loi normale N(0, 1).
2.

n1
S
2
_
X
_
suit la loi de Student T (n1).
3.
nS
2

2
suit la loi du khi-deux X
2
(n1).
51
STA230 Cours de Statistique UJF Grenoble
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
.
frequence
p
Loi binomiale B(100,p)
q(p) q(p)
Fig. 12 Intervalles de dispersion optimaux et intervalle de conance de niveau 0.9
pour la loi binomiale B(100, p).
Les deux premires armations servent estimer lesprance , respectivement dans
le cas o la variance
2
est connue et dans le cas o elle est inconnue. Commenons par
supposer que
2
est connue. Posons u

= Q
N(0,1)
(1 /2). Lintervalle de dispersion
optimal de niveau 1 pour la loi N(0, 1) est [u

, u

]. Deux valeurs de u

sont trs
souvent utilises : pour 1 = 0.95 et 0.99, u

vaut respectivement 1.96 et 2.5758.


Daprs le point 1 du thorme 4, on a :
P
_ _
n

2
_
X
_
[u

, u

]
_
= 1 .
Or :
_
n

2
_
X
_
[u

, u

] X
_
_
u

2
n
, u

2
n
_
_

_
_
X u

2
n
, X +u

2
n
_
_
.
Lintervalle :
_
_
X u

2
n
, X +u

2
n
_
_
,
52
STA230 Cours de Statistique UJF Grenoble
est donc un intervalle de conance de niveau 1 pour .
Le cas o
2
est inconnu se traite de la mme faon, en remplaant la loi N(0, 1) par
la loi T (n 1). Cest encore une loi symtrique, pour laquelle lintervalle de conance
optimal de niveau 1 est de la forme [t

, t

], o :
t

= Q
T (n1)
(1 /2) .
Le mme raisonnement conduit lintervalle de conance suivant pour :
_
_
X t

S
2
n 1
, X +t

S
2
n 1
_
_
.
Passons maintenant lestimation de
2
partir de S
2
. La loi du khi-deux X
2
(n1)
nest pas symtrique, et lintervalle de dispersion symtrique nest pas optimal. Nous
noterons u

et v

deux rels positifs tels que [u

, v

] soit un intervalle de dispersion de


niveau 1 pour la loi X
2
(n1). On pourra calculer lintervalle de dispersion optimal
par une procdure doptimisation numrique, ou bien prendre lintervalle symtrique :
u

= Q
X
2
(n1)
(/2) et v

= Q
X
2
(n1)
(1 /2) .
Daprs le point 3 du thorme 4, on a :
P
_
nS
2

2
[u

, v

]
_
= 1 .
Or :
nS
2

2
[u

, v

]
2

_
nS
2
v

,
nS
2
u

_
.
Lintervalle
_
nS
2
v
,
nS
2
u
_
est donc un intervalle de conance de niveau 1 pour
2
.
2.2.4 Normalit asymptotique
La construction des intervalles de conance ncessite de connatre la loi des estima-
teurs partir desquels ils sont construits. En dehors du cas des chantillons gaussiens,
ce nest pas toujours possible. De plus, il est frquent que les calculs de lois, eec-
tivement implmentables pour de petits chantillons, deviennent infaisables pour un
chantillon de grande taille. On cherche alors remplacer la loi de lestimateur par une
approximation plus simple, permettant de construire des intervalles de conance dont
le niveau nest garanti que pour de grandes tailles dchantillons.
Dnition 27. Soit (X
1
, . . . , X
n
) un chantil lon de la loi P

. Pour tout n, soient


T
1,n
T
2,n
deux statistiques, fonction de lchantil lon (X
1
, . . . , X
n
).
On dit que [T
1,n
, T
2,n
] est un interval le de conance, de niveau asymptotique 1 pour
, si :
lim
n
P[ [T
1,n
, T
2,n
] ] = 1 .
53
STA230 Cours de Statistique UJF Grenoble
Le plus souvent, cette notion est utilise quand on dispose dun estimateur conver-
gent de dont la loi est asymptotiquement normale, ce qui est en gnral une consquen-
ce du thorme central limite. Nous traitons tout dabord le cas de lestimation de
lesprance.
Thorme 5. Soit (X
1
, . . . , X
n
) un chantil lon dune loi de probabilit desprance ,
de variance
2
. Soit X
n
sa moyenne empirique et S
2
n
sa variance empirique. Posons :
Z
n
=
_
n

2
(X
n
) et Z

n
=

n
S
2
n
(X
n
) .
Les lois des variables alatoires Z
n
et Z

n
convergent vers la loi normale N(0, 1).
Ce rsultat, qui est une reformulation du thorme central limite classique, permet
de dnir des intervalles de dispersion approchs pour Z
n
et Z

n
. Fixons le niveau 1,
et notons [u

, u

] lintervalle de dispersion optimal de la loi N(0, 1). Alors :


lim
n
P[ Z
n
[u

, u

] ] = lim
n
P[ Z

n
[u

, u

] ] = 1 .
On en dduit immdiatement deux intervalles de conance, de niveau asymptotique
1 pour :
_
_
X
n
u

2
n
, X
n
+u

2
n
_
_
et
_
_
X
n
u

S
2
n
n
, X
n
+u

S
2
n
n
_
_
.
En pratique, la taille de lchantillon, mme grande, est toujours xe. Dans luti-
lisation de la normalit asymptotique, la question se pose videmment de la qualit
de lapproximation normale n x. partir de quelle valeur de n est-il lgitime de
remplacer une loi exacte par son approximation normale pour un calcul dintervalle
de conance ? Il est impossible de donner des bornes valables dans toutes les situa-
tions. On pourra retenir que pour une taille dchantillon suprieure ou gale 100,
lapproximation normale conduit des erreurs infrieures ou gales 1%, et nous la
considrerons donc comme lgitime.
titre dexemple, voici lapplication de cette technique lestimation dune proba-
bilit. Nous reprenons lexemple de jeu de pile ou face avec une pice truque. Supposons
que cette fois-ci nous avons lanc 100 fois la pice, et quelle est tombe 60 fois sur
pile. Pour la modlisation, nous considrons des variables alatoires X
1
, . . . , X
n
, avec
n = 100. Pour i allant de 1 n, la variable alatoire X
i
code le rsultat observ : 0
si le i-ime lancer a donn face, 1 sil a donn pile. Le n-uplet (X
1
, . . . , X
n
) constitue
un chantillon de la loi de Bernoulli de paramtre p, o p est la probabilit (inconnue)
que la pice tombe sur pile. Rappelons que :
E[X
i
] = p et V ar(X
i
) = p(1 p) .
54
STA230 Cours de Statistique UJF Grenoble
Nous sommes donc dans le cas o lesprance et la variance sont toutes deux inconnues.
Lesprance est estime par :
X
n
=
1
n
(X
1
+ +X
n
) .
Cest la frquence empirique de pile. Pour allger les formules, nous la noterons f.
La variance empirique de lchantillon est :
S
2
n
=
1
n
(X
2
1
+ +X
2
n
) f
2
= f f
2
= f(1 f) ,
car les X
i
valent toutes 0 ou 1, donc X
2
i
= X
i
.
Lapplication du thorme central limite nous donne lintervalle de conance sui-
vant, de niveau 1 pour p.
_
_
f u

f(1 f)
n
, f +u

f(1 f)
n
_
_
.
Pour 1 = 0.95, u

= 1.96. Pour n = 100 et f = 0.6, la calculatrice donne


lintervalle [0.50398 , 0.69602]. Il nest pas trs raisonnable de donner autant de chires
signicatifs : laproximation normale pour une telle taille dchantillon conduit une
imprcision de lordre du centime. Deux chires signicatifs susent donc. Attention
au sens de larrondi pour les deux bornes. Par principe, on souhaite garantir un niveau
de conance au moins gal 1 , donc remplacer lintervalle trouv par un intervalle
qui le contienne. On doit donc :
arrondir par dfaut la borne infrieure,
arrondir par excs la borne suprieure.
Ici, nous remplacerons [0.50398 , 0.69602] par [0.50 , 0.70].
Une approximation rapide calculer est souvent utile. Puisque f est une frquence,
elle est comprise entre 0 et 1, et la variance empirique f(1 f) est infrieure ou gale
1/4 ; donc
_
f(1 f) 1/2. Au niveau 0.95, le produit u

_
f(1 f) est major par
1. Lintervalle [f 1/

n, f + 1/

n] est donc un intervalle de conance de niveau au


moins gal 0.95 pour une probabilit estime par la frquence f. La prochaine fois
que vous entendrez que sur un chantillon de 3000 personnes, 49.5% pensent ceci ou
cela, souvenez vous que 1/

3000 0.02, et dduisez-en que la prcision sur le rsultat


que lon vous annonce est de 2%.
55
STA230 Cours de Statistique UJF Grenoble
3 Tests statistiques
Les tests statistiques sont le moyen de valider ou rfuter des hypothses de mod-
lisation probabilistes. Ils visent distinguer ce qui est plausible de ce qui est trop peu
vraisemblable, dans le cadre dun modle donn. Les notions de seuil, de rgion de rejet
et de p-valeur sont essentielles et doivent tre comprises. Elles seront appliques aux
tests les plus classiques portant sur la valeur dun paramtre, la comparaison de deux
chantillons ou lajustement de donnes observes un modle thorique.
3.1 Statistiques de test
3.1.1 Modles probabilistes rfutables
Supposons quun laboratoire souhaite mettre sur le march un nouveau mdicament.
Avant de le proposer lensemble de la population, une srie dessais cliniques sont
eectus. Ils visent observer leet du mdicament sur un groupe de malades. Pour
simplier, supposons que le nouveau mdicament ait guri 87 malades dans un groupe
de 100. Par ailleurs, on sait quen moyenne 74% des malades gurissent sans traitement.
Lamlioration est-elle susante pour lancer le mdicament ? On ne pourra prendre une
dcision quen supposant que les 100 individus observs sont reprsentatifs de lensemble
des personnes que lon aura traiter, et que les rsultats auraient t peu dirents sur
un autre groupe. La modlisation consiste supposer que les ractions des individus
aux traitements sont des ralisations de variables alatoires. Cest le postulat de base
en statistique :
Les donnes observes sont des ralisations de variables alatoires.
Une srie de donnes statistiques se prsente sous la forme dun n-uplet de valeurs,
observes sur une certaine population dindividus. La modlisation intervient quand
on souhaite utiliser ces valeurs pour mettre des conclusions destines des individus
pour lesquels les observations nont pas encore t faites. La thorie des probabilits
fournit des outils, comme la loi des grands nombres ou le thorme central limite,
permettant dextraire des donnes ce qui est reproductible et qui pourra donc fonder
une prdiction ou une dcision.
Une fois admis le postulat de base, les hypothses de modlisation sont des armations
portant sur la loi de probabilit du n-uplet de variables alatoires modlisant les ob-
servations. Selon les situations, quelques-unes de ces hypothses paratront naturelles
et ne seront pas soumises validation. Par exemple, quand on observe un caractre
statistique sur une population, si lordre dans lequel on prend les individus na pas dim-
portance, on choisira de considrer que les donnes sont des ralisations de variables
alatoires indpendantes et de mme loi, savoir un chantillon (thorique).
Dans le cas du nouveau mdicament tester, on considrera que les individus sont
indpendants et que leur rponse (gurison ou non) est une variable binaire (1 ou 0). On
est donc ramen un chantillon dune loi de Bernoulli. Lhypothse que le laboratoire
56
STA230 Cours de Statistique UJF Grenoble
cherche valider est que le paramtre de la loi de Bernoulli (probabilit de gurison)
pour le nouveau mdicament est suprieur 0.74, qui est la probabilit de gurison
sans traitement (suppose connue).
Toute dmarche scientique consiste proposer des thories, qui sont ensuite conrmes
ou rfutes. Une thorie met des prdictions sur le rsultat dexpriences ou de mesures
futures. Quune seule de ces prdictions savre fausse, et cest toute la thorie qui
est rfute. En revanche, une prdiction qui savre exacte ne fait que conforter la
thorie, qui ne pourra jamais tre dnitivement prouve. En statistique les thories
sont des modles probabilistes, qui en gnral ne peuvent pas tre rfuts : aucun
rsultat observ nest jamais totalement incompatible avec le modle. Dans le cas du
mdicament, il nest pas impossible que par le fait du hasard, aucun des individus traits
ne gurisse. Cest seulement trs peu vraisemblable. Comme il serait suspect, mais pas
exclu, que tous les individus gurissent sans exception. Lobjet des tests statistiques
est de distinguer ce qui est plausible de ce qui est trop peu vraisemblable.
Les prdictions mises par une thorie en sont des consquences particulires. Consid-
rons par exemple la situation o on souhaite tester un gnrateur pseudo-alatoire au
vu des valeurs quil retourne. En pratique, un gnrateur pseudo-alatoire calcule les
termes successifs dune suite itrative dterministe. Ces valeurs doivent se comporter
comme des rels au hasard entre 0 et 1. Cette phrase cache en fait le modle probabi-
liste suivant : les valeurs retournes par le gnrateur sont des ralisations de variables
alatoires indpendantes et de mme loi, uniforme sur [0 , 1]. Ce modle probabiliste
a une innit de consquences testables. Par exemple si le modle est correct, sur 100
appels, le nombre de ceux compris entre 0.4 et 0.9 suit la loi binomiale B(100, 0.5).
Il nest pas totalement exclu de nen observer aucun, mais cest trs improbable (pro-
babilit 1/2
100
). Si sur 100 appels du gnrateur, aucun ntait compris entre 0.4 et
0.9, on aurait donc de bonnes raisons de mettre en doute le modle. Mais si le nombre
dappels entre 0.4 et 0.9 est de 46, tout ce quon pourra dire cest que ce rsultat est
plausible. Cela peut renforcer notre conance dans le modle, mais cela ne prsage pas
du rsultat dautres tests : aucun test statistique ne pourra jamais dmontrer que le
modle test est le bon, ni quil est le seul possible.
En rsum, la situation est la suivante. Les donnes observes sont modlises par des
variables alatoires (X
1
, . . . , X
n
). Toute fonction des X
i
sappelle une statistique. En
particulier, la dcision que lon prendra au vu des donnes est une statistique binaire
(rejet ou non). Les hypothses portent sur la loi conjointe des X
i
. On cherche tester
une hypothse particulire, qui porte traditionnellement le nom dhypothse nul le, et
que lon notera H
0
. Dans lexemple du test sur lecacit dun mdicament, lhypothse
nulle pourrait tre que le mdicament na pas plus deet que lancien. Pour un n-uplet
dappels dun gnrateur pseudo-alatoire, lhypothse nulle sera que la prsence dun
appel entre 0.4 et 0.9 suit la loi de Bernoulli de paramtre 0.5. Un test est une dcision
prise au vu des donnes, pour laquelle on contrle la probabilit de rejeter H
0
tort.
57
STA230 Cours de Statistique UJF Grenoble
Dnition 28. Un test de seuil pour lhypothse H
0
est une statistique binaire (rejet
ou non de H
0
), telle que :
P
H
0
[ Rejet de H
0
] = .
Lhypothse H
0
entrane la connaissance de la loi dune certaine variable alatoire,
appele statistique de test. Par exemple, si un mdicament na pas deet, lhypothse
nulle entrane que le nombre de gurisons observes sur n individus suit la loi binomiale
B(n, p
0
), o p
0
= 0.74 est la probabilit (suppose connue) de gurison sans traitement.
Pour n appels dun gnrateur pseudo-alatoire, le nombre dappels entre 0.4 et 0.9 suit
la loi B(n, 0.5). Reste ensuite distinguer parmi les valeurs de la statistique de test,
celles qui sont plausibles de celles qui sont trop peu vraisemblables. Ceci fait lobjet du
paragraphe suivant.
3.1.2 Rgles de dcision
Un modle probabiliste a donc t choisi, qui fait des donnes observes des ralisa-
tions de variables alatoires. Notons (x
1
, . . . , x
n
) les donnes et (X
1
, . . . , X
n
) les va-
riables alatoires qui les modlisent. Sur la loi de ces variables alatoires, un certain
nombre dhypothses sont mises et ne seront pas remises en cause. Une hypothse par-
ticulire H
0
doit tre teste. Dans notre exemple du test dun nouveau mdicament,
nous supposons que le rsultat observ sur chaque malade (gurison ou non) suit une
loi de Bernoulli, et que les rsultats sur dirents malades sont indpendants. Nous ne
remettrons pas en cause ces hypothses. Par contre lhypothse H
0
le paramtre est
gal 0.74 doit tre teste.
La dcision va porter sur la valeur prise par une certaine fonction des donnes :
T = (X
1
, . . . , X
n
) .
Dans le modle, T est une variable alatoire, la statistique de test. Elle est choisie de
sorte que sa loi de probabilit sous lhypothse H
0
est connue. Nous notons cette loi P
0
.
Si les x
i
sont des ralisations des X
i
, alors t = (x
1
, . . . , x
n
) est la valeur prise par T.
Le test consiste rejeter lhypothse H
0
quand la valeur t est trop peu vraisemblable
pour P
0
.
Pour la loi de probabilit P
0
, les valeurs les plus plausibles sont contenues dans ses
interval les de dispersion. Ils sexpriment laide de la fonction quantile. Si T est une
variable alatoire, la fonction quantile de la loi de T est la fonction de [0 , 1] dans R
qui u [0 , 1] associe :
Q
T
(u) = inf{t t.q. P[T t] u} .
Cest linverse de la fonction de rpartition. Les fonctions quantiles, comme les fonctions
de rpartition de toutes les lois usuelles sont disponibles dans les environnements de
calcul courants.
58
STA230 Cours de Statistique UJF Grenoble
Un intervalle de dispersion de niveau 1 pour T est tel que T appartient cet
intervalle avec probabilit 1. Il contient donc une forte proportion des valeurs que
prendra T, mme sil est en gnral beaucoup plus petit que le support de la loi.
Un test consistera rejeter lhypothse H
0
si la valeur prise par la statistique de test
est en dehors dun intervalle de dispersion de niveau donn.
Proposition 11. Soit H
0
une hypothse et un rel compris entre 0 et 1. On dnit
un test de seuil pour H
0
par la rgle de dcision :
Rejet de H
0
T / I

,
o :
T est une statistique de test,
I

est un intervalle de dispersion de niveau 1 pour la loi de T sous H


0
.
Le complmentaire de I

sappelle la rgion de rejet. Nous la noterons W

. Si H
0
est vraie, le seuil est la probabilit que la valeur prise par T soit en dehors de I

, et
donc que H
0
soit rejete tort :
P
H
0
[ Rejet de H
0
] = .
Nous avons laiss jusquici une grande latitude quant au choix de lintervalle de dis-
persion. Les intervalles les plus utiliss sont symtriques ou unilatraux.
Dnition 29. On dit quun test est :
unilatral si la rgion de rejet est le complmentaire dun interval le de dispersion
unilatral.
bilatral si la rgion de rejet est le complmentaire dun interval le de dispersion
symtrique.
Dans le cas de lecacit dun mdicament, avec le nombre de gurisons comme
statistique de test, on choisira un test unilatral (le traitement est inecace si la fr-
quence de gurison est trop faible, ecace si elle est susamment grande). Pour tester
un gnrateur pseudo-alatoire, avec le nombre dappels entre 0.4 et 0.9 comme statis-
tique de test, on rejettera aussi bien les valeurs trop grandes que trop petites, et le test
sera bilatral.
Nous rsumons dans la dnition suivante les trois types de tests usuels.
Dnition 30. Soit H
0
lhypothse nul le, le seuil, T la statistique de test et Q
0
sa
fonction quantile sous lhypothse H
0
.
1. Le test bilatral (rejet des valeurs trop cartes) est dni par la rgle de dcision :
Rejet de H
0
T / [Q
0
(/2) , Q
0
(1/2)] .
59
STA230 Cours de Statistique UJF Grenoble
2. Le test unilatral droite (rejet des valeurs trop grandes) est dni par la rgle
de dcision :
Rejet de H
0
T > Q
0
(1) .
3. Le test unilatral gauche (rejet des valeurs trop petites) est dni par la rgle
de dcision :
Rejet de H
0
T < Q
0
() .
Supposons que la statistique de test T suive sous H
0
la loi binomiale B(100, 0.5),
comme dans lexemple du gnrateur pseudo-alatoire. Lintervalle de dispersion sy-
mtrique de niveau = 0.05 est [40 , 60]. Le test bilateral de seuil 0.05 consistera
rejeter H
0
si la statistique de test prend une valeur infrieure 40 ou suprieure 60.
Pour la loi binomiale, comme pour dautres, on peut choisir dutiliser lapproximation
normale : si n est assez grand, la loi B(n, p) est proche de la loi normale de mme
esprance et de mme variance. Ici, la loi de T est proche de la loi N(50, 25). Linter-
valle de dispersion symtrique de niveau 0.95 pour cette loi est [40.2 , 59.8]. Daprs cet
intervalle, on devrait aussi rejeter les valeurs 40 et 60. Les quantiles de la loi N(50, 25)
ne sont pas tabuls. Pour les calculer, on se ramne la loi N(0, 1), en remplaant la
statistique de test T par sa valeur centre rduite :
T

=
T 50

25
.
La variable T

suit la loi N(0, 1), le test bilatral de seuil 0.05 consiste rejeter toute
valeur lextrieur de lintervalle de dispersion [1.96 , +1.96]. Cest videmment qui-
valent au fait de rejeter les valeurs de T lextrieur de lintervalle [40.2 , 59.8]. Dautres
transformations sont possibles. Si T

suit la loi N(0, 1), alors T

= (T

)
2
suit la loi du
khi-deux X
2
(1). Rejeter les valeurs de T

lextrieur de lintervalle [1.96 , +1.96] est


quivalent rejeter les valeurs de T

suprieures (1.96)
2
= 3.841, qui est eective-
ment le quantile dordre 0.95 de la loi X
2
(1). Remarquons quun test bilatral sur la
statistique T

est quivalent un test unilatral droite sur la statistique T

.
Reprenons lexemple du mdicament qui a guri 83 individus sur 100, et pour le-
quel nous voulons savoir si la probabilit de gurison est ou non meilleure que 0.74.
Nous allons donc appliquer un test unilatral : nous observons une amlioration (83%
de gurisons au lieu de 74% attendues) et nous voulons savoir si cette amlioration
est susamment grande pour tre signicative. Sous lhypothse H
0
, le nombre T
dindividus guris parmi 100 suit la loi binomiale B(100, 0.74). Toujours en utilisant
lapproximation normale, la variable alatoire suivante suit la loi N(0, 1) :
T

=
T 74
_
100(0.74(1 0.74))
.
Lintervalle de dispersion unilatral gauche de niveau 0.01 est ] , 2.3263]. En
dautres termes si une variable alatoire doit suivre la loi N(0, 1), nous rejetterons
60
STA230 Cours de Statistique UJF Grenoble
comme trop grande au seuil 0.01, toute valeur suprieure 2.3263. Au seuil 0.05,
nous rejetterons toute valeur suprieure 1.6449. Ici T prend la valeur 83 et T

la
valeur 2.0518 : cest trop grand au seuil 0.05 (rejet de H
0
), mais ce nest pas trop grand
au seuil 0.01. Certes il y a eu une amlioration, mais on ne peut pas tout fait exclure
quelle soit due au hasard. Nous verrons au paragraphe suivant un moyen de donner
une indication plus prcise.
Nous prsenterons quelques exemples de tests, parmi les plus classiques. Nous ne pr-
ciserons pas toujours sil sagit de tests bilatraux ou unilatraux. Limportant est de
dcrire lhypothse H
0
, la statistique de test T et sa loi sous H
0
. Dcider si le test doit
tre unilatral gauche ou droite ou bien bilatral est le plus souvent aaire de bon
sens.
3.1.3 Seuil et p-valeur
La dnition 11 du paragraphe prcdent fait apparatre le seuil comme la proba-
bilit , xe a priori, que le test rejette lhypothse H
0
tort :
P
H
0
[ Rejet de H
0
] = .
Une fois les donnes recueillies, la valeur prise par la statistique de test sera calcule,
et la rponse sera binaire : rejet ou non de H
0
. On prfre souvent garder linformation
contenue dans la valeur de la statistique de test, en retournant le seuil limite auquel
H
0
aurait t rejete, compte tenu de lobservation.
Prenons lexemple (frquent) dune hypothse H
0
sous laquelle la statistique de test
T suit la loi normale N(0, 1). La rgle de rejet pour le test bilatral de seuil 0.05 est :
Rejet de H
0
T / [1.96 , +1.96] .
Supposons que la valeur prise par T soit 2.72. Lhypothse H
0
sera donc rejete. Mais
elle serait galement rejete au seuil 0.01. En fait elle serait rejete pour nimporte
quel seuil suprieur 0.00653, ce qui est un renseignement plus prcis quune simple
rponse binaire.
Dnition 31. Soit H
0
lhypothse nul le, T la statistique de test et F
0
sa fonction de
rpartition sous lhypothse H
0
. On suppose que F
0
est continue.
1. Pour un test bilatral (rejet des valeurs trop cartes) la p-valeur dune valeur t
prise par T est :
p(t) =
_
2F
0
(t) si F
0
(t) < 0.5 ,
2(1 F
0
(t)) si F
0
(t) 0.5 .
2. Pour un test unilatral droite (rejet des valeurs trop grandes) la p-valeur dune
valeur t prise par T est :
p(t) = 1 F
0
(t) .
61
STA230 Cours de Statistique UJF Grenoble
3. Pour un test unilatral gauche (rejet des valeurs trop petites) la p-valeur dune
valeur t prise par T est :
p(t) = F
0
(t) .
Cependant calculer une p-valeur pour un test bilatral est assez articiel. Au vu
de la valeur prise par T, on aura tendance eectuer plutt un test unilatral visant
dcider si la valeur observe est trop grande ou trop petite. Pour une statistique
de test suivant la loi N(0, 1), la valeur 2.72 est clairement droite de la distribution.
Le problme ne se pose plus de savoir si elle est trop petite, mais plutt si elle est
signicativement trop grande. En pratique, pour une statistique de test de fonction de
rpartition F
0
sous H
0
, on dnira souvent la p-valeur de la valeur t par :
p(t) = min{F
0
(t) , 1F
0
(t)} .
La connaissance de la p-valeur rend inutile le calcul pralable de la rgion de rejet : si
p(t) est la p-valeur dune observation t sous lhypothse H
0
, on obtient un test de seuil
par la rgle de rejet :
Rejet de H
0
p(T) < .
Dans le cas continu, ceci revient remplacer la statistique T par F
0
(T) ou 1 F
0
(T).
Sous lhypothse H
0
, ces deux statistiques suivent la loi uniforme U(0, 1).
Quand la statistique de test est discrte, il faut inclure la valeur observe dans lin-
tervalle dont on calcule la probabilit. Pour un test unilatral gauche, cela ninduit
pas de changement : F
0
(t) est la probabilit que T soit infrieure ou gale t. Pour
un test unilatral droite sur une variable valeurs dans N (le cas le plus frquent) il
faudra calculer 1F
0
(t1). Supposons par exemple que la loi de T soit la loi binomiale
B(100, 0.5), la p-valeur de 60 est la probabilit que T soit suprieure ou gale 60,
savoir :
1 F
B(100,0.5)
(59) = 0.0284 .
Reprenons lexemple du paragraphe prcdent : sur 100 malades, le mdicament en
a guri 83, comparer avec le pourcentage de gurison sans traitement de 74%. Sous
lhypothse H
0
, le nombre de gurisons suit la loi binomiale B(100, 0.74). La probabilit
quune variable alatoire de loi B(100, 0.74) prenne une valeur suprieure ou gale 83
est :
1 F
B(100,0.74)
(82) = 0.0227 .
Si comme dans le paragraphe prcdent, on utilise lapproximation normale, le calcul
donne :
1 F
_
_
83 74
_
100(0.74(1 0.74))
_
_
= 1 F(2.0518) = 0.0201 .
62
STA230 Cours de Statistique UJF Grenoble
3.1.4 Risques et puissance
Jusquici nous navons test quune seule hypothse de modlisation H
0
. La seule
erreur qui pouvait tre quantie consistait rejeter H
0
tort. La probabilit de cette
erreur est le seuil du test. Ne pas rejeter H
0
signie seulement que rien ne sest produit
qui permette de la mettre en doute. Cela ne signie pas que H
0
soit vraie (les lois
de probabilit nexistent pas dans la nature). Nous allons nous placer dsormais dans
une situation o deux modles sont en comptition. Les donnes disponibles devront
nous permettre de prendre une dcision sur H
0
, par rfrence une autre hypothse
H
1
. On dit alors quon teste H
0
contre H
1
.
Prenons lexemple dun indicateur physiologique T (taux dune certaine substance dans
le sang) dont une valeur leve est un symptme dune certaine maladie. Comme dhabi-
tude, on considrera que le taux observ sur un individu est la ralisation dune certaine
variable alatoire. Supposons que des tudes antrieures aient montr que chez un sujet
sain, la valeur de T suit la loi N(1, 0.09), alors que chez un sujet malade, elle suit la loi
N(2, 0.16). Si la maladie est peu grave, et que le traitement comporte des risques pour
le patient, le mdecin choisira de privilgier lhypothse que son patient est en bonne
sant : ce sera son hypothse nulle H
0
. Elle sera teste par un test unilatral droite
(rejet des valeurs de T trop grandes). Au seuil = 0.05, la rgle de dcision est :
Rejet de H
0
T > l
0
= Q
N(1,0.09)
(0.95) = 1.493 .
On dcidera donc que le patient est malade si son taux est suprieur l
0
= 1.493. Le
seuil mesure le risque de rejeter H
0
tort (dclarer malade un individu sain). Mais un
autre risque consiste ne pas rejeter H
0
alors que H
1
est vraie (ne pas diagnostiquer
la maladie alors que le patient est eectivement atteint). On note la probabilit
correspondante :
= P
H
1
[ Ne pas rejeter H
0
] .
Ici la loi de T sous lhypothse H
1
est la loi normale N(2, 0.16) et donc :
= F
N(2,0.16)
(l
0
) = 0.1027 .
Rejeter H
0
tort est lerreur de premire espce et le seuil est le risque de premire
espce. Ne pas rejeter H
0
tort est lerreur de deuxime espce et la probabilit de
cette erreur est le risque de deuxime espce. La probabilit 1 de rejeter H
0
sous H
1
sappelle la puissance du test.
Comme nous lavons montr en exemple, il se peut que le risque de deuxime espce
soit assez important, alors que le seuil est x en dnissant le test. Lerreur de
premire espce est celle que lon choisit de matriser, quitte ignorer le risque de
deuxime espce. Cela induit une dissymtrie dans le traitement des deux hypothses.
La rgle de rejet du test est dnie uniquement partir de et H
0
. Entre deux
alternatives, on choisira pour H
0
lhypothse quil serait le plus grave de rejeter tort.
63
STA230 Cours de Statistique UJF Grenoble
Reprenons lexemple du diagnostic mais supposons maintenant que la maladie est
potentiellement trs grave, mais facilement soignable. Le danger serait de ne pas la
dtecter. Le mdecin choisira comme hypothse nulle lhypothse que le patient est
atteint.
H

0
: T suit la loi N(2, 0.16) .
Le test sera cette fois unilatral gauche (rejet des valeurs trop faibles). Au seuil
= 0.05, la rgle de dcision est :
Rejet de H

0
T < l
1
= Q
N(2,0.16)
(0.05) = 1.342 .
On constate que l
1
est infrieur l
0
. Ce test est donc dirent du prcdent. Selon la
valeur de T, les dcisions peuvent concider ou non.
Si T < l
1
: acceptation de H
0
et rejet de H

0
, les dcisions sont cohrentes.
Si l
1
< T < l
0
: acceptation de H
0
et de H

0
, rsultat non interprtable.
Si T > l
0
: rejet de H
0
et acceptation de H

0
, les dcisions sont cohrentes.
3.2 Tests paramtriques classiques
3.2.1 chantillons gaussiens
Les donnes observes sont modlises par un chantillon de la loi normale N(,
2
)
dont lesprance et la variance
2
sont a priori inconnues. Sous ces hypothses, des
rsultats thoriques prcisent les lois des estimateurs naturels de et
2
que sont
la moyenne et la variance empiriques. Ce sont les mmes que pour les intervalles de
conance. Nous les rappelons.
Thorme 6. Soit (X
1
, . . . , X
n
) un chantil lon de la loi N(,
2
). On note :
X =
1
n
n

i=1
X
i
la moyenne empirique,
S
2
=
1
n
n

i=1
(X
i
X)
2
la variance empirique.
Alors :
1.
_
n

2
_
X
_
suit la loi normale N(0, 1).
2.

n1
S
2
_
X
_
suit la loi de Student T (n1).
3.
nS
2

2
suit la loi du khi-deux X
2
(n1).
Le point 1 permet de tester des hypothses portant sur la valeur de , quand
est connu. Cest la situation typique du contrle de qualit. Considrons une machine
destine la fabrication de comprims devant peser 1 gramme. Aucun comprim, sil est
mesur au microgramme prs, ne pse 1 gramme exactement. Les poids des comprims
64
STA230 Cours de Statistique UJF Grenoble
sont en moyenne de 1g, avec un cart-type li aux caractristiques de la machine,
qui est connu (par exemple = 0.01g). Le contrle de qualit consistera prlever
priodiquement un chantillon de comprims dont on calcule le poids moyen pour tester
quil ne scarte pas trop de la valeur de rfrence. Par exemple, si sur un chantillon
de 10 comprims on observe un poids moyen de 0.995, la statistique de test prend la
valeur

10(0.995 1)/0.01 = 1.581, dont la p-valeur par rapport la loi normale
N(0, 1) est :
F
N(0,1)
(1.581) = 0.0569 .
Si la variance est inconnue, on peut utiliser le point 2 de la mme manire. Reprenons
les mmes donnes en supposant que lcart-type de 0.01 a t observ. La statistique
de test prend la valeur

9(0.995 1)/0.01 = 1.5, dont la p-valeur par rapport la
loi de Student T (9) est :
F
T (9)
(1.5) = 0.0839 .
On peut utiliser le point 3 pour tester la valeur de lcart-type. Toujours sur un chan-
tillon de 10 comprims, supposons quon ait observ un cart-type de 0.013. On souhaite
tester si cette valeur est signicativement trop grande par rapport la valeur de rf-
rence = 0.01. La statistique de test prend la valeur 10(1.3)
2
= 16.9. Pour la loi de
khi-deux X
2
(9), la p-valeur correspondante est :
1 F
X
2
(9)
(16.9) = 0.0503 .
3.2.2 Test sur la moyenne dun grand chantillon
Dans le cas dun chantillon de grande taille, le thorme central limite permet
darmer que la moyenne empirique suit approximativement une loi normale, sans
quil y ait besoin de supposer que lchantillon est gaussien.
Thorme 7. Soit (X
1
, . . . , X
n
) un chantil lon dune loi de probabilit quelconque,
desprance et de variance
2
nies. On note :
X =
1
n
n

i=1
X
i
la moyenne empirique,
S
2
=
1
n
n

i=1
(X
i
X)
2
la variance empirique.
Quand n tend vers linni, la loi de la variable alatoire :

n
X

S
2
converge vers la loi normale N(0, 1).
On utilise ce rsultat pour tester les valeurs de lesprance, exactement comme pour
un chantillon gaussien.
65
STA230 Cours de Statistique UJF Grenoble
Considrons par exemple des dures de vie de composants lectroniques. En g-
nral, elles ont des distributions trs dissymtriques, et leurs histogrammes sont loin
de ressembler une courbe en cloche : on ne peut pas considrer quelles suivent des
lois normales. Imaginons que le constructeur garantisse une dure de vie moyenne de
1000 heures. Un organisme indpendant doit valider cette armation. Cet organisme
observe la dure de vie de 200 composants, et calcule une dure de vie moyenne de
943 heures, avec un cart-type de 267 heures. Est-ce susant pour mettre en doute la
parole du constructeur ?
Avec n = 200, X
1
, . . . , X
n
sont les dures de vie des n composants, X prend la
valeur 943 et S
2
(la variance empirique) prend la valeur 267
2
. Sous lhypothse H
0
(le
point de vue du constructeur), lesprance des X
i
est = 1000. La valeur prise par la
variable centre rduite est :

200
943 1000
267
= 3.019 ,
et la p-valeur pour le test unilatral gauche (rejet des valeurs trop faibles) est
F(3.019) = 0.0013 : cest une mauvaise nouvelle pour le constructeur !
3.2.3 Test sur la valeur dun quantile
Ici, le modle de base est celui dun chantillon dune loi inconnue P. Les n donnes
sont donc supposes tre des ralisations de variables alatoires indpendantes, de mme
loi P. Dans un premier temps, lhypothse H
0
portera sur la valeur dun quantile de
P.
Prenons le cas dun traitement cens faire baisser le taux de cholestrol. Pour chaque
individu i dun groupe de patients, la dirence X
i
entre le taux aprs et avant traite-
ment est mesure. Certaines de ces dirences sont ngatives (diminutions), dautres
positives (augmentations). Lhypothse H
0
est que le traitement na pas deet signi-
catif. On rejettera H
0
(on dcidera que le traitement est ecace) si susamment de
baisses ont t observes. Si H
0
est vraie, la mdiane de la loi P des X
i
est nulle. En
eet, si le mdicament na aucun eet, il y a autant de chances dobserver une hausse
quune baisse, et la dirence est donc positive ou ngative avec probabilit 1/2.
Prenons pour statistique de test le nombre de baisses :
T =
n

i=1
I
(,0]
(X
i
) ,
La notation I
A
(x) dsignant la fonction indicatrice de lensemble A, qui vaut 1 si x A
et 0 sinon. et T suit la loi binomiale B(n, 0.5).
Nous gnralisons la situation la valeur dun quantile quelconque.
Proposition 12. Soit (X
1
, . . . , X
n
) un chantil lon de la loi P, de fonction quantile Q.
Soit u ]0, 1[ un rel x. Considrons lhypothse nul le :
H
0
: Q(u) = q
0
,
66
STA230 Cours de Statistique UJF Grenoble
o q
0
est un rel x. Soit T le nombre dlments de lchantil lon infrieurs q
0
:
T =
n

i=1
I
(,q
0
]
(X
i
) .
Sous lhypothse H
0
, T suit la loi binomiale B(n, u).
Le cas particulier o u = 0.5 et q
0
= 0, prsent en exemple ci-dessus, porte le nom
de test des signes. Supposons que sur 46 individus on ait observ 29 baisses du taux de
cholestrol. La p-valeur correspondante est :
p(29) = 1 F
B(46,0.5)
(28) = 0.0519 .
Pour un chantillon de grande taille, on peut remplacer la loi binomiale par son
approximation normale. Sous H
0
, la statistique centre rduite :
T

=
T nu
_
nu(1u)
,
suit la loi normale N(0, 1). Dans lexemple ci-dessus, T

prend la valeur 1.7693. La


p-valeur correspondante est :
1 F
N(0,1)
(1.7693) = 0.0384 .
3.2.4 chantillons apparis
Dans le mme type de situation que celle du paragraphe prcdent, on peut se poser
la question de la variation en moyenne dun mme caractre, sur les mmes individus,
avant et aprs traitement. Par exemple, on a mesur le taux de cholestrol avant et
aprs administration dun nouveau mdicament 46 individus. Au lieu de se contenter
de compter le nombre de baisses, comme dans le paragraphe prcdent, on recueille les
46 valeurs des dirences, ce qui est une information plus prcise. Lhypothse nulle
(le traitement na pas deet), entrane que les valeurs avant et aprs traitement ont
la mme distribution, donc leurs esprances sont gales ou bien encore la dirence
est desprance nulle. Nous disposons donc dun chantillon de valeurs dune variable
alatoire D (la dirence avant-aprs), desprance inconnue, et nous voulons tester
lhypothse nulle = 0. Si lchantillon est de petite taille, on le supposera gaussien
et on utilisera la loi de Student (point 2. du thorme 4). Sil est de taille susante,
on utilisera le thorme 7 pour se ramener la loi normale.
Supposons que sur les 46 individus, on ait observ une dirence moyenne des taux
de cholestrol de -12mg/dl, avec un cart-type de 20mg/dl. Si on suppose lchantillon
gaussien et quon utilise la loi de Student,

n 1
X

S
2
67
STA230 Cours de Statistique UJF Grenoble
prend la valeur 4.0249, et la p-valeur correspondante est :
F
T (45)
(4.0249) = 0.0001079 .
Si on utilise lapproximation normale,

n
X

S
2
prend la valeur 4.0694, et la p-valeur correspondante est :
F
N(0,1)
(4.0249) = 0.0000024 .
Quelle que soit la manire de calculer, nous conclurons que la baisse est signicative.
3.3 Comparaison dchantillons indpendants
3.3.1 Test de Fisher
Les tests de Fisher et Student servent comparer les moyennes et les variances de
deux chantillons, supposs gaussiens et indpendants. Prenons lexemple dun traite-
ment destin diminuer le taux de cholestrol. Des taux sont mesurs sur une popula-
tion tmoin sans traitement, puis sur des individus ayant reu un traitement. Le taux
moyen avec traitement est infrieur (du moins lespre-t-on) au taux moyen du groupe
tmoin. La question est de savoir si la dirence observe est susante pour rejeter
lhypothse H
0
que le traitement na pas deet.
Pour le modle probabiliste, on considre deux chantillons indpendants :
(X
1
, . . . , X
nx
) est un chantillon de la loi N(
x
,
2
x
),
(Y
1
, . . . , Y
ny
) est un chantillon de la loi N(
y
,
2
y
).
On note :
X =
1
n
x
nx

i=1
X
i
et Y =
1
n
y
ny

j=1
Y
j
les moyennes empiriques,
S
2
x
=
1
n
x
nx

i=1
(X
i
X)
2
et S
2
y
=
1
n
y
ny

j=1
(Y
j
Y )
2
les variances empiriques.
Le rsultat thorique permettant de comparer les moyennes empiriques suppose que
lon fasse lhypothse que les variances thoriques
2
x
et
2
y
sont gales. Le but du test
de Fisher est de tester cette hypothse :
H
0
:
2
x
=
2
y
.
Dans un chantillon gaussien, le rapport de la variance empirique la variance tho-
rique, multipli par la taille de lchantillon, suit une loi du khi-deux. Le rapport
pondr de deux variables alatoires suivant des lois du khi-deux indpendantes suit
une loi de Fisher.
68
STA230 Cours de Statistique UJF Grenoble
Thorme 8. Le rapport :
n
x
n
x
1
S
2
x

2
x
n
y
n
y
1
S
2
y

2
y
suit la loi de Fisher F(n
x
1, n
y
1).
La statistique du test de Fisher est :
T =
nx
nx1
S
2
x
ny
ny1
S
2
y
.
Si H
0
est exacte, T suit la loi F(n
x
1, n
y
1). On rejettera H
0
si la valeur observe
pour T est trop grande ou trop petite. Cest donc un test bilatral dont la rgle de
rejet au seuil est :
Rejet de H
0
T / [ Q
F(nx1,ny1)
(/2) , Q
F(nx1,ny1)
(1 /2) ] .
Supposons que sur les 30 patients du groupe tmoin on ait observ un taux de choles-
trol moyen de 240mg/dl avec un cart-type de 40mg/dl. Sur les 20 patients du groupe
trait, on a observ un taux moyen de 210mg/dl avec un cart-type de 50mg/dl. La
statistique du test de Fisher prend la valeur 0.629, qui correspond une p-valeur (pour
le test bilatral) de :
2F
F(29,19)
(0.629) = 0.2538 .
On acceptera donc lhypothse dgalit des variances.
3.3.2 Test de Student
Sous lhypothse dgalit des variances, le thorme suivant permet dvaluer les
dirences entre moyennes empiriques.
Thorme 9. Si
x
=
y
, la variable alatoire :

n
x
+n
y
2
_
1
nx
+
1
ny
(X Y ) (
x

y
)
_
n
x
S
2
x
+n
y
S
2
y
,
suit la loi de Student T (n
x
+n
y
2).
Ce rsultat permet de tester lhypothse :
H
0
:
x
=
y
,
en comparant la valeur prise par la statistique :

n
x
+n
y
2
_
1
nx
+
1
ny
(X Y )
_
n
x
S
2
x
+n
y
S
2
y
,
69
STA230 Cours de Statistique UJF Grenoble
aux quantiles de la loi de Student T (n
x
+n
y
2). Cette procdure porte le nom de test
de Student.
Supposons encore que sur les 30 patients du groupe tmoin on ait observ un taux
de cholestrol moyen de 240mg/dl avec un cart-type de 40mg/dl. Sur les 20 patients
du groupe trait, on a observ un taux moyen de 210mg/dl avec un cart-type de
50mg/dl. Nous avons vu que le test de Fisher permet daccepter lhypothse dgalit
des variances. La statistique du test de Student prend la valeur 2.30, soit une p-valeur
de :
1 F
T (48)
(2.30) = 0.0129 .
On rejette H
0
au seuil = 0.05, la baisse est dclare signicative.
3.3.3 Normalit asymptotique
Lhypothse de normalit, sous laquelle les tests de Fisher et Student sont valides
nest pas toujours vrie. Pour des chantillons de grande taille, le thorme central
limite assure la normalit asymptotique des moyennes empiriques. Le rsultat suivant
ne suppose ni que les chantillons sont gaussiens ni que leurs variances sont gales.
Thorme 10. Quand n
x
et n
y
tendent vers linni, la loi de la variable alatoire :
(X Y ) (
x

y
)
_
S
2
x
nx
+
S
2
y
ny
,
converge vers la loi normale N(0, 1).
Reprenons les donnes de lexemple prcdent. La statistique :
X Y
_
S
2
x
nx
+
S
2
y
ny
,
prend la valeur 2.246, dont la p-valeur par rapport la loi N(0, 1) est :
1 F
N(0,1)
(2.246) = 0.0123 .
En pratique, il est prodent de rserver lapproximation normale aux valeurs de n
x
et
n
y
au moins gales 100.
3.4 Test dajustement
3.4.1 Distance du khi-deux
Le test du khi-deux concerne uniquement les lois discrtes, mais on peut lutiliser
aussi pour des chantillons continus regroups en classes. Le modle de base est toujours
70
STA230 Cours de Statistique UJF Grenoble
un chantillon (X
1
, . . . , X
n
) dune loi inconnue. Les classes, notes c
1
, . . . , c
r
, sont une
partition de lensemble des valeurs possibles. Lhypothse tester porte sur les proba-
bilits des classes, pour lesquelles on se donne des valeurs thoriques P
0
(c
1
) . . . , P
0
(c
r
).
H
0
: P[X
i
c
k
] = P
0
(c
k
) , k = 1, . . . , r .
Sous lhypothse H
0
, la distribution empirique de lchantillon sur les classes doit tre
proche de la distribution thorique. La distribution empirique est celle des frquences
de lchantillon dans les classes :

P(c
k
) =
1
n
n

i=1
I
c
k
(X
i
) .
On mesure ladquation de la distribution empirique la distribution thorique par la
distance du khi-deux.
Dnition 32. On appelle distance du khi-deux de

P par rapport P
0
, et on note
D

2(P
0
,

P), la quantit :
D

2(P
0
,

P) =
r

h=1
(P
0
(c
h
)

P(c
h
))
2
P
0
(c
h
)
.
La distance du khi-deux est donc une moyenne pondre dcarts quadratiques
entre les valeurs de P
0
et

P. Ce nest pas une distance au sens usuel du terme, puisquelle
nest mme pas symtrique.
La loi de probabilit de D

2(P
0
,

P) na pas dexpression explicite en gnral. On
utilise le rsultat suivant.
Thorme 11. Sous lhypothse H
0
, la loi de la variable alatoire
nD

2(P
0
,

P) converge quand n tend vers linni, vers la loi du khi-deux de paramtre
r1.
Si lhypothse H
0
est fausse, alors la variable nD

2(P
0
,

P) tend vers linni. Cest
donc un test unilatral droite que lon appliquera (rejet des trop grandes valeurs).
En pratique, la statistique du test du khi-deux se calcule sous la forme suivante :
T = nD

2 =
r

h=1
(n
th
(c
h
) n
ob
(c
h
))
2
n
th
(c
h
)
,
o :
n
th
(c
h
) est leectif thorique de la classe c
h
, savoir le produit nP
0
(C
h
),
n
ob
(c
h
) est leectif observ de la classe c
h
.
71
STA230 Cours de Statistique UJF Grenoble
Lexemple classique dapplication du test est lexprience de Mendel. Chez les pois,
le caractre couleur est cod par un gne prsentant deux formes allles C et c, corres-
pondant aux couleurs jaune et vert. Le jaune est dominant, le vert rcessif. La forme,
rond ou rid, est porte par un autre gne deux allles R (dominant) et r (rcessif).
Si on croise deux individus dont le gnotype est CcRr, on peut obtenir 16 gnotypes
quiprobables. Les descendants seront jaunes et ronds dans 9 cas sur 16, jaunes et rids
dans 3 cas sur 16, verts et ronds dans 3 cas sur 16, verts et rids dans 1 cas sur 16.
Dans ses expriences, Mendel a obtenu les rsultats suivants.
Jaune Jaune Vert Vert
Rond Rid Rond Rid
Eectif 315 101 108 32

P(c
h
) 0.567 0.182 0.194 0.058
P
0
(c
h
) 9/16 3/16 3/16 1/16
La valeur prise par la statistique nD

2 est 0.47. Daprs le thorme 11, la rgion de


rejet doit tre calcule par rfrence la loi de khi-deux X
2
(3). Par exemple, au seuil
0.05, on devrait rejeter les valeurs suprieures Q
X
2
(3)
(0.95) = 7.81. La p-valeur de
0.47 est 1 F
X
2
(3)
(0.47) = 0.925. Le rsultat est donc tout fait compatible avec H
0
,
et mme un peu trop : nombreux sont ceux qui pensent que Mendel a pu arranger les
rsultats pour quils concident aussi bien avec sa thorie !
Lexemple suivant concerne 10000 familles de 4 enfants pour lesquelles on connat
le nombre de garons, entre 0 et 4. Le modle le plus simple quon puisse proposer est
que les naissances sont indpendantes, les deux sexes tant quiprobables. Lhypothse
nulle est donc que la loi du nombre de garons pour une famille de 4 enfants suit la loi
binomiale B(4, 0.5). Les frquences observes et thoriques sont les suivantes.
Garons 0 1 2 3 4

P(c
h
) 0.0572 0.2329 0.3758 0.2632 0.0709
P
0
(c
h
) 1/16 4/16 6/16 4/16 1/16
La valeur prise par la statistique nD

2(P
0
,

P) est 34.47. Daprs le thorme 11, la
rgion de rejet doit tre calcule par rfrence la loi de khi-deux de paramtre 51 = 4.
Par exemple, au seuil 0.05, on devrait rejeter les valeurs suprieures Q
X
2
(4)
(0.95) =
9.49. La p-valeur de 34.47 est 1 F
X
2
(4)
(34.47) = 5.97 10
7
. On peut donc rejeter
lhypothse H
0
.
3.4.2 Pratique du test
Le thorme 11 nest quun rsultat asymptotique. On ne peut lutiliser que pour des
tailles dchantillons au moins de lordre de la centaine. De plus lapproximation quil
dcrit est dautant moins bonne que les probabilits des classes sont faibles. Comme
rgle empirique, on impose parfois que leectif thorique nP(c
k
) de chaque classe soit
72
STA230 Cours de Statistique UJF Grenoble
au moins gal 8. Pour atteindre cet objectif, on peut tre amen eectuer des
regroupements de classes, consistant former une nouvelle classe par la runion de
plusieurs anciennes. Les frquences empiriques et les probabilits thoriques sajoutent
alors.
Le test du khi-deux est souvent utilis pour tester lajustement une famille particu-
lire dpendant dun ou plusieurs paramtres. Dans ce cas, on est amen estimer le
paramtre partir des donnes. Le thorme 11 nest alors plus tout fait valable. Si
on a estim h paramtres par la mthode du maximum de vraisemblance, partir des
frquences des direntes classes, on doit remplacer la loi X
2
(r1) par la loi X
2
(r1h).
Reprenons lexemple du nombre de garons dans les familles de 4 enfants, mais pour
tester cette fois-ci lhypothse nulle :
H
0
: le nombre de garons suit une loi binomiale B(4, p) .
Le paramtre p est inconnu et doit tre estim. Lestimateur du maximum de vraisem-
blance (qui maximise la probabilit des donnes observes) est ici le nombre total de
garons parmi les 40000 enfants. On trouve :
p = 0.5144 .
On applique alors le test, mais avec une distribution thorique calcule en tenant
compte de la valeur estime du paramtre : la loi B(4, p).
Garons 0 1 2 3 4

P(c
h
) 0.0572 0.2329 0.3758 0.2632 0.0709
P
0
(c
h
) 0.0556 0.2356 0.3744 0.2644 0.0700
La valeur prise par la statistique nD

2 est maintenant 0.9883. Elle doit tre compare


aux valeurs de la loi du khi-deux de paramtre 5 1 1 = 3. La p-valeur de 0.9883 est
1 F
X
2
(3)
(0.9883) = 0.8041, ce qui montre que le rsultat est tout fait compatible
avec lhypothse H
0
.
En comparant les rsultats des deux tests prcdents, on peut accepter lide que
les naissances sont indpendantes, mais la proportion de garons est signicativement
suprieure 0.5.
On est souvent amen estimer des paramtres partir des donnes non groupes, ou
par une autre mthode que le maximum de vraisemblance. Dans ce cas, on ne dispose
pas de rsultat thorique clair. La valeur limite partir de laquelle on devra rejeter
lhypothse H
0
au seuil est comprise entre Q
X
2
(r1h)
(1 ) et Q
X
2
(r1)
(1 ). En
pratique, aprs avoir calcul la valeur t prise par nD

2(P
0
,

P) en tenant compte de h
paramtres estims, une attitude prudente consistera :
rejeter H
0
si t > Q
X
2
(r1)
(1 ) ,
ne pas rejeter H
0
si t < Q
X
2
(r1h)
(1 ) ,
ne pas conclure si Q
X
2
(r1h)
(1 ) < t < Q
X
2
(r1)
(1 ) .
73
STA230 Cours de Statistique UJF Grenoble
3.5 Test dindpendance
3.5.1 Tableau de contingence
Le tableau de contingence est un moyen particulier de reprsenter simultanment
deux caractres observs sur une mme population, sils sont discrets ou bien continus
et regroups en classes. Les deux caractres sont x et y, la taille de lchantillon est n.
Les modalits ou classes de x seront notes c
1
, . . . , c
r
, celles de y sont notes d
1
, . . . , d
s
.
On note :
n
hk
leectif conjoint de c
h
et d
k
: cest le nombre dindividus pour lesquels x
prend la valeur c
h
et y la valeur d
k
,
n
h
=

s
k=1
n
hk
leectif marginal de c
h
: cest le nombre dindividus pour lesquels
x prend la valeur c
h
,
n
k
=

r
h=1
n
hk
leectif marginal de d
k
: cest le nombre dindividus pour lesquels
y prend la valeur d
k
.
On reprsente ces valeurs dans un tableau double entre, dit tableau de contingence :
x
\
y
d
1
. . . d
k
. . . d
s
total
c
1
n
11
. . . n
1k
. . . n
1s
n
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
c
h
n
h1
. . . n
hk
. . . n
hs
n
h
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
c
r
n
r1
. . . n
rk
. . . n
rs
n
r
total n
1
. . . n
k
. . . n
s
n
Chaque ligne et chaque colonne correspond un sous-chantillon particulier. La ligne
dindice h est la rpartition sur d
1
, . . . , d
s
, des individus pour lesquels le caractre x
prend la valeur c
h
. La colonne dindice k est la rpartition sur c
1
, . . . , c
r
, des individus
pour lesquels le caractre y prend la valeur d
k
. En divisant les lignes et les colonnes
par leurs sommes, on obtient sur chacune des distributions empiriques constitues de
frquences conditionnelles. Pour h = 1, . . . , r et k = 1, . . . , s, on les notera :
f
k|h
=
n
hk
n
h
et f
h|k
=
n
hk
n
k
.
Ces distributions empiriques conditionnelles sappellent les prols-lignes et prols-
colonnes.
Voici un exemple : les donnes proviennent de 137 patients atteints de cirrhose.
A certaiens dentre eux est administr un certain traitement, pendant que les autres
reoivent un placebo. Les stades dvolution de la maladie sont cods de 1 3. Le
caractre X est le traitement, deux modalits c
1
(placebo) et c
2
(traitement). Le
caractre Y est le stade dvolution, d
1
= 1 ou d
2
= 2 ou d
3
= 3. Voici la table de
74
STA230 Cours de Statistique UJF Grenoble
contingence observe.
Stade
1 2 3 Total
placebo 13 29 26 68
traitement 16 37 16 69
Total 29 66 42 137
Lenjeu principal est dtudier la dpendance des deux caractres. Dans notre exemple,
on souhaiterait savoir si les patients sous traitement sont dans des stades moins avancs
de la maladie. Voici les deux prols-lignes.
Stade
1 2 3 Total
placebo 0.191 0.426 0.382 1
traitement 0.232 0.536 0.232 1
Total 0.212 0.482 0.306 1
Eectivement, la proportion de patients dans le stade 3 est moins forte parmi les
patients sous traitement. Mais est-ce signicatif ?
3.5.2 Khi-deux de contingence
Deux caractres sont indpendants si la valeur de lun ninue pas sur les distribu-
tions des valeurs de lautre. Si cest le cas, les prols-lignes seront tous peu dirents
de la distribution empirique de y, et les prols-colonnes de celle de x :
f
k|h
=
n
hk
n
h
f
k
=
n
k
n
et f
h|k
=
n
hk
n
k
f
h
=
n
h
n
.
Cest quivalent dire que les frquences conjointes doivent tre proches des produits
de frquences marginales :
f
hk
=
n
hk
n
f
h
f
k
=
n
h
n
n
k
n
.
Les frquences conjointes dune part, et les produits de frquences marginales dautre
part, constituent deux distributions de probabilit sur lensemble produit {c
1
, . . . , c
r
}
{d
1
, . . . , d
s
}. Un des moyens de quantier leur proximit est de calculer la distance du
khi-deux de lune par rapport lautre. Dans ce cas particulier, on parle de khi-deux
de contingence.
Proposition 13. La distance du khi-deux de contingence de la distribution empirique
(f
hk
) la distribution thorique (f
h
f
k
) vaut :
D

2 =
r

h=1
s

k=1
(f
hk
f
h
f
k
)
2
f
h
f
k
= 1 +
r

h=1
s

k=1
n
2
hk
n
h
n
k
.
75
STA230 Cours de Statistique UJF Grenoble
Dmonstration : La premire expression est lapplication directe de la dnition 32.
Pour passer la seconde, on dveloppe le carr.
D

2 =
r

h=1
s

k=1
f
2
hk
f
h
f
k
2
r

h=1
s

k=1
f
hk
+
r

h=1
s

k=1
f
h
f
k
=
r

h=1
s

k=1
f
2
hk
f
h
f
k
2 + 1
= 1 +
r

h=1
s

k=1
n
2
hk
n
h
n
k
.

La distance du khi-deux vaut 0 si les deux caractres sont indpendants. Elle est
maximale sil existe une dpendance systmatique. Supposons r =s et y =f(x), pour
une certaine fonction bective f. Sur chaque ligne et chaque colonne du tableau de
contingence, une seule case est non nulle et la distance du khi-deux vaut (r1).
Voici le calcul pour lexemple du paragraphe prcdent.
D

2 = 1 +
13
2
29 68
+
29
2
66 68
+
26
2
42 68
+
16
2
29 69
+
37
2
66 69
+
16
2
42 69
= 0.02667 .
Daprs ce qui a t dit prcdemment, pour n assez grand, on peut approcher la loi
de nD

2 par une loi du khi-deux, dont le paramtre est le nombre de classes moins 1,
diminu du nombre de paramtres estims partir des donnes groupes en classes. Ici,
ce sont les frquences marginales qui ont t estimes. Il y en a r1 pour le caractre
X, et s1 pour le caractre Y (la dernire est le complment 1 de la somme des
autres). Le paramtre de la loi du khi-deux sera donc :
rs 1 (r 1) (s 1) = (r 1)(s 1) .
Dans lexemple des patients atteints de cirrhose, nous avons trouv une valeur de la
distance du khi-deux de 0.02667, pour une table r = 2 lignes et s = 3 colonnes.
La statistique de test, nD

2 prend la valeur 3.654, comparer la loi du khi-deux


(3 1) (2 1) = 2 degrs de libert. La p-valeur correspondante est de 0.161 :
insusant pour rejeter lhypothse dindpendance.
Voici un nouvel exemple. Il sagit de deux caractres binaires, concernant des ma-
lades, pour lesquels on a observ sil ont ou non une tendance suicidaire (caractre
X). Leurs maladies ont t classes en psychoses et nvroses (caractre Y). On
souhaite savoir sil y a une dpendance entre les tendances suicidaires et le classement
des malades. Supposons que la table de contingence observe soit :
tendance sans tendance total
psychoses 20 180 200
nvroses 60 140 200
total 80 320 400
76
STA230 Cours de Statistique UJF Grenoble
La distance du khi-deux de contingence, calcule partir de cette table est 0.0625. La
valeur prise par la statistique nD
X
2 est 25, que lon doit comparer la loi X
2
(1). La
p-valeur est de :
1 F
X
2
(1)
(25) = 5.733 10
7
.
On rejette donc lhypothse nulle, et on conclut quil y a une dpendance entre la
tendance suicidaire et la classication des maladies.
Le test ne prcise pas le sens de cette dpendance. Pour la dcrire, il faut comparer
les proportions de suicidaires parmi les nvross (60/200) et parmi les psychotiques
(20/200).
77
STA230 Cours de Statistique UJF Grenoble
4 Rgression linaire
Ce chapitre porte sur les relations entre deux caractres statistiques, observs sur
une mme population. La droite de regression met en relief une relation linaire entre
les deux caractres. Dans le cas dchantillons gaussiens, des rsultats thoriques per-
mettent de dterminer les intervalles de conance des dirents paramtres dune r-
gression. Ils permettent aussi dtablir des interval les de prdiction, ainsi que de tester
le fait quune corrlation existe eectivement entre les caractres.
4.1 Rgression linaire simple
4.1.1 Reprsentations graphiques
Il est frquent que plusieurs caractres soient observs sur la mme population. Dans
une enqute dopinion, les personnes sondes peuvent avoir rpondre simultanment
plusieurs dizaines de questions. Sur un chantillon sanguin, on mesure couramment
une dizaine de variables (numrations globulaires, taux de cholestrol,. . . ). Une tude
descriptive de chaque caractre pris sparment permet de rsumer les caractristiques
de leurs distributions empiriques. Pour concentrer sur un mme graphique lensemble
des distributions empiriques, on peut tracer paralllement le diagramme en bote de
chacun des caractres. Mais tudier les caractres sparment ne fournit aucune indica-
tion sur leurs relations ventuelles : on oublie que les chantillons ont t recueillis sur
les mmes individus. Le problme consiste donc tudier simultanment les caractres
sans perdre linformation quils ont t observs sur les mmes individus.
Si plusieurs caractres x, y, z, . . . ont t mesurs sur une mme population, on peut
voir les donnes x
i
, y
i
, z
i
, . . . correspondant un individu i comme les coordonnes dun
point dans R
d
, o d est le nombre de caractres. Lensemble de ces points constitue un
nuage de points dans R
d
. Pour d = 2 ou d = 3, on peut reprsenter graphiquement
ce nuage de points (gure 13). Au-del cest impossible et on est oblig de le projeter
sur des sous-espaces de dimension 2 ou 3. Les direntes techniques de projection sont
lobjet de lanalyse multidimensionnel le de donnes (analyse discriminante, analyse
en composantes principales, analyse factorielle des correspondances, etc. . . ).
Dans le cas o 2 caractres quantitatifs x et y sont observs, on peut regrouper
leurs valeurs en classes et reprsenter en perspective un histogramme bidimensionnel :
lensemble des couples de valeurs est partitionn en rectangles au-dessus desquels on
reprsente un paralllpipde dont le volume est la frquence empirique du rectangle,
savoir le nombre de couples (x
i
, y
i
) qui appartiennent au rectangle, divis par la
taille de lchantillon. Si lun des caractres est qualitatif, par exemple x, tracer un
histogramme bidimensionnel na pas vraiment de sens. On prfre souvent superposer
des histogrammes unidimensionnels des valeurs de y, pour chacune des modalits de
x. Si x est binaire et y continu, par exemple x est le sexe et y est lge, on reprsente
souvent le caractre quantitatif en ordonne et on trace deux histogrammes horizontaux
en vis vis, obtenant ainsi une pyramide des ges.
78
STA230 Cours de Statistique UJF Grenoble
100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130
10
12
14
16
18
20
22
24
26
28
30
Poids
Tailles

+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ + +
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+ + +
+
+
Fig. 13 Nuage de points : tailles et poids denfants de 6 ans.
4.1.2 Covariance
Soient x et y deux caractres quantitatifs mesurs sur n individus, on peut consid-
rer lchantillon bidimensionnel comme un nuage de n points dans R
2
. Rappelons la
dnition des moyennes empiriques :
x =
1
n
(x
1
+ +x
n
) et y =
1
n
(y
1
+ +y
n
) ,
et des variances empiriques :
s
2
x
=
1
n
(x
2
1
+ +x
2
n
) x
2
et s
2
y
=
1
n
(y
2
1
+ +y
2
n
) y
2
.
Direntes caractristiques statistiques permettent de rsumer linformation contenue
dans la forme du nuage de points. Si x et y dsignent les moyennes empiriques des deux
caractres, le point (x, y) est le centre de gravit du nuage. Les variances empiriques s
2
x
et s
2
y
traduisent la dispersion des abscisses et des ordonnes. Pour aller plus loin dans
la description, il faut calculer la covariance.
Dnition 33. On appelle covariance empirique de x et y, et on note c
xy
, la quantit :
c
xy
=
1
n
n

i=1
(x
i
x)(y
i
y) .
Cette dnition tend celle de la variance dans la mesure o s
2
x
= c
xx
. La covariance
est symtrique (c
xy
= c
yx
) et bilinaire : si x et x

sont deux chantillons de taille n, a


et a

deux rels et x

= ax +a

, alors :
c
x

y
= ac
xy
+a

c
x

y
.
Pour le calcul pratique, on utilise la formule suivante :
79
STA230 Cours de Statistique UJF Grenoble
Proposition 14. La covariance de x et y scrit :
c
xy
=
1
n
n

i=1
x
i
y
i
x y .
La covariance est la moyenne des produits moins le produit des moyennes.
Dmonstration : Il sut de dvelopper les produits :
c
xy
=
1
n
n

i=1
(x
i
x)(y
i
y)
=
1
n
n

i=1
(x
i
y
i
xy
i
x
i
y +x y)
=
_
1
n
n

i=1
x
i
y
i
_
x y .

La covariance se compare au produit des carts-types par lingalit de Cauchy-


Schwarz.
Proposition 15. On a :
|c
xy
| s
x
s
y
. (1)
Dmonstration : Choisissons une constante a quelconque et calculons la variance de
ax +y :
s
2
ax+y
= a
2
s
2
x
+ 2ac
xy
+s
2
y
.
Cette quantit est positive ou nulle pour tout a. Donc le discriminant de lexpression,
vue comme un trinme en a, est ncessairement ngatif. Il vaut :
c
2
xy
s
2
x
s
2
y
,
do le rsultat. Remarquons que le discriminant est nul si et seulement si s
2
ax+y
peut
sannuler, cest--dire sil existe a tel que ax + y soit constant. Donc lingalit 1 ne
peut tre une galit que sil existe une relation ane entre x et y.
Au vu de lingalit 1, il est naturel de diviser la covariance par le produit des carts-
types, pour dnir le coecient de corrlation (les cart-types sont supposs non nuls).
Dnition 34. On appelle coecient de corrlation de x et y, et on note r
xy
, la
quantit :
r
xy
=
c
xy
s
x
s
y
.
80
STA230 Cours de Statistique UJF Grenoble
Quels que soient lunit et les ordres de grandeur de x et y, le coecient de cor-
rlation est un nombre sans unit, compris entre 1 et 1. Il traduit la plus ou moins
grande dpendance linaire de x et y ou, gomtriquement, le plus ou moins grand
aplatissement du nuage de points. Nous avons vu que lingalit 1 ne pouvait tre une
galit que si x est constant ou si y est de la forme ax+b. Si a est positif, le coecient
de corrlation de x avec ax + b est gal +1, il est gal 1 si a est ngatif. Un
coecient de corrlation nul ou proche de 0 signie quil ny a pas de relation linaire
entre les caractres. Mais il nentrane aucune notion dindpendance plus gnrale.
Considrons par exemple les deux chantillons :
x = ( 3 2 1 0 1 2 3 )
y = ( 3 2 1 0 1 2 3 ) .
Leur coecient de corrlation est nul, et pourtant x et y sont lis par une relation
fonctionnelle (y
i
= |x
i
|).
Quand le coecient de corrlation est proche de 1 ou 1, les caractres sont dits
fortement corrls. Il faut prendre garde la confusion frquente entre corrlation et
causalit. Que deux phnomnes soient corrls nimplique en aucune faon que lun
soit cause de lautre. Trs souvent, une forte corrlation indique que les deux caractres
dpendent dun troisime, qui na pas t mesur. Ce troisime caractre est appel fac-
teur de confusion. Quil existe une corrlation forte entre le rendement des impts en
Angleterre et la criminalit au Japon, indique que les deux sont lis laugmentation
globale de la population. Le prix du bl et la population des rongeurs sont ngative-
ment corrls car les deux dpendent du niveau de la rcolte de bl. Il arrive quune
forte corrlation traduise bien une vraie causalit, comme entre le nombre de cigarettes
fumes par jour et lapparition dun cancer du poumon. Mais ce nest pas la statis-
tique qui dmontre la causalit, elle permet seulement de la dtecter. Linuence de la
consommation de tabac sur lapparition dun cancer nest scientiquement dmontre
que dans la mesure o on a pu analyser les mcanismes physiologiques et biochimiques
qui font que les goudrons et la nicotine induisent des erreurs dans la reproduction du
code gntique des cellules.
4.1.3 Droite de rgression linaire
Dans un problme de rgression, les caractres ne sont pas considrs de la mme
faon. Lun deux est le caractre expliquer, les autres sont explicatifs. Nous
considrons seulement le cas de deux caractres x (explicatif) et y ( expliquer). Ex-
pliquer signie ici exprimer une dpendance fonctionnelle de y comme fonction de x,
de manire prvoir la valeur de y connaissant celle de x. Si pour tout individu i,
y
i
= f(x
i
), et si on observe une valeur x
n+1
du caractre x sur un nouvel individu, on
donnera f(x
n+1
) comme prdiction du caractre y sur ce mme individu. La situation
idale o y = f(x) nest jamais rencontre en pratique. On cherchera plutt, dans une
81
STA230 Cours de Statistique UJF Grenoble
famille xe de fonctions, celle pour laquelle les y
i
sont les plus proches des f(x
i
). La
proximit se mesure en gnral par lerreur quadratique moyenne :
EQ(f) =
1
n
n

i=1
(y
i
f(x
i
))
2
. (2)
On parle alors de rgression au sens des moindres carrs. Les dirences entre les valeurs
observes y
i
et les valeurs prdites par le modle f(x
i
) sappellent les rsidus. Si le
modle est ajust de sorte que la srie des rsidus soit centre (de moyenne nulle), alors
lerreur quadratique EQ(f) est la variance des rsidus. La rgression linaire simple
consiste chercher f parmi les applications anes. La solution sexprime simplement
laide des caractristiques numriques de x et y.
Proposition 16. Soient x et y deux chantil lons recueil lis sur une mme population
de tail le n. Notons EQ(a, b) la fonction de R
2
dans R
+
dnie par :
EQ(a, b) =
1
n
n

i=1
(y
i
ax
i
b)
2
.
Si s
2
x
= 0 (le caractre x nest pas constant), la fonction EQ(a, b) admet un minimum
pour :
a =
c
xy
s
2
x
et

b = y ax .
La valeur de ce minimum est :
EQ( a,

b) = s
2
y
(1 r
2
xy
) .
Dnition 35. On appelle droite de rgression linaire de y sur x la droite dquation
y = ax +

b.
Dmonstration : Si a est x, EQ(a, b) est un polynme de degr 2 en b. Il atteint son
minimum pour b = b(a) tel que la drive sannule. Soit :
EQ(a, b)
b
=
2
n
n

i=1
(y
i
ax
i
b) = 2(y ax b) = 0
On a donc b(a) = y ax. Reportons cette valeur dans EQ(a, b) :
EQ(a, b(a)) =
1
n
n

i=1
((y
i
y) a(x
i
x))
2
.
Cette fonction est un polynme de degr 2 en a, qui atteint son minimum au point a
o sa drive sannule, savoir :

2
n
n

i=1
(x
i
x)((y
i
y) a(x
i
x)) = 0 ,
82
STA230 Cours de Statistique UJF Grenoble
soit en dveloppant :
2c
xy
+ 2 as
2
x
= 0 .
Posons donc :
a =
c
xy
s
2
x
et

b = b( a) = y ax .
On a bien pour tout (a, b) :
EQ( a,

b) EQ(a, b(a)) EQ(a, b) .


La valeur du minimum est :
EQ( a,

b) =
1
n
n

i=1
((y
i
y)
c
xy
s
2
x
(x
i
x))
2
= s
2
y
2
c
2
xy
s
2
x
+
c
2
xy
s
4
x
s
2
x
= s
2
y

c
2
xy
s
2
x
= s
2
y
(1 r
2
xy
) .
Comme on pouvait sy attendre lerreur quadratique minimale est dautant plus faible
que la corrlation est forte.
Il est important de noter la dissymtrie des rles de x et y. Par rapport au nuage de
points, la droite de rgression linaire de y sur x minimise la somme des distances
verticales des points la droite. La droite de rgression linaire de x sur y minimise la
somme des distances horizontales. Les deux droites se coupent au centre de gravit (x, y)
du nuage de points. Lcart entre les deux est dautant plus grand que la corrlation
est faible.
La prdiction est la premire application de la rgression linaire. Voici les tailles
en centimtres (chantillon x) et poids en kilogrammes (y) de 10 enfants de 6 ans.
Enfant 1 2 3 4 5 6 7 8 9 10
Taille 121 123 108 118 111 109 114 103 110 115
Poids 25 22 19 24 19 18 20 15 20 21
Les caractristiques numriques prennent les valeurs suivantes :
x y s
2
x
s
2
y
r
xy
a

b EQ( a,

b)
113.2 20.3 34.76 7.61 0.9 0.42 27.38 1.44
Eectuer une rgression linaire signie que lon pense que le poids doit crotre
en gros proportionnellement la taille. La droite de rgression linaire constitue un
modle de prdiction. Par exemple, on armera que le poids moyen dun enfant de 6
83
STA230 Cours de Statistique UJF Grenoble
100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130
10
12
14
16
18
20
22
24
26
28
30
Poids
Tailles

+
+
+
+
+
+
+
+
+
+
Fig. 14 Tailles et poids denfants de 6 ans : droite de rgression linaire.
ans mesurant 120 centimtres sera de a120+

b = 23.16 kg. Evidemment cette prdiction


nest pas infaillible. Elle donne un ordre de grandeur. La valeur observe sen cartera
probablement et lerreur prvisible sera de lordre de
_
EQ( a,

b) = 1.2 kg. Nous verrons


plus loin comment quantier cette erreur, par la notion dinterval le de prdiction.
Comme seconde application, on peut tendre lajustement par quantiles des fa-
milles de lois invariantes par transformation ane, comme les lois normales. Soit y un
chantillon continu de taille n dont on souhaite vrier quil pourrait tre issu dune
loi normale N(,
2
), les paramtres et
2
tant inconnus. Pour i = 1, . . . , n, no-
tons y
(i)
les statistiques dordre (valeurs ordonnes des observations). Si lhypothse
de normalit est pertinente, alors y
(i)
doit tre proche du quantile Q
N(,
2
)
(i/n) de
la loi N(,
2
). Rappelons que si une variable alatoire X suit la loi N(0, 1), alors
Y = X + suit la loi N(,
2
). Ceci revient dire que pour tout u [0, 1] :
Q
N(,
2
)
(u) = Q
N(0,1)
(u) + .
Notons x
i
= Q
N(0,1)
(i/n) les valeurs de la fonction quantile de la loi N(0, 1) aux
points i/n. Si lhypothse de normalit est vrie, les points de coordonnes (x
i
, y
(i)
)
devraient tre proches de la droite dquation y = x + . Une rgression linaire
des y
(i)
sur les x
i
fournit la fois une estimation de et et une indication sur la
qualit de lajustement. Avant les logiciels de calcul, on vendait du papier gausso-
arithmtique, gradu en abscisses selon les quantiles de la loi N(0, 1). Il susait de
reporter en ordonne les valeurs des y
(i)
pour tracer la main la droite de rgression
linaire, qui porte le nom de droite de Henry, du nom du colonel qui a invent cette
mthode au sicle dernier pour tudier la porte des canons (gure 15).
Le problme de la rgression est de dterminer dans une famille de fonctions donne,
84
STA230 Cours de Statistique UJF Grenoble
-3.0 -2.6 -2.2 -1.8 -1.4 -1.0 -0.6 -0.2 0.2 0.6 1.0 1.4 1.8 2.2 2.6 3.0
100
102
104
106
108
110
112
114
116
118
120
122
124
126
128
130
Tailles
Quantiles

+
+
+
+ + + +
+++
++
+++++
++++
++++++
+++++
++++++++++
++++++
+++++++++++
++++++++++
+++
+++++++
+++++++
+++
++
++ + + +
+
+
+
Fig. 15 Tailles denfants de 6 ans. Quantiles de la loi normale N(0, 1) et statistiques
dordre. Superposition de la droite de Henry.
quelle est la fonction qui minimise lerreur quadratique (2). Or il est frquent quil
ny ait pas de solution explicite. Pour certaines familles de fonctions, on transforme le
problme de manire se ramener une rgression linaire. Voici quelques cas frquents.
Fonctions Transformation Forme ane
y = ae
bx
y

= log(y) y

= log(a) +bx
y = ax
b
y

= log(y) x

= log(x) y

= log(a) +bx

y = a +b/x x

= 1/x y = a +bx

y = 1/(1 + e
(ax+b)
) y

= log(y/(1y)) y

= ax +b
4.2 Modle linaire
4.2.1 Intervalles de conance et de prdiction
Les chantillons gaussiens sont souvent utiliss pour modliser les erreurs dans
les modles de rgression. Ces modles visent expliquer un caractre Y (considr
comme alatoire) par des caractres (considrs comme dterministes) (x
(1)
, . . . , x
(k)
).
On choisit une fonction de rgression f, dpendant en gnral de plusieurs paramtres
inconnus, et on crit les variables alatoires Y
i
sous la forme :
Y
i
= f(x
(1)
i
, . . . , x
(k)
i
) +E
i
,
o (E
1
, . . . , E
n
) est un n-uplet de variables alatoires indpendantes et de mme loi.
Les paramtres inconnus de f seront estims par la mthode des moindres carrs, en
minimisant lerreur quadratique :
EQ(f) =
1
n
n

i=1
(Y
i
f(x
(1)
i
, . . . , x
(k)
i
))
2
.
85
STA230 Cours de Statistique UJF Grenoble
Dans le cas o la fonction f est ane et (E
1
, . . . , E
n
) est un chantillon gaussien, on
peut dterminer explicitement la loi des estimateurs des moindres carrs, et en dduire
des intervalles de conance.
Nous considrons seulement le modle linaire simple :
Y
i
= ax
i
+b +E
i
,
o E
i
est un chantillon de la loi normale N(0,
2
). En dautres termes, on suppose
que les Y
i
sont des variables alatoires gaussiennes indpendantes, desprances ax
i
+b
distinctes, mais de mme variance
2
. Le modle comporte 3 paramtres inconnus, a,
b, et
2
. On estime a et b en minimisant lerreur quadratique :
EQ(a, b) =
1
n
n

i=1
(Y
i
ax
i
b)
2
.
On obtient ainsi les estimateurs dits des moindres carrs :
A =
c
xY
s
2
x
et B = Y Ax .
Lerreur quadratique minimale est :
EQ(A, B) = S
2
Y
(1 r
2
xY
) .
Ces trois variables alatoires sont des estimateurs convergents de a, b et
2
respective-
ment. Les deux premiers sont non biaiss. Lesprance de EQ(A, B) est
n2
n

2
, il est
donc asymptotiquement sans biais. On obtient un estimateur sans biais et convergent
de
2
en posant :

2
=
n
n 2
EQ(A, B) .
La prdiction est le premier objectif dun modle probabiliste. Dans le cas de la
rgression linaire, si un nouvel individu tait examin, avec une valeur observe x

pour le caractre x, le modle entrane que la valeur Y

du caractre expliqu sur cet


individu est une variable alatoire, de loi normale N(ax

+ b,
2
). Les paramtres de
cette loi auront pour estimateurs Ax

+B et EQ(A, B) respectivement.
Le thorme suivant permet de calculer les lois de ces estimateurs, et donc des inter-
valles de conance. On peut le considrer comme une extension du thorme donnant
les lois de lesprance et de la variance empirique pour un chantillon gaussien.
Thorme 12. Avec les notations prcdentes :
1.

ns
2
x

2
(A a) suit la loi normale N(0, 1).
2.

ns
2
x

2
(A a) suit la loi de Student T (n 2).
86
STA230 Cours de Statistique UJF Grenoble
3.

_
ns
2
x

2
(s
2
x
+ (x

x)
2
)
(Ax

+B ax

b) suit la loi normale N(0, 1).


4.

_
ns
2
x

2
(s
2
x
+ (x

x)
2
)
(Ax

+B ax

b) suit la loi de Student T (n 2).


5. (n 2)

2

2
suit la loi du khi-deux X
2
(n2).
On utilise ces rsultats pour en dduire des intervalles de conance. Nous notons
[u

, u

], [t

, t

] et [x

, x

] les intervalles de dispersion optimaux de niveau 1


pour les lois N(0, 1), T (n 2) et X
2
(n 2) respectivement. Voici les intervalles de
conance de niveau 1 correspondant aux dirents points du thorme 12.
1. Intervalle de conance pour a, si
2
est connu.
_
_
A u

_

2
ns
2
x
, A +u

_

2
ns
2
x
_
_
.
2. Intervalle de conance pour a, si
2
est inconnu.
_
_
A t

_

2
ns
2
x
, A +t

_

2
ns
2
x
_
_
.
3. Intervalle de conance pour ax

+b, si
2
est connu.
_
_
Ax

+B u

2
(s
2
x
+ (x

x)
2
)
ns
2
x
_
_
.
4. Intervalle de conance pour ax

+b, si
2
est inconnu.
_
_
Ax

+B t

_

2
(s
2
x
+ (x

x)
2
)
ns
2
x
_
_
.
5. Intervalle de conance pour
2
.
_
(n 2)

2
x

, (n 2)

2
x

_
.
Si on souhaite prdire la valeur de Y

= ax

+b +E

sur un nouvel individu, il faudra


tenir compte non seulement de lerreur commise en estimant la valeur de ax

+b mais
aussi de la variance
2
de E

. Ceci augmente lamplitude de lintervalle. Voici lintervalle


de prdiction de Y

, toujours au niveau 1, lorsque


2
est inconnu (et estim par
2
).
_
_
Ax

+B t

_

2
((n+1)s
2
x
+ (x

x)
2
)
ns
2
x
_
_
.
87
STA230 Cours de Statistique UJF Grenoble
titre dexemple, considrons les tailles en centimtres (x
i
) et poids en kilogrammes
(y
i
) de 10 enfants de 6 ans.
Enfant 1 2 3 4 5 6 7 8 9 10
Taille 121 123 108 118 111 109 114 103 110 115
Poids 25 22 19 24 19 18 20 15 20 21
Les caractristiques numriques prennent les valeurs suivantes :
x Y s
2
x
s
2
Y
r
xY
A B EQ(A, B)
113.2 20.3 34.76 7.61 0.9 0.42 27.38 1.44
Eectuer une rgression linaire signie que lon pense que le poids doit crotre en gros
proportionnellement la taille. La droite de rgression linaire constitue un modle de
prdiction. Pour un enfant de taille donne, on donnera un intervalle de poids, considr
comme normal, la normalit tant dnie par rfrence au modle et aux donnes.
Voici les intervalles de prdiction de niveau 0.95 pour direntes tailles.
taille intervalle de poids
100 [10.82 , 18.67]
110 [15.65 , 22.25]
120 [19.72 , 26.61]
130 [23.09 , 31.66]
Les intervalles de prdiction sont dautant moins prcis que la taille de lchantillon
initial tait faible et que la valeur de x

est plus loigne de x (voir gure 16).


4.2.2 Test de pertinence de la rgression
Lhypothse que lon souhaite tester est que le caractre explicatif napporte pas
dinformation, cest--dire que la pente a de la droite de rgression linaire est nulle :
H
0
: a = 0 .
Selon que
2
est suppos connu ou inconnu, on utilisera le point 1 ou le point 2 du
thorme 12. Supposons par exemple que
2
soit inconnu, la statistique de test est :
T =

ns
2
x

2
A .
Pour le test bilatral de seuil , la rgle de dcision est :
Rejet de H
0
T / [ Q
T (n2)
(/2) , Q
T (n2)
(1 /2) ] .
88
STA230 Cours de Statistique UJF Grenoble
80 85 90 95 100 105 110 115 120 125 130 135 140 145 150
10
13
16
19
22
25
28
31
34
37
40
Tailles
Poids
+
+
+
+
+
+
+
+
+
+
Fig. 16 Tailles et poids denfants de 6 ans : droite de rgression linaire et intervalles
de prdiction.
4.2.3 tude des rsidus
Rappelons que dans le modle initial, nous avons suppos pour tout i entre 1 et n,
Y
i
= ax
i
+b +E
i
,
o les rsidus E
i
forment un chantillon de la loi normale N(0,
2
). En dautres termes,
on suppose que les Y
i
sont des variables alatoires gaussiennes indpendantes, desp-
rances ax
i
+b distinctes, mais de mme variance
2
.
Le test de pertinence de la rgression permet de dcider si a est nul ou non. Cela
ne permet pas pour autant de valider le modle. Pour cela nous devons vrier que les
donnes observes ne sont pas incompatibles avec lhypothse que les rsidus sont des
variables alatoires indpendantes et de mme loi N(0,
2
).
Les valeurs exactes de ces rsidus sont et resteront inconnues. On les estimera donc
par :

E
i
= Y
i
(Ax
i
+B) .
On dmontre que sous les hypothses du modle,
E[

E
i
= 0] et V ar(

E
i
) =
2
_
n 1
n

(x
i
x)
2
ns
2
x
_
.
89
STA230 Cours de Statistique UJF Grenoble
Il est donc raisonnable de rduire les rsidus estims en les divisant par leur cart-type.
On obtient ainsi les rsidus dits studentiss.
Dnition 36. On appelle rsidus studentiss les quantits :

E
(stud)
i
=

E
i

_
n1
n

(x
i
x)
2
ns
2
x
.
On dmontre que les rsidus studentiss suivent chacun la loi de Student T (n2).
Ceci permet de tester quils ne prennent pas de valeur trop grande en valeur absolue.
Pour aller plus loin, on reprsente le graphe des rsidus, qui est le nuage des points
de coordonnes (x
i
,

E
(stud)
i
). Si le modle est correct, ces rsidus doivent tre distribus
comme pour un chantillon de la loi T (n 2) : on ne devrait pas voir apparatre de
dpendance en les x
i
, on devrait trouver peu prs autant de valeurs au-dessus et au-
dessous de laxe des abscisses. . . Si le graphe des rsidus fait apparatre une dpendance
en les x
i
, alors le modle ne peut pas tre utilis pour faire de la prdiction.
90

Vous aimerez peut-être aussi