Académique Documents
Professionnel Documents
Culture Documents
Cours STA230
Cours STA230
i=1
(x
i
x)
2
.
On appelle cart-type de lchantil lon la racine carre de la variance.
En dautres termes, la variance est la moyenne des carrs de lchantillon centr.
Lavantage de lcart-type sur la variance est quil sexprime, comme la moyenne, dans
la mme unit que les donnes. On utilise parfois le coecient de variation, qui est le
rapport de lcart-type sur la moyenne.
Pour calculer la variance dun chantillon, on dispose de deux formules qui donnent
le mme rsultat.
s
2
=
1
n
_
(x
1
x)
2
+ + (x
n
x)
2
_
=
1
n
_
(x
2
1
2x
1
x +x
2
) + + (x
2
1
2x
1
x +x
2
)
_
=
1
n
(x
2
1
+ +x
2
n
)
2
n
x(x
1
+ +x
n
) +x
2
=
1
n
(x
2
1
+ +x
2
n
) x
2
Vous pouvez donc retenir que :
La variance est la moyenne des carrs moins le carr de la moyenne.
7
STA230 Cours de Statistique UJF Grenoble
0 10 20 30 40 50 60 70 80 90 100
100
102
104
106
108
110
112
114
116
118
120
122
124
126
128
130
Tailles
Individus
+
+
+
++
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
Fig. 4 Tailles denfants de 6 ans. La zone grise correspond la moyenne, plus ou
moins un cart-type.
Dans le cas particulier des donnes binaires, codes sur 0 et 1, la moyenne est le nombre
de 1 divis par le nombre total de donnes : cest la frquence empirique de 1. La
variance napporte aucune information supplmentaire. En eet, si tous les x
i
valent 0
ou 1, alors x
2
i
= x
i
et donc :
s
2
= x x
2
= x(1 x) .
Une fois la moyenne calcule, nous avons vu quon pouvait centrer les donnes pour
se ramener une moyenne nulle. La variance des donnes centres est la mme que
celle de lchantillon initial. Une fois cette variance calcule, on peut rduire les donnes
centres en les divisant par lcart-type. On obtient ainsi un nouvel chantillon dont la
moyenne est nulle et la variance gale 1. On parle dchantillon rduit. Remarquons
que les donnes rduites sont des nombres sans unit. On peut donc comparer deux
chantillons rduits mme si les donnes initiales ntaient pas exprimes dans la mme
unit.
Linconvnient de lcart-type tel quil a t dni plus haut, est quil a tendance
sous-estimer lgrement lcart des donnes par rapport leur moyenne. La raison
mathmatique de ce dfaut est lie la notion de biais dun estimateur. On peut en
saisir la raison intuitive sur un exemple simple.
Supposons que lon joue trois fois un jeu dont lenjeu est 1 euro. Chaque rsultat
vaut donc +1 (gain) ou 1 (perte). Si le jeu est quitable, on sattend ce que la
moyenne vaille 0 et lcart-type 1. Or sur trois parties, les rsultats possibles lordre
8
STA230 Cours de Statistique UJF Grenoble
prs sont les suivants.
(x
1
, x
2
, x
3
) x s
2
(1, 1, 1) 1 0
(1, 1, 1)
1
3
8
9
(1, 1, 1)
1
3
8
9
(1, 1, 1) 1 0
En aucun cas lcart-type empirique ne peut atteindre 1 ! Le moyen de corriger cette
sous-estimation systmatique est de multiplier la variance par n/(n1), o n est la taille
de lchantillon. On parle alors de variance non biaise. Cest la raison de la prsence
sur certaines calculatrices de deux touches de calcul de lcart-type, une marque
n
(notre s), lautre
n1
qui retourne s
_
n
n1
.
1.2 Expriences alatoires
1.2.1 vnements
Convenons dappeler exprience alatoire une exprience dont on ne peut ou ne veut
pas prvoir compltement le rsultat. Autrement dit une exprience qui pourra donner
des rsultats dirents si elle est rpte (apparemment dans les mmes conditions).
Lensemble des rsultats possibles dune exprience alatoire est en gnral cod de
manire nen retenir que certains aspects. Jouer pile ou face consiste lors du lancer
dune pice ne sintresser qu la face sur laquelle elle tombe en oubliant le nombre
de rotations en lair, le point de chute. . . On note lensemble de tous les valeurs
possibles que peut prendre ce codage. Les lments de sont les ventualits. Voici
quelques exemples.
Exprience
Lancer dune pice {Pile, Face}
Observer le spin dune particule {+1, 1}
Relever ltat dune case mmoire {0, 1}
Interroger un lecteur avant un rfrendum {Oui, Non}
Lancer un d {1, 2, . . . , 6}
Jouer la roulette {0, 1, . . . , 36}
Compter les clients dune le dattente N
Observer une dure de fonctionnement R
+
Le codage en ventualits relve dun choix de modlisation qui comporte un certain
arbitraire. Si on joue pair ou impair la roulette, = {0, Pair, Impair} convien-
dra tout autant que = {0, 1, . . . , 36}. Le nombre de clients dans une le dattente
un instant donn ne peut pas tre suprieur la population de la terre. Aucune
dure de fonctionnement sans panne na jamais dpass quelques sicles. Plus gnra-
lement, toute grandeur observe peut tre code par les valeurs dun ensemble ni (les
9
STA230 Cours de Statistique UJF Grenoble
nombres reprsentables en machine), compte tenu de sa prcision et de son tendue. Ici
comme dans les autres domaines des mathmatiques appliques, linni ou le continu
ne sont que des approximations destines simplier le traitement mathmatique. Des
expriences alatoires peuvent tre simules sur ordinateur, par lappel de fonctions
particulires, dites gnrateurs pseudo-alatoire.
Quil sagisse dun rsultat de simulation ou de toute autre exprience, parler dex-
prience alatoire, cest choisir de ne sintresser quaux rsultats possibles, et oublier
en fait les conditions de lexprience. Si on matrise parfaitement la vitesse initiale de
la pice, la rsistance de lair et la hauteur par rapport au sol, alors le problme de
savoir sur quelle face elle va tomber devient un problme de mcanique, que lon peut
rsoudre au moins en thorie. Quil existe ou non des expriences dont le rsultat soit
parfaitement imprvisible est un problme de physique quantique ou de philosophie
(Dieu joue-t-il aux ds ?), mais pas de probabilits. Le hasard au sens du probabiliste
nest quun expdient, un choix de modlisation qui consiste recouvrir dun voile
pudique la complexit des phnomnes que lon ne matrise pas, pour nen retenir que
certains aspects observables.
Un vnement est un fait dpendant du rsultat dune exprience alatoire (ou
plutt de son codage en ventualits) dont on pourra dire lissue de lexprience sil
est ralis ou non. On peut donc lassimiler lensemble dventualits pour lesquelles
il est ralis, qui est un sous-ensemble de .
Evnement A
Le rsultat du d est pair {2, 4, 6}
La dure est infrieure 100 heures [0, 100]
Pour le codage {Pile,Face}, la pice tombe sur la tranche nest pas un vnement,
pas plus que la personne interroge na pas compris la question pour un codage {Oui,
Non} des rponses.
Toutes les combinaisons logiques dvnements sont encore des vnements. Si A
est un vnement, son contraire not A en est un aussi. Si A et B sont des vnements,
A et B, not A B, ainsi que A ou B, not A B, sont aussi des vnements.
1.2.2 Axiomes des probabilits
Une loi de probabilit, ou distribution de probabilit, est une fonction P qui un
vnement A associe un nombre P[A], sa probabilit. Ce nombre traduit les chances que
lvnement a de se produire. Le moyen le plus intuitif de dnir une telle fonction est
de rpter lexprience alatoire, et dassocier tout vnement sa frquence empirique.
Si n est le nombre dexpriences, n
A
le nombre de fois o lvnement A sest produit,
la frquence empirique de A est le rapport n
A
/n. Voici par exemple 20 rptitions dune
exprience dont les ventualits sont 0, 1 et 2.
0 , 1 , 1 , 1 , 0 , 0 , 1 , 2 , 1 , 2 , 0 , 1 , 1 , 2 , 2 , 0 , 0 , 0 , 0 , 2 .
10
STA230 Cours de Statistique UJF Grenoble
Dans cet exemple, la frquence empirique de {0} est 8/20, celle de {1, 2} est 12/20. Lin-
convnient est que la frquence empirique changera si on renouvelle les n expriences.
En dautres termes lensemble des n rptitions constitue une nouvelle exprience ala-
toire. Cependant nous avons tous en tte une ide de la loi des grands nombres selon
laquelle les frquences empiriques sur un grand nombre de rptitions varient peu. Voici
quatre calculs successifs de la frquence empirique de {0}, sur 20 000 rptitions de la
mme exprience que ci-dessus.
0.3304 , 0.3273 , 0.3364 , 0.32415 .
Les proprits que lon attend dune loi de probabilit sont celles des frquences expri-
mentales. On les considre comme des axiomes de dnition.
A1 Pour tout vnement A, 0 P[A] 1.
A2 La probabilit de lvnement certain est 1 : P[] = 1.
A3 Si (A
i
)
iN
est une suite dvnements disjoints deux deux (A
i
et A
j
ne peuvent
pas se produire en mme temps si i = j), alors :
P[
_
iN
A
i
] =
iN
P[A
i
] .
Une consquence immdiate des axiomes A2 et A3 est la relation entre les probabilits
dun vnement A et de son contraire, not A.
P[A] = 1 P[A] .
Une loi de probabilit est croissante par inclusion, daprs A1 et A3 : si A B, alors
P[A] P[B].
Les lois de probabilit que lon manipule en pratique sont de deux types particuliers,
les lois discrtes et les lois continues.
1. Lois discrtes
Lensemble des ventualits est ni ou dnombrable :
= {
i
, i I N} .
Toutes les parties de sont des vnements. Comme tout vnement est une runion
nie ou dnombrable de singletons, il sut de dnir la probabilit de chaque singleton :
i
, P[{
i
}] = p
i
.
Pour tout A , la probabilit de A sera alors dtermine par A3 :
P[A] =
i
A
P[{
i
}] =
i
A
p
i
.
Exemple : Si lensemble des rsultats est ni = {
1
, . . . ,
n
} et si aucune informa-
tion ne permet de distinguer les rsultats, il est naturel dassocier chaque ventualit
11
STA230 Cours de Statistique UJF Grenoble
la probabilit 1/n. La probabilit de tout vnement A est alors Card(A)/n. Cette pro-
babilit particulire sappelle lquiprobabilit. Tous les calculs dans ce cas se ramnent
des dnombrements :
probabilit =
nombre de cas favorables
nombre de cas possibles
.
2. Lois continues
Lensemble des ventualits est R. Les vnements sont les intervalles, et tous les
sous-ensembles de R que lon peut former en combinant des intervalles par intersections
et runions. En thorie de la mesure, on les appelle des borliens.
Dnition 3. On appelle densit de probabilit une fonction de R dans R
+
, continue
par morceaux et dintgrale 1.
f(x) 0 , x R et
_
R
f(x) dx = 1 .
tant donne une densit de probabilit, on dnit une loi de probabilit sur R en
associant tout vnement A lintgrale de la densit sur cet vnement :
P[A] =
_
A
f(x) dx .
Exemple : Pour lexprience alatoire consistant tirer au hasard un rel dans [0, 1]
(par simulation), on considrera sur R la loi de probabilit continue, de densit :
f(x) =
_
1 si x [0, 1] ,
0 sinon.
Elle donne tout intervalle inclus dans [0, 1] une probabilit gale sa longueur.
Comme dans lexemple ci-dessus, il est frquent quune densit soit strictement
positive sur un intervalle (ventuellement non born) de R, et nulle ailleurs. Lintervalle
sur lequel f est strictement positive sappelle le support de la loi.
On peut voir une probabilit comme une rpartition de masse sur lensemble des
ventualits. La masse totale vaut 1. Dans le cas discret, elle est rpartie sur chacune
des ventualits en grains de plomb distincts. Dans le cas continu, elle est rpartie
sur tout un intervalle de R, qui devient comme un l de masse 1 dont la densit de
masse serait variable. Calculer la probabilit dun vnement, cest calculer sa masse.
part cette analogie, quel sens pratique a la notion de probabilit ? Peut-on mesurer
physiquement des probabilits ? Le seul sens concret que lon puisse leur donner est
celui, intuitif, de la loi des grands nombres. Pile a une chance sur deux de se produire
signie pour nous si je lance la pice un grand nombre de fois, Pile sortira environ
une fois sur deux.
12
STA230 Cours de Statistique UJF Grenoble
Intuition : La probabilit dun vnement est la limite de ses frquences empiriques
sur un grand nombre dexpriences indpendantes.
Cette intuition comporte plusieurs coins dombres. Que les frquences empiriques con-
vergent sous certaines hypothses est un thorme (cest ce thorme qui porte le nom
de loi des grands nombres). Pourquoi rajouter ladjectif indpendantes ?
Imaginez une machine de prcision lancer les pices : un bras articul muni dun
plateau, reli un ressort rglable une valeur xe une fois pour toutes. Mettons le
ressort sous tension, posons la pice sur le plateau, ct pile, et lchons le ressort. Au
premier essai on ne pourra pas prvoir si la pice tombera sur pile ou face. Mais linfor-
mation apporte par le rsultat du premier essai permettra de prvoir les suivants : les
expriences ne seront pas indpendantes. Les frquences empiriques vaudront 1 ou 0
mais ne fourniront aucun renseignement sur le fait que la pice soit quilibre ou non.
Lobjectif principal du paragraphe suivant est de prciser les notions de dpendance
et dindpendance dvnements et dexpriences alatoires.
1.2.3 Probabilits conditionnelles
La connaissance dune information sur une exprience peut modier lide quon se
fait de la probabilit dun vnement. La probabilit dattendre plus dune heure au
guichet est suprieure sil y a beaucoup de monde devant vous.
Dnition 4. Soient A et B deux vnements tels que P[B] = 0. La probabilit condi-
tionnel le de A sachant B est :
P[A| B] =
P[A B]
P[B]
.
Interptation : Le fait de savoir que B est ralis rduit lensemble des rsultats
possibles de B. partir de l, seules les ventualits de AB ont une importance.
La probabilit de A sachant B doit donc tre proportionnelle P[AB]. Le coecient
de proportionnalit 1/P[B] assure que lapplication qui A associe P[A|B] est bien une
probabilit, pour laquelle B est lvnement certain.
Point de vue frquentiste : Si on admet la loi des grands nombres, la probabilit doit
tre vue comme une limite de frquences empiriques. Avec les notations du paragraphe
prcdent, n
AB
/n (resp. n
B
/n) est la frquence empirique de A B (resp. B), et on
a :
P[A| B] =
P[A B]
P[B]
n
AB
/n
n
B
/n
=
n
AB
n
B
.
Il faut donc voir la probabilit conditionnelle P[A| B] comme la limite quand le nombre
dexpriences tend vers linni de la proportion de fois o A est ralis parmi les
expriences o B lest aussi.
Une loi de probabilit conditionnelle est une loi de probabilit. En particulier, si A
1
et A
2
sont disjoints (incompatibles) alors :
P[A
1
A
2
| B] = P[A
1
| B] +P[A
2
| B] .
13
STA230 Cours de Statistique UJF Grenoble
aussi :
P[A| B] = 1 P[A| B] .
La dnition des probabilits conditionnelles sutilise souvent sous la forme :
P[A B] = P[A| B] P[B]
= P[B| A] P[A] .
Si (B
i
)
iI
est une famille dnombrable dvnements disjoints deux deux, dont la
runion est lvnement certain (partition de ), alors :
P[A] =
iI
P[A B
i
] =
iI
P[A| B
i
] P[B
i
] .
Cest la formule des probabilits totales. Mais aussi, pour tout j I :
P[B
j
| A] =
P[B
j
A]
P[A]
=
P[A| B
j
] P[B
j
]
iI
P[A| B
i
] P[B
i
]
.
Cest la formule de Bayes.
Lide intuitive dindpendance de deux vnements est la suivante : A et B sont
indpendants si le fait de savoir que B se produit ou non ne modie pas les chances
de A. Ou encore : sur un grand nombre dexpriences, la proportion des fois o A sest
produit quand B tait ralis est approximativement la mme que quand il ne ltait
pas.
Exemple :
A : La bourse de New-York est en hausse.
B : Il pleut Paris.
Dire que A et B sont indpendants, cest dire que la bourse de New-York est en
hausse aussi souvent quand il pleut Paris que quand il ne pleut pas.
En terme de frquences, on crira :
n
AB
n
B
n
AB
n
B
n
A
n
.
Soit pour les probabilits :
P[A|B] = P[A| B] = P[A] ,
ou encore,
P[A B]
P[B]
= P[A] .
14
STA230 Cours de Statistique UJF Grenoble
Dnition 5. Deux vnements A et B sont indpendants si :
P[A B] = P[A] P[B] .
Deux expriences alatoires sont indpendantes si tout vnement observable lissue
de lune est indpendant de tout vnement observable lissue de lautre.
Attention : Il ne faut pas confondre indpendants et incompatibles. Pour deux
vnements incompatibles on a P[AB] = P[A]+P[B]. Deux vnements incompatibles
de probabilits non nulles ne sont jamais indpendants. Si lun des deux se produit,
lautre ne peut pas se produire.
La dnition dindpendance se gnralise de la faon suivante.
Dnition 6. Les vnements A
1
, . . . , A
n
sont indpendants si pour tout sous-ensem-
ble dindices {i
1
, . . . , i
k
} {1, . . . , n}, la probabilit de lintersection est le produit des
probabilits :
P[
k
j=1
A
i
j
] =
k
j=1
P[A
i
j
] .
Des expriences alatoires E
1
, . . . , E
n
sont indpendantes si pour tout n-uplet dvne-
ments A
1
, . . . , A
n
, o A
i
est observable lissue de E
i
, les n vnements A
1
, . . . , A
n
sont indpendants.
Une suite (E
n
)
nN
est une suite dexpriences indpendantes si pour tout n les exprien-
ces E
1
, . . . , E
n
sont indpendantes.
Dans les dnitions que nous avons donnes jusquici se trouve un cercle vicieux :
Une probabilit est une limite de frquences sur des expriences indpendantes. Deux
vnements sont indpendants si la probabilit de leur intersection est le produit des
probabilits.
Les deux notions de probabilit et dindpendance sont donc indissociables, et en
un sens impossibles dnir en pratique. Tout ce que lon peut faire, cest montrer
la cohrence de leurs dnitions. Une probabilit tant donne pour les vnements
observables lissue dune exprience alatoire, cette probabilit est bien limite de
frquences empiriques quand la mme exprience est rpte indpendamment. Cest
la loi des grands nombres.
1.3 Variables alatoires
1.3.1 Loi dune variable alatoire
Une variable alatoire est un nombre dpendant du rsultat dune exprience ala-
toire. Lenjeu est la localisation de ce nombre : dterminer quelles sont ses chances
de tomber sur telle ou telle partie de R. Cette localisation conduit associer toute
variable alatoire une loi de probabilit sur R.
15
STA230 Cours de Statistique UJF Grenoble
Dnition 7. On appelle loi de la variable alatoire X la loi de probabilit P
X
sur R,
dnie pour tout borlien A de R par :
P
X
[A] = P[X A] .
En pratique, on oublie le codage initial en ventualits et la loi P sur , pour
ne retenir que la loi P
X
sur R. Si on nobserve quune seule variable alatoire X, on
pourra dailleurs considrer que les ventualits sont les valeurs relles quelle peut
prendre, et munir cet ensemble de la loi de X. Pour des raisons de modlisation autant
que de commodit mathmatique, on distingue deux types de variables alatoires. Les
variables alatoires discrtes ne prennent quun nombre ni ou dnombrable de valeurs
(en gnral entires). Les variables alatoires continues peuvent a priori prendre toutes
les valeurs dans un intervalle de rels. Cette distinction correspond bien sr celle dj
introduite pour les lois de probabilit.
En gnral, on sera amen rpter une mme exprience pour en faire une nouvelle
exprience globale, et donc observer plusieurs variables alatoires lissue dune
exprience. La notion dindpendance entre variables alatoires joue un rle important
dans ce qui suit.
Dnition 8. Les variables alatoires X
1
, . . . , X
n
sont dites indpendantes si pour tout
n-uplet (A
1
, . . . , A
n
) de borliens de R, les vnements X
1
A
1
, . . . ,X
n
A
n
sont
indpendants. Une suite (X
n
) de variables alatoires indpendantes est tel le que pour
tout n les variables alatoires (X
1
, . . . , X
n
) sont indpendantes.
Lindpendance est donc une proprit des vnements X
i
A
i
. On en dduit
que si X et Y sont indpendantes, alors toute fonction de X est indpendante de toute
fonction de Y .
1.3.2 Variables alatoires discrtes
Dnition 9. On dit quune variable alatoire est discrte si el le ne prend quun
nombre ni ou dnombrable de valeurs :
X {x
k
, k K N} .
Dans ce cas, la loi de la variable alatoire X est la loi de probabilit sur lensemble des
valeurs possibles de X qui aecte la probabilit P[X = x
k
] au singleton {x
k
}.
En pratique, lensemble des valeurs que peut prendre X est N ou une partie de N.
Dterminer la loi dune variable alatoire discrte cest :
1. Dterminer lensemble des valeurs que peut prendre X.
2. Calculer P[X = x
k
] pour chacune de ces valeurs x
k
.
16
STA230 Cours de Statistique UJF Grenoble
Point de vue frquentiste. Rappelons que le seul sens pratique que lon puisse
donner la notion de probabilit est celui dune limite de frquences empiriques. Cest
aussi le sens quil faut donner la notion de loi discrte.
Rptons n fois indpendamment lexprience alatoire lissue de laquelle X est
mesure. On obtient ainsi un n-uplet (X
1
, . . . , X
n
) de variables alatoires indpendan-
tes de mme loi que X (cela sappelle un chantil lon). On peut sur ce n-uplet calculer
les frquences empiriques des vnements X = x
k
:
f
n
({x
k
}) =
1
n
_
I
{x
k
}
(X
1
) + +I
{x
k
}
(X
n
)
_
.
Daprs la loi des grands nombres cette frquence doit converger vers P[X = x
k
].
Pour tout n les frquences empiriques {f
n
({x
k
}) , k K} dnissent une loi de proba-
bilit discrte sur lensemble des x
k
.
On reprsente souvent graphiquement les lois discrtes par des diagrammes en b-
tons : il sagit de tracer au dessus de labscisse x
k
un segment vertical de longueur gale
P[X = x
k
].
Les lois discrtes les plus courantes sont les suivantes. La loi binomiale est la plus
importante.
Loi uniforme. La loi uniforme sur un ensemble ni est la loi des tirages au hasard
dans cet ensemble, ou quiprobabilit. Elle donne la mme probabilit 1/n tous les
lments de lensemble, sil est de cardinal n.
Loi de Bernoulli. Les plus simples des variables alatoires discrtes sont les indica-
trices dvnements. Si A est un vnement de probabilit p, la variable alatoire I
A
prend la valeur 1 si A est ralis, et 0 sinon. Sa loi est la loi de Bernoul li de paramtre
p.
P[I
A
= 0] = 1 p , P[I
A
= 1] = p .
Les deux autres exemples de base sont la loi binomiale et la loi hypergomtrique.
Loi binomiale. On rpte la mme exprience n fois indpendamment et on compte
le nombre de fois o lvnement A se produit. On considrera la rptition des n
expriences comme une nouvelle exprience globale. Comme seul lvnement A nous
importe, on pourra ne retenir de lexprience globale quun n-uplet de boolens du
type :
(A, A, A, A, A, . . . , A, A),
quil sera plus simple de transformer en un n-uplet de 0 et de 1. Notons :
X
i
=
_
1 si A est vrai lissue de la i-me exprience,
0 si A est faux lissue de la i-me exprience.
S
n
=
n
i=1
X
i
le nombre de fois o A est ralis au cours des n expriences.
17
STA230 Cours de Statistique UJF Grenoble
Si p dsigne la probabilit de lvnement A, la variable alatoire X
i
suit la loi de
Bernoulli de paramtre p. La variable alatoire S
n
prend ses valeurs dans lensemble
{0, . . . , n}. Pour dterminer sa loi, ce sont les vnements du type S
n
= k qui nous
intressent. Du fait de lhypothse dindpendance des expriences, la probabilit dun
rsultat quelconque de lexprience globale est un produit de probabilits. Par exemple :
P[(A, A, A, A, A, . . . , A, A)] = p (1p) p p (1p) . . . (1p) p .
Tout n-uplet particulier contenant k 1 et n k 0 a pour probabilit p
k
(1p)
nk
.
Il y en a :
_
n
k
_
=
n!
k! (nk)!
;
cest le nombre de manires de choisir k indices parmi n. Do :
P[S
n
= k] =
_
n
k
_
p
k
(1 p)
nk
, k = 0, . . . , n .
Dnition 10. On dit quune variable alatoire X suit la loi binomiale de paramtres
n et p (note B(n, p)) si :
1. X prend ses valeurs dans lensemble {0, 1, . . . , n}
2. P[X = k] =
_
n
k
_
p
k
(1 p)
nk
, k = 0, . . . , n .
retenir : Le nombre doccurrences dun mme vnement de probabilit p, au cours
de n expriences indpendantes suit la loi binomiale B(n, p).
Remarque : Cest une bonne habitude prendre que de vrier que la somme des
probabilits calcules vaut 1. Ici :
n
k=0
_
n
k
_
p
k
(1p)
nk
= (p + (1p))
n
= 1, par la
formule du binme de Newton (do le nom de loi binomiale).
Loi hypergomtrique. La loi hypergomtrique est la loi des tirages sans remise.
Dune population de taille N, on extrait au hasard un chantillon (sous-ensemble) de
taille n. Parmi les N individus, m sont marqus. Le nombre X dindividus marqus
sur les n individus choisis, suit la loi hypergomtrique de paramtres N, m et n,
La variable alatoire X prend ses valeurs dans lensemble {0, . . . , n}, et pour tout
k {0, . . . , n} :
P[X = k] =
_
m
k
_ _
Nm
nk
_
_
N
n
_
,
o par convention
_
i
j
_
= 0, si j {0, . . . , i}.
On rencontre frquemment cette loi dans les jeux de hasard.
Variable alatoire N m n
Nombre das dans une main au poker 32 4 5
Nombre das dans une main au bridge 52 4 6
Nombre de bons numros sur une grille au loto 49 6 6
Nombre de bons numros sur une grille au Kno 70 20 4, 5, . . . , 10
18
STA230 Cours de Statistique UJF Grenoble
1.3.3 Variables alatoires continues
Dnition 11. Soit X une variable alatoire valeurs dans R et f
X
une densit de
probabilit sur R. On dit que X est une variable alatoire continue de densit f
X
si
pour tout intervalle A de R on a :
P[X A] =
_
A
f
X
(x) dx .
La loi de la variable alatoire X est la loi continue sur R, de densit f
X
.
Pour dterminer la loi dune variable alatoire continue, il faut donc calculer sa
densit. De manire quivalente, on dtermine la loi dune variable continue en donnant
la probabilit quelle appartienne un intervalle I quelconque.
Une variable alatoire continue X, de densit f
X
, tombe entre a et b avec une probabilit
gale :
P[a < X < b] =
_
b
a
f
X
(x) dx .
Plus la densit f
X
est leve au-dessus dun segment, plus les chances que X a dat-
teindre ce segment sont leves, ce qui justie le terme densit.
La probabilit pour une variable alatoire continue de tomber sur un point quel-
conque est nulle.
P[X = a] =
_
{a}
f
X
(x) dx = 0 .
Par consquent :
P[ X [a, b] ] = P[ X [a, b[ ] = P[ X ]a, b] ] = P[ X ]a, b[ ] .
Notons aussi que modier une densit en un nombre ni ou dnombrable de points
ne change pas la valeur des intgrales sur des segments, ni par consquent la loi de
probabilit correspondante. La valeur de la densit en un point particulier importe
peu.
Comme dans le cas discret nous donnons quelques exemples de base. Les densits sont
donnes en un point x quelconque de R.
Loi uniforme. La loi uniforme sur un intervalle est la loi des tirages au hasard dans
cet intervalle. Si a < b sont deux rels, la loi uniforme sur lintervalle [a, b] est note
U(a, b). Elle a pour densit :
1
b a
I
[a,b]
(x) .
Attention ne pas confondre Nombre au hasard et variable alatoire. Le sens
intuitif de au hasard est uniformment rparti : un nombre au hasard entre 0 et 1
est en fait une variable alatoire de loi U(0, 1). Il existe bien dautres lois de probabilit
continues, non uniformes.
19
STA230 Cours de Statistique UJF Grenoble
Loi normale. La loi normale, loi de Gauss, ou de Laplace-Gauss, est la plus clbre des
lois de probabilit. Son succs, et son omniprsence dans les sciences de la vie, viennent
du thorme central limite que nous verrons plus loin. La loi normale de paramtres
R et
2
R
+
est note N(m,
2
). Elle a pour densit :
1
2
e
(xm)
2
2
2
.
Loi gamma. La loi gamma de paramtres a > 0 et > 0, note G(a, ) a pour densit :
a
(a)
x
a1
e
x
I
R
+(x) ,
o est la fonction gamma, dnie par : (a) =
_
+
0
e
x
x
a1
dx.
Pour n entier, a = n/2 et = 1/2, la loi G(n/2, 1/2) est appele loi du khi-
deux n degrs de libert, et note X
2
(n). Cest la loi de la somme des carrs de n
variables alatoires indpendantes de loi N(0, 1). On lutilise pour les variances empi-
riques dchantillons gaussiens.
Loi de Student. La loi de Student n degrs de libert, T (n) est la loi du rapport
X/
_
Y/n, o les variables alatoires X et Y sont indpendantes, X de loi N(0, 1), Y
de loi X
2
(n). Elle a pour densit :
_
n+1
2
_
n
_
n
2
_
_
1 +
x
2
n
_
n+1
2
.
On lutilise pour tudier la moyenne empirique dun chantillon gaussien.
Loi de Fisher. La loi de Fisher de paramtres m et n (entiers positifs), est la loi du
rapport (X/n)/(Y/m), o X et Y sont deux variables alatoires indpendantes, de lois
respectives X
2
(n) et X
2
(m). Elle a pour densit :
n
n
2
m
m
2
_
n+m
2
_
_
n
2
_
_
m
2
_
x
1+
n
2
(m+nx)
n+m
2
I
R
+(x) .
On lutilise pour comparer des variances dchantillons gaussiens.
1.3.4 Fonction de rpartition et fonction quantile
La fonction de rpartition dune variable alatoire X valeurs dans R (ou plus
exactement de sa loi) est la fonction F
X
, de R dans [0, 1], qui x R associe :
F
X
(x) = P[X x] .
Les proprits principales sont les suivantes.
20
STA230 Cours de Statistique UJF Grenoble
Proposition 1.
La fonction de rpartition caractrise la loi. En particulier,
a < b R, P[ X ]a, b] ] = F
X
(b) F
X
(a) .
F
X
est une fonction croissante, continue droite avec une limite gauche en
tout point.
lim
x
F
X
(x) = 0 et lim
x+
F
X
(x) = 1 .
Lois discrtes. La fonction de rpartition dune variable alatoire discrte est une
fonction en escalier. Si la variable alatoire prend les valeurs x
k
, k = 1, 2, . . ., supposes
ranges par ordre croissant, alors la fonction de rpartition F
X
prend les valeurs :
F
X
(x) =
_
_
0 pour x < x
1
P[X = x
1
] pour x [x
1
, x
2
[
.
.
.
P[X = x
1
] + +P[X = x
k
] pour x [x
k
, x
k+1
[
.
.
.
-1 0 1 2 3 4 5
0.0
0.1
0.2
0.3
0.4
0.5
.
Probabilites
-1 0 1 2 3 4 5
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
.
Repartition
Fig. 5 Diagramme en btons et fonction de rpartition de la loi du nombre de bons
numros pour 4 numros cochs au Kno.
Voici par exemple la loi et les valeurs direntes de la fonction de rpartition pour
le nombre de bons numros pour 4 numros cochs sur une grille de Kno (gure 5).
k 0 1 2 3 4
P[X = k] 0.2512 0.4275 0.2538 0.0622 0.0053
P[X k] 0.2512 0.6787 0.9325 0.9947 1
Lois continues. La fonction de rpartition dune variable alatoire continue est la
primitive de la densit qui sannule en :
F
X
(x) = P[X x] =
_
x
f
X
(t) dt .
21
STA230 Cours de Statistique UJF Grenoble
Cest une fonction continue sur R. En tout point x o f
X
est continue, F
X
est drivable
et :
F
X
(x) = f
X
(x) .
Loi U(a, b)
F
X
(x) =
_
x
1
b a
I
[a,b]
(t)dt =
_
_
0 si x a
x a
b a
si x [a, b]
1 si x b .
Loi N(,
2
)
F
X
(x) =
_
x
2
e
(t)
2
2
2
dt .
Il nexiste pas dexpression analytique pour la fonction de rpartition des lois normales.
Pour en calculer des valeurs approches, vous utiliserez des tables numriques, en vous
ramenant la fonction de rpartition de la loi N(0, 1), que nous noterons F.
F(x) = F
N(0,1)
(x) =
_
x
2
e
t
2
2
dt .
Tous les langages spcialiss ont un code dintgration numrique qui calcule la fonction
de rpartition de toutes les lois usuelles.
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
0.5
.
f(x)
x
Densite
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
.
F(x)
x
Repartition
Fig. 6 Densit et fonction de rpartition de la loi normale N(0, 1).
La fonction de rpartition est loutil privilgi des calculs de lois. Un cas frquent dans
les applications est celui o on connat la loi de X et on veut dterminer la loi dune
fonction. Comme exemple dapplication, nous allons dmontrer le rsultat qui permet
de ramener une loi normale quelconque la loi N(0, 1).
Thorme 1. Soit X une variable alatoire de loi N(0, 1) et Y = X+, avec R,
R
+
, alors Y suit la loi N(,
2
). Rciproquement, si Y suit la loi N(,
2
), alors
X =
Y
_
= F
X
_
y
_
.
La densit correspondante est :
f
Y
(y) =
1
f
X
_
y
_
=
1
2
e
(y)
2
2
2
,
et donc Y suit la loi N(,
2
).
La deuxime armation nest quune autre manire dexprimer la premire.
La deuxime amation est la plus utilise. Elle permet de ramener les calculs de
probabilit sur une loi normale quelconque aux calculs sur la loi N(0, 1). Si Y suit la
loi normale desprance et de variance
2
, alors X = (Y )/ suit la loi N(1, 0).
On calcule alors la probabilit pour Y dappartenir un intervalle quelconque, en se
ramenant la fonction de rpartition de la loi N(0, 1), note F, dont les valeurs se
lisent dans les tables.
P[a Y < b] = P
_
a
<
b
_
= F
_
b
_
F
_
a
_
.
La fonction quantile dune variable alatoire X (ou de sa loi de probabilit) est
la rciproque de sa fonction de rpartition. Quand cette fonction de rpartition est
strictement croissante, sa rciproque est dnie sans ambigit : pour tout rel u entre
0 et 1, Q
X
(u) est lunique rel x tel que F
X
(x) = u.
Mais une fonction de rpartition reste constante sur tout intervalle dans lequel
la variable alatoire ne peut pas prendre de valeurs. Cest pourquoi on introduit la
dnition suivante.
Dnition 12. Soit X une variable alatoire valeurs dans R, et F
X
sa fonction de
rpartition. On appelle fonction quantile de X la fonction, note Q
X
, de ]0, 1[ dans R,
qui u ]0, 1[ associe :
Q
X
(u) = inf{x : F
X
(x) u} .
Par convention, on peut dcider que Q
X
(0) est la plus petite des valeurs possibles
pour X et Q
X
(1) est la plus grande ; elles sont ventuellement innies.
Lois discrtes. La fonction quantile dune variable alatoire discrte est une fonction
en escalier, comme la fonction de rpartition. Si X prend les valeurs x
k
, k = 1, 2 . . .,
ranges par ordre croissant, la fonction de rpartition est gale :
F
k
= P[X = x
1
] + +P[X = x
k
] ,
23
STA230 Cours de Statistique UJF Grenoble
sur lintervalle [x
k
, x
k+1
[. La fonction quantile vaut :
Q
X
(u) =
_
_
x
1
pour u [0, F
1
]
.
.
.
x
k
pour u [F
k
, F
k+1
[
.
.
.
Par exemple, pour la loi gomtrique G(p), la fonction quantile est la fonction qui, pour
tout k = 1, 2, . . ., vaut k sur lintervalle [1 (1p)
k
, 1 (1p)
k+1
[.
Lois continues. Plaons-nous dans le cas le plus frquent, o la densit f
X
est stric-
tement positive sur un intervalle de R (son support) et nulle ailleurs. Si cet intervalle
est [a, b], la fonction de rpartition est nulle avant a si a est ni, elle est strictement
croissante de 0 1 entre a et b, elle vaut 1 aprs b si b est ni. Toute valeur u strictement
comprise entre 0 et 1 est prise une fois et une seule par F
X
. La valeur de Q
X
(u) est le
point x unique, compris entre a et b, tel que F
X
(x) = u.
La fonction quantile est un moyen de dcrire la dispersion dune loi. Si on ralise un
grand nombre de tirages indpendants de la mme loi (un chantillon), on doit sat-
tendre ce quune proportion u des valeurs soient infrieures Q
X
(u). Une valeur
importante est la mdiane, Q
X
(0.5). Les valeurs de la fonction quantile sont plus sou-
vent utilises en statistique que les valeurs de la fonction de rpartition. On utilise en
particulier frquemment les interval les de dispersion, compris comme devant contenir
une forte proportion des donnes.
1.3.5 Esprance et variance
Rappelons linterprtation dune loi de probabilit comme une rpartition de masse.
Lesprance dune loi de probabilit est le barycentre de cette rpartition de masse.
Lois discrtes. Considrons une variable alatoire discrte X, prenant ses valeurs
dans {x
k
, k K N}. Si la srie
kK
|x
k
|P[X = x
k
] converge alors lesprance E[X]
est :
E[X] =
kK
x
k
P[X = x
k
] .
Cest bien le barycentre des points dabscisse x
k
, aects des poids P[X = x
k
].
Lois continues. Soit X une variable alatoire continue, de densit f
X
sur R. Une
densit sinterprte comme une distribution de masse continue sur R. Cest encore
son barycentre que lon calcule. Si lintgrale
_
R
|x|f
X
(x) dx converge, alors lesprance
E[X] est :
E[X] =
_
R
x f
X
(x) dx .
Les proprits principales de lesprance sont les suivantes.
24
STA230 Cours de Statistique UJF Grenoble
Proposition 2. 1. Si X et Y admettent une esprance, alors :
a, b R E[aX +bY ] = aE[X] +bE[Y ] .
2. Si X et Y sont indpendantes et admettent une esprance alors :
E[XY ] = E[X] E[Y ] .
Le tableau 1 donne les esprances des lois usuelles, discrtes et continues.
Loi Esprance
Uniforme U({1, . . . , n})
n+1
2
Bernoulli B(1, p) p
Binomiale B(n, p) np
Hypergomtrique HG(N, m, n) n
m
N
Uniforme U(a, b)
a+b
2
Normale N(,
2
)
khi-deux X
2
(n) n
Student T (n) 0 si n > 1
Fisher F(n, m)
m
m2
si m > 2
Tab. 1 Esprances des lois usuel les.
La variance traduit la plus ou moins grande dispersion des valeurs prises autour de
lesprance.
Dnition 13. On appelle variance de X, et on note V ar[X], lesprance de la variable
alatoire (X E[X])
2
, si elle existe.
On dmontre que lexistence de la variance entrane celle de lesprance. Par contre
une variable alatoire X peut trs bien avoir une esprance mais pas de variance. Cest
le cas par exemple si X a pour densit :
f
X
(x) =
2
x
3
I
[1,+[
(x) .
Le calcul des variances est souvent simpli par le rsultat suivant.
25
STA230 Cours de Statistique UJF Grenoble
Proposition 3. La variance de X existe si et seulement si E[X
2
] existe et on a :
V ar[X] = E[X
2
] (E[X])
2
.
Dmonstration : Pour passer de la dnition la formule ci-dessus, il sut de dve-
lopper le carr et dutiliser la linarit de lintgrale.
V ar[X] = E[(X E[X])
2
]
= E[X
2
2XE[X] + (E[X])
2
]
= E[X
2
] 2E[X]E[X] + (E[X])
2
= E[X
2
] (E[X])
2
.
X
1
+ +X
n
n
E[X]
>
_
= 0 .
Lide intuitive est que si on mesure une mme quantit alatoire au cours dune
suite dexpriences indpendantes, alors la moyenne arithmtique des valeurs observes
va se stabiliser sur lesprance. Comme cas particulier on retrouve la loi des grands
nombres pour la probabilit dun vnement. Pour une suite dexpriences indpen-
dantes notons X
i
lindicatrice de lvnement A la i-me exprience. Les X
i
suivent
la loi de Bernoulli de paramtre P[A] et (X
1
+ +X
n
)/n est la frquence empirique
de A.
26
STA230 Cours de Statistique UJF Grenoble
Loi Variance
Uniforme U({1, . . . , n})
n
2
1
12
Bernoulli B(1, p) p(1 p)
Binomiale B(n, p) np(1 p)
Hypergomtrique HG(N, m, n) n
m
N
_
1
m
N
_
Nn
N1
Uniforme U(a, b)
(ab)
2
12
Normale N(,
2
)
2
khi-deux X
2
(n) 2n
Student T (n)
n
n2
si n > 2
Fisher F(n, m)
2m
2
n
n+m2
(m2)
2
(m4)
si m > 4
Tab. 2 Variances des lois usuel les.
Lordre de grandeur de lerreur commise en approchant E[X] par la moyenne (X
1
+
+ X
n
)/n est de lordre de 1/
, X
n
=
X
1
+ +X
n
n
et Z
n
=
n
X
n
.
La loi de Z
n
converge vers la loi normale N(0, 1), cest--dire que pour tout a < b :
lim
n
P[a < Z
n
< b] =
_
b
a
1
2
e
x
2
/2
dx .
Interprtation : Dans le thorme central limite, est la valeur estimer. Les n va-
leurs X
1
, . . . , X
n
constituent un chantillon de mesures alatoires indpendantes des-
prance . La quantit (X
1
+ + X
n
)/n est la moyenne empirique de lchantillon,
qui daprs la loi des grands nombres doit converger vers lesprance . Le thorme
central limite donne la prcision de cette approximation. On peut le lire intuitivement
comme suit. Si n est assez grand alors Z
n
est trs probablement compris entre 3 et 3
(la probabilit est 0.9973). Soit encore :
X
1
+ +X
n
n
_
n
; +
3
n
_
,
27
STA230 Cours de Statistique UJF Grenoble
ou bien X
n
(moyenne empirique) est gale 3/
2
e
x
2
/2
. Pas plus loin
en tout cas que si on avait simul des variables alatoires de loi N(0, 1). Si Z suit la
loi N(0, 1), alors Y = Z + suit la loi N(,
2
). On peut aussi dire que pour n assez
grand une somme de n variables alatoires indpendantes suit approximativement une
loi normale, dont lesprance et la variance sont respectivement la somme des esprances
et la somme des variances des variables que lon ajoute. Le problme est de savoir
partir de quelle valeur n est assez grand, pour la prcision dsire. Cela dpend
beaucoup de la loi des X
n
. Lapproximation est dautant meilleure que la loi des X
n
est plus symtrique.
Pour des lois plutt dissymtriques comme la loi exponentielle, lapproximation
normale nest pas valable pour des sommes de quelques dizaines de variables. On peut
la considrer comme justie partir de quelques centaines. En simulation, ce sont des
milliers, voire des millions de variables qui sont engendres, et lapproximation normale
est tout fait lgitime.
1.4 Distribution empirique
1.4.1 Statistique et probabilits
Les traitements statistiques relvent dun aller-retour permanent entre les donnes,
qui sont des collections de chires mesurs, et les modles probabilistes qui nont aucune
ralit physique, mais fournissent des outils pour dcrire la variabilit de ces donnes.
Dans cette dmarche, un premier pas consiste associer lchantillon une loi de
probabilit ctive. La distribution empirique associe un chantillon est la loi de
probabilit sur lensemble des modalits qui aecte chaque observation du poids 1/n.
Lide est la suivante. Supposons que lon souhaite augmenter articiellement le nombre
de donnes. Le moyen le plus simple serait de tirer au hasard de nouvelles donnes parmi
les valeurs observes, en respectant leurs frquences. En dautres termes, on simulerait
la distribution empirique.
Dnition 14. Soit (x
1
, . . . , x
n
) un chantil lon, c
1
, . . . , c
k
les valeurs distinctes prises
par les x
i
et pour h = 1, . . . , k :
n
h
=
n
i=1
I
c
h
(x
i
) ,
leectif de la valeur c
h
. La distribution empirique de lchantil lon est la loi de proba-
28
STA230 Cours de Statistique UJF Grenoble
bilit
P sur lensemble {c
1
, . . . , c
k
}, tel le que :
P(c
h
) =
n
h
n
.
La moyenne, la variance et lcart-type peuvent tre vus comme des caractristiques
probabilistes de la distribution empirique. La moyenne de lchantillon est lesprance
de sa distribution empirique.
Pour un caractre discret, le mode de la distribution empirique est la valeur qui a
la frquence la plus leve. Pour un caractre continu regroup en classes damplitudes
gales, on parle de classe modale. Une distribution empirique est dite unimodale si
la frquence maximale est signicativement plus grande que les autres. Elle peut tre
bimodale ou multimodale dans dautres cas.
Pour tudier une distribution empirique, la premire tape consiste trier les don-
nes par ordre croissant, savoir crire ses statistiques dordre.
Dnition 15. Soit (x
1
, . . . , x
n
) un chantil lon numrique. On appel le statistiques
dordre de lchantillon, les valeurs x
(1)
, . . . , x
(n)
gales aux x
i
ranges par ordre crois-
sant :
x
(1)
= min
i=1,...,n
{x
i
} x
(2)
x
(n)
= max
i=1,...,n
{x
i
} .
Voici par exemple un chantillon de taille 10 et ses 10 statistiques dordre.
5.7 , 3.2 , 8.4 , 4.1 , 6.9 , 5.3 , 1.7 , 3.2 , 2.5 , 7.4 ;
1.7 , 2.5 , 3.2 , 3.2 , 4.1 , 5.3 , 5.7 , 6.9 , 7.4 , 8.4 .
La fonction de rpartition empirique est la fonction de rpartition de la distribution
empirique.
Dnition 16. La fonction de rpartition empirique est la fonction qui un rel x
associe la proportion dlments de lchantil lon qui sont infrieurs ou gaux x. El le
est note
F. Dans le cas o tous les lments de lchantil lon sont dirents, el le vaut :
F(x) =
_
_
0 pour x < x
(1)
.
.
.
i
n
pour x
(i)
x < x
(i+1)
.
.
.
1 pour x x
(n)
.
Reprsenter graphiquement la fonction de rpartition empirique (en gnral on trace
seulement les points de coordonnes (x
(i)
,
F(x
i
))), donne une premire ide de la dis-
tribution empirique.
Dans le cas o lchantillon est discret (le nombre de valeurs direntes k est faible
devant la taille de lchantillon n), on reprsentera la distribution empirique par un
29
STA230 Cours de Statistique UJF Grenoble
diagramme en btons. Il consiste reprsenter les valeurs direntes c
1
, . . . , c
k
en abs-
cisse, avec au-dessus de chacune une barre verticale de hauteur gale sa frquence
empirique f(c
h
). Dans le cas o le nombre de valeurs direntes est trs faible (infrieur
10), et surtout pour des chantillons qualitatifs, on utilise aussi des reprsentations en
camembert (pie-chart) ou en barres. Elles consistent diviser un disque ou un rectangle
proportionnellement aux direntes frquences.
La reprsentation correspondant au diagramme en btons pour un chantillon consi-
dr comme continu (lorsque presque toutes les valeurs sont direntes), est lhisto-
gramme. On choisit un nombre de classes k et un intervalle de reprsentation [a
0
, a
k
]
que lon a dcoup en k intervalles [a
0
, a
1
], ]a
1
, a
2
], . . . , ]a
k1
, a
k
]. On remplace alors la
distribution empirique par une nouvelle loi de probabilit qui pour tout h = 1, . . . , k,
charge lintervalle ]a
h1
, a
h
] avec sa frquence empirique
P(]a
h1
, a
h
]) :
P(]a
h1
, a
h
]) =
1
n
n
i=1
I
]a
h1
,a
h
]
(x
i
) .
Tracer un histogramme consiste reprsenter les classes en abscisses, avec au dessus
de la h-ime un rectangle de hauteur f
h
/(a
h1
a
h
), donc de surface gale f
h
. Cette
reprsentation est celle dune densit de probabilit, constante sur chacune des classes.
Reprsenter un histogramme implique un certain a priori sur les donnes. On dcide
en eet que la frquence de chacune des classes est bien sa frquence empirique dans
lchantillon, mais que la distribution des donnes lintrieur de chaque intervalle est
alatoire, de loi uniforme sur cet intervalle.
100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.10
Frequences
Tailles
100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.10
Frequences
Tailles
Fig. 7 Tailles denfants de 6 ans. Histogramme rgulier et non rgulier.
1.4.2 Quantiles
La fonction quantile dune loi de probabilit est linverse (gnralis) de sa fonction
de rpartition. Si F dsigne la fonction de rpartition, la fonction quantile Q est la
fonction qui u ]0, 1[ associe :
Q(u) = inf{x : F(x) u} .
30
STA230 Cours de Statistique UJF Grenoble
La fonction quantile empirique dun chantillon est la fonction quantile de sa distribu-
tion empirique.
Dnition 17. Soit x = (x
1
, . . . , x
n
) un chantil lon et (x
(1)
, . . . , x
(n)
) le vecteur de ses
statistiques dordre. La fonction quantile empirique de lchantil lon est la fonction
Q
qui, pour tout i = 1, . . . , n, vaut x
(i)
sur linterval le ]
i1
n
,
i
n
].
u ]
i 1
n
,
i
n
] ,
Q(u) = x
(i)
.
Pour certaines valeurs de u, on donne un nom particulier aux quantiles
Q(u).
u
Q(u)
0.5 Mdiane
0.25, 0.75 Quartiles
0.1, . . . , 0.9 Dciles
0.01, . . . , 0.99 Centiles
La mdiane est une valeur centrale de lchantillon : il y a autant de valeurs qui
lui sont infrieures que suprieures. Si la distribution empirique de lchantillon est
peu dissymtrique, comme par exemple pour un chantillon simul partir dune loi
uniforme ou normale, la moyenne et la mdiane sont proches. Si lchantillon est dis-
symtrique, avec une distribution trs tale vers la droite, la mdiane pourra tre
nettement plus petite que la moyenne. Contrairement la moyenne, la mdiane est
insensible aux valeurs aberrantes.
Il y a une part darbitraire dans la dnition de la fonction quantile pour une distribu-
tion empirique : pour tous les points de lintervalle [x
(i)
, x
(i+1)
[ la fonction de rpartition
vaut i/n. Ce sont surtout des raisons thoriques qui nous ont fait choisir x
(i)
plutt
quun autre point comme valeur de
Q(i/n). Ce peut tre un assez mauvais choix en
pratique. Considrons lchantillon suivant, de taille 6.
1 , 2 , 3 , 7 , 8 , 9 .
La mdiane telle que nous lavons dnie vaut 3. Or comme valeur centrale, le milieu
de lintervalle [3, 7], savoir 5, simpose clairement. Dans le cas dchantillons de taille
paire, lintervalle [x
(
n
2
)
, x
(
n
2
+1)
[ sappelle linterval le mdian. La mdiane est parfois
dnie comme le milieu de lintervalle mdian.
Ce problme ne se pose que dans le cas de petits chantillons et pour les quan-
tiles
Q(u) pour lesquels u est de la forme i/n (le plus souvent la mdiane). Nous le
ngligerons dsormais et nous conserverons la dnition 17.
Mme sur de trs gros chantillons, les quantiles sont peu coteux calculer puisquil
sut de trier lchantillon par ordre croissant pour calculer les statistiques dordre et
donc tous les quantiles simultanment. Ils fournissent une visualisation facile de la
distribution empirique. Nous avons vu que la mdiane est une valeur centrale. Pour
31
STA230 Cours de Statistique UJF Grenoble
mesurer la dispersion, on peut calculer ltendue, qui est la dirence entre la plus
petite et la plus grande valeur. Mais cette tendue rete plus les valeurs extrmes que
la localisation de la majorit des donnes. On apprhende mieux la dispersion dun
chantillon par les intervalles inter-quartiles et inter-dciles.
Dnition 18. On appelle intervalle inter-quartiles linterval le [
Q(0.25),
Q(0.75)] qui
contient la moiti centrale des valeurs de lchantil lon. On appel le intervalle inter-
dciles lintervalle [
Q(0.1),
Q(0.9)] qui contient 80% des valeurs centrales de lchantil-
lon.
Ces intervalles sont la base dune reprsentation trs compacte de la distribution
empirique : le diagramme en bote (ou bote moustaches, box plot, box-and-whisker
plot). Il ny a pas de dnition standardise de cette reprsentation. Elle consiste en
une bote rectangulaire dont les deux extrmits sont les quartiles. Ces extrmits se
prolongent par des traits termins par des segments orthogonaux (les moustaches).
La longueur de ces segments varie selon les auteurs. Nous proposons de la xer aux
dciles extrmes. On reprsente aussi la mdiane par un trait dans la bote, et parfois
les valeurs extrmes par des points (voir gure 8).
b
b
Q(0) min{x
i
}
Q(0.5) mdiane
Q(1) max{x
i
}
Fig. 8 Diagramme en bote.
1.4.3 Modles probabilistes
Le postulat de modlisation sur lequel toute tude statistique est base est le sui-
vant : Les donnes observes sont des ralisations de variables alatoires.
32
STA230 Cours de Statistique UJF Grenoble
0 10 20 30 40 50 60 70 80 90 100
100
102
104
106
108
110
112
114
116
118
120
122
124
126
128
130
Tailles
Individus
+
+
+
++
+
++
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
Fig. 9 Tailles denfants de 6 ans. La zone grise correspond lintervalle inter-
quartiles. La mdiane est en trait plein, les dciles
Q(0.1) et
Q(0.9) en pointills.
Quand le rsultat dune exprience nest pas reproductible exactement, on suppose
quil est la ralisation dune variable alatoire. La thorie des probabilits fournit des
outils, comme la loi des grands nombres ou le thorme central limite, permettant
dextraire des donnes ce qui est reproductible et qui peut donc fonder une prdiction
ou une dcision.
Quand on traite des donnes, on sait bien que si un deuxime chantillon tait
recueilli dans les mmes conditions, celui-ci serait dirent du premier. Mais on es-
pre que le deuxime chantillon ressemblerait au premier au sens o sa moyenne, sa
variance, ses quantiles, seraient peu modis. Lobservation dchantillons successifs
produits par un algorithme de simulation permet de se faire une bonne ide de cette
ressemblance. Dans de nombreux cas, par exemple pour tout ce qui touche lhumain
(mesures de tailles, dosages sanguins, etc. . . ), la ressemblance dchantillons distincts
est valide par une longue exprience. En mdecine, on sait bien quil ny a pas deux
individus qui prsentent exactement les mmes ractions. Mais un comptage du nombre
moyen de globules rouges par litre de sang, eectu sur quelques centaines dindividus,
variera peu si on le renouvelle sur une autre population. Dans cette situation, comme
dans de nombreuses autres, les comptages eectus sur des individus dirents seront
considrs comme des tirages indpendants dune mme loi de probabilit. Cette loi
de probabilit dcrit la variabilit du phnomne. On considre en quelque sorte que
lchantillon aurait pu tre produit en rptant des simulations indpendantes de la loi.
Prenons lexemple des tailles des lles de 18 ans (mesures en centimtres ou bien
en tailles vestimentaires). Parler de la taille des lles de 18 ans na de sens que dans un
contexte probabiliste : deux lles direntes nauront jamais exactement la mme taille.
On eectue en fait deux hypothses de modlisation qui nont aucune base concrte :
33
STA230 Cours de Statistique UJF Grenoble
1. On peut associer toute lle de 18 ans une mesure prcise de sa taille.
2. Les tailles des lles de 18 ans sont des ralisations de variables alatoires indpen-
dantes et de mme loi.
Bien que fondes sur des objets abstraits, les consquences mathmatiques que lon
peut tirer des hypothses de modlisation mnent des prdictions et des prises de
dcisions conomiques ou politiques, qui sont tout fait concrtes et seront valides
par confrontation avec la ralit. Par exemple la distribution des tailles des lles de
18 ans a des consquences videntes sur lindustrie du prt--porter. Si un fabriquant
de vtements cible sa production sur les adolescentes, il devra ajuster ses patrons
la taille de ses acheteuses potentielles : la rpartition des vtements produits entre les
tailles les plus courantes, du 36 au 40, ne seront pas gales. Le fabriquant produira
probablement plus de robes en 36 quen 40. Cette rpartition ne serait pas la mme
pour des modles destins des personnes ges.
Quand considre-t-on quun chantillon peut tre modlis par une suite de va-
riables indpendantes ? Pour lessentiel quand il est vident que lordre dans lequel on
prend les individus na pas dimportance. Cest le cas pour toutes les mesures physiolo-
giques sur une population humaine. Ce nest pas le cas pour une srie chronologique o
les individus sont des instants successifs qui ne sont clairement pas interchangeables,
et donc pas indpendants. Dailleurs il serait sans intrt de considrer par exemple
les taux de chmage mensuels sur les trois dernires annes comme des ralisations de
36 variables alatoires indpendantes, puisque le but de lobservation est prcisment
de dtecter une tendance dans ces chires, cest--dire une dpendance permettant de
prvoir partiellement les chires venir. Dans ce cas, lide de base de la modlisation
consistera dire quil existe une fonction dterministe cache qui permet de prvoir
en partie le futur en fonction du pass. Les observations mensuelles sont vues comme
des perturbations alatoires de cette fonction dterministe. Dans le modle intervien-
dra alors la fonction dterministe cache et un certain n-uplet de variables alatoires
indpendantes et de mme loi, modlisant les perturbations alatoires.
Une situation analogue est celle o un caractre autre que celui qui est mesur, a
une inuence sur la variable dintrt. Par exemple, si on souponne que le nombre de
cigarettes fumes par jour a une inuence sur le taux de cholestrol, on considrera que
les taux de cholestrol mesurs sont des ralisations dune variable alatoire dont la loi
dpend du nombre de cigarettes. On supposera quil existe une dpendance dterministe
cache deviner, et que lon observe sur chaque individu cette dpendance, perturbe
par un facteur d au pur hasard. L encore, ce sont les perturbations alatoires qui
seront modlises par un n-uplet de variables alatoires indpendantes et de mme loi.
Dans toutes les situations o des rsultats exprimentaux ne peuvent pas tre consi-
drs comme exactement reproductibles, on se ramne un modle contenant un n-
uplet de variables alatoires indpendantes et de mme loi. Un choix important est
le type de la loi, discret ou continu. Quand il sagit dobserver un caractre qualitatif,
comme le groupe sanguin, ou ordinal, comme un classement dans un test psychologique,
le choix dun modle discret est impos par la nature des donnes. Le choix entre mo-
34
STA230 Cours de Statistique UJF Grenoble
dle discret ou continu nest pas toujours aussi clair. Reprenons lexemple des tailles
des lles de 18 ans. On peut mesurer ces tailles au centimtre prs, en tant conscient
de limprcision inhrente aux mesures. Si les rsultats observs sur un chantillon de
1000 individus prennent susamment de valeurs direntes, on choisira une loi conti-
nue (par exemple une loi normale). Direntes techniques statistiques pourront imposer
par la suite un regroupement en classes des donnes (tracs dhistogrammes, distance
du chi-deux,. . . ). Pour le fabriquant de vtements, les donnes brutes sont de peu din-
trt. Il cherchera au contraire traduire les observations en tailles vestimentaires, ce
qui impose un autre type de regroupement en classes et un modle discret.
35
STA230 Cours de Statistique UJF Grenoble
2 Estimation paramtrique
Comment connat-on la population du globe ? Comment dtermine-t-on dans quelles
limites se situe le nombre de globules rouges par litre de sang chez un individu en
bonne sant ? Comment sait-on combien dindividus sont connects internet ? Toutes
ces valuations sont dduites de modles probabilistes par les techniques statistiques
destimation paramtrique. La notion importante est celle dintervalle de conance, qui
permet dvaluer la prcision dune estimation ponctuelle.
2.1 Estimation ponctuelle
2.1.1 Modles paramtrs
Le postulat de modlisation sur lequel toute tude statistique est base est le suivant :
Les donnes observes sont des ralisations de variables alatoires.
Quand le rsultat dune exprience nest pas reproductible exactement, on suppose quil
est la ralisation dune variable alatoire. La thorie des probabilits fournit des outils,
comme la loi des grands nombres ou le thorme central limite, permettant dextraire
des donnes ce qui est reproductible et qui pourra donc fonder une prdiction ou une
dcision.
Quand on observe un caractre statistique sur une population, si lordre dans lequel
on prend les individus na pas dimportance, on choisira de considrer que les donnes
sont des ralisations de variables alatoires indpendantes et de mme loi. Cette loi de
probabilit dcrit la variabilit du caractre. Mme dans le cas o les individus ne sont
pas interchangeables, comme pour une srie chronologique, la modlisation consistera
se ramener, en soustrayant au besoin une fonction dterministe, au cas dun chantillon
de variables alatoires indpendantes.
Dnition 19. Soit P une loi de probabilit sur R. On appel le chantillon de la loi P
un n-uplet de variables alatoires indpendantes et de mme loi P.
Le mot chantillon prend en statistique deux sens dirents, selon que lon parle
des donnes observes ou du modle probabiliste. Lhypothse de modlisation consiste
voir lchantillon (observ) comme une ralisation dun chantillon (thorique) dune
certaine loi de probabilit P. En dautres termes, on considre que les donnes auraient
pu tre produites en simulant de faon rpte la loi de probabilit P. Pour viter
les confusions, nous dsignerons par donnes ou chantil lon observ, la squence de
nombres recueillie (x
1
, . . . , x
n
). Les chantillons (thoriques) au sens de la dnition
ci-dessus seront dsigns par des majuscules : (X
1
, . . . , X
n
).
La loi de probabilit P modlisant la variabilit des donnes na aucune ralit phy-
sique. Cependant elle est considre comme un objet cach. Tout se passe comme si
on disposait dun algorithme de simulation de la loi P, sans connatre P elle-mme :
Les donnes sont des appels indpendants de cet algorithme. Lobjet de lanalyse sta-
tistique est den extraire toute information utile sur P. Si lhypothse de modlisation
36
STA230 Cours de Statistique UJF Grenoble
par la loi P est correcte (lalgorithme simule eectivement cette loi), la loi des grands
nombres permet darmer que la distribution empirique des donnes est proche de P,
pour un grand chantillon. Mais deux chantillons observs, simuls selon la mme loi,
ont rarement la mme distribution empirique. An dextraire des donnes des informa-
tions reproductibles, on est amen rduire lensemble des lois possibles une famille
particulire de lois de probabilit.
On appelle problme dajustement le problme consistant dterminer, dans une fa-
mille de lois de probabilit donne, quelle est celle qui concide le mieux avec lchantil-
lon observ. Dans la situation la plus courante, celle que nous considrons ici, la famille
dpend dun ou plusieurs paramtres rels inconnus. Le problme est donc de dter-
miner quelle valeur du paramtre est la mieux adapte aux donnes, en un sens que
nous prciserons plus loin. On parle alors destimation paramtrique. Nous donnons
ci-dessous quelques exemples courants de situations statistiques, avec des familles de
lois communment choisies.
Echantillons binaires
Typiquement, la situation est celle o un mme vnement est observ ou non dans
une suite dexpriences indpendantes. Si on code les observations par 1 et 0, la mod-
lisation par une loi de Bernoulli simpose. Le paramtre inconnu est la probabilit de
lvnement. On lapproche bien videmment par sa frquence exprimentale.
Comptages
Un chantillon issu de comptages prend des valeurs entires positives. Plusieurs familles
de lois classiques peuvent tre utilises comme modles. Si les objets compts sont rela-
tivement frquents, dans une population de taille xe et assez faible, les lois binomiales
ou hypergomtriques sont des modles naturels (nombre de lles dans les fratries de
5 enfants par exemple). Si les objets compts possdent un caractre relativement rare
dans un grand ensemble (bactries, individus porteurs dun gne particulier,. . . ) on
utilise souvent une loi de Poisson. Pour des dures mesures en temps discret (nombres
de jours ou de semaines dincubation pour une maladie) on pourra utiliser une loi
gomtrique ou binomiale ngative. On se laisse souvent guider par la forme de la
distribution empirique pour le choix dun modle. Un diagramme en btons en gros
unimodal pourra suggrer de modliser par une loi binomiale ngative, mme sil ny
a pas de raison profonde qui rende ce choix naturel.
Variables normales
Les lois normales sont de trs loin les plus utilises parmi les modles probabilistes. Cela
tient deux causes. Lune est quelles permettent des calculs explicites faciles, quelle
que soit la taille de lchantillon. En particulier il est frquent de choisir un modle
normal pour de petits chantillons, sans pouvoir toujours justier ce choix. Lautre
raison tient au thorme central limite : chaque fois quune quantit provient du cumul
dun grand nombre de facteurs variables relativement indpendants entre eux, cette
quantit pourra tre modlise par une loi normale. Cest le cas pour les erreurs de
37
STA230 Cours de Statistique UJF Grenoble
mesures qui ont t la motivation historique de la loi normale, mais aussi pour de trs
nombreux paramtres physiologiques (tailles, poids, numrations sanguines, dosages
hormonaux . . . ).
Dures
Des dures mesures en temps continu sont modlises par des lois de probabilit
continues sur R
+
. En abilit, pour des dures de fonctionnement ou des dures de
rparation, les lois de Weibull sont souvent prfres. Les lois exponentielles en sont
un cas particulier.
Donnes unimodales asymtriques
Comme pour les caractres discrets, le choix dun modle pour un caractre continu
est souvent guid par la forme de la distribution empirique. Il arrive que lhistogramme
dun caractre continu soit trop dissymtrique pour quon puisse utiliser la loi normale.
Plusieurs familles de lois prsentent des dissymtries plus ou moins importantes. Cest
le cas pour les lois de Weibull, dj voques, mais aussi pour les lois gamma. Quand
les ordres de grandeur des donnes sont trs dirents, on peut les remplacer par leurs
logarithmes. Si le nouvel histogramme concide apparemment avec une loi normale, on
utilisera une loi log-normale comme modle pour les donnes initiales.
Dans tout ce qui suit, nous dsignerons par P
= (x
1
, . . . , x
n
) ,
est lestimation (du paramtre au vu de lchantillon observ).
Prenons lexemple simple dune pice dont on ignore si elle est ou non truque. La
probabilit de tomber sur pile est le paramtre inconnu = p. On se propose de raliser
10 lancers de la pice, que lon modlisera par un chantillon de taille 10 de la loi de
Bernoulli de paramtre p. Le nombre de pile obtenu sur les 10 lancers est une variable
alatoire qui suit la loi binomiale B(10, p). Le quotient de cette variable alatoire par 10
(la frquence) est un estimateur de p. Eectuons maintenant les 10 lancers en notant
chaque fois 1 si pile sort, et 0 si cest face. Une ralisation de lchantillon est par
exemple :
0 , 1 , 1 , 0 , 1 , 1 , 1 , 0 , 0 , 1 .
Pour cette ralisation, la frquence empirique prend la valeur 0.6, que lon proposera
comme estimation de p. Bien videmment, 10 nouveaux lancers de la mme pice
pourront conduire une ralisation dirente de lchantillon, et une estimation
dirente de p.
2.1.3 Qualits dun estimateur
Pour un chantillon de taille n de la loi de Bernoulli de paramtre inconnu p, la
frquence empirique est un estimateur de p. Cest une variable alatoire qui prend ses
valeurs dans [0, 1]. Si n est grand, elle prend avec une forte probabilit des valeurs
proches de p, daprs la loi des grands nombres. Quel que soit le modle et le para-
mtre estimer, prendre des valeurs proches de ce paramtre au moins pour de grands
chantillons, est la qualit principale que lon attend dun estimateur. En toute rigueur,
on doit considrer une suite destimateurs (T
n
), o pour tout n, T
n
est une variable
alatoire fonction de lchantillon (X
1
, . . . , X
n
). Par abus de langage, on appelle encore
estimateur cette suite.
Dnition 20. On dit que lestimateur (T
n
) est convergent si pour tout > 0 :
lim
n
P[|T
n
| > ] = 0 .
Un estimateur convergent scarte donc du paramtre avec une faible probabilit,
si la taille de lchantillon est assez grande.
Lexemple de base destimateur convergent est la moyenne empirique. Nous noterons
X
n
la moyenne empirique de lchantillon (X
1
, . . . , X
n
) :
X
n
=
X
1
+ +X
n
n
.
La loi des grands nombres arme que X
n
est un estimateur convergent de lesprance
de X.
39
STA230 Cours de Statistique UJF Grenoble
Si le paramtre sexprime comme une fonction continue de E[X], alors limage de
X
n
par cette fonction est un estimateur convergent de , par la proposition suivante.
Proposition 5. Soit (T
n
) un estimateur convergent du paramtre , et une fonction
de R dans R, continue au point . Alors ((T
n
)) est un estimateur convergent de ().
Considrons par exemple comme modle la loi uniforme sur [0, ], o le paramtre
est inconnu. La moyenne empirique X
n
est un estimateur convergent de lesprance
de la loi, qui vaut /2. Donc T
n
= 2X
n
est un estimateur convergent de .
Mais dautres esprances sont calculables. Par exemple, si X suit la loi uniforme
sur [0, ], alors E[log(X)] vaut log() 1. Toujours daprs la loi des grands nombres,
(log(X
1
)+ +log(X
n
))/n est un estimateur convergent de log()1. Donc lestimateur
T
n
suivant est encore un estimateur convergent de :
T
n
= exp
_
log(X
1
) + + log(X
n
)
n
+ 1
_
.
La notion de convergence ne donne aucune assurance pratique que les valeurs prises
par un estimateur seront eectivement dans un rayon x autour de la vraie valeur du
paramtre, pour une taille dchantillon donne. On quantie la qualit des estimateurs
par la notion derreur quadratique.
Dnition 21. On appelle erreur quadratique de T
n
par rapport la quantit :
EQ(T
n
, ) = E[(T
n
)
2
] .
Lerreur quadratique est lie la convergence par la proposition suivante.
Proposition 6. Si lerreur quadratique de T
n
par rapport tend vers 0 quand n tend
vers linni, alors (T
n
) est un estimateur convergent de .
Dmonstration : Si |T
n
| > , alors (T
n
)
2
>
2
. Donc :
E[(T
n
)
2
] >
2
P[|T
n
| > ] .
Si E[(T
n
)
2
] tend vers 0, il en est de mme de P[|T
n
| > ].
Si deux estimateurs sont disponibles pour le mme paramtre , on dira que lun
est meil leur que lautre si son erreur quadratique par rapport est infrieure. Dans
lexemple ci-dessus, lerreur quadratique de T
n
vaut
2
/(3n), lerreur quadratique de
T
n
est quivalente
2
/n quand n tend vers linni, T
n
est donc meilleur que T
n
.
Mme pour un estimateur convergent, il peut se faire que les valeurs prises soient
dcales en moyenne par rapport la vraie valeur du paramtre. On dit alors que
lestimateur est biais.
40
STA230 Cours de Statistique UJF Grenoble
Dnition 22. On appelle biais de lestimateur T
n
par rapport la quantit :
B(T
n
, ) = E[T
n
] .
Lestimateur est dit sans biais si B(T
n
, ) = 0, il est dit asymptotiquement sans biais
si B(T
n
, ) tend vers 0 quand n tend vers linni.
Proposition 7. Lerreur quadratique de T
n
par rapport est la somme de la variance
de T
n
et du carr du biais.
Dmonstration : Par linarit de lesprance on a :
EQ(T
n
, ) = E[(T
n
)
2
]
= E[(T
n
E[T
n
] +E[T
n
] )
2
]
= E[(T
n
E[T
n
])
2
] + (E[T
n
] )
2
+ 2(E[T
n
] )(E[T
n
E[T
n
]])
= V ar[T
n
] + (B(T
n
, ))
2
+ 0 .
Quand un estimateur est sans biais, lerreur quadratique est gale la variance. Le
critre suivant, consquence immdiate des propositions 6 et 7 est souvent utilis pour
dmontrer quun estimateur est convergent.
Proposition 8. Si un estimateur est sans biais ou asymptotiquement sans biais et si
sa variance tend vers 0, alors il est convergent.
Quand le biais peut tre explicitement calcul, on aura videmment intrt le
corriger pour amliorer lestimateur. Reprenons lexemple de la loi uniforme sur [0, ].
Un estimateur naturel de est la plus grande valeur de lchantillon :
T
n
= max{X
1
, . . . , X
n
} .
Comme toutes les valeurs X
i
sont infrieures , lestimateur T
n
sous-estime systmati-
quement . On dmontre que son esprance est n/(n+1) et donc son biais vaut
/(n+1). On peut corriger le biais en introduisant :
T
n
=
n + 1
n
T
n
.
Ce nouvel estimateur est sans biais, et il est meilleur que T
n
.
Dans le tableau ci-dessous nous rassemblons les 4 exemples destimateurs du para-
mtre pour la loi uniforme U(0, ), qui ont t introduits jusquici. Le meilleur des
quatre est T
n
.
Estimateur Biais Erreur quadratique
T
n
0
2
/(3n)
T
n
/(2n)
2
/n
T
n
/n 2
2
/n
2
T
n
0
2
/n
2
41
STA230 Cours de Statistique UJF Grenoble
2.1.4 Exemples destimateurs
Jusquici nous avons dj rencontr la moyenne epirique, comme estimateur de
lesprance. Dans le cas particulier de donnes binaires, la moyenne empirique est la
frquence, lesprance est la probabilit. Il sagit destimateurs sans biais et conver-
gents. Dans cette section, nous illustrons les notions destimateur, de convergence et
de biais sur trois autres exemples, lestimation dune variance, le problme des questions
condentielles, et les comptages par capture-recapture.
Estimateurs de la variance
Soit (X
1
, . . . , X
n
) un chantillon dune loi inconnue P, qui sera suppose admettre des
moments de tous ordres. Nous avons vu que la moyenne empirique X
n
= (X
1
+ +
X
n
)/n est un estimateur convergent de lesprance. Cest un estimateur sans biais,
et sa variance est gale la variance de la loi P, divise par n. Comment estimer la
variance de P? Lestimateur le plus naturel est le suivant.
Dnition 23. On appelle variance empirique de lchantil lon (X
1
, . . . , X
n
) lestima-
teur :
S
2
n
=
1
n
n
i=1
(X
i
X
n
)
2
.
Si X dsigne une variable alatoire de loi P, S
2
n
est bien un estimateur convergent
de V ar[X] = E[(X E[X])
2
]. Mais ce nest pas un estimateur sans biais. En eet :
Proposition 9.
E[S
2
n
] =
n 1
n
V ar[X] .
Dmonstration : Calculons tout dabord E[X
2
n
].
E[X
2
n
] =
1
n
2
E[(X
1
+ +X
n
)
2
]
=
1
n
2
E
_
_
n
i=1
X
2
i
+
n
i=1
j=i
X
i
X
j
_
_
.
Par dnition dun chantillon, X
1
, . . . , X
n
sont indpendantes et de mme loi. Donc
E[X
2
i
] = E[X
2
] et E[X
i
X
j
] = (E[X])
2
, o X est une variable alatoire quelconque de
loi P. En reportant ces valeurs on obtient :
E[X
2
n
] =
1
n
2
_
nE[X
2
] +n(n 1)(E[X])
2
)
_
=
1
n
E[X
2
] +
n 1
n
(E[X])
2
.
42
STA230 Cours de Statistique UJF Grenoble
On a donc :
E[S
2
n
] =
1
n
E[X
2
1
+ +X
2
n
]
1
n
E[X
2
]
n 1
n
(E[X])
2
)
=
n 1
n
E[X
2
]
n 1
n
(E[X])
2
)
=
n 1
n
V ar[X] .
Pour transformer S
2
n
en un estimateur non biais, il sut de corriger le biais par
un facteur multiplicatif.
Dnition 24. On appelle variance empirique non biaise lestimateur :
S
2
n
=
n
n 1
S
2
n
=
1
n 1
n
i=1
(X
i
X
n
)
2
.
On peut estimer lcart-type par
_
S
2
n
ou bien
_
S
2
n
. Notons quen gnral aussi bien
_
S
2
n
que
_
S
2
n
sont des estimateurs biaiss de
_
V ar[X]. La dirence entre les deux
estimateurs tend vers 0 quand la taille n de lchantillon tend vers linni. Nanmoins,
la plupart des calculatrices proposent les deux estimateurs de lcart-type (touches
n
et
n1
). Certains logiciels calculent par dfaut la valeur de S
2
n
ou
_
S
2
n
, dautres S
2
n
ou
_
S
2
n
. Dans la suite, nous utiliserons surtout S
2
n
, malgr linconvnient du biais.
Questions condentielles
Certains sujets abords dans les enqutes dopinion sont parfois assez intimes, et on
court le risque que les personnes interroges se refusent rpondre franchement len-
quteur, faussant ainsi le rsultat. On peut alors avoir recours une astuce consistant
inverser alatoirement les rponses. Considrons une question condentielle pour la-
quelle on veut estimer la probabilit p de rponses positives. Lenquteur demande
chaque personne interroge de lancer un d. Si le d tombe sur 6, la personne doit
donner sa rponse sans mentir, sinon elle doit donner lopinion contraire la sienne. Si
lenquteur ignore le rsultat du d, il ne pourra pas savoir si la rponse est franche ou
non, et on peut esprer que la personne sonde acceptera de jouer le jeu. Gnralisons
lgrement la situation en tirant pour chaque personne une variable de Bernoulli de
paramtre . Si le rsultat de cette variable est 1, la rponse est franche, sinon, elle
est inverse. Soit n le nombre de personnes interroges. Lenquteur ne recueille que
la frquence empirique F
n
des oui. La proportion inconnue des oui lissue de la
procdure est q = p + (1 )(1 p), et la frquence F
n
observe par lenquteur est
un estimateur sans biais et convergent de q. Remarquons que si = 1/2, q vaut 1/2
quel que soit p. Mais si = 1/2, on peut exprimer p en fonction de q :
p =
q 1 +
2 1
.
43
STA230 Cours de Statistique UJF Grenoble
On peut donc proposer comme estimateur de p la quantit suivante :
T
n
=
F
n
1 +
2 1
.
Lesprance de T
n
est p. La variance de T
n
vaut :
q(1 q)
n(2 1)
2
=
p(1 p)
n
+
(1 )
n(2 1)
2
.
Lestimateur T
n
est sans biais, sa variance tend vers 0, il est donc convergent.
Pour n x, la variance de T tend vers linni quand tend vers 1/2. Elle est
minimale si = 0 ou 1 (mais alors la procdure perd tout son intrt). Le problme
est donc de choisir une valeur de qui soit assez grande pour que la condentialit soit
crdible, mais susamment loigne de 1/2 pour ne pas trop augmenter la variance de
lestimateur. Pour le d, la valeur de est 1/6 et le terme additionnel de la variance
est proportionnel (1 )/(2 1)
2
= 0.3125.
Comptages par capture-recapture
Comment estimer le nombre despces dinsectes vivant sur la terre, alors que de nom-
breuses espces sont encore inconnues ? Comment connat-on la population de baleines
dans les ocans ? Le comptage par capture-recapture permet dvaluer des tailles de
populations pour lesquelles un recensement exhaustif est impossible. La mthode est
base sur une ide simple. Considrons une population, de taille N inconnue. On pr-
lve dans un premier temps un groupe dindividus, de taille m xe. Ces individus
sont recenss et marqus de faon tre reconnus ultrieurement. Plus tard, on pr-
lve un nouveau groupe de taille n, et on observe le nombre X dindividus marqus
dans ce nouveau groupe. Si le deuxime prlvement est indpendant du premier, la
loi de X est la loi hypergomtrique de paramtres N, m et n, desprance nm/N.
On peut sattendre ce que la proportion X/n dindividus marqus dans le deuxime
chantillon soit proche de la proportion dindividus marqus dans lensemble de la po-
pulation, m/N. Il est donc raisonnable de proposer comme estimateur de N la quantit
suivante :
T =
nm
X
.
Linconvnient de cet estimateur est quil nest pas dni si X prend la valeur 0, ce qui
arrive avec une probabilit strictement positive. On peut corriger ce dfaut de deux
manires. La premire consiste remplacer X par X +1, ce qui ne devrait pas fausser
trop le rsultat si les nombres envisags sont assez grands. Posons donc :
T
=
nm
X + 1
.
La seconde manire consiste dcider de rejeter a priori les chantillons pour lesquels on
nobtiendrait pas dindividu marqu. Ceci revient remplacer X par une autre variable
44
STA230 Cours de Statistique UJF Grenoble
alatoire X
=
nm
X
.
Pour des valeurs de N, m et n particulires, on peut calculer numriquement les esp-
rances et les carts-types de ces estimateurs. Le tableau ci-dessous rsume des rsultats
obtenus pour m = n = 100 et direntes valeurs de N.
N 200 300 400 500 1000 5000
E[T
dsignera le rel F
1
(1 /2), o F
1
dsigne la fonction quantile de la
loi N(0, 1). Lintervalle [u
, u
dsignera le rel Q
T (n)
(1 /2), o Q
T (n)
dsigne la fonction quantile de
la loi de Student n degrs de libert (pour une valeur de n xe). Lintervalle
[t
, t
dsignera le rel Q
X
2
(n)
(1 ), o Q
X
2
(n)
dsigne la fonction quantile de la loi
de khi-deux n degrs de libert (pour une valeur de n xe). Lintervalle [0 , z
]
est donc lintervalle unilatral infrieur pour la loi X
2
(n), de niveau 1 .
f
dsignera le rel Q
F(m,n)
(1 ), o Q
F(m,n)
dsigne la fonction quantile de
la loi de Fisher de paramtres m et n (pour des valeurs de xes). Lintervalle
[0 , f
n
pour la loi uniforme U(0, ),
savoir le maximum des valeurs de lchantillon. Sa fonction quantile est la fonction qui
46
STA230 Cours de Statistique UJF Grenoble
0 3 6 9 12 15 18 21 24 27 30
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.10
.
loi gamma G(5,0.5)
Fig. 10 Intervalle de dispersion optimal de niveau 0.95 pour la loi gamma G(5, 0.5)
(loi du khi-deux de paramtre 10).
u [0, 1] associe :
Q
T
n
(u) = u
1/n
.
Pour et xs, lintervalle de dispersion [ Q
T
n
(), Q
T
n
(1 + ) ] a pour
longueur :
(1 +)
1/n
1/n
.
Il se trouve que lintervalle de dispersion optimal concide avec lintervalle de dispersion
unilatral suprieur ( = ). La borne de gauche est
1/n
, la borne de droite est .
Voici quelques valeurs pour la quantit
1/n
, qui tend vers 1 quand n tend vers linni.
n
.
.
. 0.05 0.01 0.001
10 0.741 0.631 0.501
100 0.970 0.955 0.933
1000 0.997 0.995 0.993
Quand la loi de la variable alatoire T est discrte, la notion dintervalle de dispersion
recle une certaine ambigit. Considrons par exemple la loi binomiale B(10, 0.6).
Voici les valeurs de sa fonction de rpartition.
i 0 1 2 3 4 5 6 7 8 9 10
F(i) 0.000 0.002 0.012 0.055 0.166 0.367 0.618 0.833 0.954 0.994 1
47
STA230 Cours de Statistique UJF Grenoble
Fixons 1 = 0.9. Pour les calculs utilisant les intervalles de dispersion, on applique
toujours un principe de prcaution, qui consiste garantir le niveau. On qualiera donc
dintervalle de dispersion de niveau 1 les intervalles dont la probabilit est suprieure
ou gale 1. Le tableau ci-dessous donne une liste dintervalles de dispersion de
niveau 0.9, avec leur probabilit exacte, pour la loi B(10, 0.6).
Intervalle [0, 8] [1, 8] [2, 8] [3, 8] [4, 9] [4, 10]
Probabilit 0.954 0.954 0.952 0.941 0.939 0.945
Deux intervalles sont damplitude minimale, [3, 8] et [4, 9]. On choisira celui dont la
probabilit est la plus grande, savoir [3, 8]. La gure 11 reprsente en fonction de p
les intervalles de dispersion optimaux, au sens dni ci-dessus, pour la loi binomiale
B(10, p), ainsi que les intervalles de dispersion symtriques.
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0
1
2
3
4
5
6
7
8
9
10
.
Intervalles de dispersion : loi binomiale
Fig. 11 Intervalles de dispersion optimaux (trait plein) et symtriques (pointills) de
niveau 0.9 pour la loi binomiale B(10, p).
2.2.2 Dnitions
En statistique, tout comme en physique, en chimie ou en biologie, donner un rsultat
sans indication sur sa prcision na que peu dintrt car il nest pas reproductible.
Reprenons lexemple dun lancer de pice truque, pour laquelle la probabilit p de
pile est inconnue. La frquence empirique de pile est lestimateur naturel de p. Si
48
STA230 Cours de Statistique UJF Grenoble
sur 100 lancers on obtient 60 pile, lestimation (ponctuelle) propose pour p est 0.60.
Mais ce rsultat nest pas reproductible. Si on renouvelle les 100 lancers, on obtiendra
probablement des estimations direntes.
Plutt que de donner une estimation ponctuelle, on proposera un interval le, choisi
de manire contrler par un niveau de conance, les chances que le rsultat aurait
dtre conrm si on renouvelait lexprience. On cherche distinguer les valeurs du
paramtre pour lesquelles lobservation (60 pile sur 100 lancers) est plausible, des va-
leurs pour lesquelles elle est trop peu vraisemblable. Notons F la frquence empirique
et n le nombre de lancers. La variable alatoire nF suit la loi binomiale B(n, p). Le
calcul numrique donne les valeurs suivantes.
Q
B(100,0.523)
(0.95) = 60 et Q
B(100,0.682)
(0.05) = 60 .
Pour toute valeur de p infrieure 0.523, la probabilit dobserver sur 100 tirages une
frquence suprieure 0.60 est infrieure 0.05. Pour toute valeur de p suprieure
0.682, la probabilit dobserver sur 100 tirages une frquence infrieure 0.60 est
infrieure 0.05. En dautres termes, pour tout p dans lintervalle [0.523, 0.682], on a :
60 [ Q
B(100,p)
(0.05) , Q
B(100,p)
(0.95) ] ,
cest--dire que 60 est dans linterval le de dispersion symtrique de niveau 0.9 pour
la loi B(100, p). Il est donc raisonnable de proposer [0.523, 0.682] comme intervalle
destimation pour la valeur de p.
La dnition dun intervalle de conance est la suivante.
Dnition 26. Soit (X
1
, . . . , X
n
) un chantil lon de la loi P
. On appel le intervalle
de conance de niveau 1 un interval le alatoire [T
1
, T
2
], o T
1
T
2
sont deux
statistiques, fonctions de lchantil lon, tel les que :
P[ [T
1
, T
2
] ] = 1 .
Si on ralise n simulations indpendantes de la loi P
i=1
X
i
et S
2
=
1
n
n
i=1
(X
i
X)
2
.
Nous rassemblons ci-dessous, et nous admettrons, les trois rsultats permettant de
calculer les intervalles de conance de et
2
.
Thorme 4. Si (X
1
, . . . , X
n
) est un chantil lon de la loi N(,
2
), alors :
1.
_
n
2
_
X
_
suit la loi normale N(0, 1).
2.
n1
S
2
_
X
_
suit la loi de Student T (n1).
3.
nS
2
2
suit la loi du khi-deux X
2
(n1).
51
STA230 Cours de Statistique UJF Grenoble
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
.
frequence
p
Loi binomiale B(100,p)
q(p) q(p)
Fig. 12 Intervalles de dispersion optimaux et intervalle de conance de niveau 0.9
pour la loi binomiale B(100, p).
Les deux premires armations servent estimer lesprance , respectivement dans
le cas o la variance
2
est connue et dans le cas o elle est inconnue. Commenons par
supposer que
2
est connue. Posons u
= Q
N(0,1)
(1 /2). Lintervalle de dispersion
optimal de niveau 1 pour la loi N(0, 1) est [u
, u
]. Deux valeurs de u
sont trs
souvent utilises : pour 1 = 0.95 et 0.99, u
2
_
X
_
[u
, u
]
_
= 1 .
Or :
_
n
2
_
X
_
[u
, u
] X
_
_
u
2
n
, u
2
n
_
_
_
_
X u
2
n
, X +u
2
n
_
_
.
Lintervalle :
_
_
X u
2
n
, X +u
2
n
_
_
,
52
STA230 Cours de Statistique UJF Grenoble
est donc un intervalle de conance de niveau 1 pour .
Le cas o
2
est inconnu se traite de la mme faon, en remplaant la loi N(0, 1) par
la loi T (n 1). Cest encore une loi symtrique, pour laquelle lintervalle de conance
optimal de niveau 1 est de la forme [t
, t
], o :
t
= Q
T (n1)
(1 /2) .
Le mme raisonnement conduit lintervalle de conance suivant pour :
_
_
X t
S
2
n 1
, X +t
S
2
n 1
_
_
.
Passons maintenant lestimation de
2
partir de S
2
. La loi du khi-deux X
2
(n1)
nest pas symtrique, et lintervalle de dispersion symtrique nest pas optimal. Nous
noterons u
et v
, v
= Q
X
2
(n1)
(/2) et v
= Q
X
2
(n1)
(1 /2) .
Daprs le point 3 du thorme 4, on a :
P
_
nS
2
2
[u
, v
]
_
= 1 .
Or :
nS
2
2
[u
, v
]
2
_
nS
2
v
,
nS
2
u
_
.
Lintervalle
_
nS
2
v
,
nS
2
u
_
est donc un intervalle de conance de niveau 1 pour
2
.
2.2.4 Normalit asymptotique
La construction des intervalles de conance ncessite de connatre la loi des estima-
teurs partir desquels ils sont construits. En dehors du cas des chantillons gaussiens,
ce nest pas toujours possible. De plus, il est frquent que les calculs de lois, eec-
tivement implmentables pour de petits chantillons, deviennent infaisables pour un
chantillon de grande taille. On cherche alors remplacer la loi de lestimateur par une
approximation plus simple, permettant de construire des intervalles de conance dont
le niveau nest garanti que pour de grandes tailles dchantillons.
Dnition 27. Soit (X
1
, . . . , X
n
) un chantil lon de la loi P
2
(X
n
) et Z
n
=
n
S
2
n
(X
n
) .
Les lois des variables alatoires Z
n
et Z
n
convergent vers la loi normale N(0, 1).
Ce rsultat, qui est une reformulation du thorme central limite classique, permet
de dnir des intervalles de dispersion approchs pour Z
n
et Z
n
. Fixons le niveau 1,
et notons [u
, u
, u
] ] = lim
n
P[ Z
n
[u
, u
] ] = 1 .
On en dduit immdiatement deux intervalles de conance, de niveau asymptotique
1 pour :
_
_
X
n
u
2
n
, X
n
+u
2
n
_
_
et
_
_
X
n
u
S
2
n
n
, X
n
+u
S
2
n
n
_
_
.
En pratique, la taille de lchantillon, mme grande, est toujours xe. Dans luti-
lisation de la normalit asymptotique, la question se pose videmment de la qualit
de lapproximation normale n x. partir de quelle valeur de n est-il lgitime de
remplacer une loi exacte par son approximation normale pour un calcul dintervalle
de conance ? Il est impossible de donner des bornes valables dans toutes les situa-
tions. On pourra retenir que pour une taille dchantillon suprieure ou gale 100,
lapproximation normale conduit des erreurs infrieures ou gales 1%, et nous la
considrerons donc comme lgitime.
titre dexemple, voici lapplication de cette technique lestimation dune proba-
bilit. Nous reprenons lexemple de jeu de pile ou face avec une pice truque. Supposons
que cette fois-ci nous avons lanc 100 fois la pice, et quelle est tombe 60 fois sur
pile. Pour la modlisation, nous considrons des variables alatoires X
1
, . . . , X
n
, avec
n = 100. Pour i allant de 1 n, la variable alatoire X
i
code le rsultat observ : 0
si le i-ime lancer a donn face, 1 sil a donn pile. Le n-uplet (X
1
, . . . , X
n
) constitue
un chantillon de la loi de Bernoulli de paramtre p, o p est la probabilit (inconnue)
que la pice tombe sur pile. Rappelons que :
E[X
i
] = p et V ar(X
i
) = p(1 p) .
54
STA230 Cours de Statistique UJF Grenoble
Nous sommes donc dans le cas o lesprance et la variance sont toutes deux inconnues.
Lesprance est estime par :
X
n
=
1
n
(X
1
+ +X
n
) .
Cest la frquence empirique de pile. Pour allger les formules, nous la noterons f.
La variance empirique de lchantillon est :
S
2
n
=
1
n
(X
2
1
+ +X
2
n
) f
2
= f f
2
= f(1 f) ,
car les X
i
valent toutes 0 ou 1, donc X
2
i
= X
i
.
Lapplication du thorme central limite nous donne lintervalle de conance sui-
vant, de niveau 1 pour p.
_
_
f u
f(1 f)
n
, f +u
f(1 f)
n
_
_
.
Pour 1 = 0.95, u
_
f(1 f) est major par
1. Lintervalle [f 1/
n, f + 1/
,
o :
T est une statistique de test,
I
. Si H
0
est vraie, le seuil est la probabilit que la valeur prise par T soit en dehors de I
, et
donc que H
0
soit rejete tort :
P
H
0
[ Rejet de H
0
] = .
Nous avons laiss jusquici une grande latitude quant au choix de lintervalle de dis-
persion. Les intervalles les plus utiliss sont symtriques ou unilatraux.
Dnition 29. On dit quun test est :
unilatral si la rgion de rejet est le complmentaire dun interval le de dispersion
unilatral.
bilatral si la rgion de rejet est le complmentaire dun interval le de dispersion
symtrique.
Dans le cas de lecacit dun mdicament, avec le nombre de gurisons comme
statistique de test, on choisira un test unilatral (le traitement est inecace si la fr-
quence de gurison est trop faible, ecace si elle est susamment grande). Pour tester
un gnrateur pseudo-alatoire, avec le nombre dappels entre 0.4 et 0.9 comme statis-
tique de test, on rejettera aussi bien les valeurs trop grandes que trop petites, et le test
sera bilatral.
Nous rsumons dans la dnition suivante les trois types de tests usuels.
Dnition 30. Soit H
0
lhypothse nul le, le seuil, T la statistique de test et Q
0
sa
fonction quantile sous lhypothse H
0
.
1. Le test bilatral (rejet des valeurs trop cartes) est dni par la rgle de dcision :
Rejet de H
0
T / [Q
0
(/2) , Q
0
(1/2)] .
59
STA230 Cours de Statistique UJF Grenoble
2. Le test unilatral droite (rejet des valeurs trop grandes) est dni par la rgle
de dcision :
Rejet de H
0
T > Q
0
(1) .
3. Le test unilatral gauche (rejet des valeurs trop petites) est dni par la rgle
de dcision :
Rejet de H
0
T < Q
0
() .
Supposons que la statistique de test T suive sous H
0
la loi binomiale B(100, 0.5),
comme dans lexemple du gnrateur pseudo-alatoire. Lintervalle de dispersion sy-
mtrique de niveau = 0.05 est [40 , 60]. Le test bilateral de seuil 0.05 consistera
rejeter H
0
si la statistique de test prend une valeur infrieure 40 ou suprieure 60.
Pour la loi binomiale, comme pour dautres, on peut choisir dutiliser lapproximation
normale : si n est assez grand, la loi B(n, p) est proche de la loi normale de mme
esprance et de mme variance. Ici, la loi de T est proche de la loi N(50, 25). Linter-
valle de dispersion symtrique de niveau 0.95 pour cette loi est [40.2 , 59.8]. Daprs cet
intervalle, on devrait aussi rejeter les valeurs 40 et 60. Les quantiles de la loi N(50, 25)
ne sont pas tabuls. Pour les calculer, on se ramne la loi N(0, 1), en remplaant la
statistique de test T par sa valeur centre rduite :
T
=
T 50
25
.
La variable T
suit la loi N(0, 1), le test bilatral de seuil 0.05 consiste rejeter toute
valeur lextrieur de lintervalle de dispersion [1.96 , +1.96]. Cest videmment qui-
valent au fait de rejeter les valeurs de T lextrieur de lintervalle [40.2 , 59.8]. Dautres
transformations sont possibles. Si T
= (T
)
2
suit la loi du
khi-deux X
2
(1). Rejeter les valeurs de T
suprieures (1.96)
2
= 3.841, qui est eective-
ment le quantile dordre 0.95 de la loi X
2
(1). Remarquons quun test bilatral sur la
statistique T
.
Reprenons lexemple du mdicament qui a guri 83 individus sur 100, et pour le-
quel nous voulons savoir si la probabilit de gurison est ou non meilleure que 0.74.
Nous allons donc appliquer un test unilatral : nous observons une amlioration (83%
de gurisons au lieu de 74% attendues) et nous voulons savoir si cette amlioration
est susamment grande pour tre signicative. Sous lhypothse H
0
, le nombre T
dindividus guris parmi 100 suit la loi binomiale B(100, 0.74). Toujours en utilisant
lapproximation normale, la variable alatoire suivante suit la loi N(0, 1) :
T
=
T 74
_
100(0.74(1 0.74))
.
Lintervalle de dispersion unilatral gauche de niveau 0.01 est ] , 2.3263]. En
dautres termes si une variable alatoire doit suivre la loi N(0, 1), nous rejetterons
60
STA230 Cours de Statistique UJF Grenoble
comme trop grande au seuil 0.01, toute valeur suprieure 2.3263. Au seuil 0.05,
nous rejetterons toute valeur suprieure 1.6449. Ici T prend la valeur 83 et T
la
valeur 2.0518 : cest trop grand au seuil 0.05 (rejet de H
0
), mais ce nest pas trop grand
au seuil 0.01. Certes il y a eu une amlioration, mais on ne peut pas tout fait exclure
quelle soit due au hasard. Nous verrons au paragraphe suivant un moyen de donner
une indication plus prcise.
Nous prsenterons quelques exemples de tests, parmi les plus classiques. Nous ne pr-
ciserons pas toujours sil sagit de tests bilatraux ou unilatraux. Limportant est de
dcrire lhypothse H
0
, la statistique de test T et sa loi sous H
0
. Dcider si le test doit
tre unilatral gauche ou droite ou bien bilatral est le plus souvent aaire de bon
sens.
3.1.3 Seuil et p-valeur
La dnition 11 du paragraphe prcdent fait apparatre le seuil comme la proba-
bilit , xe a priori, que le test rejette lhypothse H
0
tort :
P
H
0
[ Rejet de H
0
] = .
Une fois les donnes recueillies, la valeur prise par la statistique de test sera calcule,
et la rponse sera binaire : rejet ou non de H
0
. On prfre souvent garder linformation
contenue dans la valeur de la statistique de test, en retournant le seuil limite auquel
H
0
aurait t rejete, compte tenu de lobservation.
Prenons lexemple (frquent) dune hypothse H
0
sous laquelle la statistique de test
T suit la loi normale N(0, 1). La rgle de rejet pour le test bilatral de seuil 0.05 est :
Rejet de H
0
T / [1.96 , +1.96] .
Supposons que la valeur prise par T soit 2.72. Lhypothse H
0
sera donc rejete. Mais
elle serait galement rejete au seuil 0.01. En fait elle serait rejete pour nimporte
quel seuil suprieur 0.00653, ce qui est un renseignement plus prcis quune simple
rponse binaire.
Dnition 31. Soit H
0
lhypothse nul le, T la statistique de test et F
0
sa fonction de
rpartition sous lhypothse H
0
. On suppose que F
0
est continue.
1. Pour un test bilatral (rejet des valeurs trop cartes) la p-valeur dune valeur t
prise par T est :
p(t) =
_
2F
0
(t) si F
0
(t) < 0.5 ,
2(1 F
0
(t)) si F
0
(t) 0.5 .
2. Pour un test unilatral droite (rejet des valeurs trop grandes) la p-valeur dune
valeur t prise par T est :
p(t) = 1 F
0
(t) .
61
STA230 Cours de Statistique UJF Grenoble
3. Pour un test unilatral gauche (rejet des valeurs trop petites) la p-valeur dune
valeur t prise par T est :
p(t) = F
0
(t) .
Cependant calculer une p-valeur pour un test bilatral est assez articiel. Au vu
de la valeur prise par T, on aura tendance eectuer plutt un test unilatral visant
dcider si la valeur observe est trop grande ou trop petite. Pour une statistique
de test suivant la loi N(0, 1), la valeur 2.72 est clairement droite de la distribution.
Le problme ne se pose plus de savoir si elle est trop petite, mais plutt si elle est
signicativement trop grande. En pratique, pour une statistique de test de fonction de
rpartition F
0
sous H
0
, on dnira souvent la p-valeur de la valeur t par :
p(t) = min{F
0
(t) , 1F
0
(t)} .
La connaissance de la p-valeur rend inutile le calcul pralable de la rgion de rejet : si
p(t) est la p-valeur dune observation t sous lhypothse H
0
, on obtient un test de seuil
par la rgle de rejet :
Rejet de H
0
p(T) < .
Dans le cas continu, ceci revient remplacer la statistique T par F
0
(T) ou 1 F
0
(T).
Sous lhypothse H
0
, ces deux statistiques suivent la loi uniforme U(0, 1).
Quand la statistique de test est discrte, il faut inclure la valeur observe dans lin-
tervalle dont on calcule la probabilit. Pour un test unilatral gauche, cela ninduit
pas de changement : F
0
(t) est la probabilit que T soit infrieure ou gale t. Pour
un test unilatral droite sur une variable valeurs dans N (le cas le plus frquent) il
faudra calculer 1F
0
(t1). Supposons par exemple que la loi de T soit la loi binomiale
B(100, 0.5), la p-valeur de 60 est la probabilit que T soit suprieure ou gale 60,
savoir :
1 F
B(100,0.5)
(59) = 0.0284 .
Reprenons lexemple du paragraphe prcdent : sur 100 malades, le mdicament en
a guri 83, comparer avec le pourcentage de gurison sans traitement de 74%. Sous
lhypothse H
0
, le nombre de gurisons suit la loi binomiale B(100, 0.74). La probabilit
quune variable alatoire de loi B(100, 0.74) prenne une valeur suprieure ou gale 83
est :
1 F
B(100,0.74)
(82) = 0.0227 .
Si comme dans le paragraphe prcdent, on utilise lapproximation normale, le calcul
donne :
1 F
_
_
83 74
_
100(0.74(1 0.74))
_
_
= 1 F(2.0518) = 0.0201 .
62
STA230 Cours de Statistique UJF Grenoble
3.1.4 Risques et puissance
Jusquici nous navons test quune seule hypothse de modlisation H
0
. La seule
erreur qui pouvait tre quantie consistait rejeter H
0
tort. La probabilit de cette
erreur est le seuil du test. Ne pas rejeter H
0
signie seulement que rien ne sest produit
qui permette de la mettre en doute. Cela ne signie pas que H
0
soit vraie (les lois
de probabilit nexistent pas dans la nature). Nous allons nous placer dsormais dans
une situation o deux modles sont en comptition. Les donnes disponibles devront
nous permettre de prendre une dcision sur H
0
, par rfrence une autre hypothse
H
1
. On dit alors quon teste H
0
contre H
1
.
Prenons lexemple dun indicateur physiologique T (taux dune certaine substance dans
le sang) dont une valeur leve est un symptme dune certaine maladie. Comme dhabi-
tude, on considrera que le taux observ sur un individu est la ralisation dune certaine
variable alatoire. Supposons que des tudes antrieures aient montr que chez un sujet
sain, la valeur de T suit la loi N(1, 0.09), alors que chez un sujet malade, elle suit la loi
N(2, 0.16). Si la maladie est peu grave, et que le traitement comporte des risques pour
le patient, le mdecin choisira de privilgier lhypothse que son patient est en bonne
sant : ce sera son hypothse nulle H
0
. Elle sera teste par un test unilatral droite
(rejet des valeurs de T trop grandes). Au seuil = 0.05, la rgle de dcision est :
Rejet de H
0
T > l
0
= Q
N(1,0.09)
(0.95) = 1.493 .
On dcidera donc que le patient est malade si son taux est suprieur l
0
= 1.493. Le
seuil mesure le risque de rejeter H
0
tort (dclarer malade un individu sain). Mais un
autre risque consiste ne pas rejeter H
0
alors que H
1
est vraie (ne pas diagnostiquer
la maladie alors que le patient est eectivement atteint). On note la probabilit
correspondante :
= P
H
1
[ Ne pas rejeter H
0
] .
Ici la loi de T sous lhypothse H
1
est la loi normale N(2, 0.16) et donc :
= F
N(2,0.16)
(l
0
) = 0.1027 .
Rejeter H
0
tort est lerreur de premire espce et le seuil est le risque de premire
espce. Ne pas rejeter H
0
tort est lerreur de deuxime espce et la probabilit de
cette erreur est le risque de deuxime espce. La probabilit 1 de rejeter H
0
sous H
1
sappelle la puissance du test.
Comme nous lavons montr en exemple, il se peut que le risque de deuxime espce
soit assez important, alors que le seuil est x en dnissant le test. Lerreur de
premire espce est celle que lon choisit de matriser, quitte ignorer le risque de
deuxime espce. Cela induit une dissymtrie dans le traitement des deux hypothses.
La rgle de rejet du test est dnie uniquement partir de et H
0
. Entre deux
alternatives, on choisira pour H
0
lhypothse quil serait le plus grave de rejeter tort.
63
STA230 Cours de Statistique UJF Grenoble
Reprenons lexemple du diagnostic mais supposons maintenant que la maladie est
potentiellement trs grave, mais facilement soignable. Le danger serait de ne pas la
dtecter. Le mdecin choisira comme hypothse nulle lhypothse que le patient est
atteint.
H
0
: T suit la loi N(2, 0.16) .
Le test sera cette fois unilatral gauche (rejet des valeurs trop faibles). Au seuil
= 0.05, la rgle de dcision est :
Rejet de H
0
T < l
1
= Q
N(2,0.16)
(0.05) = 1.342 .
On constate que l
1
est infrieur l
0
. Ce test est donc dirent du prcdent. Selon la
valeur de T, les dcisions peuvent concider ou non.
Si T < l
1
: acceptation de H
0
et rejet de H
0
, les dcisions sont cohrentes.
Si l
1
< T < l
0
: acceptation de H
0
et de H
0
, rsultat non interprtable.
Si T > l
0
: rejet de H
0
et acceptation de H
0
, les dcisions sont cohrentes.
3.2 Tests paramtriques classiques
3.2.1 chantillons gaussiens
Les donnes observes sont modlises par un chantillon de la loi normale N(,
2
)
dont lesprance et la variance
2
sont a priori inconnues. Sous ces hypothses, des
rsultats thoriques prcisent les lois des estimateurs naturels de et
2
que sont
la moyenne et la variance empiriques. Ce sont les mmes que pour les intervalles de
conance. Nous les rappelons.
Thorme 6. Soit (X
1
, . . . , X
n
) un chantil lon de la loi N(,
2
). On note :
X =
1
n
n
i=1
X
i
la moyenne empirique,
S
2
=
1
n
n
i=1
(X
i
X)
2
la variance empirique.
Alors :
1.
_
n
2
_
X
_
suit la loi normale N(0, 1).
2.
n1
S
2
_
X
_
suit la loi de Student T (n1).
3.
nS
2
2
suit la loi du khi-deux X
2
(n1).
Le point 1 permet de tester des hypothses portant sur la valeur de , quand
est connu. Cest la situation typique du contrle de qualit. Considrons une machine
destine la fabrication de comprims devant peser 1 gramme. Aucun comprim, sil est
mesur au microgramme prs, ne pse 1 gramme exactement. Les poids des comprims
64
STA230 Cours de Statistique UJF Grenoble
sont en moyenne de 1g, avec un cart-type li aux caractristiques de la machine,
qui est connu (par exemple = 0.01g). Le contrle de qualit consistera prlever
priodiquement un chantillon de comprims dont on calcule le poids moyen pour tester
quil ne scarte pas trop de la valeur de rfrence. Par exemple, si sur un chantillon
de 10 comprims on observe un poids moyen de 0.995, la statistique de test prend la
valeur
10(0.995 1)/0.01 = 1.581, dont la p-valeur par rapport la loi normale
N(0, 1) est :
F
N(0,1)
(1.581) = 0.0569 .
Si la variance est inconnue, on peut utiliser le point 2 de la mme manire. Reprenons
les mmes donnes en supposant que lcart-type de 0.01 a t observ. La statistique
de test prend la valeur
9(0.995 1)/0.01 = 1.5, dont la p-valeur par rapport la
loi de Student T (9) est :
F
T (9)
(1.5) = 0.0839 .
On peut utiliser le point 3 pour tester la valeur de lcart-type. Toujours sur un chan-
tillon de 10 comprims, supposons quon ait observ un cart-type de 0.013. On souhaite
tester si cette valeur est signicativement trop grande par rapport la valeur de rf-
rence = 0.01. La statistique de test prend la valeur 10(1.3)
2
= 16.9. Pour la loi de
khi-deux X
2
(9), la p-valeur correspondante est :
1 F
X
2
(9)
(16.9) = 0.0503 .
3.2.2 Test sur la moyenne dun grand chantillon
Dans le cas dun chantillon de grande taille, le thorme central limite permet
darmer que la moyenne empirique suit approximativement une loi normale, sans
quil y ait besoin de supposer que lchantillon est gaussien.
Thorme 7. Soit (X
1
, . . . , X
n
) un chantil lon dune loi de probabilit quelconque,
desprance et de variance
2
nies. On note :
X =
1
n
n
i=1
X
i
la moyenne empirique,
S
2
=
1
n
n
i=1
(X
i
X)
2
la variance empirique.
Quand n tend vers linni, la loi de la variable alatoire :
n
X
S
2
converge vers la loi normale N(0, 1).
On utilise ce rsultat pour tester les valeurs de lesprance, exactement comme pour
un chantillon gaussien.
65
STA230 Cours de Statistique UJF Grenoble
Considrons par exemple des dures de vie de composants lectroniques. En g-
nral, elles ont des distributions trs dissymtriques, et leurs histogrammes sont loin
de ressembler une courbe en cloche : on ne peut pas considrer quelles suivent des
lois normales. Imaginons que le constructeur garantisse une dure de vie moyenne de
1000 heures. Un organisme indpendant doit valider cette armation. Cet organisme
observe la dure de vie de 200 composants, et calcule une dure de vie moyenne de
943 heures, avec un cart-type de 267 heures. Est-ce susant pour mettre en doute la
parole du constructeur ?
Avec n = 200, X
1
, . . . , X
n
sont les dures de vie des n composants, X prend la
valeur 943 et S
2
(la variance empirique) prend la valeur 267
2
. Sous lhypothse H
0
(le
point de vue du constructeur), lesprance des X
i
est = 1000. La valeur prise par la
variable centre rduite est :
200
943 1000
267
= 3.019 ,
et la p-valeur pour le test unilatral gauche (rejet des valeurs trop faibles) est
F(3.019) = 0.0013 : cest une mauvaise nouvelle pour le constructeur !
3.2.3 Test sur la valeur dun quantile
Ici, le modle de base est celui dun chantillon dune loi inconnue P. Les n donnes
sont donc supposes tre des ralisations de variables alatoires indpendantes, de mme
loi P. Dans un premier temps, lhypothse H
0
portera sur la valeur dun quantile de
P.
Prenons le cas dun traitement cens faire baisser le taux de cholestrol. Pour chaque
individu i dun groupe de patients, la dirence X
i
entre le taux aprs et avant traite-
ment est mesure. Certaines de ces dirences sont ngatives (diminutions), dautres
positives (augmentations). Lhypothse H
0
est que le traitement na pas deet signi-
catif. On rejettera H
0
(on dcidera que le traitement est ecace) si susamment de
baisses ont t observes. Si H
0
est vraie, la mdiane de la loi P des X
i
est nulle. En
eet, si le mdicament na aucun eet, il y a autant de chances dobserver une hausse
quune baisse, et la dirence est donc positive ou ngative avec probabilit 1/2.
Prenons pour statistique de test le nombre de baisses :
T =
n
i=1
I
(,0]
(X
i
) ,
La notation I
A
(x) dsignant la fonction indicatrice de lensemble A, qui vaut 1 si x A
et 0 sinon. et T suit la loi binomiale B(n, 0.5).
Nous gnralisons la situation la valeur dun quantile quelconque.
Proposition 12. Soit (X
1
, . . . , X
n
) un chantil lon de la loi P, de fonction quantile Q.
Soit u ]0, 1[ un rel x. Considrons lhypothse nul le :
H
0
: Q(u) = q
0
,
66
STA230 Cours de Statistique UJF Grenoble
o q
0
est un rel x. Soit T le nombre dlments de lchantil lon infrieurs q
0
:
T =
n
i=1
I
(,q
0
]
(X
i
) .
Sous lhypothse H
0
, T suit la loi binomiale B(n, u).
Le cas particulier o u = 0.5 et q
0
= 0, prsent en exemple ci-dessus, porte le nom
de test des signes. Supposons que sur 46 individus on ait observ 29 baisses du taux de
cholestrol. La p-valeur correspondante est :
p(29) = 1 F
B(46,0.5)
(28) = 0.0519 .
Pour un chantillon de grande taille, on peut remplacer la loi binomiale par son
approximation normale. Sous H
0
, la statistique centre rduite :
T
=
T nu
_
nu(1u)
,
suit la loi normale N(0, 1). Dans lexemple ci-dessus, T
n 1
X
S
2
67
STA230 Cours de Statistique UJF Grenoble
prend la valeur 4.0249, et la p-valeur correspondante est :
F
T (45)
(4.0249) = 0.0001079 .
Si on utilise lapproximation normale,
n
X
S
2
prend la valeur 4.0694, et la p-valeur correspondante est :
F
N(0,1)
(4.0249) = 0.0000024 .
Quelle que soit la manire de calculer, nous conclurons que la baisse est signicative.
3.3 Comparaison dchantillons indpendants
3.3.1 Test de Fisher
Les tests de Fisher et Student servent comparer les moyennes et les variances de
deux chantillons, supposs gaussiens et indpendants. Prenons lexemple dun traite-
ment destin diminuer le taux de cholestrol. Des taux sont mesurs sur une popula-
tion tmoin sans traitement, puis sur des individus ayant reu un traitement. Le taux
moyen avec traitement est infrieur (du moins lespre-t-on) au taux moyen du groupe
tmoin. La question est de savoir si la dirence observe est susante pour rejeter
lhypothse H
0
que le traitement na pas deet.
Pour le modle probabiliste, on considre deux chantillons indpendants :
(X
1
, . . . , X
nx
) est un chantillon de la loi N(
x
,
2
x
),
(Y
1
, . . . , Y
ny
) est un chantillon de la loi N(
y
,
2
y
).
On note :
X =
1
n
x
nx
i=1
X
i
et Y =
1
n
y
ny
j=1
Y
j
les moyennes empiriques,
S
2
x
=
1
n
x
nx
i=1
(X
i
X)
2
et S
2
y
=
1
n
y
ny
j=1
(Y
j
Y )
2
les variances empiriques.
Le rsultat thorique permettant de comparer les moyennes empiriques suppose que
lon fasse lhypothse que les variances thoriques
2
x
et
2
y
sont gales. Le but du test
de Fisher est de tester cette hypothse :
H
0
:
2
x
=
2
y
.
Dans un chantillon gaussien, le rapport de la variance empirique la variance tho-
rique, multipli par la taille de lchantillon, suit une loi du khi-deux. Le rapport
pondr de deux variables alatoires suivant des lois du khi-deux indpendantes suit
une loi de Fisher.
68
STA230 Cours de Statistique UJF Grenoble
Thorme 8. Le rapport :
n
x
n
x
1
S
2
x
2
x
n
y
n
y
1
S
2
y
2
y
suit la loi de Fisher F(n
x
1, n
y
1).
La statistique du test de Fisher est :
T =
nx
nx1
S
2
x
ny
ny1
S
2
y
.
Si H
0
est exacte, T suit la loi F(n
x
1, n
y
1). On rejettera H
0
si la valeur observe
pour T est trop grande ou trop petite. Cest donc un test bilatral dont la rgle de
rejet au seuil est :
Rejet de H
0
T / [ Q
F(nx1,ny1)
(/2) , Q
F(nx1,ny1)
(1 /2) ] .
Supposons que sur les 30 patients du groupe tmoin on ait observ un taux de choles-
trol moyen de 240mg/dl avec un cart-type de 40mg/dl. Sur les 20 patients du groupe
trait, on a observ un taux moyen de 210mg/dl avec un cart-type de 50mg/dl. La
statistique du test de Fisher prend la valeur 0.629, qui correspond une p-valeur (pour
le test bilatral) de :
2F
F(29,19)
(0.629) = 0.2538 .
On acceptera donc lhypothse dgalit des variances.
3.3.2 Test de Student
Sous lhypothse dgalit des variances, le thorme suivant permet dvaluer les
dirences entre moyennes empiriques.
Thorme 9. Si
x
=
y
, la variable alatoire :
n
x
+n
y
2
_
1
nx
+
1
ny
(X Y ) (
x
y
)
_
n
x
S
2
x
+n
y
S
2
y
,
suit la loi de Student T (n
x
+n
y
2).
Ce rsultat permet de tester lhypothse :
H
0
:
x
=
y
,
en comparant la valeur prise par la statistique :
n
x
+n
y
2
_
1
nx
+
1
ny
(X Y )
_
n
x
S
2
x
+n
y
S
2
y
,
69
STA230 Cours de Statistique UJF Grenoble
aux quantiles de la loi de Student T (n
x
+n
y
2). Cette procdure porte le nom de test
de Student.
Supposons encore que sur les 30 patients du groupe tmoin on ait observ un taux
de cholestrol moyen de 240mg/dl avec un cart-type de 40mg/dl. Sur les 20 patients
du groupe trait, on a observ un taux moyen de 210mg/dl avec un cart-type de
50mg/dl. Nous avons vu que le test de Fisher permet daccepter lhypothse dgalit
des variances. La statistique du test de Student prend la valeur 2.30, soit une p-valeur
de :
1 F
T (48)
(2.30) = 0.0129 .
On rejette H
0
au seuil = 0.05, la baisse est dclare signicative.
3.3.3 Normalit asymptotique
Lhypothse de normalit, sous laquelle les tests de Fisher et Student sont valides
nest pas toujours vrie. Pour des chantillons de grande taille, le thorme central
limite assure la normalit asymptotique des moyennes empiriques. Le rsultat suivant
ne suppose ni que les chantillons sont gaussiens ni que leurs variances sont gales.
Thorme 10. Quand n
x
et n
y
tendent vers linni, la loi de la variable alatoire :
(X Y ) (
x
y
)
_
S
2
x
nx
+
S
2
y
ny
,
converge vers la loi normale N(0, 1).
Reprenons les donnes de lexemple prcdent. La statistique :
X Y
_
S
2
x
nx
+
S
2
y
ny
,
prend la valeur 2.246, dont la p-valeur par rapport la loi N(0, 1) est :
1 F
N(0,1)
(2.246) = 0.0123 .
En pratique, il est prodent de rserver lapproximation normale aux valeurs de n
x
et
n
y
au moins gales 100.
3.4 Test dajustement
3.4.1 Distance du khi-deux
Le test du khi-deux concerne uniquement les lois discrtes, mais on peut lutiliser
aussi pour des chantillons continus regroups en classes. Le modle de base est toujours
70
STA230 Cours de Statistique UJF Grenoble
un chantillon (X
1
, . . . , X
n
) dune loi inconnue. Les classes, notes c
1
, . . . , c
r
, sont une
partition de lensemble des valeurs possibles. Lhypothse tester porte sur les proba-
bilits des classes, pour lesquelles on se donne des valeurs thoriques P
0
(c
1
) . . . , P
0
(c
r
).
H
0
: P[X
i
c
k
] = P
0
(c
k
) , k = 1, . . . , r .
Sous lhypothse H
0
, la distribution empirique de lchantillon sur les classes doit tre
proche de la distribution thorique. La distribution empirique est celle des frquences
de lchantillon dans les classes :
P(c
k
) =
1
n
n
i=1
I
c
k
(X
i
) .
On mesure ladquation de la distribution empirique la distribution thorique par la
distance du khi-deux.
Dnition 32. On appelle distance du khi-deux de
P par rapport P
0
, et on note
D
2(P
0
,
P), la quantit :
D
2(P
0
,
P) =
r
h=1
(P
0
(c
h
)
P(c
h
))
2
P
0
(c
h
)
.
La distance du khi-deux est donc une moyenne pondre dcarts quadratiques
entre les valeurs de P
0
et
P. Ce nest pas une distance au sens usuel du terme, puisquelle
nest mme pas symtrique.
La loi de probabilit de D
2(P
0
,
P) na pas dexpression explicite en gnral. On
utilise le rsultat suivant.
Thorme 11. Sous lhypothse H
0
, la loi de la variable alatoire
nD
2(P
0
,
P) converge quand n tend vers linni, vers la loi du khi-deux de paramtre
r1.
Si lhypothse H
0
est fausse, alors la variable nD
2(P
0
,
P) tend vers linni. Cest
donc un test unilatral droite que lon appliquera (rejet des trop grandes valeurs).
En pratique, la statistique du test du khi-deux se calcule sous la forme suivante :
T = nD
2 =
r
h=1
(n
th
(c
h
) n
ob
(c
h
))
2
n
th
(c
h
)
,
o :
n
th
(c
h
) est leectif thorique de la classe c
h
, savoir le produit nP
0
(C
h
),
n
ob
(c
h
) est leectif observ de la classe c
h
.
71
STA230 Cours de Statistique UJF Grenoble
Lexemple classique dapplication du test est lexprience de Mendel. Chez les pois,
le caractre couleur est cod par un gne prsentant deux formes allles C et c, corres-
pondant aux couleurs jaune et vert. Le jaune est dominant, le vert rcessif. La forme,
rond ou rid, est porte par un autre gne deux allles R (dominant) et r (rcessif).
Si on croise deux individus dont le gnotype est CcRr, on peut obtenir 16 gnotypes
quiprobables. Les descendants seront jaunes et ronds dans 9 cas sur 16, jaunes et rids
dans 3 cas sur 16, verts et ronds dans 3 cas sur 16, verts et rids dans 1 cas sur 16.
Dans ses expriences, Mendel a obtenu les rsultats suivants.
Jaune Jaune Vert Vert
Rond Rid Rond Rid
Eectif 315 101 108 32
P(c
h
) 0.567 0.182 0.194 0.058
P
0
(c
h
) 9/16 3/16 3/16 1/16
La valeur prise par la statistique nD
P(c
h
) 0.0572 0.2329 0.3758 0.2632 0.0709
P
0
(c
h
) 1/16 4/16 6/16 4/16 1/16
La valeur prise par la statistique nD
2(P
0
,
P) est 34.47. Daprs le thorme 11, la
rgion de rejet doit tre calcule par rfrence la loi de khi-deux de paramtre 51 = 4.
Par exemple, au seuil 0.05, on devrait rejeter les valeurs suprieures Q
X
2
(4)
(0.95) =
9.49. La p-valeur de 34.47 est 1 F
X
2
(4)
(34.47) = 5.97 10
7
. On peut donc rejeter
lhypothse H
0
.
3.4.2 Pratique du test
Le thorme 11 nest quun rsultat asymptotique. On ne peut lutiliser que pour des
tailles dchantillons au moins de lordre de la centaine. De plus lapproximation quil
dcrit est dautant moins bonne que les probabilits des classes sont faibles. Comme
rgle empirique, on impose parfois que leectif thorique nP(c
k
) de chaque classe soit
72
STA230 Cours de Statistique UJF Grenoble
au moins gal 8. Pour atteindre cet objectif, on peut tre amen eectuer des
regroupements de classes, consistant former une nouvelle classe par la runion de
plusieurs anciennes. Les frquences empiriques et les probabilits thoriques sajoutent
alors.
Le test du khi-deux est souvent utilis pour tester lajustement une famille particu-
lire dpendant dun ou plusieurs paramtres. Dans ce cas, on est amen estimer le
paramtre partir des donnes. Le thorme 11 nest alors plus tout fait valable. Si
on a estim h paramtres par la mthode du maximum de vraisemblance, partir des
frquences des direntes classes, on doit remplacer la loi X
2
(r1) par la loi X
2
(r1h).
Reprenons lexemple du nombre de garons dans les familles de 4 enfants, mais pour
tester cette fois-ci lhypothse nulle :
H
0
: le nombre de garons suit une loi binomiale B(4, p) .
Le paramtre p est inconnu et doit tre estim. Lestimateur du maximum de vraisem-
blance (qui maximise la probabilit des donnes observes) est ici le nombre total de
garons parmi les 40000 enfants. On trouve :
p = 0.5144 .
On applique alors le test, mais avec une distribution thorique calcule en tenant
compte de la valeur estime du paramtre : la loi B(4, p).
Garons 0 1 2 3 4
P(c
h
) 0.0572 0.2329 0.3758 0.2632 0.0709
P
0
(c
h
) 0.0556 0.2356 0.3744 0.2644 0.0700
La valeur prise par la statistique nD
2(P
0
,
P) en tenant compte de h
paramtres estims, une attitude prudente consistera :
rejeter H
0
si t > Q
X
2
(r1)
(1 ) ,
ne pas rejeter H
0
si t < Q
X
2
(r1h)
(1 ) ,
ne pas conclure si Q
X
2
(r1h)
(1 ) < t < Q
X
2
(r1)
(1 ) .
73
STA230 Cours de Statistique UJF Grenoble
3.5 Test dindpendance
3.5.1 Tableau de contingence
Le tableau de contingence est un moyen particulier de reprsenter simultanment
deux caractres observs sur une mme population, sils sont discrets ou bien continus
et regroups en classes. Les deux caractres sont x et y, la taille de lchantillon est n.
Les modalits ou classes de x seront notes c
1
, . . . , c
r
, celles de y sont notes d
1
, . . . , d
s
.
On note :
n
hk
leectif conjoint de c
h
et d
k
: cest le nombre dindividus pour lesquels x
prend la valeur c
h
et y la valeur d
k
,
n
h
=
s
k=1
n
hk
leectif marginal de c
h
: cest le nombre dindividus pour lesquels
x prend la valeur c
h
,
n
k
=
r
h=1
n
hk
leectif marginal de d
k
: cest le nombre dindividus pour lesquels
y prend la valeur d
k
.
On reprsente ces valeurs dans un tableau double entre, dit tableau de contingence :
x
\
y
d
1
. . . d
k
. . . d
s
total
c
1
n
11
. . . n
1k
. . . n
1s
n
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
c
h
n
h1
. . . n
hk
. . . n
hs
n
h
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
c
r
n
r1
. . . n
rk
. . . n
rs
n
r
total n
1
. . . n
k
. . . n
s
n
Chaque ligne et chaque colonne correspond un sous-chantillon particulier. La ligne
dindice h est la rpartition sur d
1
, . . . , d
s
, des individus pour lesquels le caractre x
prend la valeur c
h
. La colonne dindice k est la rpartition sur c
1
, . . . , c
r
, des individus
pour lesquels le caractre y prend la valeur d
k
. En divisant les lignes et les colonnes
par leurs sommes, on obtient sur chacune des distributions empiriques constitues de
frquences conditionnelles. Pour h = 1, . . . , r et k = 1, . . . , s, on les notera :
f
k|h
=
n
hk
n
h
et f
h|k
=
n
hk
n
k
.
Ces distributions empiriques conditionnelles sappellent les prols-lignes et prols-
colonnes.
Voici un exemple : les donnes proviennent de 137 patients atteints de cirrhose.
A certaiens dentre eux est administr un certain traitement, pendant que les autres
reoivent un placebo. Les stades dvolution de la maladie sont cods de 1 3. Le
caractre X est le traitement, deux modalits c
1
(placebo) et c
2
(traitement). Le
caractre Y est le stade dvolution, d
1
= 1 ou d
2
= 2 ou d
3
= 3. Voici la table de
74
STA230 Cours de Statistique UJF Grenoble
contingence observe.
Stade
1 2 3 Total
placebo 13 29 26 68
traitement 16 37 16 69
Total 29 66 42 137
Lenjeu principal est dtudier la dpendance des deux caractres. Dans notre exemple,
on souhaiterait savoir si les patients sous traitement sont dans des stades moins avancs
de la maladie. Voici les deux prols-lignes.
Stade
1 2 3 Total
placebo 0.191 0.426 0.382 1
traitement 0.232 0.536 0.232 1
Total 0.212 0.482 0.306 1
Eectivement, la proportion de patients dans le stade 3 est moins forte parmi les
patients sous traitement. Mais est-ce signicatif ?
3.5.2 Khi-deux de contingence
Deux caractres sont indpendants si la valeur de lun ninue pas sur les distribu-
tions des valeurs de lautre. Si cest le cas, les prols-lignes seront tous peu dirents
de la distribution empirique de y, et les prols-colonnes de celle de x :
f
k|h
=
n
hk
n
h
f
k
=
n
k
n
et f
h|k
=
n
hk
n
k
f
h
=
n
h
n
.
Cest quivalent dire que les frquences conjointes doivent tre proches des produits
de frquences marginales :
f
hk
=
n
hk
n
f
h
f
k
=
n
h
n
n
k
n
.
Les frquences conjointes dune part, et les produits de frquences marginales dautre
part, constituent deux distributions de probabilit sur lensemble produit {c
1
, . . . , c
r
}
{d
1
, . . . , d
s
}. Un des moyens de quantier leur proximit est de calculer la distance du
khi-deux de lune par rapport lautre. Dans ce cas particulier, on parle de khi-deux
de contingence.
Proposition 13. La distance du khi-deux de contingence de la distribution empirique
(f
hk
) la distribution thorique (f
h
f
k
) vaut :
D
2 =
r
h=1
s
k=1
(f
hk
f
h
f
k
)
2
f
h
f
k
= 1 +
r
h=1
s
k=1
n
2
hk
n
h
n
k
.
75
STA230 Cours de Statistique UJF Grenoble
Dmonstration : La premire expression est lapplication directe de la dnition 32.
Pour passer la seconde, on dveloppe le carr.
D
2 =
r
h=1
s
k=1
f
2
hk
f
h
f
k
2
r
h=1
s
k=1
f
hk
+
r
h=1
s
k=1
f
h
f
k
=
r
h=1
s
k=1
f
2
hk
f
h
f
k
2 + 1
= 1 +
r
h=1
s
k=1
n
2
hk
n
h
n
k
.
La distance du khi-deux vaut 0 si les deux caractres sont indpendants. Elle est
maximale sil existe une dpendance systmatique. Supposons r =s et y =f(x), pour
une certaine fonction bective f. Sur chaque ligne et chaque colonne du tableau de
contingence, une seule case est non nulle et la distance du khi-deux vaut (r1).
Voici le calcul pour lexemple du paragraphe prcdent.
D
2 = 1 +
13
2
29 68
+
29
2
66 68
+
26
2
42 68
+
16
2
29 69
+
37
2
66 69
+
16
2
42 69
= 0.02667 .
Daprs ce qui a t dit prcdemment, pour n assez grand, on peut approcher la loi
de nD
2 par une loi du khi-deux, dont le paramtre est le nombre de classes moins 1,
diminu du nombre de paramtres estims partir des donnes groupes en classes. Ici,
ce sont les frquences marginales qui ont t estimes. Il y en a r1 pour le caractre
X, et s1 pour le caractre Y (la dernire est le complment 1 de la somme des
autres). Le paramtre de la loi du khi-deux sera donc :
rs 1 (r 1) (s 1) = (r 1)(s 1) .
Dans lexemple des patients atteints de cirrhose, nous avons trouv une valeur de la
distance du khi-deux de 0.02667, pour une table r = 2 lignes et s = 3 colonnes.
La statistique de test, nD
i=1
(x
i
x)(y
i
y) .
Cette dnition tend celle de la variance dans la mesure o s
2
x
= c
xx
. La covariance
est symtrique (c
xy
= c
yx
) et bilinaire : si x et x
deux rels et x
= ax +a
, alors :
c
x
y
= ac
xy
+a
c
x
y
.
Pour le calcul pratique, on utilise la formule suivante :
79
STA230 Cours de Statistique UJF Grenoble
Proposition 14. La covariance de x et y scrit :
c
xy
=
1
n
n
i=1
x
i
y
i
x y .
La covariance est la moyenne des produits moins le produit des moyennes.
Dmonstration : Il sut de dvelopper les produits :
c
xy
=
1
n
n
i=1
(x
i
x)(y
i
y)
=
1
n
n
i=1
(x
i
y
i
xy
i
x
i
y +x y)
=
_
1
n
n
i=1
x
i
y
i
_
x y .
i=1
(y
i
f(x
i
))
2
. (2)
On parle alors de rgression au sens des moindres carrs. Les dirences entre les valeurs
observes y
i
et les valeurs prdites par le modle f(x
i
) sappellent les rsidus. Si le
modle est ajust de sorte que la srie des rsidus soit centre (de moyenne nulle), alors
lerreur quadratique EQ(f) est la variance des rsidus. La rgression linaire simple
consiste chercher f parmi les applications anes. La solution sexprime simplement
laide des caractristiques numriques de x et y.
Proposition 16. Soient x et y deux chantil lons recueil lis sur une mme population
de tail le n. Notons EQ(a, b) la fonction de R
2
dans R
+
dnie par :
EQ(a, b) =
1
n
n
i=1
(y
i
ax
i
b)
2
.
Si s
2
x
= 0 (le caractre x nest pas constant), la fonction EQ(a, b) admet un minimum
pour :
a =
c
xy
s
2
x
et
b = y ax .
La valeur de ce minimum est :
EQ( a,
b) = s
2
y
(1 r
2
xy
) .
Dnition 35. On appelle droite de rgression linaire de y sur x la droite dquation
y = ax +
b.
Dmonstration : Si a est x, EQ(a, b) est un polynme de degr 2 en b. Il atteint son
minimum pour b = b(a) tel que la drive sannule. Soit :
EQ(a, b)
b
=
2
n
n
i=1
(y
i
ax
i
b) = 2(y ax b) = 0
On a donc b(a) = y ax. Reportons cette valeur dans EQ(a, b) :
EQ(a, b(a)) =
1
n
n
i=1
((y
i
y) a(x
i
x))
2
.
Cette fonction est un polynme de degr 2 en a, qui atteint son minimum au point a
o sa drive sannule, savoir :
2
n
n
i=1
(x
i
x)((y
i
y) a(x
i
x)) = 0 ,
82
STA230 Cours de Statistique UJF Grenoble
soit en dveloppant :
2c
xy
+ 2 as
2
x
= 0 .
Posons donc :
a =
c
xy
s
2
x
et
b = b( a) = y ax .
On a bien pour tout (a, b) :
EQ( a,
b) =
1
n
n
i=1
((y
i
y)
c
xy
s
2
x
(x
i
x))
2
= s
2
y
2
c
2
xy
s
2
x
+
c
2
xy
s
4
x
s
2
x
= s
2
y
c
2
xy
s
2
x
= s
2
y
(1 r
2
xy
) .
Comme on pouvait sy attendre lerreur quadratique minimale est dautant plus faible
que la corrlation est forte.
Il est important de noter la dissymtrie des rles de x et y. Par rapport au nuage de
points, la droite de rgression linaire de y sur x minimise la somme des distances
verticales des points la droite. La droite de rgression linaire de x sur y minimise la
somme des distances horizontales. Les deux droites se coupent au centre de gravit (x, y)
du nuage de points. Lcart entre les deux est dautant plus grand que la corrlation
est faible.
La prdiction est la premire application de la rgression linaire. Voici les tailles
en centimtres (chantillon x) et poids en kilogrammes (y) de 10 enfants de 6 ans.
Enfant 1 2 3 4 5 6 7 8 9 10
Taille 121 123 108 118 111 109 114 103 110 115
Poids 25 22 19 24 19 18 20 15 20 21
Les caractristiques numriques prennent les valeurs suivantes :
x y s
2
x
s
2
y
r
xy
a
b EQ( a,
b)
113.2 20.3 34.76 7.61 0.9 0.42 27.38 1.44
Eectuer une rgression linaire signie que lon pense que le poids doit crotre
en gros proportionnellement la taille. La droite de rgression linaire constitue un
modle de prdiction. Par exemple, on armera que le poids moyen dun enfant de 6
83
STA230 Cours de Statistique UJF Grenoble
100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130
10
12
14
16
18
20
22
24
26
28
30
Poids
Tailles
+
+
+
+
+
+
+
+
+
+
Fig. 14 Tailles et poids denfants de 6 ans : droite de rgression linaire.
ans mesurant 120 centimtres sera de a120+
= log(y) y
= log(a) +bx
y = ax
b
y
= log(y) x
= log(x) y
= log(a) +bx
y = a +b/x x
= 1/x y = a +bx
y = 1/(1 + e
(ax+b)
) y
= log(y/(1y)) y
= ax +b
4.2 Modle linaire
4.2.1 Intervalles de conance et de prdiction
Les chantillons gaussiens sont souvent utiliss pour modliser les erreurs dans
les modles de rgression. Ces modles visent expliquer un caractre Y (considr
comme alatoire) par des caractres (considrs comme dterministes) (x
(1)
, . . . , x
(k)
).
On choisit une fonction de rgression f, dpendant en gnral de plusieurs paramtres
inconnus, et on crit les variables alatoires Y
i
sous la forme :
Y
i
= f(x
(1)
i
, . . . , x
(k)
i
) +E
i
,
o (E
1
, . . . , E
n
) est un n-uplet de variables alatoires indpendantes et de mme loi.
Les paramtres inconnus de f seront estims par la mthode des moindres carrs, en
minimisant lerreur quadratique :
EQ(f) =
1
n
n
i=1
(Y
i
f(x
(1)
i
, . . . , x
(k)
i
))
2
.
85
STA230 Cours de Statistique UJF Grenoble
Dans le cas o la fonction f est ane et (E
1
, . . . , E
n
) est un chantillon gaussien, on
peut dterminer explicitement la loi des estimateurs des moindres carrs, et en dduire
des intervalles de conance.
Nous considrons seulement le modle linaire simple :
Y
i
= ax
i
+b +E
i
,
o E
i
est un chantillon de la loi normale N(0,
2
). En dautres termes, on suppose
que les Y
i
sont des variables alatoires gaussiennes indpendantes, desprances ax
i
+b
distinctes, mais de mme variance
2
. Le modle comporte 3 paramtres inconnus, a,
b, et
2
. On estime a et b en minimisant lerreur quadratique :
EQ(a, b) =
1
n
n
i=1
(Y
i
ax
i
b)
2
.
On obtient ainsi les estimateurs dits des moindres carrs :
A =
c
xY
s
2
x
et B = Y Ax .
Lerreur quadratique minimale est :
EQ(A, B) = S
2
Y
(1 r
2
xY
) .
Ces trois variables alatoires sont des estimateurs convergents de a, b et
2
respective-
ment. Les deux premiers sont non biaiss. Lesprance de EQ(A, B) est
n2
n
2
, il est
donc asymptotiquement sans biais. On obtient un estimateur sans biais et convergent
de
2
en posant :
2
=
n
n 2
EQ(A, B) .
La prdiction est le premier objectif dun modle probabiliste. Dans le cas de la
rgression linaire, si un nouvel individu tait examin, avec une valeur observe x
+ b,
2
). Les paramtres de
cette loi auront pour estimateurs Ax
+B et EQ(A, B) respectivement.
Le thorme suivant permet de calculer les lois de ces estimateurs, et donc des inter-
valles de conance. On peut le considrer comme une extension du thorme donnant
les lois de lesprance et de la variance empirique pour un chantillon gaussien.
Thorme 12. Avec les notations prcdentes :
1.
ns
2
x
2
(A a) suit la loi normale N(0, 1).
2.
ns
2
x
2
(A a) suit la loi de Student T (n 2).
86
STA230 Cours de Statistique UJF Grenoble
3.
_
ns
2
x
2
(s
2
x
+ (x
x)
2
)
(Ax
+B ax
_
ns
2
x
2
(s
2
x
+ (x
x)
2
)
(Ax
+B ax
2
suit la loi du khi-deux X
2
(n2).
On utilise ces rsultats pour en dduire des intervalles de conance. Nous notons
[u
, u
], [t
, t
] et [x
, x
_
2
ns
2
x
, A +u
_
2
ns
2
x
_
_
.
2. Intervalle de conance pour a, si
2
est inconnu.
_
_
A t
_
2
ns
2
x
, A +t
_
2
ns
2
x
_
_
.
3. Intervalle de conance pour ax
+b, si
2
est connu.
_
_
Ax
+B u
2
(s
2
x
+ (x
x)
2
)
ns
2
x
_
_
.
4. Intervalle de conance pour ax
+b, si
2
est inconnu.
_
_
Ax
+B t
_
2
(s
2
x
+ (x
x)
2
)
ns
2
x
_
_
.
5. Intervalle de conance pour
2
.
_
(n 2)
2
x
, (n 2)
2
x
_
.
Si on souhaite prdire la valeur de Y
= ax
+b +E
+b mais
aussi de la variance
2
de E
+B t
_
2
((n+1)s
2
x
+ (x
x)
2
)
ns
2
x
_
_
.
87
STA230 Cours de Statistique UJF Grenoble
titre dexemple, considrons les tailles en centimtres (x
i
) et poids en kilogrammes
(y
i
) de 10 enfants de 6 ans.
Enfant 1 2 3 4 5 6 7 8 9 10
Taille 121 123 108 118 111 109 114 103 110 115
Poids 25 22 19 24 19 18 20 15 20 21
Les caractristiques numriques prennent les valeurs suivantes :
x Y s
2
x
s
2
Y
r
xY
A B EQ(A, B)
113.2 20.3 34.76 7.61 0.9 0.42 27.38 1.44
Eectuer une rgression linaire signie que lon pense que le poids doit crotre en gros
proportionnellement la taille. La droite de rgression linaire constitue un modle de
prdiction. Pour un enfant de taille donne, on donnera un intervalle de poids, considr
comme normal, la normalit tant dnie par rfrence au modle et aux donnes.
Voici les intervalles de prdiction de niveau 0.95 pour direntes tailles.
taille intervalle de poids
100 [10.82 , 18.67]
110 [15.65 , 22.25]
120 [19.72 , 26.61]
130 [23.09 , 31.66]
Les intervalles de prdiction sont dautant moins prcis que la taille de lchantillon
initial tait faible et que la valeur de x
ns
2
x
2
A .
Pour le test bilatral de seuil , la rgle de dcision est :
Rejet de H
0
T / [ Q
T (n2)
(/2) , Q
T (n2)
(1 /2) ] .
88
STA230 Cours de Statistique UJF Grenoble
80 85 90 95 100 105 110 115 120 125 130 135 140 145 150
10
13
16
19
22
25
28
31
34
37
40
Tailles
Poids
+
+
+
+
+
+
+
+
+
+
Fig. 16 Tailles et poids denfants de 6 ans : droite de rgression linaire et intervalles
de prdiction.
4.2.3 tude des rsidus
Rappelons que dans le modle initial, nous avons suppos pour tout i entre 1 et n,
Y
i
= ax
i
+b +E
i
,
o les rsidus E
i
forment un chantillon de la loi normale N(0,
2
). En dautres termes,
on suppose que les Y
i
sont des variables alatoires gaussiennes indpendantes, desp-
rances ax
i
+b distinctes, mais de mme variance
2
.
Le test de pertinence de la rgression permet de dcider si a est nul ou non. Cela
ne permet pas pour autant de valider le modle. Pour cela nous devons vrier que les
donnes observes ne sont pas incompatibles avec lhypothse que les rsidus sont des
variables alatoires indpendantes et de mme loi N(0,
2
).
Les valeurs exactes de ces rsidus sont et resteront inconnues. On les estimera donc
par :
E
i
= Y
i
(Ax
i
+B) .
On dmontre que sous les hypothses du modle,
E[
E
i
= 0] et V ar(
E
i
) =
2
_
n 1
n
(x
i
x)
2
ns
2
x
_
.
89
STA230 Cours de Statistique UJF Grenoble
Il est donc raisonnable de rduire les rsidus estims en les divisant par leur cart-type.
On obtient ainsi les rsidus dits studentiss.
Dnition 36. On appelle rsidus studentiss les quantits :
E
(stud)
i
=
E
i
_
n1
n
(x
i
x)
2
ns
2
x
.
On dmontre que les rsidus studentiss suivent chacun la loi de Student T (n2).
Ceci permet de tester quils ne prennent pas de valeur trop grande en valeur absolue.
Pour aller plus loin, on reprsente le graphe des rsidus, qui est le nuage des points
de coordonnes (x
i
,
E
(stud)
i
). Si le modle est correct, ces rsidus doivent tre distribus
comme pour un chantillon de la loi T (n 2) : on ne devrait pas voir apparatre de
dpendance en les x
i
, on devrait trouver peu prs autant de valeurs au-dessus et au-
dessous de laxe des abscisses. . . Si le graphe des rsidus fait apparatre une dpendance
en les x
i
, alors le modle ne peut pas tre utilis pour faire de la prdiction.
90