Vous êtes sur la page 1sur 18

Statistique (MATH-F-315, Cours #1)

Thomas Verdebout

Universit Libre de Bruxelles

2015

Plan de la partie Statistique du cours

1. Introduction.
2. Thorie de lestimation.
3. Tests dhypothses et intervalles de confiance.
4. Rgression.
5. ANOVA.

Plan de la partie Statistique du cours

1. Introduction.
2. Thorie de lestimation.
3. Tests dhypothses et intervalles de confiance.
4. Rgression.
5. ANOVA.

Motivation

La Statistique
Ensemble de mthodes et outils mathmatiques visant collecter, dcrire et
analyser des donnes afin dobtenir de linformation permettant de prendre des
dcisions malgr la prsence dincertitude
La statistique joue un rle essentiel dans de nombreuses disciplines: En Biologie,
Gographie, Gologie, Mdecine, Chimie, Physique, etc...
La statistique permet de confronter une thorie scientifique lobservation!

Motivation

Exemple 1
Imaginons que nous sommes intresss par lge moyen dun Belge. En
particulier, on se demande si cet ge moyen est < 40 ans.
Supposons que nous nayons pas les moyens" deffectuer un recensement de
sorte que lge moyen en Belgique nest tout simplement pas connu. Que
pouvons-nous faire? Cest un problme statistique.
Nous dcidons de faon naturelle de prendre un chantillon de belges. Lge du
belge est donc modlis par une variable alatoire X .
La question considre devient donc est-ce que E[X ] < 40?

Motivation

Lide naturelle consiste considrer un chantillon (X1 , . . . , Xn ), associ n


belges (on prend leur ge). On dira quil sagit dun chantillon alatoire simple si
ces variables alatoires sont inpendantes et identiquement distribues ("i.i.d.").
Ceci signifie que ces v.a. (i) sont mutuellement indpendantes, et (ii) possdent
toutes la mme distribution. Les valeurs prises par lchantillon (X1 , . . . , Xn )
par (x1 , . . . , xn ) (les minuscules sont dans tout le cours rserves aux valeurs
numriques observes (non alatoires), tandis que les majuscules dsignent les
v.a. dont ces valeurs observes sont des ralisations).
Pour estimer E[X ], lide la plus naturelle consiste calculer la moyenne
= 1 Pn Xi (ou x = 1 Pn xi ) et de fonder ses conclusions sur la
empirique X
i=1
i=1
n
n
valeur de cette moyenne. Est-elle rellement" plus petite que 40? Comment faire
afin de rsoudre notre problme?
exactement pour tenir compte de la valeur de X
est une fonction des v.a. X1 , . . . , Xn , elle est elle-mme une v.a., avec
Puisque X
sa propre distribution: on parlera de distribution chantillonne.

Motivation

Exemple 2
Election prsidentielle franaise 2012. Franois Hollande et Nicolas Sarkozy
saffrontent au second tour de llection. Un sondage davril 2012 effectu auprs
de n = 1000 personnes donne comme vainqueur Franois Hollande avec 54% des
suffrages contre 46% pour Nicolas Sarkozy.
Si on note p la vraie" proportion de Franais qui vote pour Franois Hollande,
= 54/100 de cette proportion. Quelles
nous navons ds lors quune estimation p
conclusions peut-on vraiment tirer sur ce qui nous intresse, cest--dire p? Que
signifie cette marge derreur dont on entend souvent parler dans les mdias?

Motivation

Exemple 3
Un jeu de donnes assez clbre en Biostatistique est le jeu de donnes relatif
aux Iris de Fisher. Prenons une seule variable dans ce jeu de donnes qui est la
longueur dun ptale.
Setosa
0.2
0.4
0.5
0.2
0.5

Versicolor
1.4
1.5
1.8
1.3
1.6

Virginica
2.5
2.3
1.9
2.3
2.4

Peut-on conclure que les longueurs des ptales de ces trois espces sont
diffrentes sur base de cet chantillon?

Plan de la partie Statistique du cours

1. Introduction.
2. Thorie de lestimation.
3. Tests dhypothses et intervalles de confiance.
4. Rgression.
5. ANOVA.

Introduction au problme

Soit le modle statistique P = {P | }, Rk engendrant le vecteur


alatoire X = (X1 , . . . , Xn ) qui reflte lobjet dintrt:
1. ge de n personnes slectionnes en Belgique;
2. prsence ou nom dun virus chez n personnes;
3. etc
Nous supposerons dans ce cours que les les Xi sont i.i.d et nous noterons P leur
loi commune (obtenue comme produit des loi marginales par lindpendance). Le
plus souvent, nous supposerons que est un paramtre unidimensionnel qui peut
reprsenter une caractristique de la distribution sous-jacente. Par exemple,
lesprance de la distribution. Dans cette premire partie du cours, nous nous
intressons lestimation de .

Introduction au problme

On appelle statistique toute fonction mesurable des observations.


= 1 Pn Xi est une statistique, alors que
Ainsi, par exemple, T (X1 , . . . , Xn ) := X
i=1
n
P
n
S(X1 , . . . , Xn ) := n1 i=1 (Xi ) o est le paramtre inconnu du modle (par
exemple E[X1 ]), nen est pas une. En effet, pour chaque valeur de , S est
diffrente.

Definition
On appelle estimateur de toute statistique valeurs dans .
Remarque: on appelle estimateur de g( ) toute statistique valeur dans g().

Introduction au problme
Plusieurs notations peuvent tre utilises pour lestimateur de : T(X), (X), , etc.

Exemple Soient X1 , . . . , Xn i.i.d. N (, 2 ), R, 2 R+ . Les statistiques


suivantes sont toutes valeurs dans R, et constituent donc des estimateurs de :
:=
1. X

1
n

2.

(n)
X1/2

3.

(n)
1
(X1/4
2

4.

1
80

5. X1
6. 0

Pn

i=1

Xi

(moyenne arithmtique)

(mdiane empirique)

P90

i=11

(n)
X3/4 )

X(i)

(milieu de lintervalle interquartile)


(moyenne tronque (trimmed))

(premire observation)
(lorigine)

7. . . .
Comment choisir un bon estimateur dans cette situation?
Les proprits dun estimateur sont, en fait, les proprits de sa distribution
chantillonne. Dans la suite de cette premire partie, nous nous intressons
certaines caractristiques de cette loi chantillonne.

Estimateur sans biais


Notons E [. . . ] une esprance calcule sous P .

Definition
Un estimateur de est dit sans biais si
 
E = ,

 
(ce qui implicitement requiert que E existe et soit finie pour tout ).
La diffrence E [] est appele biais de lestimateur de . Introduisons le
biais asymptotique ce qui implique que lestimateur soit regard comme faisant
(n)
partie dune suite , n N destimateurs calculs partir dune suite X(n)
dobservations, auxquelles correspond une suite de lois P (n) . De faon gnrale,
le terme asymptotique correspond une situation o lon sintresse un
comportement quand n .

Definition
(n)

Un estimateur

de est dit asymptotiquement sans biais si


 (n) 
lim E
= ,

Estimateur sans biais

Exemple 1 Soient X1 , . . . , Xn i.i.d. Bin(1, p), p (0, 1). La proportion empirique


:=
p

n
1X
Xi
n
i=1

est un estimateur sans biais de la probabilit correspondante p, puisque


"
#
n
n
1X
1X
Ep
Xi =
Ep [Xi ]
n
n
i=1

i=1

1
= np = p
n

p [0, 1].

Exemple 2 Soient X1 , . . . , Xn i.i.d. , E[Xi ] = < . La moyenne empirique


X
:= 1
X
Xi
n
est un estimateur sans biais pour (proprit quelle partage toutefois avec X1 )

Estimateur sans biais


Exemple 3 Soient X1 , . . . , Xn i.i.d. , Var(Xi ) = 2 < , E[Xi ] = . La variance
empirique
n
1X
)2
(Xi X
s2 :=
n
i=1

est un estimateur biais de 2 . En effet,


"
#
n
1X 2
2
2]
E[s ] = E
Xi E[X
n
i=1

n
) + E2 [X
])
= E[X12 ] (Var(X
n
) + E2 [X
])
= Var(X1 ) + E2 [X1 ] (Var(X
= 2 + 2

n1 2
2
2 =
< 2
n
n

Le biais de s2 se corrige facilement, et


n
1 X
)2 = n s 2
(Xi X
n1
n1
i=1
h
i
n
est un estimateur sans biais de 2 , puisque E[S 2 ] = E n1
s2 =

S 2 :=

n
E[s2 ]
n1

= 2 .

Estimateurs convergents

En liaison avec la Loi des Grands Nombres, il peut paratre dsirable que, lorsque
le nombre n dobservations tend vers linfini, un estimateur converge vers le
paramtre estimer.
Cette ide de convergence implique que lestimateur soit regard comme faisant
(n)
partie dune suite , n N destimateurs calculs partir dune suite X(n)
dobservations, auxquelles correspond une suite de lois P (n) .

Definition
(n)
Une suite , n N, destimateurs de est dite faiblement convergente si, pour
(n)
tout , converge en probabilit vers (weak consistency), lorsque n ;
(n)

elle est dite fortement convergente si, pour tout ,


(strong consistency).

converge p.s. vers

Estimateurs convergents

Remarques
1. La convergence nest quune proprit asymptotique, et pour n fix a peu
dimplications.
2. Le Thorme de lApplication Continue implique que la proprit de
convergence se conserve par transformation continue : si 7 g( ) est
(n)
continue et est une suite faiblement (fortement) convergente destimateurs
(n)

de , alors g( ) est une suite faiblement (fortement) convergente


destimateurs de g( ).
p.s.

(n) p
3. La Loi des Grands Nombres fournit des rsultats de convergence : p
(n) p.s.

(chantillon de Bernoulli); X (chantillon gaussien).

Estimateurs convergents

Condition suffisante pour avoir la convergence au sens faible


(n)
Si une suite , n N, destimateurs de est telle que
 (n) 
 (n) 
lim E
= et lim Var
= 0,

alors cette suite est faiblement convergente.

Exemple Soient X1 , . . . , Xn i.i.d. N (, 1) (n 2), E[Xi ] = < . La moyenne


(n) est telle que
empirique X
h
i
 (n) 
 (n) 
1

(n) = et Var X

=0
E X
= lim Var X
n
n
(n) converge faiblement vers (ce que lon pouvait dj dduire de
Donc la suite X
p.s.
(n)
la Loi des Grands Nombres : X
.)