Bios Cours n6 Estimations

COURS N6 : Estimations
On peut rappeler que les biostatistiques ont pour objectif de prendre en compte la variabilit
interindividuelle, de rsumer et dcrire des donnes et de comparer des chantillons.
Nous avons fait, durant les 5 premiers cours, des statistiques descriptives, nous connaissions les
caractristiques des populations et nous avons calcul des probabilits d'vnements pour tenter
de prvoir certaines choses concernant des chantillons.
Nous allons maintenant raliser des statistiques infrentielles, c'est--dire qu'on va prendre en
compte des rsultats exprimentaux obtenus sur des chantillons pour tenter de gnraliser
des donnes sur toute une population.
C'est cette seconde partie de l'enseignement qui est le plus important et qui permet aux
biostatistiques d'avoir une place importante en mdecine, dans plusieurs domaines :
En recherche clinique, o l'on va tudier et comparer des groupes de malades pour
gnraliser des donnes sur une population.
En recherche diagnostique, pour valuer la performance des tests ou des stratgies
diagnostiques.
En recherche thrapeutique, pour :
Pour valuer la toxicit et l'efficacit de mdicaments.
Pour comparer les nouveaux traitements par rapport aux prcdents.
Pour prendre en compte la variabilit des rponses aux traitements entre patients pour
adapter le traitement.
- En recherche pronostique, pour valuer ou prdire l'volution des maladies sous
diffrentes stratgies thrapeutiques.
[Je passe les rappels de la moyenne de variables alatoires et l'intervalle de pari]
I. Thorie de l'estimation
A. Introduction
Pour les intervalles de pari, on connait les valeurs thoriques de la moyenne et de la variance (ou de
l'cart-type).
En statistiques, on a la problmatique inverse : on a un chantillon de n valeurs et on veut en
dduire quelque chose au niveau d'une population.
Se posent alors les questions de la prcision de notre tude et de la taille efficiente ou non de notre
chantillon.
B. Estimation statistique
L'estimation statistique consiste obtenir le maximum d'informations d'un chantillon en vue
d'estimer un ou plusieurs paramtres inconnus dans la population.
On se base alors sur l'chantillon reprsentatif qui est un sous-ensemble de la population
d'tude constitu par tirage au sort (de faon alatoire donc).
Cependant, souvent en mdecine, on ralise un chantillonnage systmatique (on va par
exemple prendre tous les patients d'un service etc...).
Soit un n-chantillon de X (X
1
, X
2
, ... , X
n
) (les X sont indpendants) dont on cherche le
paramtre inconnu.
NB : n'est pas une variable alatoire !
Un estimateur de est une fonction des valeurs de l'chantillon. On le note T
n
.
T
n
= == =T X
1,
X
2,
... , X
n

A chaque fois qu'on tire un au sort un nouvel chantillon, l'application de la fonction T donne un
rsultat diffrent : on parle d'estimation de note t
n
.
t
n
= == =T x
1,
x
2,
... , x
n

Les fluctuations d'chantillonnage de t
n
sont lies aux valeurs x
1
, x
2
, ... , x
n
observes.
C. Proprits d'un estimateur
1. Biais d'un estimateur
Le biais d'un estimateur est l'cart entre la vraie valeur et la valeur indique. On parle aussi de
dformation systmatique. Le biais d'un estimateur est donne par la relation :
E T
n

Un estimateur est sans biais si E(T
n
) = : les estimations obtenues ne s'cartent pas de la vraie
valeur de faon systmatique.
Notre but est d'avoir un estimateur sans biais pour notre tude.
2. Variance d'un estimateur
La variance d'un estimateur correspond la dispersion des estimations. Elle est note Var(T
n
).
Quand les estimations sont peu disperses, la variance est faible.
Notre but est d'avoir une variance la plus basse possible.
3. Convergence d'un estimateur
Un estimateur est dit convergent si E([T
n
]) tend vers 0 lorsque n tend vers l'infini.
E([T
n
]) est l'erreur quadratique moyenne (car elle dpend du biais et de la variance) :
E[T
n
] =ET
n
2 ET
n
=ET
n
ET
n
ET
n
2 ET
n
D'aprs la dfinition de variance, on a Var(T

n
) = E(T
n
) E(T
n
)
On remarque aussi que E(T
n
) 2E(T
n
) + = (E[T
n
] ) or E(T
n
) est le biais de l'estimateur.
Donc :
E [ [[ [ T
n
] ]] ] = == =Var T
n
E[ [[ [T
n
] ]] ] = == =Var T
n
biais
D. Estimateur de la moyenne
Il est possible d'utiliser 3 estimateurs pour la moyenne :
T
n
= X
1
T
n
=
X
1,
X
2,
... , X
n
n1
T
n
=M
n
=
X
1,
X
2,
... , X
n
n
1. Estimateur 1 : T
n
= X
1
Pour cet estimateur, on a :
- E(T
n
) = E(X
1
) = ; d'o E(T
n
) = 0
L'estimateur est donc sans biais.
- Var(T
n
) = Var(X
1
) =
- E([T
n
]) = (pas de biais)
Cette valeur ne dpend pas de n donc elle ne tend pas vers 0 quand n augmente. L'estimateur
n'est pas convergent.
2. Estimateur 2 : T
n
= == =
X
1,
X
2,
... , X
n

n 1
Pour cet estimateur, quivalent
M
n
n
n 1
, on a :
- ET
n
=
E M
n
n
n1
=
n
n1
L'estimateur est biais (E[T
n
] est diffrent de ). Le biais quivaut
n
n1
=

n1
- Var T
n
=Var
M
n
n
n1
=
n
n1
- E[T
n
] =
n
n1

n1
2
L'erreur quadratique moyenne tend vers 0 quand n tend vers 0 donc l'estimateur est
convergent.
3. Estimateur 3 : T
n
= == =M
n
= == =
X
1,
X
2,
... , X
n

n
Pour cet estimateur, on a :
- E(Tn) = E(Mn) =
L'estimateur n'est pas biais.
- Var T
n
= == =Var M
n
= == =
n
- E [ [[ [ T
n
] ]] ] = == =
n
L'erreur quadratique moyenne tend vers 0 quand n tend vers 0 donc l'estimateur est
convergent.
Mn est donc un bon estimateur de la moyenne (en tout cas le meilleur des 3).
La moyenne exprimentale m est une estimation de et donc une ralisation de M.
E. Estimateur de la variance
A partir d'un n-chantillon, on prend une variable alatoire V
n
en tant qu'estimateur de la
variance , dfinie par :
V
n
= == =
1
n 1

i = == =1
n
X
i
M
n

2
= == =
1
n 1

i = == =1
n
X
i
2
n M
n
2

Une ralisation de Vn sur un chantillon est s, variance exprimentale ou bien estimation de la
variance :
s = == =
1
n 1

i = == =1
n
x
i
m
2
= == =
1
n 1

i = == =1
n
x
i
2
n m
2

[ connatre pour estimer des variances ! Cette formule n'est pas dans le formulaire.]
Biais de l'estimateur :
EV
n
=
1
n1

i=1
n
E [ X
i
2
]nE[ M
n
2
]
On sait que Var(X) = E(X) E(X) donc :
E(X
i
) = E(X) = Var(X) + E(X) = + donc
i = == =1
n
E[ [[ [ X
i
2
] ]] ]= == =n = == =n n

De la mme faon :
E M
n
2
= == =Var M
n
E M
n

2
= == =
n

Donc
EV
n
=
1
n1

i=1
n
E [ X
i
2
]nE[ M
n
2
]=
1
n1
n n n[
n
]=
1
n1
n n n
EV
n
=
1
n1
[ n1]=
n1
n1
=
E V
n
= == =
E(Vn) = 0
L'estimateur n'est pas biais.
La variance exprimentale s est une estimation de . C'est aussi une ralisation de V.
F. Estimateur d'une proportion
Soit la moyenne d'une variable de Bernoulli. L'estimateur de est donn par :
T
n
= == =P
n
= == =
nombre de X
i
= == =1
n
= == =
X
1,
X
2,
... , X
n

n

C'est un estimateur non biais et convergent (il a donc les proprits de Mn).
La proportion observe p est une estimation de . C'est aussi une ralisation de P.
II. Intervalle de confiance
Soit un chantillon X
1
, X
2
, ... , X
n
d'une loi ayant un paramtre inconnu.
On pourrait donner une estimation ponctuelle de partir d'un estimateur. Mais cela n'est pas trs
satisfaisant puisque l'estimation dpend de l'chantillon et qu'il existe de nombreuses fluctuations
d'chantillonnage.
On peut aussi donner un intervalle de valeurs possibles (ou une fourchette ) de pour donner
une prcision la valeur estime.
A. Dfinition
L'intervalle de confiance de niveau 1 , not IC
1
, est un intervalle qui a pour probabilit 1
de contenir la vraie valeur .
(Si on calcule IC
1
sur un nombre infini d'chantillons, alors
IC
1
dans une proportion de
1 cas.)
B. Intervalle de confiance pour la moyenne
Soit X une variable alatoire continue dfinie par E(X) = et Var(X) = . On considre qu'on a
un grand chantillon et que n 30 (on peut appliquer le TLC).
On sait que :
P M
n
= == =1
On obtient l'estimation par intervalle de , ou l'intervalle de confiance de , en considrant que
est l'inconnue que que est estim par s (le calcul est impossible sinon).
Sur un chantillon de n valeurs, on observe la moyenne m et la variance s, toutes deux
exprimentales, pour calculer l'intervalle de confiance de de niveau 1 , ou de risque (en
considrant que n 30 ) :
IC
1
= == =[ [[ [ m

s
n
] ]] ]
Remarque : souvent, = 5% et donc
= 1,96 2, d'o :
IC
95
= == =[ [[ [ m 2

s
n
] ]] ]
C. Intervalle de confiance pour une proportion
Soit X une variable de Bernoulli de paramtre . On admet qu'on est sur un grand chantillon et que
n 5 ET n 1 5
On sait que :
P M

1
n
= == =1
On obtient l'estimation par intervalle de , ou l'intervalle de confiance de , en considrant que
est l'inconnue que que est estim par p (le calcul est impossible sinon).
Sur un chantillon de n valeurs, on observe la proportion p exprimentale, pour calculer
l'intervalle de confiance de de niveau 1 , ou de risque (en considrant que n 5 ET
n 1 5 ) :
IC
1
= == =[ [[ [ p

p 1 p
n
] ]] ]
Attention : Aprs votre calcul, il faut vrifier les conditions de validit aux bornes de
l'intervalle de confiance. Avec vos deux valeurs de limites
1
et
2
, il faut s'assurer que les
quatre termes
n
1
;
n 1
1

;
n
2
;
n 1
2

sont tous suprieurs ou gaux 5.
Remarque : souvent, = 5% et donc
= 1,96 2, d'o :
IC
95
= == =[ [[ [ p 2

p 1 p
n
] ]] ]
[formulaire page 2]
D. Largeur, prcision et nombre de sujets ncessaires
pour un intervalle de confiance
La largeur d'un intervalle [a ; b] vaut b a.
- Pour l'intervalle de confiance d'une moyenne, la largeur l est donne par :
l = == =2
s
n
Elle dpend de s et n.
- Pour l'intervalle de confiance d'une proportion, la largeur l est donne par :
l = == =2

p 1 p
n
Elle dpend de p et de n.
(Pour diviser par 2 la largeur, il faut multiplier n par 4).
Pour rappel, la prcision i est la demi-largeur.
Nombre de sujets ncessaires pour avoir une prcision i donne :
- Pour l'intervalle de confiance d'une moyenne, on a :
n
2
s
i
Il faut se donner une valeur priori pour s.
n augmente avec s.
- Pour l'intervalle de confiance d'une proportion, on a :
n
2
p 1 p
i
Il faut se donner une valeur priori pour p.
n est maximum pour p = 0,5.
[Ces formules sont connatre ou retrouver, elles ne sont pas dans le formulaire. Il ne faut pas les
confondre avec le nombre de sujets ncessaires pour les tests que nous allons voir plus tard !
Je passe sur la conclusion, tout est dans le cours.]
Ce document, ainsi que tous les cours P1, sont disponibles gratuitement sur
http://coursp1bichat-larib.weebly.com

Bios Cours n6 Estimations

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Bios Cours n6 Estimations

Transféré par

Droits d'auteur :

Formats disponibles

COURS N6 : Estimations

D'aprs la dfinition de variance, on a Var(T

Vous aimerez peut-être aussi