Vous êtes sur la page 1sur 12

Infrence statistique

Distribution dchantillonnage
Estimation de la moyenne, de
la variance de la distribution
des moyennes partir des
donnes de l'chantillon
Estimation de la variance d'une
population partir des
donnes de l'chantillon
Estimation dun paramtre
dune distribution
Intervalle de confiance
Nombre de sujets ncessaires
1
Estimation des paramtres
de la population

Variables quantitatives : moyenne et cart type
Rappels :
N = Effectif de l'chantillon (nombre de mesures)
T = Total des valeurs
U = Total des carrs
SCE = somme des carrs des carts la moyenne
2
Ecart type
Moyenne
N = n
i
i =1
p

T = x
i
i =1
N

= n
i
x
i
=
i =1
p

N * f
i
x
i
i =1
p

fi =
ni
N
fi
i =1
p

=1
x =
T
N
= f
i
x
i
i =1
p

U = x
i
2
i =1
N

= n
i
x
i
2
i=1
p

SCE = (
i
x
i =1
N

x )
2
= U
2
T
N
S =
SCE
N
Note : p = nombre de valeurs diffrentes
La distribution de la
moyenne
Supposons que dans une population on
ait prlev un premier chantillon de N
individu :






Si lon prlve dans les mmes
circonstance un 2ime, 3ime
chantillon, on obtient x
1
. x
n
et
x
1
x
n
avec les moyennes
correspondantes.
On peut considrer la suite infinie des
observations x
1,
x
1,
x
1
. Comme des
valeurs observes dune VA X
1
et ainsi
de suite pour x
2,
x
2,
x
2
. Dune VA X
2

Dans ces conditions, les moyennes
observes sont elles mme des valeurs
dune VA :

=
=
N
i
i
N
x
N
x
moyenne comme a n chantillo l
x x x
1
2 1
1
: '
,.... ,

=
=
N
i
i
X
N
X
1
1
Distribution de la
moyenne
Tout comme X
1
. X
n
la VA X
possde une distribution de
probabilit. Cest las distribution
dchantillonnage de la moyenne.
Les VA X
1
. X
n
ont toutes la
mme distribution de probabilit
dont la moyenne est dsigne par
m et la variance par o
2
.


= =
= =
= =
(

=
=
=
(

=
N
i
i
N
i
i
X
N
i
i
N
i
i
N
X
N
X
N
m X E
X E
N
X
N
E X E
1
2
2
1
2
1 1
) var(
1 1
var
) (
) (
1 1
) (
o
o
Estimation de la moyenne de la
population

La distribution des moyennes d'chantillons indpendants
de faible effectif tirs de la mme population suit une loi
normale si la distribution de la variable est normale.
Au del de 30, la distribution des moyennes peut tre
approche par une loi normale sans condition sur la
distribution de la variable.
La moyenne de l'chantillon est le meilleur estimateur de la
moyenne de la population.
L'cart type de la distribution des moyennes d'chantillons
indpendants tirs de la mme population peut tre estim
partir de l'cart type de l'chantillon S (ou de l'estimateur
de l'cart type de la population s ).
4
o
m
= ESM =
S
N-1
=
N
o
(Standard deviation of the mean)
=> Si N > 30, il y a une probabilit de 95% que la moyenne se
trouve dans l'intervalle m 2 * ESM
La variable alatoire :
t =
X - m
S
N-1
suit une loi de student N-1 DDL
Estimation de l'cart type de
la population

L'cart type de l'chantillon n'est pas un bon estimateur de l'cart
type de la population. Il existe une erreur systmatique : c'est un
estimateur biais.
La distribution des variances d'chantillons alatoires
indpendants a comme moyenne
5
E(S )
2
=
(N-1) * o
2
N
et comme variance dans le cas d'une population normale
Var (S )
2
=
2*(N-1) * o
4
N
2
Dans le cas d'une population normale la quantit :
o
2
N * S
2
suit une loi du khi 2 N-1 DDL
Notons que si
N * S
2
=
(N-1)
2
o
est une bonne estimation de la variance, sa racine
carr n'est pas une estimation absolument correcte
de l'cart type. On peut montrer que les rsultats
ainsi obtenus sont systmatiquement trop faibles
avec une erreur relative de 1/4(N-1)
Mthode du maximum de
vraisemblance (likelihood)
On appelle fonction de vraisemblance la probabilit ou
la densit de probabilit relative aux valeurs observes
x
1
x
n
, exprime en fonction du ou des paramtres de
la population. Pour un chantillon alatoire simple et
pour une population dfinie par un seul paramtre , la
fonction de vraisemblance est :




Les estimateurs du maximum de vraisemblance
correspondent par dfinition au maximum de cette
fonction. La recherche de ce maximum peut tre
ralis en annulant la driv de cette fonction ou en
annulant la driv de son logarithme





Cette notion peut tre tendue au cas de plusieurs
paramtres, la recherche du maximum ncessite alors
le calcul des drivs partielles
) ; ( ).... ; ( ) ; .... ( ) (
) ; ( ).... ; ( ) ; .... ( ) (
2 1 1
2 1 1


x f x f x x f L
x P x P x x P L
n
n
= =
= =
| | | | | |

= =
=
=
n
i
i
n
i
i
d
x f d
ou
d
x P d
d
d
d
dL
1 1
) ; ( log ) ; ( log ) log(
0
) (

Mthode du maximum de
vraisemblance (likelihood)
Exemple : estimation dun pourcentage. Soit une
population infinie, dont les individus possdent ou non
un caractre (yeux bleu) et supposons que lon veuille
estimer la proportion des p individus possdant ce
caractre.
On associe au caractre une VA X qui vaut 1 quand le
caractre est prsent et 0 lorsquil est absent.
La distribution de probabilit est :
P(X=1 = p et P(X=0) = 1-p
Pour un chantillon alatoire simple deffectif N dont x
individus sont porteurs du caractre considr le
logarithme de la fonction de vraisemblance est :




Sa drive par rapport p est :



Lestimation du maximum de vraisemblance est :
) 1 log( ) ( log log ) ; ( log ) ( log(
log ) 1 ( ) (
1
p x n p x C p x P p L
son et p p C p L
x
N
N
i
i
x N x x
N
+ + = =
=

p
x n
p
x
dp
L d

=
1
log
N
x
p
ou
p
x N
p
x
=
=


0
1
La frquence relative est le
meilleur estimateur du
pourcentage
A partir des paramtres obtenus sur
l'chantillon on veut estimer les
paramtres de la population dont cet
chantillon est extrait.
Ceci peut se faire uniquement si :
L'chantillon a t correctement constitu
(notion d'chantillon reprsentatif). Que
penseriez vous d'un exprimentateur qui
voudrait gnraliser les observations qu'il a
ralises, vis vis du mal de dos, en n'ayant
observ que des secrtaires mdicales ?
Si la loi de probabilit qui rgit la distributions
des paramtres estimer est connue =>
respect des conditions d'application
Au-del de lestimation ponctuelle un risque
accept sur la mthode permet de btir un
intervalle de confiance
Le problme
3
Population
m
o
Inconnus
chantillon
X
S
Connus
L'intervalle de confiance de
la moyenne

L'estimation ponctuelle d'un paramtre ne prsente que peu d'intrt si
on a aucune ide de la prcision de l'estimation obtenue.
Supposons que l'on s'intresse la moyenne m dont on possde un
estimateur X et que l'on s'efforce de dterminer de part et d'autre
de X les limites G1 et G2 d'un intervalle qui a forte probabilit de
contenir m. Pour rsoudre se problme, on se donne un coefficient de
confiance (ou de scurit) voisin de 1, en gnral 0,95 (95%).
L'intervalle G1-G2 est appel intervalle de confiance avec un risque a
= 1- coefficient de confiance
Cependant le fait de fixer le degr de confiance ne suffit pas pour
connatre les limites G1 et G2. En gnral, on rpartit le risque d'erreur
en deux partie gale : P(m<G1) = P(m>G2) = a /2
Les bornes de l'intervalle de confiance de la moyenne sont obtenues
par :
6
N
X t *
o
o
t suit une loi de Student N-1 DDL
Attention l'interprtation : si o = 0,05, cela ne veut pas dire qu'il
y ait 95 chance sur 100 que m se trouve dans l'intervalle. m est une
constante et n'est pas une variable alatoire. En consquence, elle est
ou n'est pas dans l'intervalle. Ce sont les bornes de l'intervalle qui
sont des variables alatoires. Il est exact de dire que dans 95 % des
cas, l'intervalle ainsi construit contient m
Si N > 30 et a =0,05 on approche par la loi normale et
l'intervalle devient X 1,96 * ESM
ESM
Application au PMSI
Les contrles de qualit ancienne mthode avait
comme objectif de savoir si les points ISA transmis
par un tablissement devaient tre redresss ou
non en fonction du rsultat du contrle de qualit.
Pour cela on tirait au sort 100 RSS et lon faisait la
diffrence,x, pour chaque RSS des points ISA
transmis et des points ISA contrle..
Construire un intervalle de confiance autour au de
la moyenne au risque 5%
Mthode :
Lintervalle de confiance est
10
96 , 1
o
o

x ici soit
N
u m
alpha
Nombre de sujets ncessaires pour
atteindre une prcision donne dans
l'estimation de la moyenne
Cette question est lie l'intervalle de confiance.
Soit l'erreur maximum tolr d pour un degr de
confiance 1 - a, c'est dire que l'cart |X-m| ne
dpasse d qu'avec une probabilit alpha
Pour rsoudre ce problme, il faut que
pralablement soit fixs alpha, d et s
On a, en utilisant l'approximation normale et
alpha = 0,05 (approximation u
97,5%
= 2) :
7
2
d = 2
N
o
=> N =
4 o
d
2
Il faut quadrupler le nombre de sujets pour doubler la
prcision (rduire de moiti la longueur de l'intervalle)
Le calcul du nombre de sujets ncessaires dpendant du
type de problme (prcision d'estimation d'un paramtre,
tests statistiques...). Pour chaque problme des formules ou
des tables existent mais il faut toujours que pralablement
un certain nombre de paramtres soit fixs.