Echant - Estimation Chap.3 S3.21.22-1

20/12/2021
Plan
• Introduction
Licence fondamentale en Sciences Économiques et Gestion
Module échantillonnage et estimation/Semestre 3 • Estimation: de l’intervalle de pari à l’intervalle de confiance
Chapitre 3. • Propriétés des estimateurs
Estimer… de l’échantillon à • Méthodes d’estimation
la population • Intervalle de confiance sur une moyenne
Professeur Mohamed AIT HOU

• Intervalles de confiance sur une variance
• Intervalle de confiance sur une proportion
Année universitaire 2019/2020

Prf. Mohamed AIT HOU - Economie et
20/12/2021 70
Gestion - S3, FP- Errachidia
1
20/12/2021
Les étapes de construction d’un intervalle de confiance
1. Spécifier la variable étudiée sur la population et

Objectif fixer le paramètre à estimer
2. Choisir le meilleur estimateur du paramètre

Comprendre la problématique de l’estimation;
Savoir utiliser des estimateurs pour des estimations

3. Calculer une estimation ponctuelle du paramètre
ponctuelles; sur l’échantillon
Maîtriser toutes les étapes de la construction d’un intervalle
de confiance;
4. Construire l’intervalle de confiance et calculer la
marge d’erreur
Savoir appliquer les résultats concernant les moyennes à
des proportions;
5. Interpréter les résultats d’un point de vu
managérial
Prf. Mohamed AIT HOU - Economie et Prf. Mohamed AIT HOU - Economie et
20/12/2021 71 20/12/2021 72
Gestion - S3, FP- Errachidia Gestion - S3, FP- Errachidia
2
20/12/2021
Introduction
Structure du chapitre et problème concret d’estimation
Dans un pays X, le Ministère de l’Économie, des Finances et de l’industrie a mis Problème concret Solution concrète
Dans un échantillon de taille n = 780.
en place la déclaration de revenus pré-remplie par l’administration. Les premiers -L’écart type de l’erreur est estimé à 800,51 dh.
-La proportion de déclaration erronées vaut f780 = 12%
-Il y a 95% de chances pour que l’intervalle de
-Erreur moyenne vaut X 780 = 3500dh
contrôles effectués sur un échantillon de 780 déclarations d’imposition pré- -Ecart type des erreurs vaut S780 = 800dh
10% à 14% contienne la proportion inconnue de
déclarations erronées.
-À combien peut-on estimer la valeur de ces trois
remplies montrent que: -il y a 95% de chance pour que l’intervalle de
paramètres dans la population mère?
3443 à 3557 dh contienne l’erreur moyenne.
• 12% de ces déclarations présentent au moins une erreur,
Section 1:
• le montant moyen des erreurs, calculé en dirham près, est de 3500 dh avec un De l’intervalle de
Monde réel
pari à l’intervalle A- Modélisation Section 3:
écart type de 800 dh. de confiance Modélisation
C- Traduction Simulation
Comment estimer dans la population mère composée de toutes les déclarations Monde artificiel Traduction
(la taille de cette population mère est N  34millions): B- Simulation
Modèle – énoncé
-la valeur de la proportion p de déclarations erronées, Soit XS la variable statistique parente qui... Section 2:
Soit X la variable aléatoire parente qui … Propriétés des Modèle – solution
- la valeur du montant moyen m des erreurs, Construire une estimation ponctuelle de e =  estimateurs
Construire un intervalle de confiance à
 = 800,51
- la va leur de l’écart type e du montant des erreurs? 95%: ic95% ( ) =  0,10;0,14
-sur la proportion p = 
- sur la moyenne m = 
ic95% (  ) = 3443;3557
20/12/2021 73 20/12/2021 Prf. Mohamed AIT HOU - Economie et 74
3
20/12/2021
I. Estimation: de l’intervalle de pari à l’intervalle de confiance I. Estimation: de l’intervalle de pari à l’intervalle de confiance
1-1. Estimateur et estimation ponctuelle 1-2. De l’intervalle de pari à l’intervalle de confiance
Définition 1 Lorsque la taille de l’échantillon est supérieure à 30 (n > 30), les intervalles de
Soit  l’ensemble des valeurs possibles d’un paramètre inconnu  également pari bilatéraux de niveau (1 - ) sur la moyenne empirique sont de la forme:
appelé la cible.    
p − z  .  Xn   + z  .  = 1− 
Un estimateur de  est une statistique d’échantillon Tn = f ( X1, X 2 ,..., X n ) dont  (1− )
2 n (1−
2
) n

la réalisations appartiennent à . Où z(1−  ) est le quantile d’ordre 1 − de la loi normale centrée réduite et µ
2 2
Définition 2 et  sont l’espérance et l’écart type de la variable aléatoire parente.
Soit Tn = f ( X1 , X 2 ,..., X n ) un estimateur d’un paramètre inconnu . Une
estimation ponctuelle de  est la réalisation tn = f ( x1 , x2 ,..., xn ) de Tn
(obtenue après le tirage de l’échantillon). Cette estimation ponctuelle est notée
.
20/12/2021 75 20/12/2021 76
4
20/12/2021
1-3. De l’intervalle de pari à l’intervalle de confiance 1-3. De l’intervalle de pari à l’intervalle de confiance
Huit réalisations de l’intervalle de confiance encadrant la cible

   
L’intervalle p   − z  .  Xn   + z  .  = 1 −  s’écrit par soustraction de µ:
(1− ) (1− )
 2 n 2 n
   
p  −z  .  Xn −   +z  .  = 1− 
 (1− 2 ) n (1− )
2 n
D’où en soustrayant X n dans chaque membre de chaque inégalité:
   
p −Xn − z  .  −  − X n + z  .  = 1− 
(1− ) (1− )
 2 n 2 n NB:
Soit: - Chaque borne de l’intervalle de confiance est une variable aléatoire. Ainsi, il ne
    s’agit pas d’un intervalle réel mais d’un intervalle aléatoire.
p Xn − z  .    Xn + z  .  = 1 −, cette expression s’appelle un
(1− ) (1− )
 2 n 2 n - Ce n’est pas µ qui se « déplace », mais d’un intervalle de confiance qui peut
intervalle de confiance sur µ de niveau (ou seuil) 1 - .
prendre une infinité de réalisations différentes.
- Le paramètre µ est inconnu mais fixe.
20/12/2021 77 20/12/2021 78
5
20/12/2021
1-3. De l’intervalle de pari à l’intervalle de confiance 1-3. De l’intervalle de pari à l’intervalle de confiance
Définition: Définition:
Soit un paramètre inconnu . Soit Tn = f ( X1 , X 2 ,..., X n ) un estimateur d’un un paramètre inconnu .
1. Un intervalle de confiance bilatéral sur  de niveau ou de seuil (1 - ) est un Soit IC(1− ) ( ) un intervalle de confiance bilatéral sur  de niveau ou de seuil
intervalle aléatoire [A; B] tel que p  A    B = 1 −  où A et B sont deux (1-)
statistique d’échantillon. 1. L’écart type de Tn noté SEn (= Tn) est appelé l’erreur standard.
2. Un intervalle de confiance unilatéral sur  de niveau ou de seuil (1 - ) est un 2. La demi-amplitude de l’intervalle MEn est appelée la marge d’échantillonnage.
intervalle aléatoire [A; +[ ou ]-; A] tel que p  A    = 1 −  ou p   A = 1 − 
3. Notation des intervalles de confiance de niveau (1 - ) sur : IC(1− ) ( ) .
4. Une réalisation d’un intervalle de confiance est un intervalle réel [a ; b] où
a  A ( ) et b  B ( ) .
5. Cette réalisation est notée ic(1− ) ( ) .
20/12/2021 79 20/12/2021 80
6
20/12/2021
II. Propriétés des estimateurs II. Propriétés des estimateurs
2-1. Biais et erreur quadratique moyenne 2-1. Biais et erreur quadratique moyenne
Deux estimateurs non biaisés de la Deux estimateurs biaisés de la même

Pour que Tn soit un bon estimateur de , il faut qu’il y ait une probabilité élevée que même cible, l’un précis, l’autre non cible, l’un précis, l’autre non
Tn prenne une valeur proche de . Cela est réalisé, en particulier, lorsque Tn remplit
les deux conditions suivantes:
- E (Tn ) =  (1)
-  T = SEn
n
faible (2)
Définition
Soit Tn = f ( X1 , X 2 ,..., X n ) un estimateur d’un paramètre inconnu .
1. Le biais de Tn est définie par : B (Tn ) = E (Tn ) − 
2. Tn est un estimateur non biaisé de  si E (Tn ) =  , autrement dit si le biais est nul.
3. Tn est un estimateur asymptomatique non biaisé de  si lim E (Tn ) = 
n→
20/12/2021 81 20/12/2021 82
7
20/12/2021
 E (Tn ) 
2
Définition et proposition En ajoutant puis en soustrayant à la relation ci-dessus, on obtient:
Soit Tn = f ( X1 , X 2 ,..., X n ) un estimateur d’un paramètre inconnu . RTn ( ) =  E Tn2  −  E (Tn )   +  E (Tn )  − 2 E (Tn ) +  2
2 2
 
L’ erreur quadratique moyenne ou fonction de risque est définie par:
RTn ( ) = Var (Tn ) +  E (Tn ) −   = Var (Tn ) +  B (Tn )
2 2
RTn ( ) = E (Tn −  ) 
2
  Ainsi, l’erreur quadratique moyenne dépend à la fois du biais de l’estimateur et de
( ) = Var (Tn ) +  B (Tn ) où B (Tn ) le biais de Tn . son écart type. Un estimateur de  est d’autant meilleur que son erreur
2
Cette erreur vaut : RTn
Démonstration: quadratique moyenne est faible. Si l’estimateur est non biaisé, il est clair qu’il est
En développant la formule de définition de l’erreur quadratique moyenne: alors d’autant meilleur que son écart type est faible. Ceci traduit les deux
conditions (1) et (2) évoquées en début de sous-section.
RTn ( ) = E (Tn −  )  = E Tn2 − 2Tn +  2  = E Tn2  − 2 E (Tn ) +  2
2
  D’où, un bon tireur, avec un bon fusil, a plus de chances d’atteindre la cible qu’un
mauvais tireur avec un mauvais fusil.
20/12/2021 83 20/12/2021 84
8
20/12/2021
Cas de la moyenne empirique Cas de la variance empirique et la variance empirique corrigée

n −1 2
On sait que: E ( Xn ) =  On a: E S n = ( )
2
 (chapitre précédent). Si l’on choisit S n2 comme estimateur
n
2
De plus, Var ( X n ) = tend vers 0 quand la taille de l’échantillon augmente, et de la variance de la variable aléatoire parente 2, alors:
n n −1 2 2
ceci indépendamment de la valeur de µ. ( ) ( )
B Sn2 = E Sn2 −  2 =
n
 − 2 = −
n
2
E ( X n −  )  = Var ( X n ) +  B ( X n ) =
2 2
Or, + 0, d’où la proposition: Cette relation signifie que la variance empirique est un estimateur biaisé de 2 . Le
  n
2
Proposition: biais vaut − , ce qui veut dire que la variance empirique vise systématiquement
n
1. X n est un estimateur non biaisé de l’espérance µ de la variable aléatoire parente. légèrement à gauche de 2. quand la taille de l’échantillon augmente, ce biais tend
2.L’erreur quadratique moyenne de X n tend vers 0 quant la taille de l’échantillon
vers 0.
tend vers l’infini.
20/12/2021 85 20/12/2021 86
9
20/12/2021
Proposition Proposition:
2
S n2 est un estimateur asymptomatique non biaisé de 2. 1.La variance empirique corrigée SCn est un estimateur sans biais de la variance 2
de la variable aléatoire parente.

Par ailleurs, le biais de S n2 étant connu, un estimateur de 2 corrigé de ce biais peut 2
n 2 2.L’erreur quadratique moyenne de SCn tend vers 0 quand n tend vers l’infini.
S = , on obtient E ( S ) ( )
2 n
être construit. En effet, en posant Sn 2
= E Sn2 =  2
1 n−3 4
n −1 ( )
Cn
n −1
Cn
2
3. Var SCn  C 4 −  où µC4 est le moment d’ordre 4.
Définition: n  n − 1 
2
n 2 1 n
1. La variance empirique corrigée est la variable aléatoire SCn =
2
n −1
Sn = ( Xi − Xn )
n − 1 i =1
La variance empirique corrigée SCn2 est un estimateur sans biais de la variance 2,
2.L’écart type empirique corrigé SCn est la racine carrée de la variance empirique
corrigée.
mais SCn est un estimateur biaisé de . D’où: E ( 2
)
SCn ( )
 E SCn
2
.
20/12/2021 87 20/12/2021 88
10
20/12/2021
2-2. Estimateur convergent 2-2. Estimateur convergent
Convergence presque sûre Tn ⎯⎯→ X

ps
Jusqu’à maintenant, nous nous sommes intéressés à la précision d’un estimateur Convergence en moyenne d’ordre k
 / lim T ( )  X ( )
moyenne
en cherchant des estimateurs sans biais et avec une faible variance. L’idée était Si l’ensemble Tn ⎯⎯⎯⎯
d ' ordrek
→X
n →
lim E  Tn − X  = 0
k
de minimiser l’erreur quadratique moyenne. Ce faisant, nous avons cherché, sans a une probabilité nulle Si:
n→  
l’exprimer directement, à construire des estimateurs convergent, c’est-à-dire tel
que:
lim Tn = 
Convergence en probabilité: Tn ⎯⎯p
→X
n → La suite (Tn) converge en probabilité vers la variable X si la probabilité que l’écart entre Tn et
(
X soit inférieur à une valeur  aussi petite que l’on veut tend vers 1: lim p T − X   = 1
n→
n )
La notion de convergence qui est « multiforme » mérite d’être précisée.
Le schéma suivant présente la définition de quatre « type » de convergence.
Convergence en loi Tn ⎯⎯ →XL
. La suite (Tn) converge en loi vers la variable X si la suite FTn des fonctions de répartition
des Ti tend vers la fonction de répartition F x de X: lim FT ( x) = FX ( x)
n → n
en tout x où Fx est continue.
20/12/2021 89 20/12/2021 90
11
20/12/2021
II. Propriétés des estimateurs III. Méthodes d’estimation
2-2. Estimateur convergent 3-1. Estimateur du maximum de vraisemblance
Définition Plusieurs méthodes d’estimation existe. Les plus courantes sont:
Tn est estimateur convergent (ou consistant) de  si Tn converge en probabilité ▪ Maximum de vraisemblance;

▪ Moments
vers .
Cas d’une variable aléatoire parente discrète
Si un estimateur est asymptomatique sans biais et si sa variance tend vers zéro quand la taille
Supposant que la loi de la variable aléatoire parente X est connue et qu’elle dépend
de l’échantillon tend vers l’infini, alors son erreur quadratique moyenne tend également vers
du paramètre . La probabilité que X prenne la réalisation x est p(x,), où p est une
zéro. En d’autres termes, ces deux conditions sont suffisantes pour que l’estimateur soit
convergent. application connue.
L’expérience qui permet de construire l’échantillon est effectuée et la réalisation:
Proposition
n – eas = (x1, x2,…xn) de l’échantillon (X1, X2,…,Xn) est observée.
1. X n est un estimateur convergent de l’espérance µ de la variable aléatoire parente.
Comme (X1, X2,…,Xn) est un n – EAS = (x1, x2,…xn), les variables aléatoires Xi sont
2. S n2 est un estimateur convergent da la variance 2 de la variable aléatoire parente. n
2 indépendantes: p ( n − eas ) = p ( x1 , ) . p ( x2 , ) .... p ( xn ,  ) =  p ( xi ,  ) = L ( x1 , x2 ,..., xn )
3. S Cn est un estimateur convergent de la variance 2 de la variable aléatoire parente. i =1
20/12/2021 91 20/12/2021 92
12
20/12/2021
III. Méthodes d’estimation III. Méthodes d’estimation
3-1. Estimateur du maximum de vraisemblance 3-1. Estimateur du maximum de vraisemblance
Donc: L ( n − eas, ) =  . (1 −  ) =  n x . (1 −  )
x1 + x2 +...+ xn (1+1+...+1) −( x1 + x2 +...+ xn ) n(1− x )
Cas d’une variable aléatoire parente discrète
La fonction L(x1, x2,…xn,) également notée L(n – eas,) s’appelle la
Recherche du maximum de vraisemblance:
vraisemblance.
Il faut chercher la valeur de  qui rend la vraisemblance maximale. Le logarithme
Exemple 1: EMV de l’espérance d’une variable de Bernoulli
étant une fonction croissante, il est ici plus rapide de chercher à maximiser le
Soit X une variable aléatoire parente qui suit une loi de Bernoulli de paramètre .
logarithme de la vraisemblance.
Donc:
 0 1
Lorsque le paramètre inconnu  est strictement compris entre 0 et 1, L(n – eas,)
• L ( X ) = 1 −   
 
est strictement positive. L’examen des valeurs 0 et 1 est intéressant.
• D’où, p ( xi , ) =  i (1 −  )
1− xi
pour xi = 0 ou xi = 1.
x
• Si  est nul, la réalisation x de la moyenne empirique est égale à 0 puisque

L ( n − eas, ) =  x1 (1 −  ) . x2 (1 −  ) ..... xn (1 −  )
1− x1 1− x2 1− xn
chaque Xi ne peut prendre que la valeur 0. Il en résulte que: L(n – eas,0) = 00.1n = 1
Or ,  x1 . x2 .... xn =  x1 + x2 +...+ xn =  n x
• Si  = 1, la réalisation x de la moyenne empirique est forcément égale à 1. ce ci
(1 −  ) . (1 −  ) ..... (1 −  ) = (1 −  ) = (1 −  )
1− x1 1− x2 1− xn (1+1+...+1) −( x1 + x2 +...+ xn ) n(1− x )
et
conduit à L(n – eas,1) =1n. 00= 1.
20/12/2021 93 20/12/2021 94
13
20/12/2021
Pour la suite des calculs, les hypothèses sont donc:   0 et   1.  ln  L( x1 , x2 ,..., xn ,  ) 

=
(
nx (1 −  ) − n 1 − x  ) =
(
nx − nx − n + nx n x − 
=
)
Calcul de la dérivée du logarithme de la vraisemblance (  0 et   1)   (1 −  )  (1 −  )  (1 −  )
On utilisant la propriété caractéristique des logarithmes lna x = xlna , on obtient: La vraisemblance admet donc un point critique en  =x qui annule la dérivée
(
ln  L( x1 , x2 ,..., xn ,  )  = nx ln  + n 1 − x ln (1 −  )) de son logarithme.
 ln  L( x1 , x2 ,..., xn ,  )  d ln  d ln (1 −  ) Calcul de la dérivée seconde du logarithme de la vraisemblance (  0 )

= nx
d
(
+ n 1− x )
d  1 ( −1) 
  nx + n 1 − x (  ) 1
d 
 1 
d
( −1)
d ln  1 d ln (1 −  ) u' −1   1−  
= nx   − n 1 − x 
1 −  
( )
= nx 2 − n 1 − x
1
( )
D’une part, = et d’autre part = =  d d  (1 −  )
2
d  d u 1−
En mettant les deux fraction au même dénominateur, la dérivée seconde s’écrit:
 ln  L( x1 , x2 ,..., xn ,  )  ( −1)
D’où,

= nx
1

(
+ n 1− x ) 1−  2 ln ( L ) −nx (1 −  ) − n 1 − x  2
2
( ) ( )
−nx 1 − 2 +  2 − n 2 + nx 2
= =
  (1 −  )  (1 −  )
2 2 2 2 2
En mettant les deux fractions au même dénominateur, on obtient:
20/12/2021 95 20/12/2021 96
14
20/12/2021
Soit,
 2 ln ( L )
=
(
−n  2 − 2 x + x ) Proposition
  2 (1 −  )
2 2
L’EMV du paramètre  d’une variable de Bernoulli est la fréquence empirique Fn = X
Le signe de la dérivée seconde du logarithme de la fonction de vraisemblance et

Cas d’une variable aléatoire parente continue
(
celui de −n  2 − 2 x + x ) . Le discriminant de ce polynôme du second degré en 
En suppose que pour  fixé, la densité de probabilité f X ( x, )
( )
de la variable aléatoire parente
vaux  = 4 x. x − 1 qui est toujours négatif, car 0  x  1 . Le polynôme X est inconnue.
(2
)
 − 2 x + x est donc de signe positif constant et la dérivée seconde de la La réalisation de n – eas = (x1, x2,…xn) a cette fois une probabilité nulle puisque toutes les
fonction de vraisemblance est toujours négative. probabilités ponctuelles sont nulle pour une variable aléatoire continue. Le raisonnement porte
La valeur de  qui maximise la vraisemblance est bien  = x. alors sur l’intervalle des réalisations:
L’estimateur du maximum de vraisemblance de  et donc Xn  n − eas  = ( x1  X 1  x1 + h ) ; ( x2  X 2  x2 + h ) ;...; ( xn  X n  xn + h )

Si h est très petit, p ( xi  X i  xi + h )  hf X ( xi , ) , et comme (X1, X2,…,Xn) est n –
EAS , alors:
20/12/2021 97 20/12/2021 98
15
20/12/2021
p  n − eas   hn f X ( x1 , ) . f X ( x2 , ) ..... f X ( xn , )
n
 1   1 n

La vraisemblance est donc: L( x1 , x2 ,..., xn , ) =   exp  − 2 2
  2  
 (x − )
i =1
i
2


On pose L ( n − eas, ) = f X ( x1 , ) . f X ( x2 , ) ..... f X ( xn , ) . La fonction L ( n − eas, ) n
est appelée vraisemblance.

Cette fonction est maximale quand  (x − )
i =1
i
2
est minimale.
On a p  n − eas   h L ( n − eas, )
n
1 n 1 n 1 n 
2
1 n 
2
Si l’événement [n – eas] s’est produit, c’est qu’il est vraisemblable que sa probabilité était
Or,  ( xi −  )2 = n 
n i =1 i =1
( xi − x)2 +   xi −   = Sn2 +   xi −  
 n i =1   n i =1 
importante. En d’autres termes, la valeur  qui rend la vraisemblance maximale est à n
1 n
nouveau cherchée.
Donc  (x − ) i
2
est minimale pour =  xi
n i =1
i =1
Exemple 2: EMV de l’espérance d’une variable gaussienne

L’estimateur du maximum de vraisemblance de  est finalement Xn (que l’écart type  soit
Soit X une variable aléatoire parente qui suit une loi de Gauss d’espérance inconnue :
connu ou inconnu, puisqu’il n’intervient pas dans la démonstration).
X  N(;).
1  1  x − 2 
Soit f X ( x,  ) = exp  −    (fonction de densité de probabilité de la loi de
 2  2    
Laplace – Gauss).
20/12/2021 99 20/12/2021 100
16
20/12/2021
Définition Proposition
Soit (X1, X2,…,Xn) un n – EAS issu d’une variable aléatoire parente X de loi Si la variable aléatoire parente X suit une loi de Gauss d’espérance µ et d’écart type ,
connue. alors:
1.Si la variable aléatoire X est discrète de loi connue p  X = xi  = p ( xi , ) , alors 1. L’EMV de l’espérance µ est la moyenne empirique X n , que l’écart type soit connu ou
non.
la fonction de vraisemblance de X est définie par:
L ( x1 , x2 ,..., xn , ) = L ( n − eas, ) = p ( x1, ) . p ( x2 , ) ..... p ( xn , ) 2
2. L’EMV de la variance 2 est Sn =
1 n
 ( X i −  )2 si l’espérance µ est connue.
n i =1
2.Si la variable aléatoire X est continue de densité de probabilité connue f X ( xn , ) ,
1 n
alors: L ( x1 , x2 ,..., xn , ) = L ( n − eas, ) = f X ( x1, ) . f X ( x2 , ) ..... f X ( xn , ) 3. L’EMV de la variance 2 est Sn =
2
 ( X i − X n )2 si l’espérance µ est inconnue.
n i =1
3.Soit  = g ( x1 , x2 ,..., xn ) , la valeur, si elle existe, qui maximise la fonction de

vraisemblance.  Est l’estimation du maximum de vraisemblance de  et la valeur
aléatoire correspondante Tn = g ( x1 , x2 ,..., xn ) est l’EMV de .
20/12/2021 101 20/12/2021 102
17
20/12/2021
IV. Intervalles de confiance sur une moyenne IV. Intervalles de confiance sur une moyenne
4-1. variance connue, échantillon gaussien ou non gaussien mais de grande 4-1. variance connue, échantillon gaussien ou non gaussien mais de grande
taille taille
L’hypothèse de travail est qu’une étude de grande envergure à montré que l’écart type de la 3. Variable aléatoire parente (VAP)
variable statistique parente est de 9 km/h. en d’autres termes, e = 9. soit ɛ l’expérience aléatoire parente qui consiste à choisir au hasard un véhicule dans P
Il faut noter que la construction d’un intervalle de confiance est très proche de celle d’un (véhicule qui se présentent au hasard).
intervalle de pari. X, la variable aléatoire parente, associe au véhicule tiré au hasard sa vitesse.
Modélisation L’espérance µ de X est inconnue et l’écart type de X est connu ( = e = 9).
1. Population mère 4. Echantillon aléatoire simple (EAS)

l’expérience ɛ est répétée 50 fois.
P est la population constituée de tous les véhicules susceptibles de passer devant les points
Xi (i varie de 1 à 50) est la variable aléatoire qui associe au ième véhicule sa vitesse.
de contrôle. N = 39026000 véhicules immatriculées.
• Par construction, les 50 variables aléatoire Xi suivent la même loi que X.
2. Variable statistique parente (VSP) 50
• L’expérience est répétée sans remise, mais le taux de sondage est extrêmement
Variable statistique parente qui associe à chaque véhicule de P sa vitesse au point de contrôle. 39026000
faible. Les variables aléatoire qui constituent l’échantillon peuvent être supposées
La vitesse moyenne m est inconnue.
indépendantes . Donc ( X1, X 2 ,..., X 50 ) est un 50 – EAS.
L’écart type e est connu: e = 9.
20/12/2021 103 20/12/2021 104
18
20/12/2021
taille taille
5. Du problème concret au modèle – énoncé •Loi de probabilité de Tn

Il s’agit de construire une fourchette de valeurs ayant une probabilité de 95% de contenir la Échantillon gaussien de taille quelconque
vitesse moyenne m dans la population mère de tous les véhicules. Comme m = µ, le problème La variable aléatoire parente est supposée gaussienne, donc la moyenne empirique X n suit
revient à construire un intervalle de confiance de niveau 95% sur µ avec  = 9. une loi normale d’espérance µ et d’écart type  n . Par conséquent:
X −
Simulation T50 = 50 → N  0;1
1. Statistique d’échantillon et loi de probabilité 9 50
•Choix de l’estimateur et de la statistique d’échantillon Échantillon non gaussien mais de grande taille
Xn −  L
Il n’y a qu’un seul paramètre inconnue qui est l’espérance µ de la variable parente. Dans ce cas, le TCL permet d’affirmer que Tn = ⎯⎯ → N  0;1
X −  n
X 50 est un estimateur sans biais et convergent de µ . La statistique d’échantillon Tn =
 X 50 − 
n Et donc Tn =  N  0;1
est pertinente. En effet la valeur de  est connue, et il est donc possible avec cette statistique 9 50
d’aboutir à une réalisation de l’intervalle.
20/12/2021 105 20/12/2021 106
19
20/12/2021
taille taille
2. Construction de l’intervalle de confiance 2. Construction de l’intervalle de confiance

Cet intervalle n’est pas unique. En général, le choix consiste à construire un intervalle « Soit en soustrayant X 50 à chaque membre:
symétrique » dans le sens où on laisse 2,5% à droite et 2,5% à gauche de l’intervalle. En effet, p  − X 50 − 1,96  9 50  −   − X 50 + 1,96  9 50  = 95%
compte tenu de la symétrie de la densité gaussienne standard et du fait que celle-ci présente
En fin en multipliant chaque membre par(-1) et en changeant le sens des inégalités, on obtient:
une densité maximale autour de 0, ce choix conduit à l’intervalle le plus petit possible.
Or, pour une loi gaussienne standard, p[Z ≤ 1,96] = 97,5%. p  X 50 − 1,96  9 50    X 50 + 1,96  9 50  = 95%
  Résultat qui peut s’écrire sous la forme:

X −
On en déduit que: p  −1,96  50  1,96  = 95% IC95% (  ) =  X 50  1,96  9 50 
 9 50 
Donc pour un intervalle de confiance de niveau (1 - ):
En multipliant les trois membres par 9 50 , on obtient:
p  −1,96  9 50  X 50 −   1,96  9 50  = 95% IC95% (  ) =  X n  z(1− 2)  n

 
20/12/2021 107 20/12/2021 108
20
20/12/2021
taille taille
3. Réalisation de l’intervalle de confiance 3. Réalisation de l’intervalle de confiance

Soit le tableau suivant qui représente cinquante relevés de vitesse en km/h: D’après les données du tableau ci-dessus, x = 101,74 km/h, donc:
124 105 94 93 106 101 90 91 118 115 ic95% (  ) = 101, 74  1,96  9 50 
100 96 112 109 89 102 95 89 88 108

Soit en arrondissant la borne de gauche par valeur inférieur et la borne de droite par valeur
101 96 105 107 100 101 91 114 98 101 supérieur pour agrandir l’intervalle:
103 92 103 94 95 115 97 105 99 103 ic95% (  ) = 99;105
99 103 99 105 122 114 82 100 119 99
Traduction
D’après les données du tableau ci-dessus, x = 101, 74 km/h, donc ic95% (  ) = 101,74  1,96  9 50  Il y a une probabilité de 95% pour que l’intervalle de 99 km/h à 105 km/h contienne la vitesse
moyenne de tous les véhicules .
20/12/2021 109 20/12/2021 110
21
20/12/2021
4-2. Variance inconnue, échantillon gaussien ou non gaussien mais de 4-2. Variance inconnue, échantillon gaussien ou non gaussien mais de
grande taille grande taille
Reprenons les mêmes données de l’exemple précédent. 1. Statistique d’échantillon et loi de probabilité
Modélisation Loi de probabilité Tn
Même procédure à l’exception du fait que l’écart type est inconnu. Échantillon gaussien de taille quelconque
Simulation La variable aléatoire parente X suit une loi de Gauss, ce qui permet de démontrer que la
1. Statistique d’échantillon et loi de probabilité statistique Tn suit une loi de Student à n – 1 degrés de liberté. L’idée de la démonstration
Choix des estimateur et de la statistique d’échantillon est d’introduire une variable aléatoire Z qui suit une loi normale centrée réduite et une variable
X 50 est un estimateur sans biais et convergent de l’espérance µ. L’écart type étant inconnu, il aléatoire K qui suit une loi de khi-deux à n – 1 degrés de liberté.
convient d’en faire une estimation ponctuelle par l’écart type empirique corrigé. La statistique : Xn − 
X −  n Z Xn − 
Xn −  Tn = n = = avec Z=
Tn = est la statistique qui convient. SCn  n
SCn n SCn n SCn n
 n 
20/12/2021 111 20/12/2021 112
22
20/12/2021
1. Statistique d’échantillon et loi de probabilité 1. Statistique d’échantillon et loi de probabilité

Or, la variable aléatoire parente X est gaussienne, donc la moyenne empirique Tn Suit une loi En effet Z et K sont indépendantes car lorsqu’une variable aléatoire est gaussienne, alors sa
normale d’espérance µ et d’écart type  n . En conséquence, Z → N ( 0;1) . moyenne empirique est indépendante de sa variance empirique.
2
( n − 1) S 2
( n − 1) S 2 Xn − 
Par ailleurs:
SCn
=
S
Cn
= Cn

1
=
K
en posant K= Cn
On peut ainsi utiliser le fait que: Tn = → Stn −1
 2
 2
n −1 n −1  2
SCn n
X 50 − 
K=
( n − 1) SCn2 =
2
nSCn 2
nSCn Ici: T50 =  St49
Or, et →  n2−1 SC 50 50
2 2 2
Échantillon non gaussien de grande taille
Xn −  Z Xn − 
Donc, Tn = = avec Z → N ( 0;1) et K →  n2−1 Le TCL a pour conséquence que: Tn =  Stn −1 (pour n assez grand)
SCn n K SCn n
n −1 X 50 − 
Soit ici: T50 =  St49
SC 50 50
20/12/2021 113 20/12/2021 114
23
20/12/2021
2. Construction de l’intervalle de confiance 2. Construction de l’intervalle de confiance

Le choix est fait de construire un intervalle « symétrique » dans le sens où on laisse 2,5% à L’intervalle qui vient d’être déterminé avec  = 0,05 (5%) pour un niveau de confiance (1 - ):
droite et 2,5% à gauche de l’intervalle. Comme la loi de Student est symétrique par rapport à
IC95% (  ) =  X n  t(1− 2) SCn n
 
 X 50 −  
l’axe des ordonnées, on a: p  −t0,975   t0,975  = 95% où t0,975 est le quantile Il faut donc déterminer le quantile d’ordre 97,5%, de la loi de Student à 49 degrés de liberté.
 SC 50 50  Détermination de la valeur de t0,975, deux solutions se présentent:
d’ordre 97,5%, de la loi de Student à 49 degrés de liberté.
•Soit utiliser Excel: t0,975 = LOI.STUDENT.INVERSE.N(0,975;49) = 2,0096
On multiplie les trois membres par SC 50 50 , puis on soustrait X 50 à chaque membre •Soit prendre le premier ddl inférieur à 49 présent dans le table de manière à maximiser
et, en fin, on multiplie chaque membre par (-1) en changeant le sens des inégalités. l’intervalle. Selon la table, pour 40 ddl:
t0,975 = 2,021. L’intervalle est bien maximiser avec cette méthode.
p  X 50 − t0,975  SC 50 50    X 50 + t0,975  SC 50 50  = 95%
Résultat qui s’écrit sous la forme: IC95% (  ) =  X 50  t0,975  SC 50 50 


20/12/2021 115 20/12/2021 116
24
20/12/2021
IV. Intervalles de confiance sur une moyenne V. Intervalles de confiance sur une variance
4-2. Variance inconnue, échantillon gaussien ou non gaussien mais de

5-1. Intervalles de confiance sur la variance
grande taille
3. Réalisation de l’intervalle de confiance Contenance de 100 bouteilles d’une chaîne A en centilitres

75,1 74,9 75,1 74,8 75,0 75,2 75,2 75,0 74,7 74,6
ic95% (  ) =  x 50  t0,975  SC 50 50 
75,2 75,1 75,5 75,1 74,8 75,0 75,1 75,2 74,7 74,8
D’après les données du tableau de la section précédente: x = 101,74 et sC 50 = 9, 2688
75,1 75,1 75,0 75,1 74,9 75,0 75,2 74,9 74,8 75,4
D’où:
ic95% (  ) = 101, 74  2, 0096  9, 2688
75,2 75,0 74,9 75,1 74,6 75,3 75,1 75,1 74,9 74,9
50 
74,8 74,9 74,9 75,2 75,4 75,2 75,0 75,0 75,3 75,0
ic95% (  ) = 99;105
74,7 74,9 74,9 74,9 75,3 74,6 74,7 75,3 75,6 74,9
Traduction: 74,7 74,8 74,9 74,7 74,7 74,9 75,4 74,9 75,3 75,2
Compte tenu des arrondis sur les bornes finales de l’intervalle, la conclusion est la même que 74,6 74,8 74,8 75,0 75,1 74,8 74,6 75,2 75,2 75,3
la section (4.1): il y a une probabilité de 95% que l’intervalle de 99 km/h à 105 km/h contienne 75,2 74,8 75,2 75,1 75,1 74,8 75,0 75,2 75,2 75,0
la vitesse moyenne de tous les véhicules. 74,8 74,9 74,7 74,9 75,1 75,0 75,1 75,1 75,1 75,0
20/12/2021 117 20/12/2021 118
25
20/12/2021
V. Intervalles de confiance sur une variance V. Intervalles de confiance sur une variance
5-1. Intervalles de confiance sur la variance 5-1. Intervalles de confiance sur la variance
Modélisation 4. Échantillon aléatoire simple

1. Population mère L’expérience ɛA est répétée 100 fois.
PA toutes les bouteilles de boisson remplies par la chaîne A. sa taille NA et de plusieurs XAi (i varie de 1 à 100) est la variable aléatoire qui associe à la ième bouteille sa contenance.
milliers par jours. • Par construction, les 100 variables aléatoire XAi suivent la même loi que XA.
2. Variable statistique parente • L’expérience est répétée sans remise, mais le taux de sondage ( 100 sur plusieurs milliers)
XSA est la VSP qui associe à chaque bouteille de PA sa contenance. La contenance moyenne est très inférieur à 10%. Les variables aléatoire qui constituent l’échantillon peuvent être
mA est inconnue. L’écart type eA est également inconnu. supposées indépendantes . Donc (XA1, XA2,…,XA100) est un 100 – EAS gaussien.
3. Variable aléatoire parente 5. Du problème concret au modèle – énoncé
ɛA est l’expérience aléatoire qui consiste à choisir une bouteille dans la production totale PA. Il s’agit d’estimer au seuil de 95% l’écart type de eA de la production totale. Le problème revient
La VAP XA associe à la bouteille choisie sa contenance. µA et A de XA sont inconnus. à construire un intervalle de confiance au seuil de 95% sur A.
XA est gaussienne.
20/12/2021 119 20/12/2021 120
26
20/12/2021
Simulation • Loi de probabilité

1. Statistique d’échantillon et loi de probabilité 99SC2100
Ici : T100 = →  n2−1
• Choix des estimateurs et de la statistique d’échantillon  A2
• L’échantillon est de grande taille et est gaussien, 2. Construction de l’intervalle de confiance
• D’espérance µA inconnu.
Pour ce fait, on cherche k1 et k2 telles que:
On choisit comme estimateur de 2A la variance empirique corrigée 2  99SC2100 99SC2100 
SCn .    99SC2100 99SC2100 
( )
2
 = 95% soit, IC95%  A =  k

99SCA 2
2 p k1  100
 k2  = 95%  p    A2  ; 
Sachant que
nSCn
→  n2−1 (Chapitre I)   2
A   k 2 k1   2 k1 
2

Par définition: nSn2 = ( n −1) SCn
2
. On en déduit que:
2
nSCn
=
( n − 1) SCn2 3. Réalisation de l’intervalle de confiance
 2
2 les couple de valeurs (k1,k2) ne sont pas uniques. Une solution courante consiste à retenir
(n − 1) SCn
2
sous la courbe de densité de la loi khi-deux une aire de 2,5% à gauche de k1 et une aire de
Statistique d’échantillon pour la variance, échantillon gaussien: Tn = →  n2−1
2 2,5% à droite de k2.
20/12/2021 121 20/12/2021 122
27
20/12/2021
D’après la table de khi-deux, k1 = k2,5% = 73,361 et k2 = k97,5% = 128,422 L’hypothèse de normalité de la variable aléatoire parente est très importante dans ce cas de
Avec Excel: figure. L’intervalle de confiance est donné par la formule suivante:
k1 = k2,5% = LOI.KHIDEUX.INVERSE(0,025;99) = 73,361
 
k2 = k97,5% = LOI.KHIDEUX.INVERSE(0,975;99) = 128,422
 (n − 1).SCn
2
(n − 1).SCn
2

D’après les données du tableau (début de la section) on a: S 2
= 0, 0462 ( )
IC(1− )  2
= ; 
 k1−  k   
CA100
 99.0, 0462 99.0, 0462    2  

2 
( )
D’où on obtient: ic95%  A =  128, 422 ; 73,361 
2
 ( )
ic95%  A2 =  0, 0356;0, 0624
  Traduction
Finalement, ic95% ( A ) = 0,1887;0, 2498 Au seuil de 95%, l’écart type de la contenance des bouteilles de la chaîne A est compris entre
0,19 cl et 0,25 cl. Il y a donc une probabilité d’au moins 95% que l’écart type des machines
anciennes de la chaîne A ne soit plus proche de 0,1 cl. La précision des machines s’est
nettement dégradée.
20/12/2021 123 20/12/2021 124
28
20/12/2021
VI. Intervalles de confiance sur une proportion VI. Intervalles de confiance sur une proportion
6-1. Loi faible des grands nombres et estimateur d’une proportion 6-1. Loi faible des grands nombres et estimateur d’une proportion
Proposition: Loi faible des grands nombres On pour tout i, E ( Xi ) =  finie et Var ( X i ) =  i2 =  (1 −  ) finie, les variables sont
Soit X1, X2,…,Xn une suite de n variables aléatoires indépendantes, d’espérances indépendantes. Par ailleurs:
1 n 1 1 n
µ1, µ2,…,µn finies et de variances 2 2 ,…,2
•  E ( X i ) = n n =  (ce qui montre que Fn =  X i est un estimateur non biaisé de ).
1, 2 n finies . n i =1 n i =1
1 n
 1    (1 −  )  = 0
• Et lim
n→  n 2
Var ( X i ) = lim
n→  n 2
n (1 −  ) = lim  
1 n  1 n   i =1   n→  n 
Si lim   i  = 
 n i =1 
et si lim    i2  = 0 , alors X n ⎯⎯
p
→
On a donc, d’après la loi faible des grands nombres: Fn ⎯⎯
p
→
n →
 i =1 
n → n
Proposition
Ce théorème s’applique à des variables quantitatives continues ou discrètes.
La fréquence empirique est un estimateur sans biais et convergent de la probabilité .
Il aurait donc pu servir pour démontrer que dans le cas d’un n – EAS, la moyenne empirique
est un estimateur convergent de l’espérance de la variable parente. Dans le cas particulier des estimations de proportions, la variable aléatoire parente X suit
Il s’agi donc ici, d’utiliser ce théorème appliqué à un n – EAS où la variable parente suit une loi forcément une loi de Bernoulli. La situation est donc toujours celle d’un échantillon non
de Bernoulli, pour démontrer la proposition ci-dessous. gaussien. Pour la même raison l’écart type de X est forcément inconnu puisque  =  (1 −  )
20/12/2021 125 20/12/2021 126
29
20/12/2021
VI. Intervalles de confiance sur une proportion
6-2. Intervalle de confiance sur une proportion
Pour n suffisamment grand, IC(1− ) ( ) =  Fn  z(1− 2) . Fn (1 − Fn ) n

 
L’erreur standard vaut SEn = Fn (1 − Fn ) n , or on a Fn ⎯⎯
p
→
L’erreur standard SEn, est fonction du paramètre  à estimer (et de la taille de l’échantillon).
Cette erreur est maximale lorsque son carré est maximum.

Pour n fixé assez grand, SEn atteint son maximum pour
2
 (1 −  ) maximum
1
Pour n fixé assez grand, L’erreur standard de l’estimation de  est maximale pour =
2
1 1 1
Donc l’erreur standard maximale est: SEn ( max ) = 1 −  n=
2 2 2 n
1
La marge d’erreur maximale vaut toujours: MEn ( max ) = z1− 2
2 n

20/12/2021 127
30

Echant - Estimation Chap.3 S3.21.22-1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Echant - Estimation Chap.3 S3.21.22-1

Transféré par

Droits d'auteur :

Formats disponibles

20/12/2021

Chapitre 3. • Propriétés des estimateurs

Estimer… de l’échantillon à • Méthodes d’estimation

la population • Intervalle de confiance sur une moyenne

Professeur Mohamed AIT HOU

• Intervalle de confiance sur une proportion

Année universitaire 2019/2020

Les étapes de construction d’un intervalle de confiance

1. Spécifier la variable étudiée sur la population et

2. Choisir le meilleur estimateur du paramètre

Savoir utiliser des estimateurs pour des estimations

1-1. Estimateur et estimation ponctuelle 1-2. De l’intervalle de pari à l’intervalle de confiance

Huit réalisations de l’intervalle de confiance encadrant la cible

II. Propriétés des estimateurs II. Propriétés des estimateurs

Deux estimateurs non biaisés de la Deux estimateurs biaisés de la même

II. Propriétés des estimateurs II. Propriétés des estimateurs

Définition et proposition En ajoutant puis en soustrayant à la relation ci-dessus, on obtient:

  Ainsi, l’erreur quadratique moyenne dépend à la fois du biais de l’estimateur et de

II. Propriétés des estimateurs II. Propriétés des estimateurs

Cas de la moyenne empirique Cas de la variance empirique et la variance empirique corrigée

II. Propriétés des estimateurs II. Propriétés des estimateurs

de la variable aléatoire parente.

II. Propriétés des estimateurs II. Propriétés des estimateurs

2-2. Estimateur convergent 2-2. Estimateur convergent

Convergence presque sûre Tn ⎯⎯→ X

II. Propriétés des estimateurs III. Méthodes d’estimation

2-2. Estimateur convergent 3-1. Estimateur du maximum de vraisemblance

Définition Plusieurs méthodes d’estimation existe. Les plus courantes sont:

Tn est estimateur convergent (ou consistant) de  si Tn converge en probabilité ▪ Maximum de vraisemblance;

III. Méthodes d’estimation III. Méthodes d’estimation

3-1. Estimateur du maximum de vraisemblance 3-1. Estimateur du maximum de vraisemblance

• Si  est nul, la réalisation x de la moyenne empirique est égale à 0 puisque

III. Méthodes d’estimation III. Méthodes d’estimation

3-1. Estimateur du maximum de vraisemblance 3-1. Estimateur du maximum de vraisemblance

Pour la suite des calculs, les hypothèses sont donc:   0 et   1.  ln  L( x1 , x2 ,..., xn ,  ) 

III. Méthodes d’estimation III. Méthodes d’estimation

3-1. Estimateur du maximum de vraisemblance 3-1. Estimateur du maximum de vraisemblance

Le signe de la dérivée seconde du logarithme de la fonction de vraisemblance et

L’estimateur du maximum de vraisemblance de  et donc Xn  n − eas  = ( x1  X 1  x1 + h ) ; ( x2  X 2  x2 + h ) ;...; ( xn  X n  xn + h )

III. Méthodes d’estimation III. Méthodes d’estimation

3-1. Estimateur du maximum de vraisemblance 3-1. Estimateur du maximum de vraisemblance

est appelée vraisemblance.

Exemple 2: EMV de l’espérance d’une variable gaussienne

III. Méthodes d’estimation III. Méthodes d’estimation

3-1. Estimateur du maximum de vraisemblance 3-1. Estimateur du maximum de vraisemblance

3.Soit  = g ( x1 , x2 ,..., xn ) , la valeur, si elle existe, qui maximise la fonction de

Modélisation L’espérance µ de X est inconnue et l’écart type de X est connu ( = e = 9).

1. Population mère 4. Echantillon aléatoire simple (EAS)

5. Du problème concret au modèle – énoncé •Loi de probabilité de Tn

2. Construction de l’intervalle de confiance 2. Construction de l’intervalle de confiance

  Résultat qui peut s’écrire sous la forme:

p  −1,96  9 50  X 50 −   1,96  9 50  = 95% IC95% (  ) =  X n  z(1− 2)  n

3. Réalisation de l’intervalle de confiance 3. Réalisation de l’intervalle de confiance

124 105 94 93 106 101 90 91 118 115 ic95% (  ) = 101, 74  1,96  9 50 

100 96 112 109 89 102 95 89 88 108

1. Statistique d’échantillon et loi de probabilité 1. Statistique d’échantillon et loi de probabilité

2. Construction de l’intervalle de confiance 2. Construction de l’intervalle de confiance

Résultat qui s’écrit sous la forme: IC95% (  ) =  X 50  t0,975  SC 50 50 

4-2. Variance inconnue, échantillon gaussien ou non gaussien mais de

3. Réalisation de l’intervalle de confiance Contenance de 100 bouteilles d’une chaîne A en centilitres

Modélisation 4. Échantillon aléatoire simple

Simulation • Loi de probabilité

 = 95% soit, IC95%  A =  k