Vous êtes sur la page 1sur 22

THEORIE DE

L’ESTIMATION

PAR HADJ HAMOU ABDELMAJID


a.hadjhamou9@gmail.com
Plan
1 - Introduction à la théorie de l’estimation
1 - 1 Problématique
1 - 2 Définition d’un échantillon aléatoire
2 - Estimation ponctuelle
2 - 1 Notion d’estimateur
2 - 2 Propriété d’un estimateur
2 - 3 Estimation d’une moyenne, variance et proportion.
Estimation par intervalle de confiance.
3 - 1 Définitions
3 - 2 Intervalle de de confiance d’une moyenne (n < 30)
3 - 3 Intervalle de de confiance d’une moyenne (n ≥ 30)
3 - 4 Intervalle de de confiance d’une proportion 2
PAR HADJ HAMOU ABDELMAJID
ESTIMATION PONCTUELLE

1- Introduction à la théorie de l’estimation:

1–1 Problématique :
On s’intéresse à un caractère au sein d’une population P.
Exemple : durée de sommeil chez les enfants de 2 à 3 ans.
Problème : dans la plupart des cas impossible de considérer la population dans
son ensemble.
Il est rarement possible de collecter les données sur l’ensemble de la
population
En travail en général sur des échantillons.

3
PAR HADJ HAMOU ABDELMAJID
1–2 Définition d’un échantillon aléatoire:
E une expérience aléatoire qui consiste à tirer un individu au
hasard dans P.
Exemple: choisir des enfants des écoles réparties dans plusieurs
milieux différents.

On associe à E la variable aléatoire X d’une certaine loi.

Exemple : Durée de sommeil


On réalise n fois la même expérience,
dans les mêmes conditions indépendantes.
n expériences → n v.a Xi de même loi.
L’ensemble (X1, X2,………….,Xn) de n v.a
i.i.d de même loi que X est un échantillon
aléatoire.

PAR HADJ HAMOU ABDELMAJID 4


Exemple :
Durée de sommeil chez les enfants de 2 à 3 ans.
• Population : 14 000 enfants de de 2 à 3 ans.
• Echantillon : 540 enfants

• Unité : Heures ( variable quantitative)


• Paramètres observés dans l’échantillon : m = 11,7 heures et s = 1,3 heures
Comment estimer les paramètres de la population en connaissant les paramètres
de l’échantillon ?

PAR HADJ HAMOU ABDELMAJID 5


2- Estimation ponctuelle:
On cherche à connaitre µ (moyenne) et σ2 (écart type) dans la
population.
La théorie de l’estimation permet d’extrapoler (inférence
statistique) les caractéristiques d’un échantillon à la population.
En d’autres termes : l’estimation consiste à déterminer les caractéristiques (µ et
σ2) inconnues de la population à partir des données d’un échantillon.
Ces paramètres observés sur l’échantillon n’est qu’un moyen de tenter de
connaitre les paramètres de la population dont il est issu.
Ces paramètres ne sont pas strictement identiques à ceux de la population.
Comment estimer sans se tromper sur les paramètres inconnus de la population ?

6
PAR HADJ HAMOU ABDELMAJID
2-1 Notion d’estimateur:
Comment estimer les paramètres inconnus de la population ?
Pour estimer Ɵ on ne dispose que des données ,,……,
 Donc une estimation de Ɵ sera une fonction de ces observations.
 Cela revient à définir une statistique t.
 Une statistique t est une fonction
des observations ,,……,.
 t: Rn Rm
(,,……,) t (,,……,)
Exemple: =
 Puisque les observations ,,……,sont des réalisations des variables aléatoires
X1,X2,….Xn , la quantité calculable à partir des observations t(,,……, est une
réalisation de la v.a t (X1, X2,………,Xn).

Exemple: = est une réalisation de =


Définition: un estimateur d’une grandeur Ɵ est une statistique Tn à valeurs dans
l’ensemble des valeurs possibles de Ɵ. Une estimation de Ɵ est une réalisation tn de
7
l’estimateur Tn .
PAR HADJ HAMOU ABDELMAJID
Qualité d'un estimateur
Un estimateur est une valeur Ô calculée sur un échantillon tiré au hasard,
la valeur Ô est donc une variable aléatoire possédant une espérance E [Ô]
et une variance V (Ô).
On comprend alors que sa valeur puisse fluctuer selon l'échantillon.
Elle a de très faibles chances de coïncider exactement avec la valeur Ɵ qu'elle est censée représenter.
L'objectif est donc de maîtriser l'erreur commise en prenant la valeur de Ô pour celle de Ɵ.
Biais:
Une variable aléatoire fluctue autour de son espérance. On peut donc souhaiter que l'espérance de Ô
soit égale à Ɵ , soit qu'en « moyenne » l'estimateur ne se trompe pas.
Définition —  Biais ⁡(Ô)= E [Ô]- Ɵ.
Il s'agit de l'écart entre la moyenne théorique de notre estimateur et le paramètre.
Lorsque l'espérance E [Ô] de l'estimateur égale Ɵ , i.e. le biais est égal à zéro, l'estimateur est dit sans
biais.
Convergence:
On souhaite aussi pouvoir, en augmentant la taille de l'échantillon, diminuer l'erreur commise en
prenant Ô à la place de Ɵ . Si c'est le cas, on dit que l'estimateur est convergent (on voit aussi
consistant), c'est-à-dire qu'il converge vers sa vraie valeur. La définition précise en mathématique est
la suivante :
Définition — L'estimateur Ô est fortement convergent s'il converge presque sûrement vers Ɵ, soit:
P( Ô=Ɵ)=1
8
PAR HADJ HAMOU ABDELMAJID
2-3 Estimation d’une moyenne, variance et proportion:

 Epreuve: tirage avec remise.


 Pour chaque ligne: on calcule = et S2 = -)2 de chaque échantillon.
 Soit Xi la variable aléatoire de la ième valeur de chaque échantillon tiré (représentant
toutes les valeurs possibles tirées en ième position de l’ensemble des échantillons). n

 Nous définissons ainsi n variables aléatoires indépendantes et identiquement distribuées.


(X1 , X1, …………………..,Xn)

 A chaque échantillon de taille n, les valeurs et Si2 sont susceptibles d’être différentes.
N° observations Echantillon
1 2 i n Moyenne Ecart Type
E1 X11 X12     X1j     Xn  1  2
E2 X21 X22     X2j     X2n   2  2
                     
Ei Xi1 Xi2     Xij     Xin   i  2
                     
En Xn1 Xn2     Xnj     Xnn   n  2
  ↓ ↓     ↓     ↓    
9        
1  2 i
2-3-1 Estimation de la moyenne:
Biais:
La variable aléatoire défini par : =

est un estimateur convergent et sans biais de µ:


[ ]= ] = µ donc [ ]= µ
Convergence :
La moyenne empirique calculée sur un échantillon est une bonne estimation
de la moyenne dans la population.
V )= V () = = ) = = donc V)= =
La variable aléatoire défini par = est estimateur convergent et sans biais de µ.

10
PAR HADJ HAMOU ABDELMAJID
2-3-2 Estimation de la variance en supposant µ connue:
Théorème :
La variable aléatoire S2écha. définie par S2écha = -)2 est un estimateur
convergent et sans biais de σ2 uniquement si µ est connue.

1er cas si µ est connue: est donnée par hypothèse


E [S2écha.] = E [ -µ)2]
= E [ 2 - 2µ+µ2)
= E [ 2 - 2µ+ nµ2]
= 2]- 2µ + µ2
= 2]- µ2
Or par définition : σ2 = V[X] = E[X2] - E[X]2 = E[X2] - µ2
Donc E[X2] = σ2 + µ2
Finalement : E [S2écha.] = ∑ (σ2 + µ2) – µ2 = σ2 E [S2écha.] = σ2
Donc si µ est connue alors S2écha. est un estimateur sans biais de σ2.

11
PAR HADJ HAMOU ABDELMAJID
2-3-3 Estimation de la variance si µ est inconnue:
2ème cas si µ est inconnue:
Soient X1, X2,………,Xn v.a i.i.d V() = σ2 et E[Xi] = µ
Si µ est inconnue on l’estime par
[S2écha] = E [ -)2]
= E [ 2 - 2+2)
= E [ 2 - 2+ n2]
= E [ 2 – 2n+ n2]
= 2]- E []
Or V() = E[]-(E[])2 donc E[] = V() + (E[])2 = +
et V() = E[Xi2]-(E[Xi])2 donc E[Xi2] = V() + (E[Xi])2 = σ2 + µ2
Alors E [S2écha] = σ2 + µ2 – -
E [S2écha] = σ2 est un estimateur biaisé
Théorème :
La variable S2 définie par S2 = -)2 est un estimateur convergent et sans biais de
σ2. = σéch.

12
PAR HADJ HAMOU ABDELMAJID
ESTIMATION PAR INTERVALLE DE CONFIANCE
L’estimation ponctuelle d’un paramètre (proportion, moyenne et
variance) peut varier d’un échantillon à l’autre.
On dit qu’il ne prend pas en compte des fluctuations
d’échantillonnage.
Il est nécessaire de lui associer un intervalle qui contient, avec une certaine
probabilité, la vrai valeur du paramètre dans la population.
Définition:
L'estimation par intervalle de confiance de Ɵ consiste à associer à un échantillon
un intervalle aléatoire [Ô1; Ô2] qui contient Ɵ avec une certaine probabilité.
Cet intervalle est appelé intervalle de confiance de Ɵ.
P(Ô1 < Ɵ < Ô2 ) = 1- α
α : risque d’erreur que l’intervalle ne contient pas la vraie valeur de Ɵ.
1- α : niveau de confiance que l’ I.C contient la vraie valeur de Ɵ.
Soit T l’estimateur du paramètre Ɵ : posons Ô1 = T- ɛ et Ô2 = T+ ɛ

P(Ɵ Є [Ô1; Ô2]) = P(T- ɛ < Ɵ < T+ ɛ )


13
PAR HADJ HAMOU ABDELMAJID
P(Ɵ Є [Ô ; Ô ]) = P(Ɵ - ɛ < T < Ɵ + ɛ )
• Pour déterminer cette probabilité, il est nécessaire de connaitre la loi de
probabilité de l'estimateur T.
• On l'appelle la distribution d’échantillonnage de T.
• Dans le cas des estimateurs d'une moyenne (X ) et d'une proportion (F), le
théorème central-limite va nous permettre de déterminer les
distributions d‘échantillonnage de X et F.
Rappel du théorème central limite:
Soit X1, X2, … une suite de variables aléatoires réelles définies sur le même espace de
probabilité, indépendantes et identiquement distribuées suivant la même loi D.
Supposons que l’espérance μ et l’écart-type σ de D existent et soient finis avec σ ≠ 0.
Considérons la somme Sn = X1 + X2 + … + Xn Alors : E [Sn] = n μ et V(Sn) = n σ2

De plus, quand n est assez grand, la loi normale Ɲ (n μ , nσ2) est une bonne approximation de
la loi de Sn.

Afin de formuler mathématiquement cette approximation, nous allons poser:

= = et Zn = = alors Zn =
de sorte que l'espérance et l'écart-type de Zn valent respectivement 0 et 1 : la variable est
ainsi dite centrée et réduite.
14
PAR HADJ HAMOU ABDELMAJID
1er cas si σ est connue:
Après centrage et réduction de la moyenne empirique, on obtient :
Zn = ∼ Ɲ (0 , 1) (Par le TCL)

on a : P(- Z1-α/2 <Zn<+ Z1-α/2) = 1 − α

P(- Z1-α/2 < <+ Z1-α/2) = 1 − α


− Z1-α/2 ≤ µ ≤ + Z1-α/2 )=1-α

• I.C = [− Z1-α/2 ; + Z1-α/2 ]

 Remarque:
• Si α = 5% , le fractile d’ordre 0,975 de la
loi normale centrée réduite correspond à
Z1-α/2 = 1,96.

• Si α = 10% , le fractile d’ordre 0,95 de la


loi normale centrée réduite vaut environ
Z1-α/2 = 1,64.

PAR HADJ HAMOU ABDELMAJID 15


Algorithme de l’estimation d’une moyenne lorsque σ est connu
Départ

Identifier le problème

Prélever un échantillon de taille n

Calculer la valeur

Spécifier le niveau de confiance

Déterminer la valeur Z

Non Oui
Population
infinie ?

Calculer les limites Calculer les limites


de confiance de confiance

Arrivé 16
e
PAR HADJ HAMOU ABDELMAJID
2ème cas si σ est inconnue:
Théorème (Grands échantillon n ≥ 30)
Soit X une v.a continue de moyenne µ et de variance σ2

En utilisant le T.C.L, montre que: ∼ Ɲ (0 , 1) quelque soit la loi de X


Si σ2 est inconnue, on l’estime par s2 :
I.C = [− Z1-α/2 ; + Z1-α/2 ]
Théorème (Petits échantillon n < 30)
On suppose que x ∼ Ɲ ( μ , σ2). Alors :
• Si σ2 est connue alors ∼ Ɲ ( μ , )

I.C = [− Z1-α/2 ; + Z1-α/2 ]

• Si σ2 est inconnue, on l’estime par s2 alors ∼ Tn-1

I.C = [− 1-α/2 ; + t1-α/2 ]

17
PAR HADJ HAMOU ABDELMAJID
Algorithme de l’estimation d’une moyenne lorsque σ est inconnu
Départ

Identifier le problème

Prélever un échantillon de taille n

𝐄𝐯𝐚𝐥𝐮𝐞𝐫 𝐒𝐞𝐭 𝑿

Spécifier le niveau de confiance

Déterminer α et le nombre de Non Oui


Déterminer la
degrés de liberté (trouver ) Est-ce que n>30 valeur Z

Non Limites de Limites de Non


Population confiance confiance
Population
finie?
finie?
Oui
Oui
Limites de confiance
Limites de confiance

18
Arrivé
PAR HADJ HAMOU ABDELMAJID e
2-3-3 Estimer un pourcentage:
Le mieux est de commencer par un exemple concret.
Exemple 1: Etude des troubles de sommeil chez les enfants de 2 à
3 ans.
Population : 14 000 enfants de 2 à 3 ans.
Echantillon : 540 enfants ( dont 86 présentaient des troubles de
sommeil).

Mesure des paramètres sur l’échantillon:


Pourcentage d’enfants avec trouble de sommeil:
P0 = 86/540 = 0,16 = 16 %

La question qu’on se pose?


Qu’elle est le vrai pourcentage de troubles de sommeil dans la population des
enfants de 2 à 3 ans ?

19
PAR HADJ HAMOU ABDELMAJID
Caractéristique de la variable étudiée:
 Trouble de sommeil : variable qualitative.
 Unité (deux modalités) : Oui / Non
 Variable dichotomique
 Paramètre : pourcentage
Comment estimer un paramètre inconnu à partir d’un paramètre observé sur un
échantillon ?
Paramètre à estimer:
Exemple 1 : variable qualitative binaire (pourcentage).
 Paramètre inconnu dans la population (pourcentage P)
 Paramètre observé dans l’échantillon P0 .

20
PAR HADJ HAMOU ABDELMAJID
Question : Comment estimer P en connaissant p0 ?

Fluctuation d’échantillonnage d’un pourcentage:


• On choisi un échantillon E1.

on trouve p1 (pourcentage des enfants qui ont un trouble de sommeil au niveau


de l’échantillon E1).

→ on place cette valeur sur un axe.


→ alors où se trouve P par rapport à P1 ( à droite où à gauche)?

→ on espère que P n’est pas trop loin de P1 .

→ on répète la même épreuve avec plusieurs échantillons.


→ les valeurs de Pi se concentre autour d’une

valeur centrale qui n’est autre que la valeur de P.


→ cette distribution de densité s’explique
par une courbe qui a une forme de cloche.
→ loi normale
21
→ on peut donc énoncer le théorème de la limite centrale.
PAR HADJ HAMOU ABDELMAJID
Théorème de la limite centrale:
Un pourcentage observé sur un échantillon de taille n est:
 Une variable aléatoire.
 Suivant une loi normale.
 Centré sur le pourcentage.

Intervalle de confiance d’un pourcentage


Connaissant les principales propriétés d’une loi normale, on peut donc dire que
95% des valeurs de Pi sont comprises entre -2σ et +2σ (écart type ) de P.

Po-2σ ≤ P ≤ Po+2σ

Estimation de l’écart type : P = Po pourcentage observé σ =

Po-2 ≤ P ≤ Po+2

I.C = [ Po-2; Po+2 ]

22
PAR HADJ HAMOU ABDELMAJID

Vous aimerez peut-être aussi