Vous êtes sur la page 1sur 18

UNIVERSITÉ IBN ZOHR

Ecole Nationale de Commerce et de Gestion - Dakhla.

Statistique appliquée S5

Pr. Elouali AAILAL

Chapitre : 1

Echantillonnage et estimation

Année universitaire :
2021 - 2022
1

1 Echantillonnage
1.1 Définitions
L’objectif de cette partie est de répondre à la problématique suivante : Comment, à partir de
paramètres (moyenne, écart-type, proportion...) connues sur une population, peut-on prévoir celles
d’un échantillon ? Comment, dans ce cas, peut-on tirer des conclusions valables ?

Définition 1.1.
.
– On appelle population et on la note par Ω, l’ensemble de toutes les unités sur lesquelles porte
une étude statistique et qui sont définies par une propriété commune. Les unités élémentaires
d’une population sont appelés individus. Lorsque le nombre d’individus d’une population Ω est
fini, on dit qu’elle est finie et on écrit Ω = {ω1 , ω2 , ω3 , ..., ωN } avec N est le nombre d’individus de
la population Ω. On appelle échantillon tout sous-ensemble de la population, de taille (nombre
d’individus) n < N .
– Un Sondage : C’est une étude statistique qui porte sur un échantillon de la population.
– Un Recensement : C’est une étude statistique qui porte sur la totalité des individus d’une
population, c’est-à-dire que chaque individu de la population est observé séparément.
– Taux de sondage : f = Nn avec n la taille de l’échantillon et N la taille de la population.
– La base de sondage : C’est la population totale à laquelle on a accès (la population observée ).
Tous les individus de la population cible ne sont donc pas forcément inclus dans cette base.
– L’échantillonnage est l’ensemble des opérations statistiques qui consiste à prélever un certain
nombre d’individus d’une population.

Si on prélève au hasard n individu dans une population finie de taille N et on veut étudier une
caractéristique X de la population. X est une variable aléatoire appelée v.a mère ou parente. À chaque
individu i tiré, on associe une v.a. Xi dont on observe une seule réalisation xi . Alors les Xi sont des
v.a. ayant toutes la même distribution, celle de X. On suppose que les Xi sont indépendantes. La suite
(X1 , X2 , , · · · , Xn ) s’appelle un n-échantillon de X.
On considère une population dont les éléments possèdent un caractère mesurable qui est la réali-
sation d’une variable aléatoire X qui suit une loi de probabilité d’espérance µ et d’écart-type σ. On
suppose (sauf indication contraire) que l’échantillonnage se fait avec remise. Un tirage avec remise est
encore appelé "tirage non exhaustif". Si on fait un tirage sans remise (tirage exhaustif), on modifie la
taille de la population au fur et à mesure des tirages, ce qui compliquerait les calculs. Ceci dit, pour
des grandes populations le tirage sans remise s’assimile à un tirage avec remise.

Formalisme théorique :
1. On prélève un échantillon aléatoire de taille n et on mesure les valeurs de X sur chaque élément
de l’échantillon. Ainsi, on obtient une suite de valeurs (x1 , x2 , . . . , xn ).
2. Si on prélève un deuxième échantillon toujours de taille n, la suite des valeurs obtenues est
(x11 , x12 , . . . , x1n ), puis (x21 , x22 , . . . , x2n )... (xk1 , xk2 , . . . , xkn ) pour des échantillons supplémentaires.
3. (x11 , x21 ... xk1 ) peuvent être considérées comme les valeurs d’une variable aléatoire X1 qui suit la loi
de X. De même, (x12 , x22 ... xk2 ) peuvent être considérées comme les valeurs d’une variable aléatoire
X2 qui suit aussi la loi de X, ... et (x1n , x2n ... xkn ) celles d’une variable aléatoire Xn qui suit encore
et toujours la même loi, celle de X.
4. X1 pourrait se nommer “valeur du premier élément d’un échantillon”. X2 pourrait se nommer
“valeur du deuxième élément d’un échantillon”. ....Xn pourrait se nommer “valeur du n-ième
élément d’un échantillon”.
5. L’hypothèse d’une population infinie ou d’un échantillonnage avec remise nous permet d’affirmer
que ces n variables aléatoires sont indépendantes.

ENCG Dakhla, SA, S5 Pr. Elouali AAILAL 2021/2022


2

Les avantages de l’échantillonnage :


1. Réduit les coûts associés à une enquête statistique.
2. Gain en termes de temps.
3. C’est la seule méthode efficace dans le cas d’un test destructif.
Inconvénients de l’échantillonnage :
Les résultats obtenus d’un échantillon à l’autre vont être en général différents et différents également
de la valeur de la caractéristique correspondante dans la population. On dit qu’il y a des fluctuations
d’échantillonnage.

1.2 Quelques méthodes d’échantillonnage.


1.2.1 Echantillonnage aléatoire simple.
Cette méthode donne la même chance à tous les individus d’une population d’être sélectionnés.
L’adoption de cette méthode est appropriée lorsque la population est grande et relativement homogène.
Ce type d’échantillonnage consiste à prélever aléatoirement n individus parmis les élements de la po-
pulation, de sorte que chaque individu ait la même probabilité d’être sélectionné.
Les étapes :
1. Détermier la population mère.
2. Attribuer un numéro à chaque individu de la population mère.
3. Tirer au hasard l’échantillon de taille n, en procédant de façon à réaliser l’équiprobabilité entre
les tirages au sort de chacun des individus sélectionnés.
Avantage.
L’échantillon aura en général "une bonne" représentativité de la population.
Inconvénient.
Il faut avoir la liste complète de la population pour ensuite faire le tirage au sort.

1.2.2 Echantillonnage stratifié.


On suppose que la population soit stratifiée, c’est-à-dire constituée de sous-populations homogènes
et distincts (strates). Dans chaque strate, on fait un échantillonnage aléatoire simple, de taille pro-
portionnelle à la taille de strate dans la population (échantillon représentatif). Les individus de la
population n’ont pas tous la même probabilité d’être tirés.

ENCG Dakhla, SA, S5 Pr. Elouali AAILAL 2021/2022


3

Avantages.
1. L’échantillonnage stratifié a l’avantage d’assurer une bonne représentation des différentes strates
de la population dans l’échantillon.
2. Il permet aussi d’obtenir des estimations pour chacune des strates de la population.
Inconvénient.
Pour utiliser cette méthode il faut avoir des renseignements sur la répartition des strates dans la
population.

Exemple 1.1.
On suppose que 55 % des étudiants de l’ENCG DAKHLA sont des filles. Pour construire un échantillon
de 80 étudiants en respectant ces deux strates (Filles, Garçons), on devrait choisir aléatoirement 55% ×
80 = 44 filles et 45% × 80 = 36 garçons.

1.2.3 Echantillonnage par grappes.


On tire au hasard des grappes (groupes d’individus de la population), puis on observe tous les
individus de chaque grappe ( on choisit des quartiers de Dakhla, ensuite on interroge tous les habitants
de ces quariers). La méthode est d’autant meilleure que les grappes se ressemblent et que les individus
d’une même grappe sont différents, contrairement aux strates.
Avantages.
1. Echantillonnage aléatoire malgré l’absence de liste exhaustive.
2. Réduction des coûts de déplacements, par concentration.
Inconvénients.
1. Les grappes risquent de ne pas représenter correctement la variabilité.
2. Les grappes utilisées doivent être de tailles à peu près équivalentes et de compositions semblables.

ENCG Dakhla, SA, S5 Pr. Elouali AAILAL 2021/2022


4

1.2.4 Echantillonnage systématique.


Le point de départ est de choisir aléatoirement un individu depuis le début. A partir de cet individu
nous choisissons les autres à un intervalle régulier (le pas de sondage ou le pas d’échantillonnage ).
Notons n, le nombre d’individus que doit comporter l’échantillon. L’entier voisin de Nn sera noté r et
appelé la le pas de sondage. Choisissons ensuite au hasard un entier d entre 1 et N, cet entier sera le
point de départ. Pour former l’échantillon, il s’agira de choisir un premier individu comme point de
départ, ce sera l’individu dont le numéro correspond à d. Pour sélectionner les autres, il suffit d’ajouter
à d le pas de sondage r : les individus choisis seront alors les individus dont les numéros correspondent
à : d , d + r , d + 2r, d + 3r,..., d + (n − 1)r.
Avantages.
1. L’origine est choisie au hasard et le reste de l’échantillon suit automatiquement.
2. L’échantillon est distribué dans des proportions égales à l’intérieur de la population, ce qui allège
considérablement les formules mathématiques.
3. L’échantillonnage systématique exige moins de manipulations que l’échantillonnage aléatoire simple.
Inconvénient.
Le plus gros inconvénient de la méthode d’échantillonnage systématique tient au fait que les échantillons
possibles risquent de ne pas être représentatifs de la population.

Exemple 1.2.
Un professeur décide de choisir systématiquement 10 étudiants parmi 100, pour jouer une pièce de
théâtre.
• Premièrement, il tire aléatoirement un nombre b entre 1 et 10 ;
• Deuxièmement, il prend tous les neuf autres étudiants dont le numéro d’ordre dans la liste est égal
à : b + 10i avec 1 ≤ i ≤ 9 (on a le pas r = Nn = 100
10
= 10).

1.2.5 Echantillonnage par quotas.


C’est la méthode empirique (échantillonnage non probabiliste) la plus fréquemment utilisée. Elle
consiste à construire par choix raisonné, un modèle réduit de la population mère, en tenant compte
d’un nombre restreint de ces caractéristiques appelées variables de contrôles. Cette méthode se base sur
l’hypothèse que l’échantillon reproduit fidèlement les caractéristiques sur lesquelles va porter l’enquête.

ENCG Dakhla, SA, S5 Pr. Elouali AAILAL 2021/2022


5

Avantages.
1. Cette méthode n’exige pas de base de sondage.
2. Le cout de sondage par quotas est nettement moins élevé que celui des sondages probabilistes.
Inconvénients.
1. Les échantillons obtenus par quotas risquent de ne pas être représentatifs de la population.
2. La méthode des quotas n’a pas de fondement théorique, donc on ne peut pas calculer la précision
(biais, intervalle de confiance).

Remarque 1.1.
L’échantillonnage par quotas est un peu similaire à l’échantillonnage stratifié, parce que dans son cas
également les unités semblables sont regroupées. Toutefois, il en diffère, cependant, sur le plan du mode
de sélection. Dans le cas d’un échantillonnage probabiliste, on sélectionne les unités au hasard, tandis
que dans celui d’un échantillonnage par quotas, on laisse habituellement à l’observateur le soin de
déterminer qui sera échantillonné. Cela peut donner lieu à des biais de sélection.

À partir de maintenant et sauf indication contraire, nous utiliserons la méthode d’échantillonnage


aléatoire simple avec remise.

1.2.6 Rappels.
Définition 1.2 (La loi normale).
Une variable aléatoire continue X suit une loi normale, si l’expression de sa fonction de densité de
probabilités est de la forme :
1 1 x−µ 2
f (x) = √ e− 2 ( σ ) , x ∈ R.
σ 2π
La loi dépend des deux réels µ et σ appelés paramètres de la loi normale. On la note N (µ, σ).

Théorème 1.1 (Théorème Central Limite (TCL)).


Soit X une variable aléatoire qui suit une loi quelconque sur la population, avec E(X) = µ et σ(X) = σ.
On prélève au hasard un échantillon (tirages avec remise) de taille n, avec n ≥ 30, de moyenne X̄. Alors
la variable aleatoire X̄ suit approximativement une loi normale : X̄֒→N (µ; √σn ).

ENCG Dakhla, SA, S5 Pr. Elouali AAILAL 2021/2022


6

Remarque 1.2.
On montre assez facilement que si on effectue un changement de variable sur une variable X, suivant
une loi normale, la variable standardisée Z = (X−µ)
σ
suit encore une loi normale, mais cette fois-ci de
paramètres 0 et 1. La loi standardisée est appelée loi normale centrée réduite, et notée N (0, 1). Sa
fonction de densité de probabilités est de la forme :
1 1 2
f (x) = √ e− 2 (x) , x ∈ R.

(X − µ)
Donc, si X suit N (µ, σ), on pose Z = et Z suit N (0, 1).
σ
Théorème 1.2 (Inégalité de Bienaymé-Tchébychev).
Soit X une variable aléatoire d’espérance E(X) et de variance V ar(X). Pour tout réel positif ǫ, la
probabilité pour que X s’éloigne de son espérance mathématique d’une grandeur supérieure ou égale à
V ar(X)
ǫ, a pour limite supérieure :
ǫ2
V ar(X)
P (|X − E(X)| > ǫ) 6
ǫ2

1.3 Distribution d’échantillonnage.


1.4 Distribution d’échantillonnage de la moyenne.
On dispose d’une population sur laquelle est définie une variable aléatoire X, dont on connaît
l’espérance (ou la moyenne) µ et l’écart-type σ. On s’intéresse aux échantillons de taille n. Auront-ils
tous la même moyenne ? Nous pouvons avoir des échantillons composés d’individus excentriques et avoir
une moyenne très différente de celle de la population (surtout si l’échantillon est de petite taille). Notons
X̄ la variable aléatoire qui, à chaque échantillon de taille n, associe sa moyenne ( X̄ s’appelle encore la
distribution d’échantillonnage de la moyenne). Que peut-on dire de cette variable aléatoire X̄ ?.
Par convention, on note toujours les variables aléatoires à l’aide de lettres majuscules (Xi ) et les valeurs
qu’elles prennent dans une réalisation à l’aide de lettres minuscules (xi ). Si les valeurs prises par X
dans un échantillon sont (x1 , x2 , . . . , xn ) , la moyenne x̄ de l’échantillon est donnée par :
x̄ = n1 (x1 + · · · + xn ) = n1 ni=1 xi . Cette valeur n’est rien d’autre que la valeur prise dans cet échantillon
P

de la variable aléatoire n1 ni=1 Xi = n1 (X1 + · · · + Xn ).


P

Définition 1.3.
On définit la variable aléatoire moyenne d’échantillon X̄ par :
1 1X n
X̄ = (X1 + · · · + Xn ) = Xi .
n n i=1
Proposition 1.1.
On a :
σ2  q
σ 
E(X̄) = µ et V ar(X̄) = c’est-à-dire que σX̄ = V ar(X̄) = √ .
n n
Remarque 1.3.
Lorsque l’échantillon est exhaustif (tirage sans remise), la formule de la variance de la moyenne dé-
2
vienne : V ar(X̄) = σn N −n
N −1
.

Exemple 1.3.
Une entreprise a amassé les archives des années précédentes, relatives à l’assiduité de ses employés.
sachant que les résultats sont distribués suivant une loi normale de moyenne µ = 150 et de variance
σ 2 = 100. On choisit aléatoirement 25 employés de l’entreprise. Quelle est la probabilité que la moyenne
de l’assiduité de cet échantillon soit comprise entre 146 et 154 ?

ENCG Dakhla, SA, S5 Pr. Elouali AAILAL 2021/2022


7

• On considère la variable aléatoire X̄ moyenne d’échantillon pour les échantillons de taille n = 25.
On cherche à déterminer P (146 < X̄ < 154). Pour cela, il nous faut connaître la loi suivie par X̄.
Examinons la situation. Nous sommes en présence d’un petit échantillon (n < 30) et heureusement
dans le cas où la variable X suit une loi normale. De plus, σ est connu. Donc X̄ suit N (µ, √σn ) =
N (150, 10/5). On en déduit que Z = X̄−150
2
suit N (0, 1). La table de la loi normale centrale réduite
donne P (Z ≤ 2) = (2) = 0.9772 (voir l’annexe) :
Q

146 − 150 154 − 150


P (146 < X̄ < 154) = P ( <Z< ) = P (−2 < Z < 2)
2 2
= 2P (Z ≤ 2) − 1 = 2 (2) − 1 = 2 × 0.9772 − 1 = 0.9544.
Y

1.5 Distribution d’échantillonnage de la variance.


Définition 1.4.
On définit la variable aléatoire variance empirique d’échantillon Sn2 par :
2 1X n
Sn2 = n1 i=n (X − X̄)2
et S = (xi − x̄)2 est une réalisation de la variable aléatoire Sn2 . La quantité
P
i=1 i n
n i=1
µk = E((X − µ)k ) est appelée le moment centré d’ordre k.

Proposition 1.2.
.
1. E(Sn2 ) = σ , (lorsque n dévient très grand ces deux nombres seront très proches l’un
n−1 2
n
de l’autre).
2. V ar(Sn ) = n3 {(n − 1)µ4 − (n − 3)σ 4 }, avec µ4 = E((X − µ)4 ) est le moment centré
2 n−1
d’ordre 4.

n(S 2 − σ 2 )
3. La variable aléatoire Y = √ n suit N (0, 1).
µ4 − σ 4

La moyenne des variances d’échantillon est differente de la variance de la population σ 2 et on verra


plus tard que cela présente un défaut (en termes de qualité d’un estimateur). Pour remédier à ce
problème, on veut avoir une variable aléatoire dont l’espérance égale à la variance de la population.
2
Nous allons donc introduire une nouvelle variable aléatoire qu’on appelle la variance corrigée : Sn⋆ .

Définition 1.5.
2
On définit la variance corrigée par la variable aléatoire Sn⋆ définie par :
2
Sn⋆ = n−1
n
Sn2 = n−1
1
i=1 (Xi − X̄) .
n 2
P

Proposition 1.3.
2
E(Sn⋆ ) = σ 2 . On a bien l’éspérance (la moyenne) de la variance corrigée est égale à la variance de la
population σ 2 .

Proposition 1.4.
.
– a) Si X suit N (µ, σ), alors :
nSn2
1. σ2
2
֒→ Xn−1 .

n−1(X̄−µ)
2. √ 2
֒→ tn−1 .
Sn
nSn2
– b) Si µ est connue, alors : σ2
֒→ Xn2 .

1.6 Distribution d’échantillonnage de la proportion.


Il arrive assez souvent que nous cherchons à éstimer dans une population une proportion p d’individus
possédant un caractère qualitatif donné. Bien sûr, cette proportion p sera estimée à l’aide des résultats

ENCG Dakhla, SA, S5 Pr. Elouali AAILAL 2021/2022


8

obtenus sur un n-échantillon. Soit f la proportion obtenue dans un n-échantillon c’est une valeur
observée d’une variable aléatoire F , fréquence d’apparition de ce caractère dans un échantillon de taille
n, appelée proportion d’échantillon. On se pose la question : La moyenne des fréquences d’observation
du caractère sur l’ensemble de tous les échantillons de taille n est-elle égale à la proportion p de la
population ?
Puisque F est la fréquence d’apparition du caractère dans un échantillon de taille n. Donc F = Xn où
X est le nombre de fois où le caractère apparaît dans le n-échantillon. Pour tout i compris entre 1 et
n, notons Xi la variable aléatoire définie par :

1, si le i-ème élément de l’échantillon possède le caractère ;


(
Xi =
0, sinon.

La variable aléatoire Xi suit une loi de Bernoulli de paramètre p.


La variable aléatoire X = X1 + · · · + Xn est donc binomiale de paramètres n et p. Par définition X suit
B(n, p), alors E(X) = np et V ar(X) = npq où q = 1 − p. Puisque F = Xn , donc :

Proposition 1.5.
pq
E(F ) = p et V ar(F ) = .
n
On sait que si n ≥ 30, np ≥ 15 et nq ≥ 15, on peut approcher la loi binomiale
q par la loi normale de
même espérance et de même écart-type. Donc F suit approximativement N (p, pq n
),

Proposition 1.6.
q
pq F −p
Si n ≥ 30, np ≥ 15 et nq ≥ 15, donc F ֒→N (p, n
) et la variable Z = q pq suit alors approximati-
n
F −p
vement la loi N (0, 1). Z = √ pq ֒→N (0, 1).
n

Exemple 1.4.
Selon une étude sur le comportement du consommateur, 25% d’entre eux sont influencés par la marque,
lors de l’achat d’un bien. Si on interroge 100 consommateurs pris au hasard, quelle est la probabilité
pour qu’au moins 35 d’entre eux se déclarent influencés par la marque ?
• Appelons F la variable aléatoire :“proportion de consommateurs influencés dans un échantillon de
taille 100”. Il s’agit ici de la proportion de consommateurs dans l’échantillon qui se déclarent influencés
par la marque. On cherche à calculer P (F > 0.35). Il nous faut donc déterminer la loi de F . Or
np = 100×0.25 = 25 et nq = 100×0.75 q = 75. Ces deux quantités étant supérieures à 15 et n = 100 ≥ 30,
on peut considérer que F suit N (p, pq n
) = N (0.25, 0.0433). On utilise la variable Z = F0.0433
−0.25
qui suit
la loi N (0, 1). Il vient

F − 0.25
P (F > 0.35) = P (Z = > 2.31) = 1 − P (Z ≤ 2.31) = 1 − (2.31) = 1 − 9896 = 0.0104.
Y
0.0433
La valeur (2.31) sera lue dans la table de la loi normale centrale réduite (voir l’annexe). Il y a environ
Q

une chance sur 100 pour que plus de 35 consommateurs dans un 100 - échantillon se disent influencés
par la marque lorsque l’ensemble de la population contient 25% de tels consommateurs.

2 Estimation.
2.1 L’estimation ponctuelle.
2.1.1 Définitions.
Dans de nombreux domaines (économiques, sociaux, industriels...), on a besoin de de savoir certaines
caractéristiques d’une population. Mais, en règle générale, on ne peut pas les évaluer facilement du fait

ENCG Dakhla, SA, S5 Pr. Elouali AAILAL 2021/2022


9

de l’effectif trop grand des populations concernées. La solution consiste alors à estimer le paramètre
cherché à partir de celui observé sur un échantillon plus petit.
L’estimation consiste à donner des valeurs approximatives aux paramètres d’une population à l’aide
d’un échantillon de n observations issues de cette population. On peut se tromper sur la valeur exacte,
mais on donne la meilleure valeur possible que l’on peut supposer. Ces estimations peuvent s’expri-
mer par une seule valeur (estimation ponctuelle), soit par un intervalle (estimation par intervalle de
confiance). Bien sûr, comme l’échantillon ne donne qu’une information partielle, ces estimations seront
accompagnées d’un risque d’erreur. On peut diminuer ce risque, mais alors l’intervalle devient plus
large, et donc moins intéressant.
L’objectif ici est d’estimer un paramètre (supposés inconnu) θ de la population mère, par exemple sa
moyenne µ ou sa variance (son écart-type σ ) σ 2 ou une proportion p.

Un estimateur noté θ̂ du paramètre θ est une statistique Tn (donc une fonction de (X1 , X2 , · · · , Xn )
dont la réalisation est envisagée comme une valeur approchant le paramètre θ. La valeur prise par la
statistique Tn au point observé (x1 , x2 , · · · , xn ), est une estimation de θ associée à cet estimateur θ̂.

Définition 2.1.
Soit Tn la v.a.r telle que Tn = ϕθ (X1 , · · · , Xn ), avec ϕθ est une fonction de n variables réelles. On dit
que Tn est un estimateur de θ, si on a : lim E(Tn ) = θ, (Tn est une statistique et θ est le paramètre
n→+∞
à estimer). Toute valeur prise par la fonction Tn = ϕθ (X1 , · · · , Xn ) au point observé (x1 , x2 , · · · , xn )
est appelée estimation.
On dit qu’un estimateur Tn est sans biais si la moyenne de sa distribution d’échantillonnage
est égale à la valeur θ du paramètre de la population à estimer : E(Tn ) = θ. Sinon, c’est-à-dire, si
E(Tn ) 6= θ, l’estimateur Tn est dit biaisé ou avec biais. Le biais est mesuré par l’écart suivant :
biais(Tn ) = E(Tn ) − θ.

Définition 2.2.
On dit qu’un estimateur Tn est assyptotiquement sans biais si on a : lim E(Tn ) = θ.
n→+∞
On dit qu’un estimateur Tn est convergent, s’il est convergent en probabilité c’est-à-dire, si :
∀ǫ > 0 : lim P (| Tn − θ |< ǫ) = 1.
n→+∞
On dit qu’un estimateur Tn est consistant, si : E(Tn ) = θ et lim V ar(Tn ) = 0.
n→+∞
Soient Tn et Tn′ deux estimateurs sans biais de θ. L’estimateur Tn est dit plus efficace que l’esti-
mateur Tn′ , si : V ar(Tn ) ≤ V ar(Tn′ ). Un estimateur est appelé efficace, s’il est sans biais et de variance
minimale.

2.1.2 Estimation ponctuelle de la moyenne.


Soit X une v.a qui suit une loi de probabilité quelquonque, on cherche à estimer sa moyenne
µ = E(X) (son espérance), en partant d’un n-échantillon de X.

Proposition 2.1.
La moyenne empirique X̄ = n1 (X1 + · · · + Xn ) est un estimateur efficace de µ.
La réalisation x̄ = n1 (x1 + · · · + xn ) de X̄, est une estimation efficace de µ.

ENCG Dakhla, SA, S5 Pr. Elouali AAILAL 2021/2022


10

Exemple 2.1.
.
1. Puisque E(X̄) = µ, donc la moyenne d’échantillon X̄ est un estimateur sans biais du paramètre
µ, moyenne de la population.

2. La médiane d’échantillon Me est un estimateur avec biais, lorsque la population échantillonnée


est asymétrique.

3. On a vu que E(Sn2 ) = n−1 n


σ 2 , donc Sn2 est un estimateur avec biais du paramètre variance de la
population σ 2 .
2
C’est pour cette raison que l’on a introduit la variance corrigée Sn⋆ , qui est un estimateur sans
2
biais de σ 2 , puisque E(Sn⋆ ) = n−1 n
Sn2 = n−1
1
i=1 (Xi − X̄) = σ .
n 2 2
P

Exemple 2.2.
Vérifions que l’estimateur X̄ est un estimateur qui est asymptotiquement sans biais et consistant du
paramètre µ de la loi normale N (µ, σ).
E(X̄) = n1 ni=1 E(Xi ) = nµ = µ, car les variables Xi suivent toutes la même loi d’espérance µ, donc X̄
P
n
est un estimateur asymptotiquement sans biais de µ.
2 2
V ar(X̄) = n12 ni=1 V ar(Xi ) = nσ = σn , car les variables Xi sont indépendantes et suivent toutes
P
n2
2
la même loi de variance. Puisque V ar(X̄) = σn tend vers 0 quand n tend vers +∞, donc X̄ est un
estimateur consistant du paramètre µ.

2.1.3 Estimation ponctuelle de la variance.


Soit X une v.a qui suit une loi normale N (µ, σ), on cherche à estimer sa variance σ 2 , en partant
d’un n-échantillon de X.

Proposition 2.2.
.
1. Si µ est connue, alors Tn2 = 1
i=1 (Xi − µ)2 est un estimateur efficace de σ 2 .
Pi=n
n
2. Si µ est inconnue, alors :
– La variance empirique Sn2 = n1 i=n
i=1 (Xi − X̄) est un estimateur biaisé de σ , cependant il est
2 2
P

asyptotiquement sans biais.


2
– La variance empirique corrigée Sn⋆ = n−1
n
Sn2 = n−1 i=1 (Xi − X̄) est un estimateur sans biais
1 Pi=n 2

de σ 2 .

2.1.4 Estimation ponctuelle de la proportion.


Exemple 2.3.
• une urne contient des boules noires et blanches dont on ne connaît pas la composition. En 100 tirages
on a obtenu 30 noires et 70 blanches.
On peut par exemple estimer la proportion p de boules noires dans l’urne par p̂ = 10
3
(c’est-à-dire 30%).

Exemple 2.4.
On lancer 10 fois une pièce de monnaie truquée, on a obtenu 4 Pile 6 Face.
On peut par exemple estimer la proportion p de Face par p̂ = 35 (c’est-à-dire 60% ).

2.1.5 Méthode du maximum de vraisemblance


Définition 2.3.
Soit (X1 , X2 , . . . , Xn ) un n-échantillon associé à la v.a X dont la fonction de densité fθ (x) dépend d’un

ENCG Dakhla, SA, S5 Pr. Elouali AAILAL 2021/2022


11

paramètre θ. On appelle fonction de vraisemblance du paramètre θ, la fonction :


L : Θ → R+ (Θ est l’espace de paramètres) :
n
L(x1 , x2 , . . . , xn , θ) = fθ (xi )
Y

i=1
= fθ (x1 ) × fθ (x2 ) × . . . × fθ (xn )

La méthode du maximum de vraisemblance consiste à trouver θ̂ (s’il existe) qui maximise la fonction
de la vraisemblance L : θ̂ = {θ/L(θ̂) = supθ L(θ)}.
Si la fonction de vraisemblance L est dérivable et admet un maximum global en un point, alors la
dérivée première s’annule en ce point, ainsi que la dérivée seconde est négative.
Inversement, si la dérivée première s’annule au point θ = θ̂ et que la dérivée seconde est négative en
θ = θ̂, donc θ̂ est un maximum local de L. Il est alors nécessaire de vérifier qu’il s’agit bien d’un
maximum global.
La fonction de vraisemblance L(x1 , x2 , . . . , xn , θ) = ni=1 fθ (xi ) étant positive et le logarithme népérien
Q

une fonction croissante, il est équivalent et souvent plus simple de maximiser le logarithme népérien de
la vraisemblance (le produit se transforme en somme, ce qui est plus simple à dériver).
Pour appliquer la méthode du maximum de vraisemblance, on procède par deux étapes :
1. Etape 1 : On vérifie la condition nécessaire : Trouver le point critique θ̂, solution de l’équation :

∂L(x1 , x2 , . . . , xn , θ) ∂ ln(L(x1 , x2 , . . . , xn , θ))


= 0 ou =0
∂θ ∂θ

2. Etape 2 : On vérifie la condition suffisante : Le point critique θ̂ est un maximum local si :

∂ 2 L(x1 , x2 , . . . , xn , θ) ∂ 2 ln(L(x1 , x2 , . . . , xn , θ))


(θ̂) ≤ 0 ou (θ̂) ≤ 0.
∂2θ ∂2θ
Théorème 2.1.
L’estimateur du maximum de vraisemblance est asymptotiquement sans biais et consistant (sous cer-
taines conditions de régularité).

Exemple 2.5.
Soit X une v.a qui suit une loi de Poisson de paramètre λ. On souhaite estimer le paramètre λ à partir
d’un n-échantillon (X1 , X2 , . . . , Xn ), en utulisant la méthode du maximum de vraisemblance.
λn
1. La fonction de densité de Poisson est fλ (n) = Pλ (X = n) = e−λ .
n!
2. La fonction de vraisemblance n
s’écrit
n
ainsi :x n
λi λ xi
L(x1 , x2 , . . . , xn , λ) = fλ (xi ) = e−λ = e−λn
Y Y Y

i=1 i=1 xi ! i=1 xi !


n n
3. On passe par le logarithme népérien : ln(L(x1 , x2 , . . . , xn , λ)) = −λn + ln(λ) ln(xi !).
X X
xi −
i=1 i=1
4. La dérivée première du logarithme népérien de la fonction de vraisemblance est égale à :
∂ ln(L(x1 , x2 , . . . , xn , λ)) 1X n
1X n
= −n + xi , elle s’annule pour λ̂ = xi .
∂λ λ i=1 n i=1
5. La dérivée seconde du logarithme népérien de la fonction de vraisemblance est égale à :
∂ 2 ln(L(x1 , x2 , . . . , xn , λ)) 1 X n
= − xi , donc est toujours n’egative.
∂2λ λ2 i=1
Finalement, la méthode du maximum de vraisemblance nous donne comme estimateur :
1X n
λ̂ = X̄ = xi , la moyenne d’échantillon.
n i=1

ENCG Dakhla, SA, S5 Pr. Elouali AAILAL 2021/2022


12

Définition 2.4.
Soit X1 , X2 . . . , Xn un n-échantillon aléatoire d’une distribution fθ (x). On appelle Information de Fisher
apportée "par la réalisation # x1 ,"x2 . . . , xn sur le paramètre
# θ, la quantité (si elle existe) définie par :
 2  2
I(θ) = E ∂
∂θ
ln fθ (X) =E ∂
∂θ
ln(L(X; θ))

Proposition 2.3 (Inégalité de Cramér-Rao).


Soit X1 , X2 . . . , Xn un n-échantillon aléatoire d’une distribution fθ (x) dont le domaine de définition ne
dépend pas de θ, et soit Tn un estimateur sans biais de θ. Alors,
1
V ar(Tn ) ≥ " 2 #
nE ∂
∂θ
ln fθ (X)

La quantité " 1
2 # s’appelle la borne de Cramér-Rao.

nE ∂θ
ln fθ (X)

Définition 2.5.
Un estimateur sans biais θ̂ = Tn de θ est dit efficace si, et seulement si, sa variance atteint la borne de
Cramér-Rao.

2.2 Estimation par intervalle de confiance


2.2.1 Estimation d’une proportion via un intervalle de confiance
Définition 2.6.
Soit (X1 , X2 , . . . , Xn ) un n-échantillon associé à la v.a X dont la fonction de densité fθ (x) dépend d’un
paramètre θ ∈ R inconnu. Soit α ∈ [0; 1]. On dit que l’intervalle Iθ = [a; b] est un intervalle de confiance
au niveau 1 − α pour θ, si : P (θ ∈ [a; b]) = 1 − α.

Soit une population dont une proportion p inconnue d’individus possedent un caractère. On souhaite
estimer cette proportion p de cette population à partir d’un échantillon de taille n dont la fréquence du
caractère étudié est f . Soit F la variable aléatoire qui à chaque échantillon de taille n associe la fréquence
du nombre d’éléments ayant le caractère choisi. On sait que pour n suffisamment grand (n ≥ 30), on
a: q q
f (1−f )
F ֒→N (µ, σ) = N (p, pq n
) et Z = F −p
σ
= F −p
√ pq ֒→N (0, 1). Soit σ ′
= n
l’écart type associé à
n
la fréquence f deql’échantillon
q de taille n. On se sert de l’estimation ponctuelle de σ puisque p est
f (1−f )
inconnue : σ = σ n−1 =
′ n
n−1
.
Le but est de déterminer un intervalle de confiance de la proportion p, c’est-à-dire un intervalle tel
que la probabilité que cet intervalle ne contient pas la proportion p, soit égale à α où α ∈ [0; 1]. α est
le risque que l’on prend à dire que cet intervalle contient la proportion p. On appelle cet intervalle, un
intervalle de confiance avec le risque α ou avec le niveau de confiance c = 1 − α.
Soit z α2 la valeur telle P (Z > z α2 ) = α2 où Z suit N (0, 1). A l’aide des propriétés de la loi normale
centrée réduite, on a : P (Z ≤ z α2 ) = 1− α2 et P (Z < −z α2 ) = α2 et P (−z α2 < Z < z α2 ) = 1− α2 − α2 = 1−α.
Donc, on a : P (−z α2 < F σ−p < z α2 ) = 1 − α et P (−z α2 σ < F − p < z α2 σ) = 1 − α, c’est-à-dire que
q q
P (F − z α2 σ < p < F + z α2 σ) = 1 − α et P (F − z α2 f (1−f
n−1
)
< p < F + z α2 f (1−f
n−1
)
) = 1 − α. Il en va que
l’intervalle
 deqconfiance de laqproportion
 p avec un coefficient
q
de confiance 1 − α est :
f (1−f ) f (1−f ) f (1−f )
I = F − z α2 n−1
;F + z α2 n−1
) . La quantité z α2 n−1
) s’appelle marge d’erreur.
 q q 
f (1−f ) f (1−f )
Pour n assez grand, cet intervalle devient : I ′ = F − z α2 n
;F + z α2 n
) .

ENCG Dakhla, SA, S5 Pr. Elouali AAILAL 2021/2022


13

Exemple 2.6.
Un sondage dans une entreprise révèle que sur les 500 salariés interrogés, 42% n’adhèrent pas à la
stratégie de leur direction. On veut déterminer, au seuil de risque 1%, un intervalle de confiance du
pourcentage p de salariés qui n’adhèrent pas à la stratégie de la direction de cette entreprise :
On a : f = 0, 42 ; n = 500 > 30 ; α = 1% donc z α2 = 2, 58 (lu sur la table de la loi normale réduite).
Un intervalle de confiance
s du pourcentage p s est donc :
0, 42 × 0, 58 0, 42 × 0, 58
" #
I = 0, 42 − 2, 58 ; 0, 42 + 2, 58 = [0, 36; 0, 48] = [36%; 48%], il y a 99% de
499 499
chances que l’intervalle I = [36%; 47%] contient la proportion p de salariés mécontentes dans l’entreprise.

2.2.2 Estimation d’une moyenne via un intervalle de confiance


Soit X une v.a qui suit la loi normale N (µ, σ) et la suite (X1 , X2 , . . . , Xn ) de variables indépendantes
et identiquement distribuées de même loi que X.
Soit z α2 le nombre réel et positif tel que P (−z α2 < Z < z α2 ) = 1 − α. On sait que la v.a X̄ = n1 ni=1 Xi
P

X̄−µ
(la moyenne empirique) suit la loi normale N (µ, √σn ), donc P (−z α2 < √σ
< z α2 ) = 1 − α et
n

P (−z α2 √σn < X̄ − µ < z α2 √σn ) = 1 − α, c’est-à-dire que P (X̄ − z α2 √σn < µ < X̄ + z α2 √σn ) = 1 − α, on a
donc x̄ − z α2 √σn < µ < x̄ + z α2 √σn .
L’intervalle
 de confiance pour la moyenne d’une population de variance σ 2 connue est l’intervalle
J = x̄ − z α2 √σn ; x̄ + z α2 √σn . La quantité e = z α2 √σn s’appelle marge d’erreur.

Si la v.a suite la loi normale N (µ, σ) d’écart-type σ inconnu, cet intervalle est modifié. En effet, on
se base sur la moyenne de l’échantillon et un estimateur de l’écart-type, pour donner un intervalle de
confiance de la moyenne µ de la population. On sait que
√ √
n(X̄ − µ) n − 1(X̄ − µ)
q = q ֒→ tn−1
Sn⋆2
Sn2

(loi de Student à (n − 1) degrés de liberté et Sn⋆ 2 = n−1


1
i=1 (Xi − X̄) est la variance empirique corrigée
n 2
P
⋆ ⋆
). Ainsi cet intervalle de confiance est donné par : x̄ − t α2 √snn < µ < x̄ + t α2 √snn . L’intervalle de confiance
 
s⋆n s⋆n
pour la moyenne d’une population de variance σ inconnue est l’intervalle J = x̄ − t
2 ′ α
2

n
; x̄ +t α
2

n
,
où t α2 = t α2 ;(n−1) , c’est-à-dire que ce nombre sera lu dans la table de la loi de Student au risque α
2
avec
ν = n − 1 degrés de liberté.

Exemple 2.7.
On suppose que l’espérance de vie d’un moteur électrique, exprimée en heures, suit la loi normale de
moyenne µ inconnue et d’écart-type σ = 20.
La moyenne de vie d’un échantillon de 16 moteurs électriques est égale à 3000 heures.
Déterminons un intervalle de confiance de la moyenne µ au seuil de risque de α = 10%.
D’abord l’écart-type est connu σ = 20 et on a :
α = 10% d’où P (−z α2 < Z < z α2 ) = 1 − α = 2Π(z α2 ) − 1 = 0, 90 ⇐⇒ Π(z α2 ) = 0, 95 ⇐⇒ z α2 = 1, 645.
20 20
" #
Un intervalle de confiance de µ est donc : J = 3000 − 1, 645 √ ; 3000 + 1, 645 √ = [2992, 3008], il
16 16
y a 90% de chances que cet intervalle contient la moyenne des durées de vie µ des moteurs électriques.

Exemple 2.8.
Une pâtisserie produit des biscuits. Le poids X (en grammes) d’un biscuit tiré au hasard dans la
production est une variable aléatoire suivant une loi normale. On tire un échantillon de 17 biscuits que
l’on pèse, on obtient les résultats suivants :
250 ; 254 ; 254 ; 253 ; 256 ; 250 ; 257 ; 251 ; 253 ; 255 ; 250 ; 255 ; 252 ; 261 ; 252 ; 251 ; 255.
On a la moyenne de cet échantillon est x̄ = 253, 5 et sn = 2, 8. Puisque la variance de la population σ 2
est inconnue, on donne une estimation ponctuelle de σ 2 , donc, σ̂ 2 = Sn⋆ 2 = n−1 n
s2n = 8, 51.

ENCG Dakhla, SA, S5 Pr. Elouali AAILAL 2021/2022


14

Donc un intervalle de confiance


 au niveau
 de 95% pour la moyenne de poidsde biscuit µ est l’intervalle :
⋆ ⋆
J ′ = x̄ − t α2 √snn ; x̄ + t α2 √snn , donc J ′ = 253, 5 − 2, 12 √2,8
16
; 253, 5 + 2, 12 √2,8
16
= [252; 255], cet intervalle
a 95% de chances de contenir la moyenne de poids des biscuits produits par cette pâtisserie, t α2 = 2, 12
est lu sur la table de Student (voir l’annexe).

2.2.3 Estimation de la variance via un intervalle de confiance


On sait que :
2
(n − 1)Sn⋆ nSn2 2
= ֒→ Xn−1
σ2 σ2
⋆2
( (n−1)S
σ2
n
suit la loi du X 2 à ν = n − 1 degrés de liberté), donc P (X1−
2
α < X
2
< X α2 ) = 1 − α et
2 2
⋆2 ⋆2 ⋆ 2
(n−1)Sn
P (X1−
2
α < σ2
< Xα ) = 1 − α =
2
P ( (n−1)S
X 2α
n 2
<σ < (n−1)Sn
2
X1− α
), où X α = X α ;(n−1) , c’est-à-dire que ce
2 2
2 2 2 2
2 2
nombre sera lu dans la table de la loi de Khi-deux X (voir l’annexe), avec ν = n − 1 degrés de liberté.
2

(n−1)Sn⋆2 (n−1)S ⋆2
L’intervalle de confiance pour la variance d’une population est l’intervalle J =
′′
X 2α
; X2 α .
n

2 1− 2

ENCG Dakhla, SA, S5 Pr. Elouali AAILAL 2021/2022


15

ENCG Dakhla, SA, S5 Pr. Elouali AAILAL 2021/2022


16

ENCG Dakhla, SA, S5 Pr. Elouali AAILAL 2021/2022


17

Table de la loi Khi deux.

ENCG Dakhla, SA, S5 Pr. Elouali AAILAL 2021/2022

Vous aimerez peut-être aussi