Vous êtes sur la page 1sur 59

Université Mohammed V de Rabat

Faculté des Sciences Juridiques, Economiques et Sociales – Souissi-

Cours d’échantillonnage et Estimation

Professeur : ECHAOUI Abdellah

Année universitaire 2020/2021


Echantillonnage et estimation
Plan du cours
Chapitre I : Echantillonnage

Section I: La méthode des sondages

Section II: La méthode des quotas

Section III: La méthode des sondages aléatoires

Chapitre II: L’estimation

Chapitre III: Les problèmes de comparaison


Chapitre I : Echantillonnage
Tout le problème consiste en la collecte de l’information relative à une population
statistique donnée.

1- on peut effectuer une collecte exhaustive de l’information, cependant, lorsque la taille


de la population est élevée il y a un coût financier important;

2- on peut collecter l’information sur une fraction de la population. Il y a un intérêt certain


lorsque la fraction de la population choisie est représentative, on peut donc étendre les
informations collectées à l’ensemble de la population. Ce procédé est appelé: enquête par
sondage.

Section I: la méthode des sondages

Un sondage est une enquête portant sur une fraction représentative de la population étudiée,
cette population étudiée est appelée population de référence. La fraction est appelée échantillon.

On appelle taux de sondage t=n/N avec n: l’effectif de l’échantillon et N: l’effectif de la


population de référence.

1- Avantage des enquêtes par sondage

Aux enquêtes par sondage sont attachés des avantages de coût de rapidités et de souplesse

Concernant les enquêtes par sondage on a des observations qui touchent un nombre d’unités
statistique relativement faible et ensuite on procède à la généralisation des résultats obtenus.

a-Coût et rapidité

Avec l’intervention d’un enquêteur de métier, le prix de revient d’une enquête par sondage est
relativement faible.

Dans les années 80 on estimait en France le coût d’une enquête entre 30 et 80.

b- Souplesse dans le choix des concepts

Les définitions et les procédures sont susceptibles d’évolution d’où une difficulté
d’interprétation des résultats.

La pratique des sondages entraîne une facilité de manipulation car l’enquête peut être
reproduite fréquemment.

Grâce à sa faible taille le sondage permet l’intervention d’un enquêteur de métier ou de


personnel de mesure qualifié et rend possible l’observation précise et simultanée de nombreux
caractères.

2- Les limites des sondages


On distingue deux types de limites l’erreur de l’échantillonnage et difficulté de désignation de
l’échantillon.

a-L’erreur de l’échantillonnage

La base des enquêtes par sondage est donnée par la loi des grands nombres.

Les extrapolations à la population de référence de grandeur mesurée sur l’échantillon ne


peuvent être réalisées avec une précision acceptable qu’à partir d’échantillon de taille
suffisamment importante.

b-Difficulté de désignation de l’échantillon

Tout le problème est celui de la localisation de la population de référence.

3- Les différents types de sondages

En règle générale on a deux types de sondage: sondage par choix raisonné et sondage aléatoire.

a-Sondage par choix raisonné:

C’est une construction à partir d’information sur la population étudiée d’un échantillon qui
ressemble autant que possible à cette population.

b-Sondages aléatoires:

On prélève un échantillon où chacune des unités de la population a une probabilité connue


différente de zéro d’appartenir à cet échantillon. Les variables observées sur l’échantillon sont
des variables aléatoires. À partir de celle-ci, il est non seulement possible d’estimer de
grandeurs relatives à l’ensemble de la population mais encore d’associer à ces estimations une
mesure de l’erreur susceptible d’avoir été commise.

Section II: La méthode des quotas

C’est une méthode qui appartient aux méthodes par choix raisonné.

1-Principe de la méthode des quotas

Il repose sur l’hypothèse de la corrélation des différents caractères d’une population.

Si cette hypothèse est justifiée alors un échantillon choisi de façon à présenter une distribution
statistique de certains caractères aura de très grande chance d’être proche de la population de
référence en ce qui concerne la distribution des autres caractères.

Les caractères retenus pour assurer la conformité de l’échantillon à l’ensemble de la population


sont appelés variables de contrôle.

Pour appliquer la méthode des quotas il convient de connaître la distribution de la population


selon les variables de contrôle. On obtient donc les quotas à respecter.
En multipliant les quotas par le taux de sondage, on s’assure que l’échantillon a la même
structure que la population.

Exemple:

On suppose que la population N est égale à 346400, le taux de sondage est t =n/N =1/300. On
suppose qu’on a la répartition suivante:
Sexe n α% Age α%

M 16320 47.1% [15- 81600 23,6%


F 0 52.9% 24[ 58500 16,9%
Quotas relatif à l’échantillon ou (Quotaséchantillon)
18320 [25- 10740 31%
0 34[ 0 28,5%
Sexe n Age
[35- 98900 n
Total 34640 34640
M 0 544 [15-24[ 0272
F 610 [25-34[ 195
[35-54[ 352
≥ 55 329

Total 1154 1154

2- La mise en œuvre de la méthode des quotas

a- Les choix des variables de contrôle

Pour être retenu comme variable de contrôle, un caractère statistique doit remplir trois
conditions:

1ère condition: être en corrélation étroite avec les variables étudiées;

2ème condition: avoir une distribution statistique connue pour l’ensemble de la population;

3ème condition: un caractère statistique doit se prêter à l’observation sur le terrain.

b- Organisation pratique de l’enquête

Dans un premier temps, on désigne l’échantillon généralement, le domaine d’étude n’est pas
une seule localité mais une région ou une zone qui comporte plusieurs localités on procède à
un sondage à plusieurs degrés.

1er degré: on désigne un échantillon de localité qu’on appelle: unité primaire.

Dans ces unités primaires, on désigne un 2 ème degré en fonction de la nature de l’enquête.

Organisation de l’enquêteur:
L’organisation est fonction de la structure du réseau d’enquêteur, on distingue deux types
d’enquêteurs:

Soit un réseau permanent d’enquêteurs, soit l’utilisation d’équipe d’enquêteurs itinérants (qui
se placent).

Le contrôle des enquêteurs

Dans une enquête par sondage aléatoire les enquêteurs travaillent sur des listes d’adresses ou
de personnes.

Il est difficile de contrôler les enquêteurs concernant les enquêtes par quotas dans la mesure où
il n’y a pas de listes prédéterminées

Il est bon d’imposer à ces enquêteurs quelques conditions supplémentaires en dehors du respect
des quotas:

1ère condition: interdiction de sélectionner les personnes à interroger sur des listes;

2ème condition: interdiction d’opérer dans le lieu de travail ou dans la rue;

3ème condition: interdiction d’interroger deux fois la même personne.

Pour limiter l’initiative de l’enquêteur dans le choix des personnes à interroger est la méthode
de Politz. Elle consiste à imposer à chaque enquêteur un itinéraire (trajet) strictement fixé en
lui indiquant les points d’enquête.

Cette méthode ne requiert pas l’existence d’une base de sondage.

3- Avantages et inconvénients de la méthode des quotas

a- Avantages

-Cette méthode de quotas ne requiert pas l’existence d’une base de sondage;

-Cette méthode a des coûts peu élevés lorsque le choix des individus est laissé à la discrétion
de l’enquêteur.

b-Inconvénient de la méthode

-La méthode des quotas n’a pas de fondement théorique suffisante cette méthode repose sur une
hypothèse selon laquelle une distribution correcte des caractères contrôlés assure la
représentativité de la distribution des caractères étudiés.

-La méthode des quotas ne permet pas de calculer la précision des estimations obtenues à partir
de l’échantillon et donc on ne peut pas appliquer le calcul de probabilité qui dans le cas des
sondages aléatoires permet d’associer à chaque estimation une mesure de l’erreur susceptible
d’avoir été commise : on ne peut pas appliquer le « test de fiabilité »
-La méthode des quotas est une méthode empirique qui bien que dénué de fondement théorique
satisfaisant peut rendre service appréciables.

Le gros reproche à cette méthode est qu’il n’y a pas de mesure de l’approximation est donc de
l’erreur commise.

En règle générale, l’application de cette méthode dépend de la grandeur de l’échantillon.

Section III: La méthode des sondages aléatoires

Définition

Cette méthode est applicable lorsque l’échantillon est désigné de façon à ce que chaque unité
de la population ait une probabilité connue différente de 0 d’être retenue.

Souvent, on affecte à chaque unité de la population la même probabilité d’appartenir à


l’échantillon, on raisonne en l’équiprobabilité.

On peut assimiler le passage de la population à l’échantillon au tirage des boules dans une urne.
Il y a deux manières de procéder au tirage:

1- tirage avec remise (tirage de Bernoulli);

2- Tirage sans remise (tirage exhaustive)

Les fondements de la méthode des sondages aléatoires


1-L’inégalité de Bienaymé Tchebychev (IBT)

Soit X une variable statistique quelconque dont l’espérance mathématique E(X)=m et l’écart

type est égal à σ : E(x)=m et σx = σ.

Il convient d’étudier la probabilité P pour que xє(m-tσ,m+tσ);

Tout le problème revient à calculer la probabilité P|x-m|;

P|x-m|≤tσ

On cherche la probabilité P pour que xє(m-tσ,m+tσ);

On suppose que

Xr 𝜖[m-tσ,m+tσ] et Xs 𝜖]−∞, m-tσ]∪ [m-tσ,+ ∞[

Hypothèse : on raisonnera sur X, est une variable statistique discrète.

P( |𝑋 − 𝑚 |)≤t𝜎 (X est une variable aléatoire discrète)

𝜎 2 =∑ 𝑝𝑖 (𝑋𝑖 − m)2

𝜎 2 =∑ 𝑝𝑠 (𝑋𝑠 − m)2 + ∑ 𝑝𝑟 (𝑋𝑟 − m)2


𝜎 2 ≥ ∑ 𝑝𝑠 (𝑋𝑠 − m)2

∀s : ( |𝑋 − 𝑚 |)≤t𝜎

σ²≥∑pst²σ²→1≥t²∑ps ⇒que ∑ps≤1/t² (3)

Ps: probabilité attachée à xs; ps=1-Px;

∑ps=1-P;

On reprend (3); on aura: 1-P≤1/t² ⇒P≥1-1/t²

P(|x-m|) ≤σt

P[P(|x-m|) ≤σt] ≥1-1/t²: inégalité de B.T

Pour une variable aléatoire d’espérance mathématique m et de variance σ², on peut évaluer la
probabilité pour que x appartienne à l’intervalle [m-tσ,m+tσ], pour cela il convient de choisir t
assez grand pour que l’inégalité tende vers 1.

Exemple:

Une certaine variété de fleur a une probabilité de ¼ de fleurir blanche et une probabilité de ¾
de fleurir rouge.

Problème : combien faut-il observer de fleurs de cette espèce pour que la fréquence du nombre
de fleur blanche ne s’écarte pas de plus de 5% de la fréquence observée. On admet une erreur
est égale à 1%.

Solution: P[p(|x-m|)≤tσ]≥1-1/t²;

On travaille sur la fréquence : x/n

X : fréquence de fleur blanche

X ↝ loi Binomiale ⇒E(x)=np

X’= fréquence Binomiale ⇒ E(x) = np/n = p;

E(x)=p=0,25;

P(|x-0,25|) ≤0.05 ≥0,99

σ² =pq/n=(0,25x0,75)/n;

P[p(|x-m|)≤tσ]≥(1-1/t²)=0,99
On a 1-1/t²=0,99

Alors t=10

P(|x-m|)≤10σ≥0,99
Et 10σ=0,05 ⇒ σ =0,005

Alors σ²=(0,005)² et on a σ²=0.25x0.75/n

Donc n= 7500

Si l’on observe plus de 7500 fleurs, il y a une probabilité supérieure à 0,99 pour que la fréquence
du nombre de fleurs blanches soit comprise dans l’intervalle [0,20 , 0,30]

2-La loi des grands nombres

a- Convergence de la fréquence observée d’un événement vers sa probabilité

Hypothèse

1- Soit le tirage d’un échantillon d’effectif n dans une population comprenant deux types
d’individus. Des individus de type A de proportion p et des individus de type B de
proportion q=1-p.
2- Le tirage se fait avec remise

on note fréquence (𝑓𝑛 )

𝑓𝑛 =x/n , σ² (𝑓𝑛 )=pq/n et E(𝑓𝑛 )=p

On applique cela à Inégalité de BT


1
P( |𝑋 − 𝑚 |)≤t𝜎 ≥ 1- (1)
𝑡2

Cas d’une fréquence

𝑝𝑞 1
P( |𝑓𝑛 − 𝑝| )≤t√ ≥ 1- (2)
𝑛 𝑡2

Pour réaliser cette inégalité en a deux possibilités:

𝑝𝑞
1 -On peut choisir t assez grand pour que la probabilité de 𝑓𝑛 se trouve dans l’intervalle p±√
𝑛
soit proche de 1

𝑝𝑞
P( |𝑓𝑛 − 𝑝| )≤t√ = 1⇒ 𝑓𝑛 = p
𝑛

⇒ fréquence converge vers sa probabilité.


2-t étant choisi, on peut toujours choisir l’effectif n assez grand pour que 𝑓𝑛 soit proche de
p

Exemple: reprenons l’exemple précédent

A ---- p=0,4

B ---- p=0,6

𝑓𝑛 --- 99% dans un intervalle de p± 0,01

P( |𝑓𝑛 − 𝑝| ≤ 0,01)=0,99 (1)

𝑝𝑞 1
Si on rapproche l’inégalité de (1) à P( |𝑓𝑛 − 𝑝| ≤ t√ ) ≥ 1-
𝑛 𝑡2

-Si t est donné (on aura t=10)

𝑝𝑞 𝑝𝑞 0,4∗0,6
t√ = 0,01⇒ 10√ = 0,01⇒ 10 √ = 0,01
𝑛 𝑛 𝑛

⇒ n = 240 000

La loi des grands nombres, nous enseigne qu’il suffit de tirer un échantillon d’un effectif
suffisant dans une population de composition donnée pour que la fréquence 𝑓𝑛 des individus de
type A soit presque voisine de la probabilité p.

On dit que la fréquence observée d’un événement converge en probabilité vers la probabilité de
cet événement lorsque n augmente indéfiniment (n→∞)

b-Convergence de la moyenne observée d’une variable aléatoire vers son espérance


mathématique

Soient 𝑋1 , 𝑋2 ,.... . . , 𝑋𝑛 n variables aléatoires, dont l’espérance mathématique m et l’écart type


𝜎.

𝑋1+ 𝑋2+......+𝑋𝑛
Alors la moyenne 𝑋̅ = (𝑋̅ variable aléatoire)
𝑛

𝜎
E(𝑋̅)=m et 𝜎𝑋̅ =
√𝑛

Appliquons l’inégalité de BT à cette nouvelle variable aléatoire:


1
P( |𝑋 − 𝑚 |)≤t𝜎 ≥ 1-
𝑡2

En général
1
P( |𝑋 − 𝐸(𝑋)|)≤t𝜎 ≥ 1-
𝑡2
Il suffit de tirer un échantillon de taille suffisamment grande pour que la moyenne de la variable
observée soit très proche de son espérance mathématique c-à-d de la véritable moyenne de la
population.

Remarque

La loi des grands nombres a des conditions d’applications très générale, en effet, elle ne fait pas
intervenir la loi de probabilité de la variable étudiée, en contrepartie la loi des grands nombres
repose sur l’inégalité de BT. c-à-d sur des majorations importantes et donc conduit à des
effectifs d’échantillon beaucoup plus élevé qu’il n’est en réalité nécessaire pour obtenir la
précision recherchée.

Exemple:

Reprenons l’exemple précédent:

P( |𝑓𝑛 − 𝑝| ≤ 0,01)=0,99

A p=0,4

B p=0,6

X suit une loi Binomiale: X∿B(n,p)

Cette loi Binomiale peut être approximée par la loi Normale: N(m,σ) (car n est grand)

Alors :

𝑛𝑝 𝑝𝑞
m= =p et σ = √
𝑝 𝑛

Grâce à un changement d’origine et d’échelle, on travaille avec la loi Normale Centrée Réduite
(NCR), N(0,1).

On sait que :

On va déterminer la valeur de la variable Normale Centrée Réduite telle que 99/100 chance
𝑝𝑞
pour que fn se trouve dans l’intervalle p+ou-t √
𝑛

𝑝𝑞 𝑝𝑞
P{p- t √ ≤fn≤p+ t √ }≥0.99
𝑛 𝑛

D’après la lecture des tables, imaginons que t a la valeur 2.58


𝑝𝑞 0.4∗0.6
t√ 𝑛 ≤0.01-2.58*√ 𝑛
≤0.01 ce qui implique
que n est≥15975≈16000
Pour notre exemple il est inutile de procéder
à 240000 observations, en effet 16000
observations suffisent pour obtenir la
précision recherchée.
Chapitre II: Interprétation des sondages aléatoires:
estimation et comparaison
À partir des observations effectuées sur l’échantillon, il convient:

1- d’estimer avec le maximum d’efficacité une caractéristique de la population;

2- d’apprécier la précision de cette estimation.

Section I: L’estimation
L’estimation d’une caractéristique de la population de référence à partir d’un échantillon
aléatoire. À ce niveau deux problèmes se posent:

1er problème: il convient d’abord de rechercher la grandeur mesurée sur l’échantillon


susceptible de donner de façon correcte et efficace une estimation de la caractéristique visée:
(1) choix de l’estimateur;

2ème problème: il convient de donner une précision de l’estimation en délimitant autour du


chiffre obtenu un intervalle de valeur et en indiquant l’importance du risque, pour que la vraie
valeur se trouve à l’extérieur de cet intervalle: (2) intervalle de confiance.

1-Les estimateurs

Supposons qu’un organisme d’étude économique à un échantillon n= 10 000 ménages et


observe une moyenne: 𝑋̅= 200 dhs.

𝑋̅ représente le montant moyen des dépenses consacrées au logement par ménage.

Problème: Comment, à partir de ce résultat estimer la moyenne de logement appelé m dans


l’ensemble de la population.

Il est normal d’accepter la moyenne 𝑋̅ de l’échantillon comme estimateur de m.

A- Le concept d’estimateur

Définition

Soit une caractéristique ∅ de la population de référence à estimer.

Soient𝑋1 , 𝑋2 ,.... . . , 𝑋𝑛 les valeurs de la variable X pour les individus de la population et soit
𝜃(𝑋1 , 𝑋2 ,.... . . , 𝑋𝑛 ) une fonction des valeurs𝑋𝑖 .

𝜃(𝑋1 , 𝑋2 ,.... . . , 𝑋𝑛 ) est un estimateur de ∅ si :

1-L’estimateur de 𝜃 (E(𝜃) tend vers ∅);

2-La variance de 𝜃 (V(𝜃) tend vers 0 quand n est suffisamment grand (n→∞)
C-à-d:

E(𝜃) = ∅

V(𝜃) →0 quand n→∞

Si ces deux conditions sont satisfaites, on dit que 𝜃 est un estimateur convergent de ∅.

La valeur numérique de Ѳ observée sur l’échantillon sera retenu comme estimation de φ.

Les qualités d’un estimateur sont au nombre de deux:

1- L’absence de biais;

2- Faible dispersion.

1- L’absence de biais

On dit que Ѳ est sans biais (sans distorsion) si l’espérance mathématique de Ѳ est égal φ;
E(Ѳ)= φ.
Dans ces conditions le biais est la différence qui existe entre l’espérance de Ѳ et φ c-à-d:

B(Ѳ)= E(Ѳ)-φ.
Remarque

Malgré les inconvénients du biais, il peut être avantageux d’utiliser un estimateur légèrement
biaisé si sa dispersion est plus faible par rapport à un estimateur non biaisé.

2-Estimateur de faible dispersion


Ѳ est d’autant meilleur qu’il comporte une plus faible erreur aléatoire.

V(Ѳ)=E{(Ѳ-E(Ѳ)²}

=E{(Ѳ-φ)²} (estimateur sans biais)

E{(Ѳ-E(Ѳ)+E(Ѳ)- φ)²} (est sans biais)

E{((Ѳ-E(Ѳ))²+(E(Ѳ)-φ)²}

On raisonne par l’inverse

E{((Ѳ-E(Ѳ))²+(E(Ѳ)-φ)²}=E{Ѳ²+E(Ѳ)² -2ѲE(Ѳ)} + (E(Ѳ)²+ φ²-2φE(Ѳ))

=E(Ѳ²)+E(Ѳ)² 2E(Ѳ)²+ E(Ѳ)²-2E(Ѳ)φ+Ѳ²

E{((Ѳ-E(Ѳ))²+(E(Ѳ)-φ)²}=E(Ѳ²)+φ²-2φE(Ѳ),

On utilise l’estimateur sans biais c-à-d E(Ѳ)=φ;


E{((Ѳ-E(Ѳ))²+(E(Ѳ)-φ)²} = E{(Ѳ-E(Ѳ))²}

En passant par cette écriture on trouve:

E{(Ѳ-E(Ѳ)²}=σ²(Ѳ)+B²(Ѳ)
On dit que l’erreur totale est égale à l’erreur aléatoire plus le carré du biais.

On choisira un estimateur lorsque son erreur totale est la plus réduite possible

B-Estimateur de la principale caractéristique d’une population


Soit une population composée de N individus repérée par un indice s (Us) avec s=1,2,3…N

On tire un échantillon d’effectif n dans N.

Les individus de l’échantillon seront identifiés par leur rang i dans le tirage : Ui avec i=1,2,…n

1- Population:

Considérons une variable X on désignera par Xs la valeur de la variable X pour l’individu Us.

On appelle m la moyenne de la variable X et on appelle σ² la variance de X;

m=1/N ∑Xs;

σ²= 1/N ∑(Xs-m)²

2-Au niveau de l’échantillon:

On appelle 𝑥̅ la moyenne de la variable x et 𝑆 2 est la variance de x dans l’échantillon.


1
𝑥̅ = ∑𝑛𝑖=1 𝑥𝑖
𝑛

1
𝑆 2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛

a-Espérance mathématique et variance d’une moyenne d’échantillon


a-Tirage avec remise ou échantillon indépendant

Soit 𝑥𝑖 la valeur de la variable x pour l’individu choisi au ième tirage.

𝑥𝑖 est une variable aléatoire qui peut prendre chacune des valeurs suivantes: 𝑥1 , 𝑥2, ..., 𝑥𝑛 avec
la probabilité 1/N.

Partons de là:

L’espérance mathématique de 𝑥𝑖 va être égal à la moyenne m de la population


1
E(𝑋𝑖)= ∑𝑁
𝑖=1 𝑋𝑠 = m
𝑁
Sa variance sera égale à celle de la population
1
V(𝑥𝑖 )= ∑𝑁 2
𝑖=1(𝑋𝑠 − 𝑚) = σ²
𝑁

L’espérance mathématique de la moyenne de la moyenne de l’échantillon, sera égal par


définition à E(𝑥̅ ):
1
E(𝑥̅ )= E( ∑𝑛𝑖=1 𝑥𝑖 )
𝑛

1
E(𝑥̅ )= E(∑𝑛𝑖=1 𝑥𝑖 )
𝑛

1
E(𝑥̅ )= ∑𝑛𝑖=1 E(𝑥𝑖 )
𝑛

On suppose que:

L’espérance mathématique est une moyenne de variable aléatoire suivant une loi de probabilité
quelconque d’espérance mathématique m. cette somme de variable aléatoire est elle-même une
variable aléatoire d’espérance mathématique m.
1
E(𝑥̅ )= ∑𝑛𝑖=1 E(𝑥𝑖 )
𝑛

1
E(𝑥̅ )= (∑𝑛𝑖=1 𝑚)
𝑛

1
E(𝑥̅ )= (n.m)
𝑛

E(𝑥̅ ) = m
-Variance de la moyenne de l’échantillon V(𝑥̅ )

Par définition:
1
V(𝑥̅ )= V( ∑𝑛𝑖=1 𝑥𝑖 )
𝑛

1
V(𝑥̅ )= V( ∑𝑛𝑖=1 𝑥𝑖 )
𝑛2

1
V(𝑥̅ )= (∑𝑛𝑖=1 𝑉(𝑥𝑖 ))
𝑛2

1
V(𝑥̅ )= (∑𝑛𝑖=1 𝜎 2 )
𝑛2

1
V(𝑥̅ )= n𝜎 2
𝑛2

𝝈𝟐
̅)=
V(𝒙 𝐧
2-Tirage sans remise ou tirage exhaustif
À chaque individu Us on associe la variable de Bernoulli εs, on donne la valeur 1 à cette variable
si Us fait partie de l’échantillon et la valeur 0 dans le cas contraire.

Si on appelle E l’échantillon, on va pouvoir construire la loi de probabilité attachée à cette


variable.

On définit les événements (E: échantillon)

Evénements VA𝜀𝑠 P P(𝜀𝑠 )

1 Ps n/N

Usϵ/E 0 1- Ps 1-n/N
Tapez une équation ici.

P(εs) cas favorable/cas possible

Ps=P(εs=1)=n/N;

Ps= la probabilité pour que la variable aléatoire prenne la valeur 1

Ps= la probabilité pour qu’un individu Us appartienne à l’échantillon considéré.

Par le mécanisme de cornfield:

∑𝑁
𝑠=1 𝜀𝑠 = n (avec n l’effectif de l’échantillon)

Par conséquent

E(n)=n= ∑𝑁 𝑁
𝑠=1 E(𝜀𝑠 )=∑𝑠=1 𝑃𝑠

E(n)= N𝑃𝑠

Par définition de E(𝜀𝑠 ), on peut écrire:

E(𝜀𝑠 )= 1 .Ps+0 .(1-Ps)=Ps

E(𝜀𝑠 )=Ps

Alors:
𝑛
𝑃𝑠 =
𝑁

La probabilité pour qu’un individu Us appartienne à l’échantillon va être égale à l’effectif de


l’échantillon sur l’effectif total.

Variable indicatrice𝜀𝑠 , on va pouvoir écrire la moyenne de l’échantillon de la manière suivante :


1
𝑥̅ = ∑𝑛𝑖=1 𝑋𝑖
𝑛

On peut écrire que la moyenne de l’échantillon est


1
𝑥̅ = ∑𝑛𝑖=1 𝑋𝑠 𝜀𝑠 (tous les individus qui n’intervient pas à l’échantillon sont exclus)
𝑛

Mécanisme de l’artifice de cornfield

On a une variable, on la remplace par une loi de probabilité

Les 𝑋𝑠 sont des nombres certains c’est une valeur de X pour l’individu S

𝑋𝑠 est connu

L’inconnue est représentée par 𝜀𝑠

Les 𝜀𝑠 sont des variables aléatoires dont nous venons d’établir des lois de probabilité.

-Espérance mathématique de la moyenne de l’échantillon


1
Pour définir E(𝑥̅ )= E( ∑𝑛𝑖=1 𝑋𝑠 𝜀𝑠 )
𝑛

1
On peut écrire E(𝑥̅ )= ((∑𝑛𝑖=1 𝑋𝑠 𝐸(𝜀𝑠 ) )
𝑛

𝑛
E(𝜀𝑠 )=1.Ps+0+(1-Ps)=Ps=
𝑁

On peut écrire aussi :


1 𝑛
E(𝑥̅ )= (∑𝑛𝑖=1 𝑋𝑠 )
𝑛 𝑁

1 𝑛
E(𝑥̅ )= . (∑𝑛𝑆=1 𝑋𝑠 )
𝑛 𝑁

1
E(𝑥̅ )= (∑𝑛𝑆=1 𝑋𝑠 )
𝑁

E(𝑥̅ )= m ( m l’espérance mathématique attachée à la population)

-Variance de la moyenne de l’échantillon

Par définition : V(𝑥̅ )= E(𝑥̅ − 𝑚)2

En utilisant la variable indicatrice qui est 𝜀𝑠

On peut écrire :
1
𝑥̅ = ∑𝑛𝑆=1 𝑋𝑠 𝜀𝑠
𝑛

1
𝑥̅ − m = ∑𝑛𝑆=1(𝑋𝑠 −𝑚)𝜀𝑠
𝑛
1 1
(𝑥̅ − 𝑚)2= ∑𝑛𝑆=1(𝑋𝑠 − 𝑚)2 𝜀𝑠 2 + ∑𝑁 𝑛
𝑆=1 ∑𝑆′=1(𝑋𝑠 − 𝑚)( 𝑋𝑠′ − 𝑚) 𝜀𝑠 𝜀𝑠′ (𝑆 ≠ 𝑆′)
𝑛2 𝑛2

Exemple :

Avec des termes simples i=1,2.

∑𝑛𝑖=1(𝑦𝑖 − 𝑚)2 = ((𝑦1 − 𝑚) + (𝑦2 − 𝑚))2

∑𝑛𝑖=1(𝑦𝑖 − 𝑚)2 = (𝑦1 + 𝑦2 − 2𝑚)2

∑𝑛𝑖=1(𝑦𝑖 − 𝑚)2 = (𝑦1 + 𝑦2 − 2𝑚) (𝑦1 + 𝑦2 − 2𝑚)

On obtient :

𝑦1 2+2𝑦1 𝑦2 − 4m𝑦2 − 4m𝑦1 +4m2+𝑦2 2 (1)

On peut l’écrire d’une manière simple

On utilise une écriture matricielle (deux termes rectangles)

𝒚𝟏 − 𝒎 𝒚𝟐 − 𝒎

𝒚𝟏 − 𝒎 2
(𝑦1 − 𝑚) (𝑦2 − 𝑚)
(𝑦1 − 𝑚)
𝒚𝟐 − 𝒎 (𝑦1 − 𝑚) (𝑦2 − 𝑚) 2
(𝑦2 − 𝑚)
Si on fait: (𝑦1 − 𝑚)2+(𝑦2 − 𝑚)2+2(𝑦1 − 𝑚) (𝑦2 − 𝑚)

D’après le développement, on trouve :

𝑦1 2+𝑦2 2+2𝑦1 𝑦2 − 4m𝑦1 − 4m𝑦2 +4m2 (2)

Les deux écritures (1) et (2) sont les mêmes

On peut écrire d’après le tableau :

∑2𝑖=1(𝑦𝑖 − 𝑚)2 =∑2𝑖=1 ∑2𝑖′=1(𝑦𝑖 − 𝑚) (𝑦𝑖′ − 𝑚) (i≠i’)

⇒(𝑦1 − 𝑚)2+(𝑦2 − 𝑚) 2+(𝑦1 − 𝑚)+(𝑦2 − 𝑚)+(𝑦2 − 𝑚)+(𝑦1 − 𝑚) (i≠i’)

Si i prend 1, i’ prend la valeur 2 et vice versa

L’intérieur de cette matrice n’est rien d’autre que :


𝑛
∑ (𝑦𝑖 − 𝑚)2
𝑖=1

V(𝑥̅ )= E(𝑥̅ − 𝑚)2


1 1
V(𝑥̅ )= E( ∑𝑛𝑖=1(𝑋𝑠 − 𝑚)2 𝜀𝑠 2)+ ∑𝑁 𝑁
𝑆=1 ∑𝑆′=1(𝑋𝑆 − 𝑚) 𝜀𝑠 𝜀𝑠′
2
𝑛2 𝑛2
1 1
V(𝑥̅ )= ∑𝑛𝑖=1(𝑋𝑠 − 𝑚)2 E(𝜀𝑠 )2+ ∑𝑁 𝑁
𝑆=1 ∑𝑆′=1(𝑋𝑆 − 𝑚) (𝑋𝑆′ − 𝑚) E(𝜀𝑠 𝜀𝑠′ ) (S≠S’)
𝑛2 𝑛2

On a ici deux grandeurs incertaines :

E(𝜀𝑠 𝜀𝑠′ ) et E(𝜀𝑠 2)

Calcul de E(𝜀𝑠 2) (𝜀𝑠 variable indicatrice)

Soit 𝜀𝑠 une variable aléatoire telle que :

𝜺𝒔 1 0
probabilité Ps 1 - Ps
𝑛
Ps = (Probabilité pour que l’individu appartient à l’échantillon)
𝑁

𝑛
1 - Ps = 1 -
𝑁

Donc :

2 2 2
𝜺𝒔 1 0
probabilité Ps 1 - Ps

On obtient une loi de probabilité pour la variable aléatoire 𝜀𝑠 2


𝑛 𝑛 𝑛
E(𝜀𝑠 2) = 12. + 02. (1- ) =
𝑁 𝑁 𝑁

𝑛
E(𝜀𝑠 2) =
𝑁

Calcul E(𝜀𝑠 𝜀𝑠′ )

Le produit 𝜀𝑠 𝜀𝑠′ = 1 lorsque les unités 𝑈𝑠 𝑈𝑠′ appartient toutes les deux à l’échantillon.

La probabilité de cette quantité notée


𝑛 𝑛−1
Pss’= .
𝑁 𝑁−1

On sait que Ps/s’ : probabilité de réalisation de s’.Si l’individu s est réalisé, l’individu s’ fasse
partie à l’échantillon sachant s.
𝑃𝑠𝑠′
Ps’/s = ⇒ Pss’= Ps’/s. Ps
𝑃𝑠

𝑛
Ps =
𝑁
𝑛−1
Ps’/s =
𝑁−1

𝑛 𝑛−1
Pss’= .
𝑁 𝑁−1

Le produit 𝜀𝑠 𝜀𝑠′ est nul dans tous autres cas de figure

𝜺𝒔 𝜺𝒔′ Probabilité

1 𝑛 𝑛−1
.
𝑁 𝑁−1

𝑛 𝑛−1
0 1–( . )
𝑁 𝑁−1

𝑛 𝑛−1 𝑛 𝑛−1 𝑛 𝑛−1


(𝜀𝑠 𝜀𝑠′ )= 1. . + 0. (1- . )= .
𝑁 𝑁−1 𝑁 𝑁−1 𝑁 𝑁−1

𝑛 𝑛−1
𝐸(𝜀𝑠 𝜀𝑠′ ) = .
𝑁 𝑁−1

1 1
V(𝑥̅ )= ∑𝑛𝑆=1(𝑋𝑠 − 𝑚)2 E(𝜀𝑠 )2+ ∑𝑁 𝑁
𝑆=1 ∑𝑆′=1(𝑋𝑆 − 𝑚) (𝑋𝑆′ − 𝑚) E(𝜀𝑠 𝜀𝑠′ ) (S≠S’)
𝑛2 𝑛2

1 𝑛 1 𝑛 𝑛−1
V(𝑥̅ )= ∑𝑛𝑆=1(𝑋𝑠 − 𝑚)2 . + ∑𝑁 𝑁
𝑆=1 ∑𝑆′=1(𝑋𝑆′ − 𝑚). . (𝑋𝑆 − 𝑚)
𝑛2 𝑁 𝑛2 𝑁 𝑁−1

1 1 1 1 𝑛−1
V(𝑥̅ )= ∑𝑛𝑆=1(𝑋𝑠 − 𝑚)2 . + ∑𝑁 𝑁
𝑆=1 ∑𝑆′=1(𝑋𝑆′ − 𝑚). . (𝑋𝑆 − 𝑚)
𝑛 𝑁 𝑛 𝑁 𝑁−1

1 1 1 1 𝑛−1
V(𝑥̅ )= . ∑𝑛𝑆=1(𝑋𝑠 − 𝑚)2. + . ∑𝑁 𝑁
𝑆=1 ∑𝑆′=1(𝑋𝑆′ − 𝑚). (𝑋𝑆 − 𝑚)
𝑛 𝑁 𝑁 𝑛 𝑁−1

Hypothèse : tirage avec remise

On se base sur l’artifice de cornfield

Si on met en facteur
1 𝑛−1 1
. .
𝑛 𝑁−1 𝑁

1 𝑛−1 1 1 𝑛−1 1
V(𝑥̅ )= . . ∑𝑛𝑆=1(𝑋𝑠 − 𝑚)2+∑𝑁 𝑁
𝑆=1 ∑𝑆′=1(𝑋𝑆′ − 𝑚). (𝑋𝑆 − 𝑚)+ (1- ) ∑𝑛𝑆=1(𝑋𝑠 −
𝑛 𝑁−1 𝑁 𝑛 𝑁−1 𝑁
𝑚)2

D’après le calcul matriciel


𝑁
∑𝑛𝑆=1(𝑋𝑠 − 𝑚 )2+∑𝑁 𝑛 2
𝑆=1 ∑𝑆 ′ =1(𝑋𝑆 ′ − 𝑚). (𝑋𝑆 − 𝑚) = ∑𝑆=1(𝑋𝑠 − 𝑚 ) (1)

∑𝑁
𝑆=1(𝑋𝑆 − 𝑚)=0 (par construction, car 𝑋𝑆 est centré sur 𝑚)

Dans une série de valeur certaine :


1
𝑥̅ = ∑𝑛𝑖=1 𝑋𝑖 𝑛𝑖 = ∑𝑛𝑖=1 𝑓𝑖 𝑋𝑖
𝑛
∑𝑛𝑖=1 𝑓𝑖 ( 𝑋𝑖 − 𝑥̅ ) = ∑𝑛𝑖=1 𝑓𝑖 𝑋𝑖 − 𝑥̅ ∑𝑛𝑖=1 𝑓𝑖

Or ∑𝑛𝑖=1 𝑓𝑖 = 1

∑𝑛𝑖=1 𝑓𝑖 ( 𝑋𝑖 − 𝑥̅ ) = ∑𝑛𝑖=1 𝑓𝑖 𝑋𝑖 − 𝑥̅ ∑𝑛𝑖=1 𝑓𝑖 =𝑥̅ − 𝑥̅ = 0

Donc si 𝑋𝑖 est centré autour de 𝑥𝑖 :

∑𝑛𝑖=1( 𝑋𝑖 − 𝑥̅ ) = 0 par construction

D’où : ∑𝑁 𝑛 2
𝑆=1(𝑋𝑆 − 𝑚) = 0 ⇒ ∑𝑆=1(𝑋𝑠 − 𝑚) = 0 (les variables 𝑋𝑠 sont centrées sur la moyenne
m)

Donc, dans (1) :

∑𝑛𝑆=1(𝑋𝑠 − 𝑚)2 +∑𝑁 𝑁 𝑛 2


𝑆=1 ∑𝑆′=1(𝑋𝑆′ − 𝑚). (𝑋𝑆 − 𝑚) = ∑𝑆=1(𝑋𝑠 − 𝑚) = 0

Donc :
1 𝑛−1 1
V(𝑥̅ )= . (1 − ) ∑𝑁
𝑆=1 (𝑋𝑠 − 𝑚)2
𝑛 𝑁−1 𝑛

1
On sait que: ∑𝑁
𝑆=1(𝑋𝑠 − 𝑚) = 𝜎
2 2
𝑛

Par conséquent on obtient :


1 𝑛−1
V(𝑥̅ ) = . (1 − ) 𝜎2
𝑛 𝑁−1

𝝈𝟐 𝑵−𝒏
̅) =
V(𝒙 (tirage sans remise)
𝒏 𝑵−𝟏
Résumé:

1-L’éspérence mathématique de la moyenne 𝑥̅ d’un échantillon est égale à la moyenne m de la


population dans laquelle est tiré l’échantillon.

Quelque soit le mode de tirage:

E(𝑥̅ )= m
2- La variance de 𝑥̅ est égale dans le cas d’un échantillon indépendant:

𝜎2
V(𝑥̅ ) = tirage avec remise
𝑛
Dans le cas d’un échantillon tiré sana remise:
𝜎2 𝑁−𝑛
V(𝑥̅ ) =
𝑛 𝑁−1
Un bon estimateur ne doit avoir de biais;

Dans le cas d’existence de biais, on choisit celle de faible dispersion (distorsion);

Le coefficient (N-n/N-1) qui réduit dans le cas d’un tirage exhaustif, la variance de l’estimateur
en fonction de l’effectif de l’échantillon est appelé coefficient d’exhaustivité.

C’est-à-dire si j’ai un choix au niveau du tirage, il est préférable de faire un tirage sans remise
car:

E(𝑥̅ )= m
𝜎2 𝑁−𝑛 𝜎2
V(𝑥̅ ) = 𝑛 𝑁−1
≤ 𝑛

II-Les principaux estimateurs


1-Estimateur de la moyenne d’une population

Il résulte de ce qui procède que la moyenne 𝑥̅ sur l’échantillon est, quelque soit le mode de
tirage, un estimateur sans biais de la moyenne de la population.

La variance de cet estimateur est différente en fonction de la nature du tirage (avec ou sans
remise).

Le coefficient d’exhaustivité (N-n/N-1) ≤1; à taille égale, la moyenne d’un échantillon exhaustif
est un estimateur plus efficace de la moyenne d’une population que celle d’un échantillon
indépendant.

L’effectif N de la population étant généralement un nombre élevé, par conséquent le coefficient


d’exhaustivité sera peu différent de (1-(n/N)) qui représente le complément à 1 du taux de
sondage.

(taux de sondage t=n/N) →(complément=1-n/N)

Exemple:

Si on prend N=10 et n=2 donc:

N-1=9 et N-n=10-2=8;

Le coefficient d’exhaustivité= N-n/N-1=8/9

𝜎2 𝑛
V(𝑥̅ ) = (1 − )
𝑛 𝑁
𝜎2 8
V(𝑥̅ ) =
2 9

4 𝜎2
V(𝑥̅ ) =
9

Si on prend le complément à 1 au taux de sondage:


𝑛 2 8
1− =1− =
𝑁 10 10

𝜎2 8
V(𝑥̅ ) =
2 10

4 𝜎2
V(𝑥̅ ) =
10

Quand l’effectif n de l’échantillon est faible par rapport à l’effectif de la population N, alors le
coefficient d’exhaustivité vers 1
𝑁−𝑛
N↑, n↓,N>>n ⇒ →1
𝑁−1

𝑁−𝑛 𝑛
Ou bien N →∞, n↓⇒ →1− →1
𝑁−1 𝑁

𝜎 2 𝑁−𝑛 𝜎2 𝑛 𝜎2
V(𝑥̅ ) = ≈ (1 − ) →
𝑛 𝑁−1 𝑛 𝑁 𝑛

Ceci N étant grand, et n petit par rapport à N

Conclusion:

1- Lorsque le taux de sondage t=n/N est faible, les deux modes de tirage de l’échantillon sont à
peu près équivalents et la précision des estimations ne dépend que de l’effectif de l’échantillon
et non du taux de sondage.

2- Les deux modalités de tirages aboutissent à la même variance σ²/n avec N grand et n petit
par rapport à N c-à-d cela dépend du nombre des éléments de l’échantillon (c-à-d (n/N) faible).

2- Estimateur de la variance d’une population

On définit la variance par :


1
𝜎 2 = ∑𝑁 2
𝑠=1(𝑥𝑠 − 𝑚) (calculé sur la population)
𝑁

On pourrait penser utiliser comme pour la moyenne l’estimateur suivant:


1
𝑆 2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 (variance calculée sur l’échantillon)
𝑛

Or on montre que S² est un estimateur biaisé (avec biais);

En effet:
1
𝐸(𝑆 2 )=E( ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2)
𝑛

1
𝐸(𝑆 2 )= E( ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ) (1)
𝑛

L’espérance d’une somme est égale à la somme des espérances.

La variance peut être calculée de trois manières:

𝜎 2 = 𝑓𝑖 ∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )2

𝜎 2 = ∑𝑘𝑖=1 𝑓𝑖 𝑥𝑖 2 −𝑥̅ 2 (formule de koenig)

Calcul de la variance par une moyenne provisoire:

Si m= moyenne provisoire pour faire un changement de variable→

𝑥𝑖 − 𝑥̅ =( 𝑥𝑖 − 𝑚) −( 𝑥̅ − 𝑚)

𝜎 2 = ∑𝑛𝑖=1 𝑓𝑖 ((𝑥𝑖 − 𝑚) −( 𝑥̅ − 𝑚))2

𝜎 2 = ∑𝑛𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑚)2 + (𝑥̅ − 𝑚)2 -2 ( 𝑥𝑖 − 𝑚)( 𝑥̅ − 𝑚)

𝜎 2 = ∑𝑛𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑚)2 +∑𝑛𝑖=1 𝑓𝑖 (𝑥̅ − 𝑚)2 -2 ∑𝑛𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑚) (𝑥̅ − 𝑚)

𝜎 2 = ∑𝑛𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑚)2 +∑𝑛𝑖=1 𝑓𝑖 (𝑥̅ − 𝑚)2 -2(𝑥̅ − 𝑚) ∑𝑛𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑚)

𝜎 2 = ∑𝑛𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑚)2 +∑𝑛𝑖=1 𝑓𝑖 (𝑥̅ − 𝑚)2 -2(𝑥̅ − 𝑚)(∑𝑛𝑖=1 𝑓𝑖 𝑥𝑖 − ∑𝑛𝑖=1 𝑓𝑖 𝑚)

𝜎 2 = ∑𝑛𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑚)2 +(𝑥̅ − 𝑚)2 −2(𝑥̅ − 𝑚) (𝑥̅ − 𝑚)

𝜎 2 = ∑𝑛𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑚)2 +(𝑥̅ − 𝑚)2 −2(𝑥̅ − 𝑚)2

𝜎 2 = ∑𝑛𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑚)2 - (𝑥̅ − 𝑚)2

Donc, dans (1):


1
𝐸(𝑆 2 )= ∑𝑛𝑖=1 𝐸(𝑥𝑖 − 𝑚)2 − E(𝑥̅ − 𝑚)2
𝑛

𝐸(𝑆 2 )= V(x) - V(𝑥̅ )


Le but de l’opération c’est de connaître
1
𝜎 2 = ∑𝑁
𝑠=1(𝑥𝑠 − 𝑚)
2
𝑁

Qui est inconnue et on essaie de l’estimer par:


1
𝑆 2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛
Mais le problème c’est que la variance de l’échantillon S² est un estimateur avec biais c’est pour
cela qu’on va essayer de calculer le biais.

1- Cas d’un échantillon indépendant

Population VAεs
Individu S----Xs P(εs)

E(x)=m 1
2
V(x)= 𝜎 V(x)=S²

On a vu que la moyenne de l’échantillon 𝑥̅ estime bien l’espérance de la population. Mais 𝑆 2 est


2
biaisé et ne peut pas estimer 𝜎 .

On vu que:

Quelque soit, la nature de l’échantillon, l’espérance des moyennes des échantillons de la


population est égale à l’espérance de la population.

C-à-d

E(𝑥̅ ) = m

𝜎2
V(𝑥̅ ) = (tirage avec remise)
𝑛

𝜎 2 𝑁−𝑛
V(𝑥̅ ) = (tirage sans remise)
𝑛 𝑁−1

Or on a:

V(x)=𝜎 2
𝜎2
V(𝑥̅ ) =
𝑛

𝜎2 𝑛−1
D’où 𝐸(𝑆 2 )=𝜎 2 - = 𝜎 2( )
𝑛 𝑛

Avec (n-1)/n est le biais

Conclusion: on dira que l’échantillon sans biais de la variance de la population n’est pas S²
mais S’² avec S’²=n/(n-1)S²
Or :
1 𝑛 1
𝑆 2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ⇒ 𝑆′2 = ∑𝑛𝑖=1 (𝑥𝑖 − 𝑥̅ )2
𝑛 𝑛−1 𝑛
1
𝑆′2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1
Cela veut dire, que lorsqu’on a une population qui est tirée avec remise, on calcule la moyenne
sur la population et elle est identique à la moyenne de l’échantillon. Par contre si on calcule la
variance de l’échantillon on trouve qu’elle est biaisée c-à-d qu’il existe une distorsion qu’il
faudra éliminer pour ce faire on a multiplier par n/(n-1).

Le biais est dû au fait que les écarts sont calculés par rapport à la moyenne de l’échantillon et
non pas par rapport à celle de la population

On dira que l’estimateur de la variance de 𝑥̅ est, en remplaçant 𝜎 2 par son estimation d’après
l’échantillon: V*(𝑥̅ ) avec:

𝑆′2
V*(𝑥̅ )=
𝑛
Car on a vu que :

𝜎2
V (𝑥̅ )=
𝑛

Et que 𝑆′2 estime bien 𝜎 2 , donc en remplaçant 𝜎 2 par 𝑆′2 ,car 𝜎 2 est inconnue

𝑆′2
𝑆′2
V (𝑥̅ )=
𝑛
notée V*(𝑥̅ )= 𝑛
2-Cas d’échantillon exhaustif (tirage sans remise)

V(x)=𝜎 2 ∀ la nature de l’échantillon

𝜎 2 𝑁−𝑛
V(𝑥̅ ) =
𝑛 𝑁−1

E(𝑺𝟐 )=V(x) - V(𝒙


̅)
𝜎 2 𝑁−𝑛
E(𝑆 2 )= 𝜎 2 -
𝑛 𝑁−1

𝑁 𝑛−1
E(𝑆 2 )= 𝜎2
𝑛 𝑁−1

𝑛 𝑁−1
L’estimateur sans biais de la variance da la population n’est pas 𝑆 2 mais 𝑆2
𝑁 𝑛−1

On sait que:
1 1 𝑁−1
𝑆 2 = . ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ⇒ ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 (1)
𝑛 𝑁 𝑛−1

Ainsi :
1
𝑆′2 = . ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1

On va pouvoir écrire :
𝑁−1 1
(1) ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑁 𝑛−1

𝑁−1
(1) 𝑆 2 (estimateur sans biais de la variance de la population)
𝑁

L’estimateur de la variance de 𝑥̅ (la moyenne de l’échantillon) est, en remplaçant 𝜎 2 par son


estimation d’après l’échantillon exhaustif
𝑁−𝑛 𝑁−1 𝑆′2
V*(𝑥̅ ) =
𝑁−1 𝑁 𝑛

𝑁−𝑛 𝑆′2
V*(𝑥̅ ) =
𝑁 𝑛

Résumé

On dira que la variance de la moyenne d’une population sera estimée par:

𝑆′2
V*(𝑥̅ ) = (TAR)
𝑛

𝑁−𝑛 𝑆′2
V*(𝑥̅ ) = (TSR)
𝑁 𝑛

Où 𝑆′2 désigne l’estimateur sans biais de la variance de la population à partir d’un échantillon
1
Avec: 𝑆′2 = . ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1

NB:

Lorsque l’effectif de l’échantillon est grand

𝑆′2 ≃ 𝑆 2

𝑆 ′2 est peu différente de la variance de 𝑆 2 mesurée dans l’échantillon.

Résumé :

a-E(Ѳ)=Ѳ

b-V(Ѳ)=E{(Ѳ-E(Ѳ)²}

𝑐𝑎𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒
Probabilité = (distribution statistique aléatoire)
𝑐𝑎𝑠 𝑝𝑜𝑠𝑠𝑖𝑏𝑙𝑒

𝑥𝑖
Fréquence 𝑓𝑖 = (distribution discrète)
𝑛

Population Echantillon
Indices : S:1,2, . . . ,N i=1,2, . . . ,n

1 2
𝜎 2 = ∑𝑁
𝑠=1(𝑥𝑠 − 𝑚)
2 1
𝑆 2 = . ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )
𝑁 𝑛
Echantillon indépendant:

E(𝑥̅ )= m

𝜎2
V(𝑥̅ ) =
𝑛

Echantillon exhaustif:

E(𝑥̅ )= m

𝜎 2 𝑁−𝑛
V(𝑥̅ ) =
𝑛 𝑁−1

En cas d’existence de deux estimateurs biaisés (le même peut être), on choisit celui qui a la
dispersion la plus faible.

3-Estimateur d’une proportion


Soit une population comprenant deux catégories d’individus :

Des individus A en proportion ( p )

Des individus B en proportion q = 1-p

La proportion p peut être considérée comme la moyenne d’une variable de Bernoulli, prenant
la valeur 1 pour les individus A et la valeur 0 pour les individus B.

Rappel : Loi de Bernoulli

Soit une urne contenant :

Boules blanches  Proportion p

Boules rouges Proportion q

Evénement élémentaire VA (X) P(X)

Boule blanche 1 P

Boule rouge 0 q= 1 - p

La définition d’une variable est complètement subjective (selon l’objectif que l’on veut)
m= ∑𝑛𝑖=1 𝑓𝑖 𝑥𝑖 =∑𝑛𝑖=1 𝑝𝑖 𝑥𝑖

Dans le cas de la loi de Bernouilli

m= ∑𝑛𝑖=1 𝑝𝑖 𝑥𝑖 =𝑝1 𝑥1 +𝑝2 𝑥2

m=(p*1)+(q*0)

m=p (1) d’avant

On retiendra comme estimateur de la grandeur p, la fréquence des individus A dans


l’échantillon c-à-d la moyenne de la variable observée sur l’échantillon

On retiendra pour la variance l’expression suivante:

𝜎 2 = pq

En effet : 𝜎 2 =∑𝑛𝑖=1 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2 =∑𝑛𝑖=1 𝑝𝑖 (𝑝𝑖 − 𝑥̅ )2

On a vu 𝑥̅ = 𝑝 (moyenne)

𝜎 2 =∑𝑛𝑖=1 𝑝𝑖 (𝑝𝑖 − 𝑥̅ )2

𝜎 2 =𝑝1 (𝑥1 − 𝑥̅ )2 +𝑝2 (𝑥2 − 𝑥̅ )2

𝜎 2 =𝑝 (𝑥1 − 𝑝)2 +𝑞(𝑥2 − 𝑝)2

𝜎 2 =𝑝 (1 − 𝑝)2 +𝑞 (0 − 𝑝)2

𝜎 2 =𝑝𝑞 2 +𝑞𝑝2

𝜎 2 = 𝑝𝑞 + (𝑝 + 𝑞)

𝜎 2 = 𝑝𝑞 (𝑝1 = 𝑝, 𝑝2 = 𝑞, 𝑥1 =1 et 𝑥2=0)

La variance de l’estimateur a donc pour expression:

𝑝𝑞
V(f)= (TAR)
𝑛
𝑁−𝑛 𝑝𝑞
V(f)= 𝑁−1 (TSR)
𝑛
Avec f l’expression d’une proportion

On dira que pq la variance de la variable dans la population sera donc estimé par :

S’²=(n/n-1)*S² .
Avec S²: variance de l’échantillon
Donc : S²= pq

d’où S’²= S²(n/n-1)

S’²=(n/n-1)pq
En résumé, on choisira f : la fréquence observée sur l’échantillon comme estimateur de p .

La variance de cet estimateur sera donc égale :

Tirage indépendant : (TAR)

On a vu V*(𝑥̅ )= S’²/n , et on vient de voir

S’²=(n/n-1)pq , donc V*(f)=pq/n-1

Tirage sans Remise:(TSR)

On a vu: V*(𝑥̅ )=(N-n/N)(S’²/n)

et S’²=(n/n-1)pq

Donc:

V*(f)= (N-n/N)(pq/n-1)
4-Estimateur d’une somme
Par définition la moyenne m est : m=(1/N) ∑𝑁
𝑠=1 𝑥𝑠

On appellera S la somme suivante : S= ∑𝑁


𝑠=1 𝑥𝑠 =N.m

On prendra comme estimateur de S la quantité N𝑥̅ (puisque m est inconnu et 𝑥̅ l’estime bien )

ceci avec : V(N𝑥̅ )=N².V(𝑥̅ )


Cette variance sera estimée par V*(N𝑥̅ )=N².V*(𝑥̅ )

Exemple:

Si je veux estimer la masse salariale distribuée, il suffit de multiplier le nombre de salariés par
la moyenne de salariés.

Pour estimer la variance de cette somme, au lieu de travailler sur V(𝑥̅ ) on travaille

Sur V(N𝑥̅ ) qui est malheureusement biaisé. C’est pour cela qu’on choisit de travailler sur
V*(N𝑥̅ ) qui, elle, est sans biais.

5-Estimateur d’un effectif


L’effectif NA : les individus de catégorie A dans la population est égal à N p

Population catégorie A catégorie B

P=80% q=20%

Si N=100 N A=80 N B=20

On choisira comme estimateur d’un effectif la quantité Nf dont A :

𝑁: 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 𝑡𝑜𝑡𝑎𝑙𝑒
{
𝑓: 𝑝𝑟𝑜𝑝𝑜𝑟𝑡𝑖𝑜𝑛

A : la variance est v(Nf)= N²v(f) cette variance sera estimée par :

V*(Nf)=N²V*(f)
Où v*(f) est la variance sans biais d’une estimation sur un effectif

Si on connait N, n, 𝑥̅ , S² et la nature du tirage on pourra estimer la moyenne de la population ,


la variance, la proportion et l’effectif

III- Intervalle de confiance d’une estimation


Le problème est la détermination de la précision des estimations.

Soit φ la caractéristique de la population à estimer et soit θ son estimateur dans l’échantillon

Φ : caractéristique dans la population

Θ : caractéristique dans l’échantillon

Et soit 𝜶 une erreur qui est une probabilité c-à-d on accepte une probabilité d’erreur égale à 𝜶

𝜶 : pourcentage d’erreur acceptée

1- 𝜶 : pourcentage de fiabilité

Il convient de déterminer un intervalle autour de φ tel que la grandeur observée sur l’échantillon
c’est-à-dire θ ait une probabilité 1- 𝜶 d’appartenir à cet intervalle

C’est-à-dire : p(𝜑 − ℎ1 ≤ 𝜃 ≤ 𝜑 + ℎ2) = 1 − 𝜶

-h1 et h2sont des distances qu’on exprime par des chiffres ( on suppose connues)

𝜃 est connue (calculée sur l’échantillon) on cherche à calculer φ

1-φ-h1≤ 𝜃 → φ ≤ 𝜃 + ℎ1

2- 𝜃 ≤ 𝜑 + ℎ2 ⇒ 𝜃 − ℎ2 ≤ 𝜑

⇒p(𝜃 − ℎ2 ≤ φ ≤ 𝜃 + ℎ1)= 1 − 𝜶
Cet intervalle est appelé intervalle de confiance de l’estimation φ au seuil de probabilité 1 − 𝜶

Si 𝜶 = 𝟓% on dira qu’il ya 95% de chance que la vraie valeur de φ se trouve dans un


intervalle centré autour de la vraie valeur de θ

Lorsque le seuil augmente, l’intervalle augmente de la même valeur.

Remarque
Un estimateur est d’autant plus efficace que pour un seuil de probabilité (1-𝜶) donné, il conduit
à un intervalle de confiance plus petit.

On ne peut parler d’intervalle de confiance que si on a une probabilité d’erreur et donc un degré
de fiabilité.

A-Estimation d’une moyenne

La moyenne 𝑥̅ d’un échantillon provenant d’une population normale est elle-même distribuée
de façon normale (Susceptible d’être approximée de façon normale).

NB

La distribution de la moyenne 𝑥̅ d’un échantillon tiré dans une population quelconque de


moyenne m et d’écart type 𝜎 peut être assimilée dès que l’effectif de l’échantillon dépasse une
trentaine d’unité (n> 30) à une loi normale de moyenne m et d’écart type 𝜎𝑥̅ avec :

𝝈
𝝈𝒙̅ = tirage avec remise
√𝒏

𝝈 𝑵−𝒏
𝝈𝒙̅ = 𝒏
*√𝑵−𝟏 tirage sans remise

𝑵−𝒏
Quand l’effectif de l’échantillon est important le coefficient d’exhaustivité
𝑵−𝟏
peut-
𝝈 𝒏
être approximé par 𝝈𝒙̅ = *√𝟏 − 𝑵
√𝒏

Généralement l’écart type de la population est inconnu au même titre que m:la moyenne de la
population.

On utilise alors comme estimateur de l’écart type S’ déduite des observations sur
1
l’échantillon:𝑆′2 = . ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1
Quand l’effectif de l’échantillon est élevé, l’estimation de 𝑆′2 est ≃ peut différent de la valeur
1
de l’écart type calculé sur l’échantillon: c-à-d 𝑆′2 → 𝑆 2 avec 𝑆 2 = . ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1

𝑆′ 𝑆
Dans ces conditions l’estimateur de 𝜎𝑥̅ = ≃ (𝑇𝐴𝑅 )
√𝑛 √𝑛

𝑆′ 𝑛 𝑆 𝑛
de plus 𝜎𝑥̅ = √1 − 𝑁 ≃ √1 − 𝑁 (TSR)
√𝑛 √𝑛

𝑁−𝑛 𝑛
L’effectif est grand (n>30)⇒ 𝑆′2 ≃ 𝑆 2 ,quand les effectifs sont important, alors ≃1-
𝑁−1 𝑁

Si l’effectif n de l’échantillon est grand (n>30 individus) alors:

𝑆′2 est une estimation suffisamment précise de 𝜎 2 pour que la variable centrée réduite soit
distribuées normalement

Variable centrée réduite dans le calcul dans de laquelle 𝜎 est remplacé par S’
𝑥−𝑥0
Pour passer de x à x’ on fait un changement de variable: x→x’= avec 𝑥0 et a sont des
𝑎
constantes données.
𝑥̅ −𝑚
Pour passer de la normale à la loi normale centrée réduite on fait le changement suivant: T=
𝜎

N(m, 𝜎)→NCR= N(0,1)


𝑥̅ −𝑚
T= (TAR)
𝑆′/√𝑛

𝑥̅ −𝑚
T= 𝑆′ 𝑛
(TSR)
√1−𝑁
√𝑛

Remarque:
𝑥̅ −𝑚
Si l’effectif n de l’échantillon est petit c-à-d inférieur à 30 unités alors la variable T= ne
𝜎
peut être plus assimilée à une variable Normale centrée réduite.

Dans certains cas la population suit une loi de Fisher, Student à (n-1) degré de liberté.

Résumé

On dira que dans le cas d’un grand échantillon c-à-d n>30 unités, la détermination de
l’intervalle de confiance relatif à l’estimation d’une moyenne ne présente pas de difficulté
majeure. En effet, quelque soit la distribution d’origine, la moyenne de l’échantillon suit une
loi Normale dont on peut estimer l’écart type à partir de l’échantillon.

Exemple:
On tire un échantillon exhaustif de 10 000 ménages dans une région comprenant 70 0000
ménages. Sur cet échantillon on observe pour un mois déterminé une consommation moyenne
de 950 dhs avec un écart type de 700dhs.

Problème : calculer l’intervalle de confiance se rapportant à l’estimation de la consommation


moyenne des ménages dans la région.

Généralement dans un sondage aléatoire le tirage est sans remise.

Le tirage s’effectue sans remise. Malgré cela, on peut en raisonner de la faiblesse du taux de
sondage assimilé cet échantillon à un échantillon indépendant, en effet le taux d’exhaustivité
tend vers 1.

(N-n/N-1)=( 700000-10000/700000-1 )≃1


𝜎
La moyenne 𝑥̅ sur l’échantillon suit une loi normale de moyenne m et d’écart type 𝜎𝑥̅ =
√𝑛

m et σ sont les véritables caractéristiques.

Dans l’ignorance de la véritable valeur de σ, nous l’estimerons à partir de l’échantillon. Comme


l’effectif de celui-ci est grand, alors σ sera estimé par S’ qui est proche de S (S’ ≃ S=700, l’écart
type de l’échantillon).
𝑆 700
En raison de la taille de l’échantillon 𝜎𝑥̅ sera estimé par 𝑆𝑥̅ avec 𝑆𝑥̅ = = =7
√𝑛 100

𝑥̅ −𝑚
Cette estimation est suffisamment précise pour que la variable T= ait une distribution
𝜎𝑥
̅
normale centrée réduite.

En suite:

On accepte un seuil de probabilité égal à 95% (α=5%: le risque d’erreur)

On Recherche la valeur T telle que:

P(𝑥̅ -TS𝑥̅ ≤m≤𝑥̅ +TS𝑥̅ )=0,95

Après lecture dans la table on détermine T=1,96

Et: 𝑥̅ -2S𝑥̅ ≤m≤𝑥̅ +2S𝑥̅

950-(2*7)≤m≤950+(2*7)

Soit 936≤m≤964

Il y a donc 95 chance sur cent (95%) pour que la vraie valeur de la consommation soit dans
l’intervalle [936;964]

Remarque importante:
1- on aurait pu se montrer plus exigent concernant le risque d’erreur sur la précision de
l’estimation et choisir un seuil de probabilité

1-α=99% (α=1%)

On lit dans la table de la loi normale centrée réduite T=2,58 donc l’intervalle sera:

931,94≤m≤968,06

Il y a 99 chance sur cent (99%) pour que la vraie valeur m se trouve dans l’intervalle
[931,94;968,06]

NB: cet intervalle est plus large que le précédent car on a voulu avoir moins de chance de
commettre une erreur.

Plus le seuil de probabilité est importante plus l’intervalle est grand.

2- Si l’on veut diminuer la longueur de cet intervalle en conservant le même seuil de e


probabilité, il faudrait augmenter la taille de l’échantillon:

En effet:

Si n=20 000 au lieu de 10 000 on aura 𝑆𝑥̅ = 4,94 et la valeur de T ne change pas, puisque elle
ne dépend pas de l’échantillon mais plutôt de α.

Si T=2.58 avec α=1% , on obtient alors:

(950-2,58)*4.95≤m≤(950+2,58)*4.94 qui donne

937,26≤m≤962,74

L’intervalle est devenu plus réduit que le précédent même si le seuil de probabilité est resté le
même α=1%.

Exemple:

Soit une enquête relative aux salaires mensuels d’individus dans une ville déterminée.

Données:

Echantillon exhaustif de 50 salariés correspond à un taux de sondage de t=1/10

Dans cet échantillon on obtient les résultats suivants:

Somme 𝑋𝑖 =7500 et X est une variable aléatoire qui porte sur le salaire mensuel

∑(𝑋𝑖 − 𝑋̅)2 =9800.

Pb: Déterminer l’intervalle de confiance au seuil de probabilité de 95% relatif au salaire moyen

Solution:
(Le tirage est exhaustif)

Salaire =X

n=50 n/N= t=1/10 ce qui implique que N=10n=50*10

N=500

𝑋̅= 1/n ∑ 𝑋𝑖 =7500/50=1500

1500 : salaire moyen pour chaque individu dans l’échantillon (contenant 50 personnes).

Puisque n est grand 𝑋̅variable aléatoire suivre une loi normale de moyenne m et d’écart-type
𝜎𝑋̅

Le tirage étant sans remise. L’écart type de la population est inconnu, il sera estimé par S’:

S’²=(1/n-1) ∑(𝑋𝑖 − 𝑋̅)2 : c’est l’estimateur sans biais de la variance de la population donc

S’²=(1/49)*98000=2000

S’=√2000=44,7dhs

S’ est l’estimateur sans biais de l’écart- type calculé sur la population.

On estime l’écart- type 𝜎𝑋̅ de la distribution par 𝑆𝑋̅ qui provient de 𝑆 2 𝑋̅ = (S’2 /√n)*(N-n/N-
1)(TSR)

Donc 𝑆𝑋̅ =(S’/√n)* √(N − n)/(N − 1 )

𝑆 2 𝑋̅ doit être estimée par (n/N)* (N-n/N-1) 𝑆 2 =V*(𝑋̅) en cas de tirage sans remise.

NB: On attire l’attention sur le fait que S et s sont les mêmes, seulement pour des questions de
commodité on écrit souvent S au lieu de s qui est l’estimation de l’écart type sur la population.

On a 𝑠𝑋̅ = (s’/√𝑛)*√(N − n)/(N − 1 )

Comme N est grand par rapport à n alors,

𝑠𝑋̅ = (s’/√𝑛)*√1 − (n/N )

𝑆 2 𝑋̅ =(𝑠′2 /n) (N − n/N − 1)

= (𝑠′2 /n) (1-(n/N)) (puisque N est grand)

𝑆 2 𝑋̅ =(2000/50)(1-1/10)=36

Donc 𝑆𝑋̅ = √𝑆 2 𝑋̅ = √36=6


Puisque n>30 on va admettre que la variable
̅ −m)
(x
T= suit une distribution normale centrée réduite donc:
𝑆𝑋
̅

Avec 1-𝛼= 95%

Alors P(x̅-2Sx̅≤m ≤x̅ +2Sx̅)=0,95

Donc l’intervalle de confiance est [1488;1512]

B-Estimation d’une somme

Supposons que dans l’exemple précédent on désire estimer non pas le salaire moyen mais la
masse totale des salaires. On écrira que:

S= ∑𝑁
𝑆=1 Xs =N.m

On dira que la masse totale des salaires sera estimée par N𝑋̅ dont l’écart-type sera égal à N𝜎𝑋̅ :
écart-type estimé par N𝑆𝑋̅

N étant égal à 500; l’intervalle de confiance à 95% est:

N𝑋̅ -TN𝑠𝑋̅ ≤Nm≤N 𝑋̅ +TN𝑠𝑋̅

N𝑋̅ -2N𝑠𝑋̅ ≤S≤N 𝑋̅ +2N𝑠𝑋̅

C’est la même écriture que précédemment seulement on travaille avec N 𝑋̅ au lieu de 𝑋̅car on
est en présence d’un ensemble plus vaste qui est N ̅ X. Et avec NsX̅ au lieu de sX̅ car en cherche
la distribution au sein d’une somme qui est le total de la masse salariale.

Donc

𝑋̅ -T𝑠𝑋̅ ≤m≤ 𝑋̅ +T𝑠𝑋̅

Devient N𝑋̅ -TN𝑠𝑋̅ ≤S≤N 𝑋̅ +TN𝑠𝑋̅

D’où:

1500*500-(2*500*)6 ≤S ≤ 1500*500+(2*500*6)

Alors 744000 ≤S ≤756000

Le total de la masse salarial distribué se trouve dans l’intervalle [744000;756000] avec une
erreur possible de 5%.

3-Détermination de la taille de l’échantillon

La loi des grands nombres nous enseigne qu’il suffit de tirer un échantillon d’un effectif
suffisant pour atteindre une précision donnée d’une estimation d’un paramètre d’une
population.
Le problème est de déterminer, étant donné un seuil de probabilité (1-α) fixé, l’effectif n de
l’échantillon pour obtenir une estimation avec la précision désirée.

(Quel doit être l’échantillon qui en faisant l’estimation des caractéristiques de la population
nous donnera plus de précision).

Estimation d’une moyenne

La moyenne 𝑋̅d’un grand échantillon peut être considérée comme ayant une distribution
normale d’espérance mathématique m et d’écart-type :
𝜎
si le tirage est avec remise;
√𝑛

𝜎 𝑁−𝑛
√ si le tirage est sans remise.
√𝑛 𝑁−1

Si le tirage est avec remise au seuil de probabilité 1-α correspond l’intervalle:

Partant de là on peut écrire:


𝜎 𝜎
𝑥̅ - t ≤m ≤ 𝑥̅ +t ≤m
√𝑛 √𝑛

𝜎
|𝑥̅ − 𝑚 | ≤ t
√𝑛

Pour que la précision de l’estimation soit au moins égale à k% de m, il faut choisir n tel que:
𝜎 𝑡 2𝜎 2
t ≤km c-à-d , il faut choisir n tel que n≥
√𝑛 𝑘 2𝑚2

𝜎 𝑡𝜎
Car t ≤km ⇒ ≤ √𝑛
√𝑛 𝑘𝑚

𝑡 2 𝜎2
⇒ ≤n
𝑘 2𝑚2

𝑡 2 𝜎2
Pour avoir la précision égalé à 1-∝, il faut que l’effectif n≥
𝑘 2 𝑚2

Le coefficient de variation cv=σ/m qui mesure la dispersion relative de la série (distribution).

NB: on fait le même raisonnement avec le TSR.

Remarques

1-Pour un seuil de probabilité et une précision donnée la taille de l’échantillon sera plus faible
pour une population peu dispersée que pour une population très dispersée.

2-Pour fixer la taille de l’échantillon il faut connaître le coefficient de variance (CV), Or on


ignore les valeurs de m et de σ (puisque CV= σ/m).

Résolution:
Etape 1: on enquête sur un échantillon restreint pour évaluer les paramètres du coefficient de
variation ( et m) .

Etape 2: on fixe la taille de l’échantillon définitive. On prend un échantillon restreint, on calcule


sa moyenne et sa variance, puis on estime ses paramètres.

Exemple:

Soit une population donnée, on estime que le CV de la dépense consacré à un certain type de
produit égal à 4 unités

Déterminer la taille de l’échantillon pour être en mesure d’ apprécier à 10%=k près la valeur
de la dépense moyenne au seuil de probabilité

1- α =95%
𝜎
CV = =4 ; k= 10% ; 1 - α =0,95 => α=5%
𝑛

Pour ces valeurs et d’après la table de la loi Normale Centrée Réduite : on aura t=1,96 ≈ 2→
4
On peut calculer la taille de l’échantillon donc: n ≥ 42 =6400.
(0,1)2

Alors n ≥ 6400
Section II: Les Problèmes de comparaison
Souvent on est conduite à confronter une estimation obtenue à partir d’un sondage aléatoire à
une norme fixée à priori ou encore à comparer entre eux les résultats de deux échantillons
différents.

La résolution des problèmes de comparaison à partir d’échantillon aléatoire repose sur le test
d’hypothèses.

1- Le Test d’Hypothèses : Principe

Exemple:

Cas du contrôle par sondage d’une comptabilité d’une entreprise.

Supposons n=effectif de l’échantillon des pièces comptables tirées pour procéder à la


vérification de cette comptabilité

P○ : sera la proportion d’erreur, acceptable

P: la proportion d’erreur observée sur l’échantillon

Avec p ≠ p○ en général on a 3 cas:

p< p○ Pas de problèmes de comptabilité ( comptabilité bonne)

p=p○ Pas de Problème et pas de test d’hypothèse

P>P○ Deux origines:

1. P>P○ Effectivement (l’écart observé est dû à une différence réelle)

2. P=P○ La différence observée est dû aux fluctuations aléatoires c-à-d au fait que la
mesure a été effectuée sur un échantillon.

Il convient de choisir entre ces deux origines et décider si l’écart observé (p-p○) est dû à une
différence réelle ou au contraire s’il est seulement dû au hasard c-à-d aux fluctuations aléatoires.

Démarche: 4 étapes:

Soient deux hypothèses aléatoires que l’on désire tester:

- H₀: P = P₀

- H₁ : P >P₀

PRINCIPE

1- On va considérer l’hypothèse H₀ comme exacte.

2- On se fixe un seuil de probabilité α qu’on appelle en général: seuil de signification


α: c’est le risque d’erreur que l’on accepte de courir.

α= P(H₁/H₀ vraie) = ( choisir H₁ / H₀ vrai) à ce seuil de signification on fait correspondre deux


régions:

R: région critique de probabilité α

𝑅̅: région complémentaire ou région d’acceptation de probabilité 1-α

Si P ∈ 𝑅̅ →H₀ est exacte (fondée)

Si P ∈ R →H₀ est à rejeter et fonder H₁

4-La proportion d’erreur f observée sur l’échantillon appartient soit à R soit à 𝑅̅ .

1 ͤ ͬcas: f ∈ R : On rejette l’hypothèse H₀ et on retient l’hypothèse H₁.


2 cas f ∈ 𝑅̅ la décision sera H₀. Mais cela ne veut pas dire que H₁ est fausse mais seulement
H₀ a plus de chance de se réaliser. C’est ce qu’on appelle Règle de décision.

2-comparaison à un standard:

Le Problème de comparaison de la valeur d’une caractéristique Ɵ a un standard

Ɵ₀ (Ɵ peut être 𝑋̅ ,σ², f, N, S) et Ɵ₀ peut être 𝑋̅₀,σ²₀, f₀, N₀, S₀).

Revient au test de deux hypothèses alternatives :

H₀ et H₁ : ( 1 ͤ ͬ cas H₀=Ɵ=Ɵ₀ , H₁: Ɵ>Ɵ₀)

(2 ͤ cas : H₀ : Ɵ=Ɵ₀ et H₁ : Ɵ<Ɵ₀)

(3 ͤ cas : H₀ : Ɵ=Ɵ₀ ; H₁ Ɵ≠Ɵ₀ )

Chacun de ces trois cas va définir une région différente.

a- Test relatif à une fréquence:

Soit une population dont certains individus possèdent le caractère A, sur un échantillon de taille
n prélevé dans cette population on a observé une fréquence f d’individu présentant ce caractère.

La proportion d’individu A dans la population est inconnue et f peut en différer en raison des
fluctuations d’échantillonnage sur la base de la valeur f observé on se propose de tester si la
proportion p peut être considérée ou non comme étant égale à une valeur p₀ fixée à priori

1ͤ Etape: on définit les deux hypothèses alternatives

H₀ et H₁ que l’on désire tester :

H₀ P=P₀ ; H₁: P≠P₀ (P>P₀ , P<P₀)

-H₀ P=P₀ H₁ P<P₀


-H₀ P=P₀ H₁ P>P₀

-H₀ P=P₀ H₁ P≠P₀

2 ͤ Etape: la fréquence f suit selon le mode du tirage Soit une loi binomiale soit une loi
géométrique 𝒢. Ces lois auront pour paramètre en supposant que H₀ est exacte P=P₀

Sous certaines conditions ces lois binomiales et géométriques peuvent être approchées par

une loi normale N(m,σ)

( n↗ et taux de sondage petit)

𝑝0(1−𝑝0 ) 𝑝0 (1−𝑝0)
N(m,σ)=N(P₀, √ )d’espérance p₀ d’ écart type √
𝑛 𝑛

Donc la variable T qui suit une loi normale réduite devient:


𝑓−𝑝0 𝑥0−𝑚
T= =
𝑝 (1−𝑝0 )
√ 0 𝜎
𝑛

T suit une loi normale centré réduite (NCR)

3 ͤ Etape: étant donnée le seuil de signification α on peut déterminer la région critique


correspondant à chacun des 3 cas de figure.

Cas n°1: on supposera les hypothèses suivantes:

𝐻0 : 𝑃 =𝑃0 𝐻1 : 𝑃 > 𝑃1

𝑅 va avoir une forme critique, f >l→ on détermine la valeur de l pour que la probabilité de
choisir 𝐻1 sachant que 𝐻0 est vraie :

P (choisir𝐻1 / 𝐻0 )= P(f> l)= α


Par lecture de la table on trouve tα. {P(T>tα)=α} et quand on trouve tα on cherche l .

𝑝0 (1−𝑝0 )
l=P₀ + tα √
𝑛

La région critique R sera de forme f>l avec f représente la fréquence observée et l la valeur
limite de la région d’acceptation.
La valeur de l est déterminée de façon à ce que la probabilité pour choisir H₁ alors que H₀ est
vraie est égale à α. P(choisir H₁/H₀ vraie)= P( f>l )=α

Par lecture des tables de la variable NCR on détermine la valeur de tα telle que la probabilité
pour que T soit supérieur à tα est égale à α P( T>tα)=α

On en déduit la valeur de l qui est égale à :

𝑝0 (1−𝑝0)
l = P₀ + tα √
𝑛

Il s’ensuit la règle de décision suivante :

- si f > l : on choisir la décision H₁

- si f < l : on choisir la décision H₀

2 ͤcas de figure : on suppose que :

H₀ p=p₀ H₁ P<P₀

La région critique R sera de la forme f< l c-à-d il faut qu'on détermine la valeur de l.

P(choisir H₁/ H₀ vraie) = α


Par la lecture des tables de la variable NCR on détermine la valeur de tα telle que :

P( T<tα)=α

Si la fréquence f observée est inférieur à l, alors on choisit H₁

3 ͤ cas de figure: on suppose

H₀ : P=P₀

H₁ : P≠P₀

La région d’acceptation 𝑅̅ est une région symétrique de la forme l₁< f <l₂

𝑅̅ → l₁ < f < l₂

P( l₁ < f <l₂) = 1-α

Il convient de déterminer l₁ et l₂ de façon à ce que la probabilité de l₁< f <l₂ est égal à 1-α

Il existe dans ce cas 2 région critique R₁ et R₂.

A chaque région correspond une probabilité𝛼/2, donc les valeurs limites de la région
d’acceptation seront :

𝑝0 (1−𝑝0 )
l₁= P₀ - 𝑡𝛼/2 √
𝑛

𝑝0(1−𝑝0 )
l₂= P₀ + 𝑡𝛼/2 √
𝑛

Il suffit d’encadrer la région d’acceptation R située entre l₁ et l₂.

Si l₁< f <l₂ alors la règle de décision sera H₀

Si f < l₁ ou f > l₂ alors la règle de décision sera H₁.


Exemple:

On se propose de contrôler par sondage l’exactitude de l’inventaire d’un stock comprenant


plusieurs milliers d’articles, on travaille sur un échantillon de 500 articles tirés au sort, on admet
une proportion d’erreur acceptable inférieur ou égal à 3%

N est grand : N nombre d’article, n=500 l’effectif de l’échantillon

L’erreur admise =3%= P₀

Hypothèse :

H₀ P=P₀

P<P₀ → pas d’information

H₁ P>P₀

f : fréquence observée sur l’échantillon

𝑝0 (1−𝑝0)
Si H₀ exacte , σ = √ , P=P₀
𝑛

La région critique R va avoir la forme suivante :

P( f > l )=α

On suppose que α=5%

tα = t0,05 = 1,65

𝑝0 (1−𝑝0)
l = P₀ + tα √
𝑛

0,03 ∗0,97
l = 0,03 + 1,65√ =0.043= 4.3%
500
On rejettera l’hypothèse H₀ et on admettra que la proportion d’erreur commise dans l’inventaire
est significativement supérieure à 3%.

Si le pourcentage d’erreur relevé sur l’échantillon est supérieur à 4.3%.

B- Test relatif à une moyenne

Soit un échantillon de taille n, dans celui-ci, on observe la valeur moyenne 𝑥̅ relative à la


variable statistique X. On appellera m la variable de la moyenne dans la population (m est
inconnue).

Tout le problème est de tester si la moyenne m peut être considérée ou non. Comme égale a une
valeur m₀ fixée à priori.

On va définir les deux hypothèses alternatives, H₀ et H₁ en fonction du problème posé

1 ͤ ͬ ͤ Etape : définition des hypothèses

1- H₀: m=m₀ 2-H₀: m=m₀ 3- H₀: m=m₀

H₁: m>m₀ H₁: m<m₀ H₁ : m≠m₀

2 ͤ Etape: si la population et distribuée normalement, ou si l’effectif est suffisamment

grand alors 𝑥̅ suit une loi de la place gauss (normale) de paramètre m et σ : 𝑥̅ ∿N ( m, σ)


m et σ représentent respectivement la moyenne et l’ écart type de la population.

Supposons que « H₀ est exacte » est insuffisant car la loi de probabilité de 𝑥̅ dépend de m qui
est égale à m₀ si H₀ est vraie elle dépend aussi de la valeur de σ.

1 ͤ ͬ cas : σ est connu


𝑥̅ −𝑚0
La variable T = suit une loi normale centré réduite. Étant donné le seuil de signification
𝜎/√𝑛
α, on est en mesure de déterminer la région critique correspondant à chacun des 3 cas
précédents.

Exemple soit H0 : m=m0

H1 :m≠ m0
En fonction de la probabilité posée, on choisit H 0 et H1 et on teste H0 ou H1 et à chaque cas
de figure correspond une région d’acceptation et une région critique.

Tout le problème est dans le calcul de la probabilité : p(l1<𝑥̅ <l2)=1-𝜶

Même déroulement qu’en cas de fréquence on met f au lieu de 𝑥̅

𝜎 𝜎
m0-𝑡𝛼 * ≤ 𝑥̅ ≤ m0+𝑡𝛼 *
2 √𝑛 2 √𝑛
𝜎
l1= m0-𝑡𝛼 *
2 √𝑛
𝜎
l2= m0+𝑡𝛼 *
2 √𝑛

m0 : connue et 𝜎 : supposé connu

𝑡𝛼 déterminé à partir de la table en calculant la probabilité p(T>𝑡𝛼 )= 𝜶


2 2

Test
Après avoir calculé l1 et l2 on va prendre une décision. On a 3 situations

Soit : 𝑥̅ < l1 on va choisir H1 c’est-à-dire les données de départ ne sont pas fondées

𝑥̅ > l2 on va choisir H1 c’est-à-dire les données de départ ne sont pas fondées ( rejeter les données
de départ)
l1<𝑥̅ <l2 on est dans la zone d’acceptation, on va choisir H 0 c’est-à-dire
retenir les données de départ

2eme cas : 𝜎 est inconnu


Généralement, on ignore la vraie valeur de 𝜎, on remplace 𝜎 par son estimation
1
S’ déduite des observations avec S’²= ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )²
𝑛−1

S’² estimateur sans biais de 𝜎² sur la population toute entière


n :taille de l’échantillon

𝑥̅ :moyenne calculée sur l’échantillon

Si n est grand (n>30) alors S’² est une estimation suffisamment précise de 𝜎²
pour que la variable centrée réduite T soit distribuée normalement.
̅
𝒙−m0 ̅
𝒙−𝒎𝟎 ̅
𝒙−𝒎𝟎
Alors T= = 𝝈 = 𝑺′
𝝈𝒙̅
√𝒏 √𝒏

On se ramène donc au cas où l’écart type est connu

m≠ m0
m< m0
m> m0

Remarque

Si n<30 alors T ne peut plus être assimilée à la variable normale centrée réduite (VNCR)
on utilise alors une loi de student fisher à (n-1) degré de liberté.

Exemple:

Une machine fabrique des pièces mécaniques en séries, elle a été réglée pour que le diamètre
pour que chaque pièce soit égale à 12.60mm.

Sur un échantillon de 100 pièces on a observé une valeur moyenne 𝑥̅ =12.65mm et on a observé
S² (variance sur l’échantillon) est égale à0.1584

Pb : le réglage de la machine peut-il être encore considéré comme correct


On se propose de tester deux hypothèses

H₁: m=m₀=12.60

H₁ : m≠m₀=12.60

Le choix des hypothèses est presque subjectifs à partir des données m>12.60, m<12.60 :
n’apportent pas d’information n est suffisamment grand pour que la moyenne observée 𝑥̅ suive
une loi Normale de paramètre m et 𝜎/√𝑛 𝑥̅ ∿ N ( m , 𝜎/√𝑛 )

La véritable valeur de σ est inconnue on peut l’estimer par s’² avec :


1
s’² = . ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1

𝑛
= s²
𝑛−1

s² : variance sur l’échantillon.


100
s’² : estimateur sans biais de la variance sur la population : s’²= *0,1584=0,16
100−1

s² = √0,16 =0,1
𝑥̅ −𝑚0
Hypothèse: on suppose H₀ exacte dans ces conditions les variable T= est distribuée
𝑆′/√𝑛
normalement :
𝑥̅ −12,60
H₀= exacte → m₀=12,60, T=
0,04

En raison des hypothèses aléatoires retenues, la région d’acceptation sera de la forme:

l₁ < x̅ <l₂

P( l₁ < x̅ < l₂)= 1-α

On retient un seuil de signification α= 5% = 0,05.

La valeur 𝑡α⁄2 de la variable normale centrée réduite (VNCR) lue dans la table telle que

P(T> 𝑡α⁄2 )= α⁄2 = 0,025

t 0,025 = 1,96 ≃2

Il nous reste de calculer l₁ et l₂


𝑠′
l₁=m₀ - 𝑡α⁄2 = 12,52
√𝑛

𝑠′
l₂=m₀ + 𝑡α⁄2 = 12,68
√𝑛

Donc, la région d’acceptation est donnée par l₁ et l₂ et aura la forme suivante :


12,52< x̅ <12,68 cela veut dire que x̅ doit se situer dans un intervalle de limite par l₁ et l₂ x̅ étant
égal à 12,65 se trouve bien dans cet intervalle c-à-d la valeur observée x̅ =12,65 se trouve à
l’intérieur de la région d’acceptation donc nous ne sommes pas en contradiction avec
l’hypothèse H₀

Conclusion:

Les mesures effectuées sur l’échantillon ne permettent pas de mettre en doute le bon réglage de
la machine.

Les erreurs reviennent à des erreurs d’échantillonnage c-à-d que l’échantillon pris n’est pas très
bien choisi, il y a des erreurs.

Exemple:

Supposons que dans notre exemple la valeur moyenne x̅ =12,65 mm et la variance s²=0,1584

aient été observées sur un échantillon de 10 pièces (n=10) et donc :

𝑛 𝑆 0,176
𝑆′2 = 𝑆2 =√ = 0,13
𝑛−1 √𝑛 10

𝑥̅ −𝑚0
On dira la taille de l’échantillon est faible dans ces conditions la variable T = = ne peut
𝑆′/√𝑛
être approximée par une distribution normale → elle suivra une loi de Student-Fisher à (n-1)
degrés de liberté (9).

Pour un seuil de signification α =5% la valeur t lue dans la table de Student-Fisher à 9° de


liberté est P(T > 𝑡α⁄2 )=𝑡α⁄2 ( cette probabilité doit être égal 𝑡α⁄2 )

t0.025 = 2.26 (lue dans la table de Student-Fisher à

9° degrés de liberté)

La région d’acceptation sera de la forme :


𝑠′ 𝑠′
m₀-𝑡α⁄2 < x̅ < m₀ +𝑡α⁄2
√𝑛 √𝑛

12.60 – 2.26 x 0.13 < x̅ < 12.60 + 2.26 x 0.13

→ 12.31 < x̅ < 12.89

→ Région d’acceptation plus large que dans le cas précédent où n=100 : plus d’effectif est
faible plus les fluctuations d’échantillonnage sont importantes par rapport aux autres facteurs
aléatoires.

3- Comparaison d’échantillon :

Le problème consiste à comparer des résultats obtenus sur des échantillons différents.
Considérons deux populations dans lesquelles on tire deux échantillons (on appellera P₁ et P₂
ces deux populations). Ces échantillons peuvent être de tailles différentes. A partir des résultats
observés, sur les deux échantillons, on se propose de décider si les valeurs d’une caractéristique
Ө sont égales ou non dans les deux populations.

Les valeurs observées seront généralement différentes. Cette différence peut être imputée à
deux causes :

1-Ө₁ et Ө₂ sont effectivement différentes dans les deux populations

2-1-Ө₁ et Ө₂ sont les mêmes dans les deux populations et les différences sont dues aux seules
fluctuations d’échantillonnage

Le problème revient au teste d’hypothèses :

1 ͤ ͬhypothèse : H₀ : Ө₁ - Ө₂=0 (hypothèse nulle)

2 ͤ hypothèse : H₀ : Ө₁ - Ө₂≠ 0 (hypothèse alternative)

Il convient de former la différence des résultats observés sur les deux échantillons et de se
demander si cette différence est significative ou pas.

Rappelle : « Sur les propriétés de la différence de deux variables aléatoires)

Soient X₁ et X₂ deux variables aléatoire indépendantes : considérons leur différence x₁ - x₂

1- E(x₁-x₂) = E( x₁) – E(x₂)

2- V(x₁-x₂) = V(x₁) + V(x₂)

⇒σ (x₁ +x₂ ) = √𝜎𝑥1 2 + 𝜎𝑥2 2 = √𝑉(𝑥1 ) + 𝑉(𝑥2)

3- Si x₁ et x₂ sont distribuées normalement avec paramètres: X₁ → N ( m₁, σ1 ) ; X₂ →


N(m₂,σ₂)

Alors :(x₁-x₂) est elle-même distribuée avec pour paramètre (m₁, m₂) et√𝜎𝑥1 2 + 𝜎𝑥2 2

(X₁ - X₂) → N(m₁ - m₂, √𝜎𝑥1 2 + 𝜎𝑥2 2

Problème de comparaison de deux fréquences :

Soit deux populations P₁ et P₂ composées d’individus dont certains possèdent le caractère A

On appellera p₁ et p₂ les proportions d’individus A dans les deux populations :

P₁ ~p₁ ; P₂ ~ p₂ ,p₁ et p₂ sont des inconnues.

On prélève deux échantillons dans ces populations n₁ et n₂ . Dans ces échantillons on observe
les fréquences d’individus A, on appelle ces fréquence f₁ et f₂ ,𝑛1 ~ f₂ ; 𝑛2 ~ f₂, sur la base de
ces informations on se propose de tester si ces proportions p₁ et p₂ relatives aux deux
populations peuvent être considérées ou non comme égales .

1- Hypothèse à tester :

H₀ : p₁ - p₂ = 0

H₁ : p₁ - p₂ ≠ 0

2- f₁ et f₂, suivent selon le mode du tirage des lois binomiales ou hypergéométriques

Si les effectifs n₁ et n₂ sont asses élevés alors l’approximation par la loi binomiale reste valable.

Dans ces conditions et sous réserve que les tirages d’échantillon puissent être assimilés à des
tirages indépendants alors la fréquence f₁ suit une loi Normale N (m₁,σ₁) avec m₁ = p₁

𝑝1 (1−𝑝1)
Et σ₁ = √ m₁ = E(f₁) et σ₁²= V(f₁)
𝑛1

De la même manière f₂ suivra une loi Normale

𝑝2(1−𝑝2 )
N (m₂,σ₂) avec m₂ = p₂ et σ₂ = √
𝑛2

D’ après les propriétés d’une différence, d = f₁ -f₂ suit une loi normale de paramètres :

m = E(d) = E( f₁ - f₂)= E(f₁) – E(f₂) = p₁ - p₂

𝑝1(1−𝑝1 ) 𝑝2 (1−𝑝2)
Et σ = σd = √𝜎𝑓12 + 𝜎𝑓22 = √ +√
𝑛1 𝑛2

« d » suit une loi Normale de caractéristique (m,σd)

Supposons que l’hypothèse H₀ soit (fondée, vraie)

H₀ : p₁ -p₂ =0 ; p₁ = p₂ = p

Dans ce cas le différence suit une loi normale de caractéristique d

1 1
d→ N(0, √𝑝(1 − 𝑝)( + )
𝑥 𝑥 1 2

p représente la valeur commune de p₁ et p₂. Etant donné le seuil de signification α on peut


mesurer l’intervalle d’acceptation l₁ < d < l₂, définit par la probabilité de choisir H₁ alors que
H₀ est vraie c-à-d :

P(choisir H₁/H₀ vraie) = P(l₁ < d< l₂)=1-α

En général : m – tα σd< d < m + tα σd

p – tα σd< d < p + tα σd
La valeur de tα = tα/2 est la valeur de la variable normale centrée réduite telle que :

E(d) – tα/2 σd < d < E(d) + tα/2 σd

L’intervalle obtenu aura la forme :

- tα/2 σd < d < tα/2 σd car (E(d)=0; p₁ = p₂)

Le problème réside dans la connaissance de l’écart type attaché à la différence (σd)

1 1
Or on sait que : σd = √𝑝(1 − 𝑝)( + ) 𝑞𝑑
𝑛1 𝑛2

H₀ est vraie :

p sera estimé par la fréquence f calculée sur l’ensemble des deux échantillons.

En désignant par x₁ et x₂ le nombre d’individus A observer dans chacun des deux échantillons
𝑥1 +𝑥2 𝑛1𝑓1 +𝑛2 𝑓2
on notera : f = =
𝑛1+𝑛2 𝑛1+𝑛2

σd sera estimée par Sd = sd

1 1
sd = Sd =√𝑓(1 − 𝑓)( + )
𝑛1 𝑛2

Dans ces conditions, l’intervalle d’acceptation au seuil de signification α sera déterminer par:

- tα/2 Sd < d <+ tα/2 Sd

En général, le véritable intervalle est de la forme:


𝑑
- tα/2 < < tα/2 :σd →(estimer par) Sd
𝑆𝑑

𝑛1𝑓1+𝑛2𝑓2
f=
𝑛1+𝑛2

Exemple:

Une entreprise veut acquérir un matériel couteux, se pose le problème du taux d’utilisation de
ce matériel. Au cours de chaque mois on observe un échantillon d’instant tiré au hasard pour
chacun de ces instants précis un contrôleur note si ce matériel est utilisé ou non.

On suppose qu’ont tiré 500 instants en janvier et 400 en février. Le problème est donc de trouver
une règle de décision en fonction de chaque instant, le contrôleur a donné les résultats suivants :

janvier Février
Utilisation 400 300

Non utilisation 100 100

500 400
Existe-il une différence significative entre le taux d’utilisation de ce matériel de ce matériel en
janvier et en février n₁=500 ; n₂=400

f₁: fréquence de fonctionnement (taux d’utilisation) dans le 1 ͤ ͬmois.


400
f₁ = = 0,8 = 80%
500

300
f₂ = = 0,75 = 75%
400

Soit l’hypothèse nulle : p= p₁ - p₂ c-à-d (p₁ - p₂=0). On suppose que la différence d= f₁ - f₂ suit
1 1
une loi Normale de moyenne m = 0 et l’ écart type = √𝑝(1 − 𝑝)( + )
𝑛1 𝑛2

partant de là , on estimera p par:


𝑛1𝑓1+𝑛2𝑓2 500∗(0,8+100)∗0,75
f= = =0,79, et l’écart-type σd est estimé par Sd :
𝑛1+𝑛2 500+100

1 1
Sd = √0,78 ∗ 0,22( + ) = 0,028
400 500

Au seuil de signification α =5% va correspondre la valeur tα/2 ≠2 L’intervalle d’acceptation est


donc:

- 2 x 0,028 < d < 2 x 0,028 c-à-d

- 0,056 < d < +0,056

d= f₁ - f₂ = 0,80 – 0,75 = 0,05

On dira donc la différence observée d est située dans l’intervalle d’acceptation, donc elle n’est
pas significative.

Par conséquent les observations dont on dispose ne permettent pas d’affirmer que le taux
d’utilisation du matériel a diminué en février.

La diminution n’est donc due qu’aux fluctuations d’échantillonnage (c-à-d 0,8→0,75)

2- Comparaison de deux moyennes:

Soient deux populations P₁ et P₂. On prélève deux échantillons n₁ dans P₁ et n₂ dans P₂

Soient 𝑋̅1 et 𝑋̅2 les moyennes de la variable statistique X relatives à chaque échantillon sur la
base de ces observations on se propose de tester si la variable X a ou non la même moyenne
dans les deux populations; on va désigner par : m₁ , σ₁ et m₂ , σ₂ la moyenne et l’écart type de
X dans les populations P₁ et P₂.

1-Hypothèses à tester

Supposition

H₀ : m- m₀=0

H₁ : m- m₀≠ 0

2-si la variable statistique x est distribuée dans chaque population selon une loi normale alors
les moyennes 𝑋̅1 et 𝑋̅2 suivent elles-mêmes une loi normale.

Si l’hypothèse d’une distribution normale dans les populations d’origine n’apparait pas
justifiée ; il suffit alors que n1 et n2 soient suffisamment grand pour que 𝑋̅1et 𝑋̅2 soient
approximativement normales. Sous ces conditions et on suppose que les tirages d’échantillons
puissent être assimilés à des tirages indépendants.

Alors 𝑋̅1 suit une loi normale de même que 𝑋̅2 donc on peut écrire :

𝜎 2 𝜎 2
𝑋̅1 → N(m1 ;√ 1 ) et 𝑋̅2 → N(m2 ;√ 2 )
𝑛1 𝑛2

La différence d=𝑋̅1- 𝑋̅2 suit aussi une loi normale de paramètre

𝜎2
1+𝜎2
d=𝑋̅1- 𝑋̅2 →N(m1 -m2 ; √ 2
)
𝑛1+𝑛2

supposons que l’hypothèse H0 soit fondée donc la distribution de probabilité de la différence


𝜎2
1+𝜎2
est une loi normale de paramètre d=𝑋̅1 - 𝑋̅2 →N(0 ; √ 2
)
𝑛1+𝑛2

Premier cas : 𝜎1 et 𝜎2 sont connus

Etant donné le seuil de signification α la région d’acceptation sera définie par :

𝜎2 𝜎2
1+𝜎2 1+𝜎2
- tα/2 √ 2
< 𝑑 <+ tα/2 √ 2
𝑛1+𝑛2 𝑛1+𝑛2

→En fonction de la probabilité posé $, on choisit les hypothèses H₀ et H₁ et on teste H₀ ou H₁


et à chaque cas de figure correspond une région d’acceptation et une région critique.

Tout le problème est dans le calcul de la probabilité : P( l₁ < 𝑥̅ < l₂ ) = 1-α même déroulement
qu’en cas de fréquence on met 𝑥̅ au lieu de f .
𝜎 𝜎
m₀ - tα/2 < 𝑥̅ < m₀ + tα/2
√𝑛 √𝑛
𝜎 𝜎
l₁ = m₀ - 𝑡α/2 ; l₂ = m₀ + 𝑡α/2
√𝑛 √𝑛

m₀ = connue ; σ : supposé connu.

𝑡α/2 : Déterminé à partir de la table en calculant la probabilité P( T > 𝑡α/2) =α

Test: Après avoir calculé l₁ et l₂ on va prendre une décision. On a trois situations:

- Soit 𝑥̅ < l₁→ choisir H₁ c-à-d les données de départ ne sont pas fondées.

- 𝑥̅ > l₂ : choisir H₁ et rejeter les données de départ.

- l₁< 𝑥̅ <l₂: on est dans la zone d’acceptation→ on va choisir H₀ c-à-d retenir les donnée
de départ.

- σ inconnu

Généralement on ignore la vraie valeur de σ, on remplace σ par son estimateur s’ déduite


des observations avec:
1
- s’²= ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1

- s’²: estimateur sans biais de σ² sur la population toute entière.

- n: taille de l’échantillon ;

- 𝑥̅ : moyenne calculée sur l’échantillon.

Si n est grand (n>30) alors s’² est une estimation suffisamment précise de σ² pour que la variable
centrée réduite, T soit distribuée Normalement avec:
𝑥̅ −𝑚0 𝑥̅ −𝑚0
T= , on remplace 𝜎 par𝑆′, alors T=
𝜎/√𝑛 𝑆′/√𝑛

Remarque

Si n< 30 alors T ne peut plus être assimilée à VNCR on utilise alors une loi de Student-Fisher
à (n-1) degré de liberté.

Bref: Tout ce qu’on fait repose sur deux hypothèses:

1- En présence d’une VNCR c-à-d n>30 → hypothèse explicite.

2- Hypothèse implicite: H₀:vraie → m = m₀

H₁: m ≠ m₀ s’il existe une différence elle n’est pas due aux erreurs
d’échantillonnage, mais elle est réelle plutôt.

Si on imagine H₃; H₄;….Hn . En cas que H₀ n’est pas fondée, on la rejette et on se trouve
devant une indétermination.
Exemple:

Une machine fabrique des pièces mécanique en séries, elle a été réglée pour que le diamètre de
chaque pièce soit égal à 12,6 mm, sur un échantillon de 100 pièces on a observé une valeur
moyenne égale 12,65 mm et on a observée 𝑆 2 variance de l’échantillon, 𝑆 2 =0,1584

Problème: le réglage de la machine peut-il être encore considéré comme correct?

On se propose de tester deux hypothèses: H₀: m = m₀ H₁: m ≠ m₀

H₀: m = 12,6 H₁: m ≠ 12,6

On a n =100 > 30, alors on va appliquer la loi Normale. L’écart type de la population est inconnu
on l’estime par s’.

𝑛 100
Avec s’= √ 𝑆 2 =√ 0,1584 = 0,4
𝑛−1 100−1

Alors
𝑥̅ −𝑚0 𝑥̅ −𝑚0 12,65−12
T= = = = 0,0125
𝑆′/√𝑛 𝑆′/√𝑛 0,4/√100

On suppose que : α = 5%

Donc la région d’acceptation :

[-1,96 ; 1,96]

Alors, la décision :

0,0125 𝜖 [-1,96 ; 1,96] ⇒ On accepte H₀ au risque de 5%

Conclusion : Le réglage de la machine est correct.

Vous aimerez peut-être aussi