Académique Documents
Professionnel Documents
Culture Documents
Un sondage est une enquête portant sur une fraction représentative de la population étudiée,
cette population étudiée est appelée population de référence. La fraction est appelée échantillon.
Aux enquêtes par sondage sont attachés des avantages de coût de rapidités et de souplesse
Concernant les enquêtes par sondage on a des observations qui touchent un nombre d’unités
statistique relativement faible et ensuite on procède à la généralisation des résultats obtenus.
a-Coût et rapidité
Avec l’intervention d’un enquêteur de métier, le prix de revient d’une enquête par sondage est
relativement faible.
Dans les années 80 on estimait en France le coût d’une enquête entre 30 et 80.
Les définitions et les procédures sont susceptibles d’évolution d’où une difficulté
d’interprétation des résultats.
La pratique des sondages entraîne une facilité de manipulation car l’enquête peut être
reproduite fréquemment.
a-L’erreur de l’échantillonnage
La base des enquêtes par sondage est donnée par la loi des grands nombres.
En règle générale on a deux types de sondage: sondage par choix raisonné et sondage aléatoire.
C’est une construction à partir d’information sur la population étudiée d’un échantillon qui
ressemble autant que possible à cette population.
b-Sondages aléatoires:
C’est une méthode qui appartient aux méthodes par choix raisonné.
Si cette hypothèse est justifiée alors un échantillon choisi de façon à présenter une distribution
statistique de certains caractères aura de très grande chance d’être proche de la population de
référence en ce qui concerne la distribution des autres caractères.
Exemple:
On suppose que la population N est égale à 346400, le taux de sondage est t =n/N =1/300. On
suppose qu’on a la répartition suivante:
Sexe n α% Age α%
Pour être retenu comme variable de contrôle, un caractère statistique doit remplir trois
conditions:
2ème condition: avoir une distribution statistique connue pour l’ensemble de la population;
Dans un premier temps, on désigne l’échantillon généralement, le domaine d’étude n’est pas
une seule localité mais une région ou une zone qui comporte plusieurs localités on procède à
un sondage à plusieurs degrés.
Dans ces unités primaires, on désigne un 2 ème degré en fonction de la nature de l’enquête.
Organisation de l’enquêteur:
L’organisation est fonction de la structure du réseau d’enquêteur, on distingue deux types
d’enquêteurs:
Soit un réseau permanent d’enquêteurs, soit l’utilisation d’équipe d’enquêteurs itinérants (qui
se placent).
Dans une enquête par sondage aléatoire les enquêteurs travaillent sur des listes d’adresses ou
de personnes.
Il est difficile de contrôler les enquêteurs concernant les enquêtes par quotas dans la mesure où
il n’y a pas de listes prédéterminées
Il est bon d’imposer à ces enquêteurs quelques conditions supplémentaires en dehors du respect
des quotas:
1ère condition: interdiction de sélectionner les personnes à interroger sur des listes;
Pour limiter l’initiative de l’enquêteur dans le choix des personnes à interroger est la méthode
de Politz. Elle consiste à imposer à chaque enquêteur un itinéraire (trajet) strictement fixé en
lui indiquant les points d’enquête.
a- Avantages
-Cette méthode a des coûts peu élevés lorsque le choix des individus est laissé à la discrétion
de l’enquêteur.
b-Inconvénient de la méthode
-La méthode des quotas n’a pas de fondement théorique suffisante cette méthode repose sur une
hypothèse selon laquelle une distribution correcte des caractères contrôlés assure la
représentativité de la distribution des caractères étudiés.
-La méthode des quotas ne permet pas de calculer la précision des estimations obtenues à partir
de l’échantillon et donc on ne peut pas appliquer le calcul de probabilité qui dans le cas des
sondages aléatoires permet d’associer à chaque estimation une mesure de l’erreur susceptible
d’avoir été commise : on ne peut pas appliquer le « test de fiabilité »
-La méthode des quotas est une méthode empirique qui bien que dénué de fondement théorique
satisfaisant peut rendre service appréciables.
Le gros reproche à cette méthode est qu’il n’y a pas de mesure de l’approximation est donc de
l’erreur commise.
Définition
Cette méthode est applicable lorsque l’échantillon est désigné de façon à ce que chaque unité
de la population ait une probabilité connue différente de 0 d’être retenue.
On peut assimiler le passage de la population à l’échantillon au tirage des boules dans une urne.
Il y a deux manières de procéder au tirage:
Soit X une variable statistique quelconque dont l’espérance mathématique E(X)=m et l’écart
P|x-m|≤tσ
On suppose que
𝜎 2 =∑ 𝑝𝑖 (𝑋𝑖 − m)2
∀s : ( |𝑋 − 𝑚 |)≤t𝜎
∑ps=1-P;
P(|x-m|) ≤σt
Pour une variable aléatoire d’espérance mathématique m et de variance σ², on peut évaluer la
probabilité pour que x appartienne à l’intervalle [m-tσ,m+tσ], pour cela il convient de choisir t
assez grand pour que l’inégalité tende vers 1.
Exemple:
Une certaine variété de fleur a une probabilité de ¼ de fleurir blanche et une probabilité de ¾
de fleurir rouge.
Problème : combien faut-il observer de fleurs de cette espèce pour que la fréquence du nombre
de fleur blanche ne s’écarte pas de plus de 5% de la fréquence observée. On admet une erreur
est égale à 1%.
Solution: P[p(|x-m|)≤tσ]≥1-1/t²;
E(x)=p=0,25;
σ² =pq/n=(0,25x0,75)/n;
P[p(|x-m|)≤tσ]≥(1-1/t²)=0,99
On a 1-1/t²=0,99
Alors t=10
P(|x-m|)≤10σ≥0,99
Et 10σ=0,05 ⇒ σ =0,005
Donc n= 7500
Si l’on observe plus de 7500 fleurs, il y a une probabilité supérieure à 0,99 pour que la fréquence
du nombre de fleurs blanches soit comprise dans l’intervalle [0,20 , 0,30]
Hypothèse
1- Soit le tirage d’un échantillon d’effectif n dans une population comprenant deux types
d’individus. Des individus de type A de proportion p et des individus de type B de
proportion q=1-p.
2- Le tirage se fait avec remise
𝑝𝑞 1
P( |𝑓𝑛 − 𝑝| )≤t√ ≥ 1- (2)
𝑛 𝑡2
𝑝𝑞
1 -On peut choisir t assez grand pour que la probabilité de 𝑓𝑛 se trouve dans l’intervalle p±√
𝑛
soit proche de 1
𝑝𝑞
P( |𝑓𝑛 − 𝑝| )≤t√ = 1⇒ 𝑓𝑛 = p
𝑛
A ---- p=0,4
B ---- p=0,6
𝑝𝑞 1
Si on rapproche l’inégalité de (1) à P( |𝑓𝑛 − 𝑝| ≤ t√ ) ≥ 1-
𝑛 𝑡2
𝑝𝑞 𝑝𝑞 0,4∗0,6
t√ = 0,01⇒ 10√ = 0,01⇒ 10 √ = 0,01
𝑛 𝑛 𝑛
⇒ n = 240 000
La loi des grands nombres, nous enseigne qu’il suffit de tirer un échantillon d’un effectif
suffisant dans une population de composition donnée pour que la fréquence 𝑓𝑛 des individus de
type A soit presque voisine de la probabilité p.
On dit que la fréquence observée d’un événement converge en probabilité vers la probabilité de
cet événement lorsque n augmente indéfiniment (n→∞)
𝑋1+ 𝑋2+......+𝑋𝑛
Alors la moyenne 𝑋̅ = (𝑋̅ variable aléatoire)
𝑛
𝜎
E(𝑋̅)=m et 𝜎𝑋̅ =
√𝑛
En général
1
P( |𝑋 − 𝐸(𝑋)|)≤t𝜎 ≥ 1-
𝑡2
Il suffit de tirer un échantillon de taille suffisamment grande pour que la moyenne de la variable
observée soit très proche de son espérance mathématique c-à-d de la véritable moyenne de la
population.
Remarque
La loi des grands nombres a des conditions d’applications très générale, en effet, elle ne fait pas
intervenir la loi de probabilité de la variable étudiée, en contrepartie la loi des grands nombres
repose sur l’inégalité de BT. c-à-d sur des majorations importantes et donc conduit à des
effectifs d’échantillon beaucoup plus élevé qu’il n’est en réalité nécessaire pour obtenir la
précision recherchée.
Exemple:
P( |𝑓𝑛 − 𝑝| ≤ 0,01)=0,99
A p=0,4
B p=0,6
Cette loi Binomiale peut être approximée par la loi Normale: N(m,σ) (car n est grand)
Alors :
𝑛𝑝 𝑝𝑞
m= =p et σ = √
𝑝 𝑛
Grâce à un changement d’origine et d’échelle, on travaille avec la loi Normale Centrée Réduite
(NCR), N(0,1).
On sait que :
On va déterminer la valeur de la variable Normale Centrée Réduite telle que 99/100 chance
𝑝𝑞
pour que fn se trouve dans l’intervalle p+ou-t √
𝑛
𝑝𝑞 𝑝𝑞
P{p- t √ ≤fn≤p+ t √ }≥0.99
𝑛 𝑛
Section I: L’estimation
L’estimation d’une caractéristique de la population de référence à partir d’un échantillon
aléatoire. À ce niveau deux problèmes se posent:
1-Les estimateurs
A- Le concept d’estimateur
Définition
Soient𝑋1 , 𝑋2 ,.... . . , 𝑋𝑛 les valeurs de la variable X pour les individus de la population et soit
𝜃(𝑋1 , 𝑋2 ,.... . . , 𝑋𝑛 ) une fonction des valeurs𝑋𝑖 .
2-La variance de 𝜃 (V(𝜃) tend vers 0 quand n est suffisamment grand (n→∞)
C-à-d:
E(𝜃) = ∅
Si ces deux conditions sont satisfaites, on dit que 𝜃 est un estimateur convergent de ∅.
1- L’absence de biais;
2- Faible dispersion.
1- L’absence de biais
On dit que Ѳ est sans biais (sans distorsion) si l’espérance mathématique de Ѳ est égal φ;
E(Ѳ)= φ.
Dans ces conditions le biais est la différence qui existe entre l’espérance de Ѳ et φ c-à-d:
B(Ѳ)= E(Ѳ)-φ.
Remarque
Malgré les inconvénients du biais, il peut être avantageux d’utiliser un estimateur légèrement
biaisé si sa dispersion est plus faible par rapport à un estimateur non biaisé.
V(Ѳ)=E{(Ѳ-E(Ѳ)²}
E{((Ѳ-E(Ѳ))²+(E(Ѳ)-φ)²}
E{((Ѳ-E(Ѳ))²+(E(Ѳ)-φ)²}=E(Ѳ²)+φ²-2φE(Ѳ),
E{(Ѳ-E(Ѳ)²}=σ²(Ѳ)+B²(Ѳ)
On dit que l’erreur totale est égale à l’erreur aléatoire plus le carré du biais.
On choisira un estimateur lorsque son erreur totale est la plus réduite possible
Les individus de l’échantillon seront identifiés par leur rang i dans le tirage : Ui avec i=1,2,…n
1- Population:
Considérons une variable X on désignera par Xs la valeur de la variable X pour l’individu Us.
m=1/N ∑Xs;
1
𝑆 2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛
𝑥𝑖 est une variable aléatoire qui peut prendre chacune des valeurs suivantes: 𝑥1 , 𝑥2, ..., 𝑥𝑛 avec
la probabilité 1/N.
Partons de là:
1
E(𝑥̅ )= E(∑𝑛𝑖=1 𝑥𝑖 )
𝑛
1
E(𝑥̅ )= ∑𝑛𝑖=1 E(𝑥𝑖 )
𝑛
On suppose que:
L’espérance mathématique est une moyenne de variable aléatoire suivant une loi de probabilité
quelconque d’espérance mathématique m. cette somme de variable aléatoire est elle-même une
variable aléatoire d’espérance mathématique m.
1
E(𝑥̅ )= ∑𝑛𝑖=1 E(𝑥𝑖 )
𝑛
1
E(𝑥̅ )= (∑𝑛𝑖=1 𝑚)
𝑛
1
E(𝑥̅ )= (n.m)
𝑛
E(𝑥̅ ) = m
-Variance de la moyenne de l’échantillon V(𝑥̅ )
Par définition:
1
V(𝑥̅ )= V( ∑𝑛𝑖=1 𝑥𝑖 )
𝑛
1
V(𝑥̅ )= V( ∑𝑛𝑖=1 𝑥𝑖 )
𝑛2
1
V(𝑥̅ )= (∑𝑛𝑖=1 𝑉(𝑥𝑖 ))
𝑛2
1
V(𝑥̅ )= (∑𝑛𝑖=1 𝜎 2 )
𝑛2
1
V(𝑥̅ )= n𝜎 2
𝑛2
𝝈𝟐
̅)=
V(𝒙 𝐧
2-Tirage sans remise ou tirage exhaustif
À chaque individu Us on associe la variable de Bernoulli εs, on donne la valeur 1 à cette variable
si Us fait partie de l’échantillon et la valeur 0 dans le cas contraire.
1 Ps n/N
Usϵ/E 0 1- Ps 1-n/N
Tapez une équation ici.
Ps=P(εs=1)=n/N;
∑𝑁
𝑠=1 𝜀𝑠 = n (avec n l’effectif de l’échantillon)
Par conséquent
E(n)=n= ∑𝑁 𝑁
𝑠=1 E(𝜀𝑠 )=∑𝑠=1 𝑃𝑠
E(n)= N𝑃𝑠
E(𝜀𝑠 )=Ps
Alors:
𝑛
𝑃𝑠 =
𝑁
Les 𝑋𝑠 sont des nombres certains c’est une valeur de X pour l’individu S
𝑋𝑠 est connu
Les 𝜀𝑠 sont des variables aléatoires dont nous venons d’établir des lois de probabilité.
1
On peut écrire E(𝑥̅ )= ((∑𝑛𝑖=1 𝑋𝑠 𝐸(𝜀𝑠 ) )
𝑛
𝑛
E(𝜀𝑠 )=1.Ps+0+(1-Ps)=Ps=
𝑁
1 𝑛
E(𝑥̅ )= . (∑𝑛𝑆=1 𝑋𝑠 )
𝑛 𝑁
1
E(𝑥̅ )= (∑𝑛𝑆=1 𝑋𝑠 )
𝑁
On peut écrire :
1
𝑥̅ = ∑𝑛𝑆=1 𝑋𝑠 𝜀𝑠
𝑛
1
𝑥̅ − m = ∑𝑛𝑆=1(𝑋𝑠 −𝑚)𝜀𝑠
𝑛
1 1
(𝑥̅ − 𝑚)2= ∑𝑛𝑆=1(𝑋𝑠 − 𝑚)2 𝜀𝑠 2 + ∑𝑁 𝑛
𝑆=1 ∑𝑆′=1(𝑋𝑠 − 𝑚)( 𝑋𝑠′ − 𝑚) 𝜀𝑠 𝜀𝑠′ (𝑆 ≠ 𝑆′)
𝑛2 𝑛2
Exemple :
On obtient :
𝒚𝟏 − 𝒎 𝒚𝟐 − 𝒎
𝒚𝟏 − 𝒎 2
(𝑦1 − 𝑚) (𝑦2 − 𝑚)
(𝑦1 − 𝑚)
𝒚𝟐 − 𝒎 (𝑦1 − 𝑚) (𝑦2 − 𝑚) 2
(𝑦2 − 𝑚)
Si on fait: (𝑦1 − 𝑚)2+(𝑦2 − 𝑚)2+2(𝑦1 − 𝑚) (𝑦2 − 𝑚)
𝜺𝒔 1 0
probabilité Ps 1 - Ps
𝑛
Ps = (Probabilité pour que l’individu appartient à l’échantillon)
𝑁
𝑛
1 - Ps = 1 -
𝑁
Donc :
2 2 2
𝜺𝒔 1 0
probabilité Ps 1 - Ps
𝑛
E(𝜀𝑠 2) =
𝑁
Le produit 𝜀𝑠 𝜀𝑠′ = 1 lorsque les unités 𝑈𝑠 𝑈𝑠′ appartient toutes les deux à l’échantillon.
On sait que Ps/s’ : probabilité de réalisation de s’.Si l’individu s est réalisé, l’individu s’ fasse
partie à l’échantillon sachant s.
𝑃𝑠𝑠′
Ps’/s = ⇒ Pss’= Ps’/s. Ps
𝑃𝑠
𝑛
Ps =
𝑁
𝑛−1
Ps’/s =
𝑁−1
𝑛 𝑛−1
Pss’= .
𝑁 𝑁−1
𝜺𝒔 𝜺𝒔′ Probabilité
1 𝑛 𝑛−1
.
𝑁 𝑁−1
𝑛 𝑛−1
0 1–( . )
𝑁 𝑁−1
𝑛 𝑛−1
𝐸(𝜀𝑠 𝜀𝑠′ ) = .
𝑁 𝑁−1
1 1
V(𝑥̅ )= ∑𝑛𝑆=1(𝑋𝑠 − 𝑚)2 E(𝜀𝑠 )2+ ∑𝑁 𝑁
𝑆=1 ∑𝑆′=1(𝑋𝑆 − 𝑚) (𝑋𝑆′ − 𝑚) E(𝜀𝑠 𝜀𝑠′ ) (S≠S’)
𝑛2 𝑛2
1 𝑛 1 𝑛 𝑛−1
V(𝑥̅ )= ∑𝑛𝑆=1(𝑋𝑠 − 𝑚)2 . + ∑𝑁 𝑁
𝑆=1 ∑𝑆′=1(𝑋𝑆′ − 𝑚). . (𝑋𝑆 − 𝑚)
𝑛2 𝑁 𝑛2 𝑁 𝑁−1
1 1 1 1 𝑛−1
V(𝑥̅ )= ∑𝑛𝑆=1(𝑋𝑠 − 𝑚)2 . + ∑𝑁 𝑁
𝑆=1 ∑𝑆′=1(𝑋𝑆′ − 𝑚). . (𝑋𝑆 − 𝑚)
𝑛 𝑁 𝑛 𝑁 𝑁−1
1 1 1 1 𝑛−1
V(𝑥̅ )= . ∑𝑛𝑆=1(𝑋𝑠 − 𝑚)2. + . ∑𝑁 𝑁
𝑆=1 ∑𝑆′=1(𝑋𝑆′ − 𝑚). (𝑋𝑆 − 𝑚)
𝑛 𝑁 𝑁 𝑛 𝑁−1
Si on met en facteur
1 𝑛−1 1
. .
𝑛 𝑁−1 𝑁
1 𝑛−1 1 1 𝑛−1 1
V(𝑥̅ )= . . ∑𝑛𝑆=1(𝑋𝑠 − 𝑚)2+∑𝑁 𝑁
𝑆=1 ∑𝑆′=1(𝑋𝑆′ − 𝑚). (𝑋𝑆 − 𝑚)+ (1- ) ∑𝑛𝑆=1(𝑋𝑠 −
𝑛 𝑁−1 𝑁 𝑛 𝑁−1 𝑁
𝑚)2
∑𝑁
𝑆=1(𝑋𝑆 − 𝑚)=0 (par construction, car 𝑋𝑆 est centré sur 𝑚)
Or ∑𝑛𝑖=1 𝑓𝑖 = 1
D’où : ∑𝑁 𝑛 2
𝑆=1(𝑋𝑆 − 𝑚) = 0 ⇒ ∑𝑆=1(𝑋𝑠 − 𝑚) = 0 (les variables 𝑋𝑠 sont centrées sur la moyenne
m)
Donc :
1 𝑛−1 1
V(𝑥̅ )= . (1 − ) ∑𝑁
𝑆=1 (𝑋𝑠 − 𝑚)2
𝑛 𝑁−1 𝑛
1
On sait que: ∑𝑁
𝑆=1(𝑋𝑠 − 𝑚) = 𝜎
2 2
𝑛
𝝈𝟐 𝑵−𝒏
̅) =
V(𝒙 (tirage sans remise)
𝒏 𝑵−𝟏
Résumé:
E(𝑥̅ )= m
2- La variance de 𝑥̅ est égale dans le cas d’un échantillon indépendant:
𝜎2
V(𝑥̅ ) = tirage avec remise
𝑛
Dans le cas d’un échantillon tiré sana remise:
𝜎2 𝑁−𝑛
V(𝑥̅ ) =
𝑛 𝑁−1
Un bon estimateur ne doit avoir de biais;
Le coefficient (N-n/N-1) qui réduit dans le cas d’un tirage exhaustif, la variance de l’estimateur
en fonction de l’effectif de l’échantillon est appelé coefficient d’exhaustivité.
C’est-à-dire si j’ai un choix au niveau du tirage, il est préférable de faire un tirage sans remise
car:
E(𝑥̅ )= m
𝜎2 𝑁−𝑛 𝜎2
V(𝑥̅ ) = 𝑛 𝑁−1
≤ 𝑛
Il résulte de ce qui procède que la moyenne 𝑥̅ sur l’échantillon est, quelque soit le mode de
tirage, un estimateur sans biais de la moyenne de la population.
La variance de cet estimateur est différente en fonction de la nature du tirage (avec ou sans
remise).
Le coefficient d’exhaustivité (N-n/N-1) ≤1; à taille égale, la moyenne d’un échantillon exhaustif
est un estimateur plus efficace de la moyenne d’une population que celle d’un échantillon
indépendant.
Exemple:
N-1=9 et N-n=10-2=8;
𝜎2 𝑛
V(𝑥̅ ) = (1 − )
𝑛 𝑁
𝜎2 8
V(𝑥̅ ) =
2 9
4 𝜎2
V(𝑥̅ ) =
9
𝜎2 8
V(𝑥̅ ) =
2 10
4 𝜎2
V(𝑥̅ ) =
10
Quand l’effectif n de l’échantillon est faible par rapport à l’effectif de la population N, alors le
coefficient d’exhaustivité vers 1
𝑁−𝑛
N↑, n↓,N>>n ⇒ →1
𝑁−1
𝑁−𝑛 𝑛
Ou bien N →∞, n↓⇒ →1− →1
𝑁−1 𝑁
𝜎 2 𝑁−𝑛 𝜎2 𝑛 𝜎2
V(𝑥̅ ) = ≈ (1 − ) →
𝑛 𝑁−1 𝑛 𝑁 𝑛
Conclusion:
1- Lorsque le taux de sondage t=n/N est faible, les deux modes de tirage de l’échantillon sont à
peu près équivalents et la précision des estimations ne dépend que de l’effectif de l’échantillon
et non du taux de sondage.
2- Les deux modalités de tirages aboutissent à la même variance σ²/n avec N grand et n petit
par rapport à N c-à-d cela dépend du nombre des éléments de l’échantillon (c-à-d (n/N) faible).
En effet:
1
𝐸(𝑆 2 )=E( ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2)
𝑛
1
𝐸(𝑆 2 )= E( ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ) (1)
𝑛
𝜎 2 = 𝑓𝑖 ∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑥𝑖 − 𝑥̅ =( 𝑥𝑖 − 𝑚) −( 𝑥̅ − 𝑚)
Population VAεs
Individu S----Xs P(εs)
E(x)=m 1
2
V(x)= 𝜎 V(x)=S²
On vu que:
C-à-d
E(𝑥̅ ) = m
𝜎2
V(𝑥̅ ) = (tirage avec remise)
𝑛
𝜎 2 𝑁−𝑛
V(𝑥̅ ) = (tirage sans remise)
𝑛 𝑁−1
Or on a:
V(x)=𝜎 2
𝜎2
V(𝑥̅ ) =
𝑛
𝜎2 𝑛−1
D’où 𝐸(𝑆 2 )=𝜎 2 - = 𝜎 2( )
𝑛 𝑛
Conclusion: on dira que l’échantillon sans biais de la variance de la population n’est pas S²
mais S’² avec S’²=n/(n-1)S²
Or :
1 𝑛 1
𝑆 2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ⇒ 𝑆′2 = ∑𝑛𝑖=1 (𝑥𝑖 − 𝑥̅ )2
𝑛 𝑛−1 𝑛
1
𝑆′2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1
Cela veut dire, que lorsqu’on a une population qui est tirée avec remise, on calcule la moyenne
sur la population et elle est identique à la moyenne de l’échantillon. Par contre si on calcule la
variance de l’échantillon on trouve qu’elle est biaisée c-à-d qu’il existe une distorsion qu’il
faudra éliminer pour ce faire on a multiplier par n/(n-1).
Le biais est dû au fait que les écarts sont calculés par rapport à la moyenne de l’échantillon et
non pas par rapport à celle de la population
On dira que l’estimateur de la variance de 𝑥̅ est, en remplaçant 𝜎 2 par son estimation d’après
l’échantillon: V*(𝑥̅ ) avec:
𝑆′2
V*(𝑥̅ )=
𝑛
Car on a vu que :
𝜎2
V (𝑥̅ )=
𝑛
Et que 𝑆′2 estime bien 𝜎 2 , donc en remplaçant 𝜎 2 par 𝑆′2 ,car 𝜎 2 est inconnue
𝑆′2
𝑆′2
V (𝑥̅ )=
𝑛
notée V*(𝑥̅ )= 𝑛
2-Cas d’échantillon exhaustif (tirage sans remise)
𝜎 2 𝑁−𝑛
V(𝑥̅ ) =
𝑛 𝑁−1
𝑁 𝑛−1
E(𝑆 2 )= 𝜎2
𝑛 𝑁−1
𝑛 𝑁−1
L’estimateur sans biais de la variance da la population n’est pas 𝑆 2 mais 𝑆2
𝑁 𝑛−1
On sait que:
1 1 𝑁−1
𝑆 2 = . ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ⇒ ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 (1)
𝑛 𝑁 𝑛−1
Ainsi :
1
𝑆′2 = . ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1
On va pouvoir écrire :
𝑁−1 1
(1) ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑁 𝑛−1
𝑁−1
(1) 𝑆 2 (estimateur sans biais de la variance de la population)
𝑁
𝑁−𝑛 𝑆′2
V*(𝑥̅ ) =
𝑁 𝑛
Résumé
𝑆′2
V*(𝑥̅ ) = (TAR)
𝑛
𝑁−𝑛 𝑆′2
V*(𝑥̅ ) = (TSR)
𝑁 𝑛
Où 𝑆′2 désigne l’estimateur sans biais de la variance de la population à partir d’un échantillon
1
Avec: 𝑆′2 = . ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1
NB:
𝑆′2 ≃ 𝑆 2
Résumé :
a-E(Ѳ)=Ѳ
b-V(Ѳ)=E{(Ѳ-E(Ѳ)²}
𝑐𝑎𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒
Probabilité = (distribution statistique aléatoire)
𝑐𝑎𝑠 𝑝𝑜𝑠𝑠𝑖𝑏𝑙𝑒
𝑥𝑖
Fréquence 𝑓𝑖 = (distribution discrète)
𝑛
Population Echantillon
Indices : S:1,2, . . . ,N i=1,2, . . . ,n
1 2
𝜎 2 = ∑𝑁
𝑠=1(𝑥𝑠 − 𝑚)
2 1
𝑆 2 = . ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )
𝑁 𝑛
Echantillon indépendant:
E(𝑥̅ )= m
𝜎2
V(𝑥̅ ) =
𝑛
Echantillon exhaustif:
E(𝑥̅ )= m
𝜎 2 𝑁−𝑛
V(𝑥̅ ) =
𝑛 𝑁−1
En cas d’existence de deux estimateurs biaisés (le même peut être), on choisit celui qui a la
dispersion la plus faible.
La proportion p peut être considérée comme la moyenne d’une variable de Bernoulli, prenant
la valeur 1 pour les individus A et la valeur 0 pour les individus B.
Boule blanche 1 P
Boule rouge 0 q= 1 - p
La définition d’une variable est complètement subjective (selon l’objectif que l’on veut)
m= ∑𝑛𝑖=1 𝑓𝑖 𝑥𝑖 =∑𝑛𝑖=1 𝑝𝑖 𝑥𝑖
m=(p*1)+(q*0)
𝜎 2 = pq
On a vu 𝑥̅ = 𝑝 (moyenne)
𝜎 2 =∑𝑛𝑖=1 𝑝𝑖 (𝑝𝑖 − 𝑥̅ )2
𝜎 2 =𝑝 (1 − 𝑝)2 +𝑞 (0 − 𝑝)2
𝜎 2 =𝑝𝑞 2 +𝑞𝑝2
𝜎 2 = 𝑝𝑞 + (𝑝 + 𝑞)
𝜎 2 = 𝑝𝑞 (𝑝1 = 𝑝, 𝑝2 = 𝑞, 𝑥1 =1 et 𝑥2=0)
𝑝𝑞
V(f)= (TAR)
𝑛
𝑁−𝑛 𝑝𝑞
V(f)= 𝑁−1 (TSR)
𝑛
Avec f l’expression d’une proportion
On dira que pq la variance de la variable dans la population sera donc estimé par :
S’²=(n/n-1)*S² .
Avec S²: variance de l’échantillon
Donc : S²= pq
S’²=(n/n-1)pq
En résumé, on choisira f : la fréquence observée sur l’échantillon comme estimateur de p .
et S’²=(n/n-1)pq
Donc:
V*(f)= (N-n/N)(pq/n-1)
4-Estimateur d’une somme
Par définition la moyenne m est : m=(1/N) ∑𝑁
𝑠=1 𝑥𝑠
On prendra comme estimateur de S la quantité N𝑥̅ (puisque m est inconnu et 𝑥̅ l’estime bien )
Exemple:
Si je veux estimer la masse salariale distribuée, il suffit de multiplier le nombre de salariés par
la moyenne de salariés.
Pour estimer la variance de cette somme, au lieu de travailler sur V(𝑥̅ ) on travaille
Sur V(N𝑥̅ ) qui est malheureusement biaisé. C’est pour cela qu’on choisit de travailler sur
V*(N𝑥̅ ) qui, elle, est sans biais.
P=80% q=20%
𝑁: 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 𝑡𝑜𝑡𝑎𝑙𝑒
{
𝑓: 𝑝𝑟𝑜𝑝𝑜𝑟𝑡𝑖𝑜𝑛
V*(Nf)=N²V*(f)
Où v*(f) est la variance sans biais d’une estimation sur un effectif
Et soit 𝜶 une erreur qui est une probabilité c-à-d on accepte une probabilité d’erreur égale à 𝜶
1- 𝜶 : pourcentage de fiabilité
Il convient de déterminer un intervalle autour de φ tel que la grandeur observée sur l’échantillon
c’est-à-dire θ ait une probabilité 1- 𝜶 d’appartenir à cet intervalle
-h1 et h2sont des distances qu’on exprime par des chiffres ( on suppose connues)
1-φ-h1≤ 𝜃 → φ ≤ 𝜃 + ℎ1
2- 𝜃 ≤ 𝜑 + ℎ2 ⇒ 𝜃 − ℎ2 ≤ 𝜑
⇒p(𝜃 − ℎ2 ≤ φ ≤ 𝜃 + ℎ1)= 1 − 𝜶
Cet intervalle est appelé intervalle de confiance de l’estimation φ au seuil de probabilité 1 − 𝜶
Remarque
Un estimateur est d’autant plus efficace que pour un seuil de probabilité (1-𝜶) donné, il conduit
à un intervalle de confiance plus petit.
On ne peut parler d’intervalle de confiance que si on a une probabilité d’erreur et donc un degré
de fiabilité.
La moyenne 𝑥̅ d’un échantillon provenant d’une population normale est elle-même distribuée
de façon normale (Susceptible d’être approximée de façon normale).
NB
𝝈
𝝈𝒙̅ = tirage avec remise
√𝒏
𝝈 𝑵−𝒏
𝝈𝒙̅ = 𝒏
*√𝑵−𝟏 tirage sans remise
√
𝑵−𝒏
Quand l’effectif de l’échantillon est important le coefficient d’exhaustivité
𝑵−𝟏
peut-
𝝈 𝒏
être approximé par 𝝈𝒙̅ = *√𝟏 − 𝑵
√𝒏
Généralement l’écart type de la population est inconnu au même titre que m:la moyenne de la
population.
On utilise alors comme estimateur de l’écart type S’ déduite des observations sur
1
l’échantillon:𝑆′2 = . ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1
Quand l’effectif de l’échantillon est élevé, l’estimation de 𝑆′2 est ≃ peut différent de la valeur
1
de l’écart type calculé sur l’échantillon: c-à-d 𝑆′2 → 𝑆 2 avec 𝑆 2 = . ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1
𝑆′ 𝑆
Dans ces conditions l’estimateur de 𝜎𝑥̅ = ≃ (𝑇𝐴𝑅 )
√𝑛 √𝑛
𝑆′ 𝑛 𝑆 𝑛
de plus 𝜎𝑥̅ = √1 − 𝑁 ≃ √1 − 𝑁 (TSR)
√𝑛 √𝑛
𝑁−𝑛 𝑛
L’effectif est grand (n>30)⇒ 𝑆′2 ≃ 𝑆 2 ,quand les effectifs sont important, alors ≃1-
𝑁−1 𝑁
𝑆′2 est une estimation suffisamment précise de 𝜎 2 pour que la variable centrée réduite soit
distribuées normalement
Variable centrée réduite dans le calcul dans de laquelle 𝜎 est remplacé par S’
𝑥−𝑥0
Pour passer de x à x’ on fait un changement de variable: x→x’= avec 𝑥0 et a sont des
𝑎
constantes données.
𝑥̅ −𝑚
Pour passer de la normale à la loi normale centrée réduite on fait le changement suivant: T=
𝜎
𝑥̅ −𝑚
T= 𝑆′ 𝑛
(TSR)
√1−𝑁
√𝑛
Remarque:
𝑥̅ −𝑚
Si l’effectif n de l’échantillon est petit c-à-d inférieur à 30 unités alors la variable T= ne
𝜎
peut être plus assimilée à une variable Normale centrée réduite.
Dans certains cas la population suit une loi de Fisher, Student à (n-1) degré de liberté.
Résumé
On dira que dans le cas d’un grand échantillon c-à-d n>30 unités, la détermination de
l’intervalle de confiance relatif à l’estimation d’une moyenne ne présente pas de difficulté
majeure. En effet, quelque soit la distribution d’origine, la moyenne de l’échantillon suit une
loi Normale dont on peut estimer l’écart type à partir de l’échantillon.
Exemple:
On tire un échantillon exhaustif de 10 000 ménages dans une région comprenant 70 0000
ménages. Sur cet échantillon on observe pour un mois déterminé une consommation moyenne
de 950 dhs avec un écart type de 700dhs.
Le tirage s’effectue sans remise. Malgré cela, on peut en raisonner de la faiblesse du taux de
sondage assimilé cet échantillon à un échantillon indépendant, en effet le taux d’exhaustivité
tend vers 1.
𝑥̅ −𝑚
Cette estimation est suffisamment précise pour que la variable T= ait une distribution
𝜎𝑥
̅
normale centrée réduite.
En suite:
950-(2*7)≤m≤950+(2*7)
Soit 936≤m≤964
Il y a donc 95 chance sur cent (95%) pour que la vraie valeur de la consommation soit dans
l’intervalle [936;964]
Remarque importante:
1- on aurait pu se montrer plus exigent concernant le risque d’erreur sur la précision de
l’estimation et choisir un seuil de probabilité
1-α=99% (α=1%)
On lit dans la table de la loi normale centrée réduite T=2,58 donc l’intervalle sera:
931,94≤m≤968,06
Il y a 99 chance sur cent (99%) pour que la vraie valeur m se trouve dans l’intervalle
[931,94;968,06]
NB: cet intervalle est plus large que le précédent car on a voulu avoir moins de chance de
commettre une erreur.
En effet:
Si n=20 000 au lieu de 10 000 on aura 𝑆𝑥̅ = 4,94 et la valeur de T ne change pas, puisque elle
ne dépend pas de l’échantillon mais plutôt de α.
937,26≤m≤962,74
L’intervalle est devenu plus réduit que le précédent même si le seuil de probabilité est resté le
même α=1%.
Exemple:
Soit une enquête relative aux salaires mensuels d’individus dans une ville déterminée.
Données:
Somme 𝑋𝑖 =7500 et X est une variable aléatoire qui porte sur le salaire mensuel
Pb: Déterminer l’intervalle de confiance au seuil de probabilité de 95% relatif au salaire moyen
Solution:
(Le tirage est exhaustif)
Salaire =X
N=500
1500 : salaire moyen pour chaque individu dans l’échantillon (contenant 50 personnes).
Puisque n est grand 𝑋̅variable aléatoire suivre une loi normale de moyenne m et d’écart-type
𝜎𝑋̅
Le tirage étant sans remise. L’écart type de la population est inconnu, il sera estimé par S’:
S’²=(1/n-1) ∑(𝑋𝑖 − 𝑋̅)2 : c’est l’estimateur sans biais de la variance de la population donc
S’²=(1/49)*98000=2000
S’=√2000=44,7dhs
On estime l’écart- type 𝜎𝑋̅ de la distribution par 𝑆𝑋̅ qui provient de 𝑆 2 𝑋̅ = (S’2 /√n)*(N-n/N-
1)(TSR)
𝑆 2 𝑋̅ doit être estimée par (n/N)* (N-n/N-1) 𝑆 2 =V*(𝑋̅) en cas de tirage sans remise.
NB: On attire l’attention sur le fait que S et s sont les mêmes, seulement pour des questions de
commodité on écrit souvent S au lieu de s qui est l’estimation de l’écart type sur la population.
𝑆 2 𝑋̅ =(2000/50)(1-1/10)=36
Supposons que dans l’exemple précédent on désire estimer non pas le salaire moyen mais la
masse totale des salaires. On écrira que:
S= ∑𝑁
𝑆=1 Xs =N.m
On dira que la masse totale des salaires sera estimée par N𝑋̅ dont l’écart-type sera égal à N𝜎𝑋̅ :
écart-type estimé par N𝑆𝑋̅
C’est la même écriture que précédemment seulement on travaille avec N 𝑋̅ au lieu de 𝑋̅car on
est en présence d’un ensemble plus vaste qui est N ̅ X. Et avec NsX̅ au lieu de sX̅ car en cherche
la distribution au sein d’une somme qui est le total de la masse salariale.
Donc
D’où:
1500*500-(2*500*)6 ≤S ≤ 1500*500+(2*500*6)
Le total de la masse salarial distribué se trouve dans l’intervalle [744000;756000] avec une
erreur possible de 5%.
La loi des grands nombres nous enseigne qu’il suffit de tirer un échantillon d’un effectif
suffisant pour atteindre une précision donnée d’une estimation d’un paramètre d’une
population.
Le problème est de déterminer, étant donné un seuil de probabilité (1-α) fixé, l’effectif n de
l’échantillon pour obtenir une estimation avec la précision désirée.
(Quel doit être l’échantillon qui en faisant l’estimation des caractéristiques de la population
nous donnera plus de précision).
La moyenne 𝑋̅d’un grand échantillon peut être considérée comme ayant une distribution
normale d’espérance mathématique m et d’écart-type :
𝜎
si le tirage est avec remise;
√𝑛
𝜎 𝑁−𝑛
√ si le tirage est sans remise.
√𝑛 𝑁−1
𝜎
|𝑥̅ − 𝑚 | ≤ t
√𝑛
Pour que la précision de l’estimation soit au moins égale à k% de m, il faut choisir n tel que:
𝜎 𝑡 2𝜎 2
t ≤km c-à-d , il faut choisir n tel que n≥
√𝑛 𝑘 2𝑚2
𝜎 𝑡𝜎
Car t ≤km ⇒ ≤ √𝑛
√𝑛 𝑘𝑚
𝑡 2 𝜎2
⇒ ≤n
𝑘 2𝑚2
𝑡 2 𝜎2
Pour avoir la précision égalé à 1-∝, il faut que l’effectif n≥
𝑘 2 𝑚2
Remarques
1-Pour un seuil de probabilité et une précision donnée la taille de l’échantillon sera plus faible
pour une population peu dispersée que pour une population très dispersée.
Résolution:
Etape 1: on enquête sur un échantillon restreint pour évaluer les paramètres du coefficient de
variation ( et m) .
Exemple:
Soit une population donnée, on estime que le CV de la dépense consacré à un certain type de
produit égal à 4 unités
Déterminer la taille de l’échantillon pour être en mesure d’ apprécier à 10%=k près la valeur
de la dépense moyenne au seuil de probabilité
1- α =95%
𝜎
CV = =4 ; k= 10% ; 1 - α =0,95 => α=5%
𝑛
Pour ces valeurs et d’après la table de la loi Normale Centrée Réduite : on aura t=1,96 ≈ 2→
4
On peut calculer la taille de l’échantillon donc: n ≥ 42 =6400.
(0,1)2
Alors n ≥ 6400
Section II: Les Problèmes de comparaison
Souvent on est conduite à confronter une estimation obtenue à partir d’un sondage aléatoire à
une norme fixée à priori ou encore à comparer entre eux les résultats de deux échantillons
différents.
La résolution des problèmes de comparaison à partir d’échantillon aléatoire repose sur le test
d’hypothèses.
Exemple:
2. P=P○ La différence observée est dû aux fluctuations aléatoires c-à-d au fait que la
mesure a été effectuée sur un échantillon.
Il convient de choisir entre ces deux origines et décider si l’écart observé (p-p○) est dû à une
différence réelle ou au contraire s’il est seulement dû au hasard c-à-d aux fluctuations aléatoires.
Démarche: 4 étapes:
- H₀: P = P₀
- H₁ : P >P₀
PRINCIPE
2-comparaison à un standard:
Soit une population dont certains individus possèdent le caractère A, sur un échantillon de taille
n prélevé dans cette population on a observé une fréquence f d’individu présentant ce caractère.
La proportion d’individu A dans la population est inconnue et f peut en différer en raison des
fluctuations d’échantillonnage sur la base de la valeur f observé on se propose de tester si la
proportion p peut être considérée ou non comme étant égale à une valeur p₀ fixée à priori
2 ͤ Etape: la fréquence f suit selon le mode du tirage Soit une loi binomiale soit une loi
géométrique 𝒢. Ces lois auront pour paramètre en supposant que H₀ est exacte P=P₀
Sous certaines conditions ces lois binomiales et géométriques peuvent être approchées par
𝑝0(1−𝑝0 ) 𝑝0 (1−𝑝0)
N(m,σ)=N(P₀, √ )d’espérance p₀ d’ écart type √
𝑛 𝑛
𝐻0 : 𝑃 =𝑃0 𝐻1 : 𝑃 > 𝑃1
𝑅 va avoir une forme critique, f >l→ on détermine la valeur de l pour que la probabilité de
choisir 𝐻1 sachant que 𝐻0 est vraie :
𝑝0 (1−𝑝0 )
l=P₀ + tα √
𝑛
La région critique R sera de forme f>l avec f représente la fréquence observée et l la valeur
limite de la région d’acceptation.
La valeur de l est déterminée de façon à ce que la probabilité pour choisir H₁ alors que H₀ est
vraie est égale à α. P(choisir H₁/H₀ vraie)= P( f>l )=α
Par lecture des tables de la variable NCR on détermine la valeur de tα telle que la probabilité
pour que T soit supérieur à tα est égale à α P( T>tα)=α
𝑝0 (1−𝑝0)
l = P₀ + tα √
𝑛
H₀ p=p₀ H₁ P<P₀
La région critique R sera de la forme f< l c-à-d il faut qu'on détermine la valeur de l.
P( T<tα)=α
H₀ : P=P₀
H₁ : P≠P₀
𝑅̅ → l₁ < f < l₂
Il convient de déterminer l₁ et l₂ de façon à ce que la probabilité de l₁< f <l₂ est égal à 1-α
A chaque région correspond une probabilité𝛼/2, donc les valeurs limites de la région
d’acceptation seront :
𝑝0 (1−𝑝0 )
l₁= P₀ - 𝑡𝛼/2 √
𝑛
𝑝0(1−𝑝0 )
l₂= P₀ + 𝑡𝛼/2 √
𝑛
Hypothèse :
H₀ P=P₀
H₁ P>P₀
𝑝0 (1−𝑝0)
Si H₀ exacte , σ = √ , P=P₀
𝑛
P( f > l )=α
tα = t0,05 = 1,65
𝑝0 (1−𝑝0)
l = P₀ + tα √
𝑛
0,03 ∗0,97
l = 0,03 + 1,65√ =0.043= 4.3%
500
On rejettera l’hypothèse H₀ et on admettra que la proportion d’erreur commise dans l’inventaire
est significativement supérieure à 3%.
Tout le problème est de tester si la moyenne m peut être considérée ou non. Comme égale a une
valeur m₀ fixée à priori.
Supposons que « H₀ est exacte » est insuffisant car la loi de probabilité de 𝑥̅ dépend de m qui
est égale à m₀ si H₀ est vraie elle dépend aussi de la valeur de σ.
H1 :m≠ m0
En fonction de la probabilité posée, on choisit H 0 et H1 et on teste H0 ou H1 et à chaque cas
de figure correspond une région d’acceptation et une région critique.
𝜎 𝜎
m0-𝑡𝛼 * ≤ 𝑥̅ ≤ m0+𝑡𝛼 *
2 √𝑛 2 √𝑛
𝜎
l1= m0-𝑡𝛼 *
2 √𝑛
𝜎
l2= m0+𝑡𝛼 *
2 √𝑛
Test
Après avoir calculé l1 et l2 on va prendre une décision. On a 3 situations
Soit : 𝑥̅ < l1 on va choisir H1 c’est-à-dire les données de départ ne sont pas fondées
𝑥̅ > l2 on va choisir H1 c’est-à-dire les données de départ ne sont pas fondées ( rejeter les données
de départ)
l1<𝑥̅ <l2 on est dans la zone d’acceptation, on va choisir H 0 c’est-à-dire
retenir les données de départ
Si n est grand (n>30) alors S’² est une estimation suffisamment précise de 𝜎²
pour que la variable centrée réduite T soit distribuée normalement.
̅
𝒙−m0 ̅
𝒙−𝒎𝟎 ̅
𝒙−𝒎𝟎
Alors T= = 𝝈 = 𝑺′
𝝈𝒙̅
√𝒏 √𝒏
m≠ m0
m< m0
m> m0
Remarque
Si n<30 alors T ne peut plus être assimilée à la variable normale centrée réduite (VNCR)
on utilise alors une loi de student fisher à (n-1) degré de liberté.
Exemple:
Une machine fabrique des pièces mécaniques en séries, elle a été réglée pour que le diamètre
pour que chaque pièce soit égale à 12.60mm.
Sur un échantillon de 100 pièces on a observé une valeur moyenne 𝑥̅ =12.65mm et on a observé
S² (variance sur l’échantillon) est égale à0.1584
H₁: m=m₀=12.60
H₁ : m≠m₀=12.60
Le choix des hypothèses est presque subjectifs à partir des données m>12.60, m<12.60 :
n’apportent pas d’information n est suffisamment grand pour que la moyenne observée 𝑥̅ suive
une loi Normale de paramètre m et 𝜎/√𝑛 𝑥̅ ∿ N ( m , 𝜎/√𝑛 )
𝑛
= s²
𝑛−1
s² = √0,16 =0,1
𝑥̅ −𝑚0
Hypothèse: on suppose H₀ exacte dans ces conditions les variable T= est distribuée
𝑆′/√𝑛
normalement :
𝑥̅ −12,60
H₀= exacte → m₀=12,60, T=
0,04
l₁ < x̅ <l₂
La valeur 𝑡α⁄2 de la variable normale centrée réduite (VNCR) lue dans la table telle que
t 0,025 = 1,96 ≃2
𝑠′
l₂=m₀ + 𝑡α⁄2 = 12,68
√𝑛
Conclusion:
Les mesures effectuées sur l’échantillon ne permettent pas de mettre en doute le bon réglage de
la machine.
Les erreurs reviennent à des erreurs d’échantillonnage c-à-d que l’échantillon pris n’est pas très
bien choisi, il y a des erreurs.
Exemple:
Supposons que dans notre exemple la valeur moyenne x̅ =12,65 mm et la variance s²=0,1584
𝑛 𝑆 0,176
𝑆′2 = 𝑆2 =√ = 0,13
𝑛−1 √𝑛 10
𝑥̅ −𝑚0
On dira la taille de l’échantillon est faible dans ces conditions la variable T = = ne peut
𝑆′/√𝑛
être approximée par une distribution normale → elle suivra une loi de Student-Fisher à (n-1)
degrés de liberté (9).
9° degrés de liberté)
→ Région d’acceptation plus large que dans le cas précédent où n=100 : plus d’effectif est
faible plus les fluctuations d’échantillonnage sont importantes par rapport aux autres facteurs
aléatoires.
3- Comparaison d’échantillon :
Le problème consiste à comparer des résultats obtenus sur des échantillons différents.
Considérons deux populations dans lesquelles on tire deux échantillons (on appellera P₁ et P₂
ces deux populations). Ces échantillons peuvent être de tailles différentes. A partir des résultats
observés, sur les deux échantillons, on se propose de décider si les valeurs d’une caractéristique
Ө sont égales ou non dans les deux populations.
Les valeurs observées seront généralement différentes. Cette différence peut être imputée à
deux causes :
2-1-Ө₁ et Ө₂ sont les mêmes dans les deux populations et les différences sont dues aux seules
fluctuations d’échantillonnage
Il convient de former la différence des résultats observés sur les deux échantillons et de se
demander si cette différence est significative ou pas.
Alors :(x₁-x₂) est elle-même distribuée avec pour paramètre (m₁, m₂) et√𝜎𝑥1 2 + 𝜎𝑥2 2
On prélève deux échantillons dans ces populations n₁ et n₂ . Dans ces échantillons on observe
les fréquences d’individus A, on appelle ces fréquence f₁ et f₂ ,𝑛1 ~ f₂ ; 𝑛2 ~ f₂, sur la base de
ces informations on se propose de tester si ces proportions p₁ et p₂ relatives aux deux
populations peuvent être considérées ou non comme égales .
1- Hypothèse à tester :
H₀ : p₁ - p₂ = 0
H₁ : p₁ - p₂ ≠ 0
Si les effectifs n₁ et n₂ sont asses élevés alors l’approximation par la loi binomiale reste valable.
Dans ces conditions et sous réserve que les tirages d’échantillon puissent être assimilés à des
tirages indépendants alors la fréquence f₁ suit une loi Normale N (m₁,σ₁) avec m₁ = p₁
𝑝1 (1−𝑝1)
Et σ₁ = √ m₁ = E(f₁) et σ₁²= V(f₁)
𝑛1
𝑝2(1−𝑝2 )
N (m₂,σ₂) avec m₂ = p₂ et σ₂ = √
𝑛2
D’ après les propriétés d’une différence, d = f₁ -f₂ suit une loi normale de paramètres :
𝑝1(1−𝑝1 ) 𝑝2 (1−𝑝2)
Et σ = σd = √𝜎𝑓12 + 𝜎𝑓22 = √ +√
𝑛1 𝑛2
H₀ : p₁ -p₂ =0 ; p₁ = p₂ = p
1 1
d→ N(0, √𝑝(1 − 𝑝)( + )
𝑥 𝑥 1 2
p – tα σd< d < p + tα σd
La valeur de tα = tα/2 est la valeur de la variable normale centrée réduite telle que :
1 1
Or on sait que : σd = √𝑝(1 − 𝑝)( + ) 𝑞𝑑
𝑛1 𝑛2
H₀ est vraie :
p sera estimé par la fréquence f calculée sur l’ensemble des deux échantillons.
En désignant par x₁ et x₂ le nombre d’individus A observer dans chacun des deux échantillons
𝑥1 +𝑥2 𝑛1𝑓1 +𝑛2 𝑓2
on notera : f = =
𝑛1+𝑛2 𝑛1+𝑛2
1 1
sd = Sd =√𝑓(1 − 𝑓)( + )
𝑛1 𝑛2
Dans ces conditions, l’intervalle d’acceptation au seuil de signification α sera déterminer par:
𝑛1𝑓1+𝑛2𝑓2
f=
𝑛1+𝑛2
Exemple:
Une entreprise veut acquérir un matériel couteux, se pose le problème du taux d’utilisation de
ce matériel. Au cours de chaque mois on observe un échantillon d’instant tiré au hasard pour
chacun de ces instants précis un contrôleur note si ce matériel est utilisé ou non.
On suppose qu’ont tiré 500 instants en janvier et 400 en février. Le problème est donc de trouver
une règle de décision en fonction de chaque instant, le contrôleur a donné les résultats suivants :
janvier Février
Utilisation 400 300
500 400
Existe-il une différence significative entre le taux d’utilisation de ce matériel de ce matériel en
janvier et en février n₁=500 ; n₂=400
300
f₂ = = 0,75 = 75%
400
Soit l’hypothèse nulle : p= p₁ - p₂ c-à-d (p₁ - p₂=0). On suppose que la différence d= f₁ - f₂ suit
1 1
une loi Normale de moyenne m = 0 et l’ écart type = √𝑝(1 − 𝑝)( + )
𝑛1 𝑛2
1 1
Sd = √0,78 ∗ 0,22( + ) = 0,028
400 500
On dira donc la différence observée d est située dans l’intervalle d’acceptation, donc elle n’est
pas significative.
Par conséquent les observations dont on dispose ne permettent pas d’affirmer que le taux
d’utilisation du matériel a diminué en février.
Soient 𝑋̅1 et 𝑋̅2 les moyennes de la variable statistique X relatives à chaque échantillon sur la
base de ces observations on se propose de tester si la variable X a ou non la même moyenne
dans les deux populations; on va désigner par : m₁ , σ₁ et m₂ , σ₂ la moyenne et l’écart type de
X dans les populations P₁ et P₂.
1-Hypothèses à tester
Supposition
H₀ : m- m₀=0
H₁ : m- m₀≠ 0
2-si la variable statistique x est distribuée dans chaque population selon une loi normale alors
les moyennes 𝑋̅1 et 𝑋̅2 suivent elles-mêmes une loi normale.
Si l’hypothèse d’une distribution normale dans les populations d’origine n’apparait pas
justifiée ; il suffit alors que n1 et n2 soient suffisamment grand pour que 𝑋̅1et 𝑋̅2 soient
approximativement normales. Sous ces conditions et on suppose que les tirages d’échantillons
puissent être assimilés à des tirages indépendants.
Alors 𝑋̅1 suit une loi normale de même que 𝑋̅2 donc on peut écrire :
𝜎 2 𝜎 2
𝑋̅1 → N(m1 ;√ 1 ) et 𝑋̅2 → N(m2 ;√ 2 )
𝑛1 𝑛2
𝜎2
1+𝜎2
d=𝑋̅1- 𝑋̅2 →N(m1 -m2 ; √ 2
)
𝑛1+𝑛2
𝜎2 𝜎2
1+𝜎2 1+𝜎2
- tα/2 √ 2
< 𝑑 <+ tα/2 √ 2
𝑛1+𝑛2 𝑛1+𝑛2
Tout le problème est dans le calcul de la probabilité : P( l₁ < 𝑥̅ < l₂ ) = 1-α même déroulement
qu’en cas de fréquence on met 𝑥̅ au lieu de f .
𝜎 𝜎
m₀ - tα/2 < 𝑥̅ < m₀ + tα/2
√𝑛 √𝑛
𝜎 𝜎
l₁ = m₀ - 𝑡α/2 ; l₂ = m₀ + 𝑡α/2
√𝑛 √𝑛
- Soit 𝑥̅ < l₁→ choisir H₁ c-à-d les données de départ ne sont pas fondées.
- l₁< 𝑥̅ <l₂: on est dans la zone d’acceptation→ on va choisir H₀ c-à-d retenir les donnée
de départ.
- σ inconnu
- n: taille de l’échantillon ;
Si n est grand (n>30) alors s’² est une estimation suffisamment précise de σ² pour que la variable
centrée réduite, T soit distribuée Normalement avec:
𝑥̅ −𝑚0 𝑥̅ −𝑚0
T= , on remplace 𝜎 par𝑆′, alors T=
𝜎/√𝑛 𝑆′/√𝑛
Remarque
Si n< 30 alors T ne peut plus être assimilée à VNCR on utilise alors une loi de Student-Fisher
à (n-1) degré de liberté.
H₁: m ≠ m₀ s’il existe une différence elle n’est pas due aux erreurs
d’échantillonnage, mais elle est réelle plutôt.
Si on imagine H₃; H₄;….Hn . En cas que H₀ n’est pas fondée, on la rejette et on se trouve
devant une indétermination.
Exemple:
Une machine fabrique des pièces mécanique en séries, elle a été réglée pour que le diamètre de
chaque pièce soit égal à 12,6 mm, sur un échantillon de 100 pièces on a observé une valeur
moyenne égale 12,65 mm et on a observée 𝑆 2 variance de l’échantillon, 𝑆 2 =0,1584
On a n =100 > 30, alors on va appliquer la loi Normale. L’écart type de la population est inconnu
on l’estime par s’.
𝑛 100
Avec s’= √ 𝑆 2 =√ 0,1584 = 0,4
𝑛−1 100−1
Alors
𝑥̅ −𝑚0 𝑥̅ −𝑚0 12,65−12
T= = = = 0,0125
𝑆′/√𝑛 𝑆′/√𝑛 0,4/√100
On suppose que : α = 5%
[-1,96 ; 1,96]
Alors, la décision :