Académique Documents
Professionnel Documents
Culture Documents
On ne dispose pas souvent de données ou d’informations sur la population qui nous intéresse. On
devra alors déduire l’information désirée sur la population en choisissant adéquatement un sous-
ensemble représentatif de celle-ci, nommé échantillon, et en analysant les données qu’il contient.
La théorie de l’échantillonnage est l’étude des liaisons existant entre une population et les
échantillons de cette population. Elle est fondamentale à deux titres :
* estimer les paramètres de la population (e.g. moyenne, variance, proportion) à partir des
estimateurs correspondant de l’échantillon ;
* savoir si les différences observées entre deux échantillons sont dues au hasard ou réellement
significatives.
Il est à noter que la manière de recueillir les données de l’échantillon est fondamental pour que
celui-ci soit représentatif de la population étudiée. A titre d’exemple, un sondage réalisé dans la
rue sera le plus souvent biaisé si l’enquêteur a tendance à interroger les personnes qui lui
semblent le plus aimable. Pour que l’échantillon soit représentatif, il devra être aléatoire. Un
échantillon est qualifié d’aléatoire lorsque chaque élément de la population a une probabilité
connue et non nulle d’appartenir à la population.
Dans le cadre de ce cours, nous nous référerons exclusivement à un échantillonnage
aléatoire simple. Cette méthode consiste à prélever au hasard et de façon indépendante n unités
d’échantillonnage d’une population de N éléments. Chaque élément de la population possède
ii. (𝑋
⏟ 1 ; 𝑋2 ; … ; 𝑋𝑛 ) 𝑎𝑙𝑜𝑟𝑠 𝑐𝑜𝑣(𝑋
⏟ 𝑖 ; 𝑋𝑗 ) = 0
𝑚𝑢𝑡𝑢𝑒𝑙𝑙𝑒𝑚𝑒𝑛𝑡 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑠⇔𝑋𝑖 ∩𝑋𝑗 =∅ 𝑝𝑜𝑢𝑟 𝑖≠𝑗
iii. (𝑋
⏟ 1 ; 𝑋2 ; … ; 𝑋𝑛 ) ⏟ 𝑖 + 𝑋𝑗 ) = 𝑉(𝑋𝑖 ) + 2 𝑐𝑜𝑣(𝑋
𝑎𝑙𝑜𝑟𝑠 𝑉(𝑋 ⏟ 𝑖 ; 𝑋𝑗 ) + 𝑉(𝑋𝑗 ) = 𝑉(𝑋𝑖 ) +
𝑚𝑢𝑡𝑢𝑒𝑙𝑙𝑒𝑚𝑒𝑛𝑡 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑝𝑜𝑢𝑟 𝑖≠𝑗 0
𝑉(𝑋𝑗 ) = 𝜎 2 + 𝜎 2 = 2𝜎 2
iv. (𝑋
⏟ 1 ; 𝑋2 ; … ; 𝑋𝑛 ) 𝑉(𝑋𝑖 − 𝑋𝑗 ) = 𝑉(𝑋𝑖 ) − ⏟
𝑎𝑙𝑜𝑟𝑠 ⏟ 2𝑐𝑜𝑣(𝑋𝑖 ; 𝑋𝑗 ) + 𝑉(𝑋𝑗 ) = 𝑉(𝑋𝑖 ) +
𝑚𝑢𝑡𝑢𝑒𝑙𝑙𝑒𝑚𝑒𝑛𝑡 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑝𝑜𝑢𝑟 𝑖≠𝑗 0
𝑉(𝑋𝑗 ) = 𝜎 2 + 𝜎 2 = 2𝜎 2
i. (𝑋1 ; 𝑋2 ; … ; 𝑋𝑛 )
⏟ 𝑎𝑙𝑜𝑟𝑠 𝑐𝑜𝑣(𝑋
⏟ 𝑖 ; 𝑋𝑗 ) = 0
𝑚𝑢𝑡𝑢𝑒𝑙𝑙𝑒𝑚𝑒𝑛𝑡 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑠⇔𝑋𝑖 ∩𝑋𝑗 =∅ 𝑝𝑜𝑢𝑟 𝑖≠𝑗
ii. (𝑋1 ; 𝑋2 ; … ; 𝑋𝑛 )
⏟
𝑚𝑢𝑡𝑢𝑒𝑙𝑙𝑒𝑚𝑒𝑛𝑡 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑠
⏟ 𝑖 + 𝑋𝑗 ) = 𝑉(𝑋𝑖 ) + 2 𝑐𝑜𝑣(𝑋
𝑎𝑙𝑜𝑟𝑠 𝑉(𝑋 ⏟ 𝑖 ; 𝑋𝑗 ) + 𝑉(𝑋𝑗 ) = 𝑉(𝑋𝑖 ) + 𝑉(𝑋𝑗 ) = 𝑝𝑞 + 𝑝𝑞 = 2𝑝𝑞 =
𝑝𝑜𝑢𝑟 𝑖≠𝑗 0
2𝑝(1 − 𝑝)
iii. (𝑋
⏟ 1 ; 𝑋2 ; … ; 𝑋𝑛 ) ⏟ 𝑖 − 𝑋𝑗 ) = 𝑉(𝑋𝑖 ) − 2 𝑐𝑜𝑣(𝑋
𝑎𝑙𝑜𝑟𝑠 𝑉(𝑋 ⏟ 𝑖 ; 𝑋𝑗 ) + 𝑉(𝑋𝑗 ) = 𝑉(𝑋𝑖 ) +
𝑚𝑢𝑡𝑢𝑒𝑙𝑙𝑒𝑚𝑒𝑛𝑡 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑠 𝑝𝑜𝑢𝑟 𝑖≠𝑗 0
𝑉(𝑋𝑗 ) = 𝑝𝑞 + 𝑝𝑞 = 2𝑝𝑞
∑𝑖=𝑛 ̅ 2
𝑖=1 (𝑋𝑖 − 𝑋 ) ∑ 𝑋𝑖2
𝑆2 = =[ ] − 𝑋̅ 2
𝑛 𝑛
2
∑(𝑋𝑖 − 𝑋̅) 1 ∑ 𝑋𝑖2 2𝑋̅ 1
𝑆 = 2
= ∑(𝑋𝑖2 − 2𝑋𝑖 𝑋̅ + 𝑋̅ 2 ) = − ∑ 𝑋𝑖 + ∑ 𝑋̅ 2
𝑛 𝑛 𝑛 𝑛 𝑛
1
̅
Or 𝑋 = 𝑛 ∑ 𝑋𝑖 , on tire que ∑ 𝑋𝑖 = 𝑛 𝑋̅
𝑖=𝑛 ̅ 2 ̅2
∑𝑖=𝑛
𝑖=1 𝑎 = 𝑛𝑎 et donc ∑𝑖=1 𝑋 = 𝑛𝑋
2
∑(𝑋𝑖 − 𝑋̅) ∑ 𝑋𝑖2 2𝑋̅ 1 ∑ 𝑋𝑖2 ∑ 𝑋𝑖2
2
𝑆 = = − 𝑛 𝑋̅ + . 𝑛𝑋̅ 2 = − 2𝑋̅ 2 + 𝑋̅ 2 = − 𝑋̅ 2
𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
𝑛𝑆 2 = (𝑛 − 1)𝑆′2 (1)
𝑛−1 2
S2 = S′ (2)
𝑛
𝑛
S′2 = S2 (3)
𝑛−1
7.3.3.6 écart-type d’échantillon : 𝑺
∑(𝑋𝑖 − 𝑋̅)2 ∑ 𝑋𝑖2
𝑆=√ = √( ) − 𝑋̅ 2
𝑛 𝑛
7.3.3.8 relation S et 𝑺′
√𝑛𝑆 = √(𝑛 − 1)𝑆 ′ (1)
𝑛−1 ′
𝑜𝑢 𝑆 = √ 𝑆 (2)
𝑛
𝑛
𝑜𝑢 𝑆 ′ = √ 𝑆 (3)
𝑛−1
Un estimateur 𝜃̂ du paramètre 𝜃 de la population statistique est une variable aléatoire qui est
fonction d’une suite de n variables aléatoires représentant l’échantillon :
𝜃̂𝑛 = 𝑓(𝑋1 ; 𝑋2 ; … ; 𝑋𝑛 )
Une statistique est un estimateur. Une statistique est une variable aléatoire fonction de
l’échantillon de variables aléatoires (𝑋1 ; 𝑋2 ; … ; 𝑋𝑛 )
Les estimateurs sont des Les estimations sont écrites en lettres minuscules :
variables écrites en lettres ̅, 𝒔𝟐 , 𝒔′𝟐 , 𝒇, 𝒔; 𝒔′
𝒙
̅ , 𝑺𝟐 , 𝑺′𝟐 , 𝑭
capitales : 𝑿
Taille 𝑁 𝑛
Proportion Proportion de succès dans Fréquence d’échantillon Estimation ponctuelle de la proportion p
une population : p 𝑲 k
̂=𝒑
𝜽 ̂=𝑭= ̂=f=
𝒑
𝜽 = 𝑝 (ou 𝜋) 𝒏 n
Moyenne Moyenne de la population Moyenne d’échantillon Estimation ponctuelle de la moyenne m
𝜽 = 𝑚 (ou 𝜇) ∑ 𝑿𝒊 ∑ 𝑥𝑖
̂=𝒎
𝜽 ̂ =𝑿 ̅= ̂ = 𝑥̅ =
𝒎
𝒏 𝑛
Variance Variance de la population : Variance corrigée d’échantillon 2 ̂ ∑(𝑥𝑖 −𝑥̅ )2 ∑ 𝑥2 𝑛
Estimation de 𝜎 : 𝜎 = 𝑠′ = 𝑛−1 = (𝑛−1𝑖 ) − (𝑛−1) 𝑥̅ 2
2 2
𝜽 = 𝜎2 ∑(𝑋𝑖 − 𝑋̅)2
̂2 = 𝑆′2 =
𝜎 ∑(𝑥𝑖 −𝑥̅ )2 ∑ 𝑥2 𝑛
𝑛−1 Estimation de 𝜎: 𝜎̂ = 𝑠 ′ = √ = √(𝑛−1𝑖 ) − (𝑛−1) 𝑥̅ 2
Écart-type Écart-type de la 𝑛−1
population : Variance d’échantillon Autre méthode d’estimation de 𝜎 : 2 ̂2 = 𝑠′2 = 𝑛 𝑠 2
𝜎 𝑛−1
𝜽=𝜎 ∑(𝑋𝑖 − 𝑋̅)2
̂2
𝜎 =𝑆 =2 𝑛
𝑛 Autre méthode d’estimation de 𝜎: 𝜎̂ = 𝑠′ = √𝑛−1 𝑠
Avec
∑(𝑥𝑖 −𝑥̅ )2 ∑ 𝑥𝑖2
𝑠2 = =( ) − 𝑥̅ 2
𝑛 𝑛
∑(𝑥𝑖 −𝑥̅ )2 ∑ 𝑥𝑖2
𝑠=√ = √( ) − 𝑥̅ 2
𝑛 𝑛
𝜕2 𝐿𝑛(𝐿)
Où 𝐼𝑛 (𝜃̂) = −𝐸 ⟦ ⟧ est appelé la quantité d’information de Fisher.
𝜕𝜃2 ̂
𝜃=𝜃
̅ , 𝑭 et 𝑺′𝟐
7.6 - Exemple d’estimateurs non biaisés (sans biais) et convergents : 𝑿
7.6.1 Montrons que 𝑭 est un estimateur non biaisé et convergent de la proportion p d’une
population
✓ 𝐹 𝑒𝑠𝑡 𝑢𝑛 𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑒𝑢𝑟 𝑠𝑎𝑛𝑠 𝑏𝑖𝑎𝑖𝑠 𝑑𝑒 𝑝 𝑠𝑖 𝐸(𝐹) = 𝑝
𝐸(𝑝̂ ) = ⏟
𝐸(𝐹) = 𝑝 ⇒ 𝐸(𝐹) = 𝑝 donc F est un estimateur sans biais de p.
𝑑é𝑗à 𝑑é𝑚𝑜𝑛𝑡𝑟é
a). Donner une estimation ponctuelle de la durée de vie moyenne des composants.
b). Donner une estimation ponctuelle de l'écart-type de cette durée de vie.
Corrigé exercice 1
1. Identifier la variable aléatoire X (unités) et sa loi si possible.
2. Sur le brouillon, repérer les paramètres de la population et les données d’échantillon
donnés par l’exercice.
Population : paramètres Echantillon : estimation
𝑁= 𝑛 = 50
𝑝= k
̂=f=
𝒑 n
𝑚= 𝒎̂ = 𝑥̅ =
2 ̂2 = 𝑠′2 =
𝜎 = 𝜎
𝜎= 𝜎̂ = 𝑠′ =
Exercice 4 - On a contrôlé le dosage d’un produit dans un mélange à la sortie d’une chaîne de
conditionnement. Pour un échantillon de 100 lots de 5 kilogrammes de mélange analysés, on a
obtenu les résultats suivants, où xi représente la masse du produit exprimée en grammes et ni
l’effectif correspondant :
xi 142 144 146 148 150 152 154 156 158 160
ni 1 5 6 21 32 22 7 4 1 1
1. Calculer la moyenne et l’écart-type de l’échantillon.
2. Donner une estimation ponctuelle de la moyenne et de l’écart-type.
Corrigé exercice 4
1. Calculer la moyenne et l’écart-type de l’échantillon.
X = masse du produit en g
Formules et tableau de calcul
Tableau de calcul
La moyenne d’échantillon : 𝑥̅ xi ni 𝑛𝑖 𝑥𝑖 𝑛𝑖 𝑥𝑖2
∑ 𝑛𝑖 𝑥𝑖 15010
𝑥̅ = 𝑛 = 100 = 150,10 𝑔 142 1 142 20164
144 5 720 103680
L’écart-type de l’échantillon : s
Exercice – Lors d’un sondage précédant des élections, 500 personnes ont été interrogées. Bien
que ce ne soit pas en pratique, on suppose pour simplifier les calculs que les 500 personnes
représentent un échantillon indépendant et identiquement distribué de la population.
Sur les 500 personnes, 150 ont répondu vouloir voter pour le candidat C1 et 140 pour le candidat
C2.
1. Donner une estimation ponctuelle des intentions de votes, sous forme de pourcentage.
2. Donner un intervalle de confiance à 95% pour les intentions des votes de chacun des
deux.
Solution – n=500 ; k1=150 ; k2=140
1- Estimation ponctuelle des intention de votes : il s’agit d’une estimation ponctuelle de la
proportion p des intentions de votes
Succès = intention de vote pour le candidat 𝐶𝑖 𝑖 ∈ {1; 2}
𝑘 = 𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑠𝑢𝑐𝑐è𝑠 𝑑𝑎𝑛𝑠 𝑙’é𝑐ℎ𝑎𝑛𝑡𝑖𝑙𝑙𝑜𝑛 𝑝𝑜𝑢𝑟 𝑙𝑒 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡 𝐶𝑖
𝑓 = 𝑓𝑟é𝑞𝑢𝑒𝑛𝑐𝑒 𝑑𝑒 𝑠𝑢𝑐𝑐è𝑠 𝑑𝑎𝑛𝑠 𝑙’é𝑐ℎ𝑎𝑛𝑡𝑖𝑙𝑙𝑜𝑛 𝑝𝑜𝑢𝑟 𝑙𝑒 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡 𝐶𝑖
𝑛 = 𝑡𝑎𝑖𝑙𝑙𝑒 𝑑𝑒 𝑙’é𝑐ℎ𝑎𝑛𝑡𝑖𝑙𝑙𝑜𝑛
𝑘
𝑝̂ = 𝑓 = 𝑛
Estimation de la proportion des intentions de votes pour le candidat 𝐶1
𝑘1 = 𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑠𝑢𝑐𝑐è𝑠 𝑑𝑎𝑛𝑠 𝑙’é𝑐ℎ𝑎𝑛𝑡𝑖𝑙𝑙𝑜𝑛 𝑝𝑜𝑢𝑟 𝑙𝑒 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡 𝐶1 = 150
𝑛 = 500 = 𝑡𝑎𝑖𝑙𝑙𝑒 𝑑𝑒 𝑙’é𝑐ℎ𝑎𝑛𝑡𝑖𝑙𝑙𝑜𝑛
𝑘1 150
𝑝
̂1 = 𝑓1 = = = 0,3 𝑠𝑜𝑖𝑡 30%
𝑛 500
Pour le candidat C2
0,28 × 0,72 0,28 × 0,72
𝑝2 ∈ ]0,28 − 1,96√ ; 0,28 + 1,96√ [ avec 𝑝2 ∈ ]0,2406;0,3194[
500 500
Conclusion : Ainsi au niveau de confiance de 95%, les chances de C2 sont comprises entre
24,06% et 31,94%.
Le théorème central limite (TCL) énonce que pour une taille d’échantillon n très grand, en
pratique pour 𝒏 > 𝟑𝟎, on a :
b. Loi de distribution de F
𝐾 𝑝(1 − 𝑝) 𝐹−𝑝
𝐹= 𝑒𝑡 𝒏 > 𝟑𝟎 ⇒ 𝐹 ↝ 𝑁 (𝑝 ; √ ) ⟹𝑈= ↝ 𝑁(0 ; 1)
𝑛 𝑛
√𝑝(1 − 𝑝)
𝑛
𝟐
7.8.5 loi de distribution de 𝐒 ′
2
(𝑛−1)𝑆 ′
On montre aussi que la variable aléatoire 𝜎2
suit la loi de Khi 2 à (n-1) degrés de
liberté (ddl). Et on écrit :
𝐸(𝑊) = 𝑛 − 1
(𝑛 − 1)𝑆 ′ 2
𝑊= 2
2
↝ 𝜒𝑛−1 𝑎𝑣𝑒𝑐 { 𝑉(𝑊) = 2(𝑛 − 1)
𝜎
𝜎(𝑊) = √2(𝑛 − 1)
Conclusion
𝑌𝑖 ↝ 𝑁(𝑚 ; 𝜎) 𝑌 − 𝑌̅ 𝐸(𝑊) = 𝑛 − 1
𝑖 (𝑛 − 1)𝑆′2
𝑆𝑖 { 𝑒𝑡 𝑚 𝑖𝑛𝑐𝑜𝑛𝑛𝑢 ⇒ ↝ 𝑁(0 ; 1) ⇒ 2
↝ 𝜒𝑛−1 𝑎𝑣𝑒𝑐 { 𝑉(𝑊) = 2(𝑛 − 1)
𝜎 𝜎 2
𝑒𝑡 𝑚̂ = 𝑌̅ 𝜎(𝑊) = √2(𝑛 − 1)
7.8.7 théorème central limite et approximations d’autres lois par la loi normale
Approximation de la loi du Chi-deux (ou Khi-deux) à n degrés de liberté : 𝜒𝑛2
𝑆𝑖 𝐾 = ∑ 𝑋𝑖 ↝ ℋ(𝑁, 𝑛; 𝑝) ⟹
⏟ 𝐾 ↝ ℬ(𝑛; 𝑝)
𝑛
𝑖=1 𝑠𝑖 <0,05 𝑒𝑡 𝑛>30 𝑒𝑡 𝑝<0,1 (𝑜𝑢 0<𝑛𝑝<10)
𝑁
𝑆𝑖 𝐾 = ∑ 𝑋𝑖 ↝ ℬ(𝑛; 𝑝) ⟹
⏟ 𝐾 ↝ 𝒫(𝜆 = 𝐸(𝐾) = 𝑛𝑝)
𝑖=1 𝑛>30 𝑒𝑡 𝑝<0,1 𝑒𝑡 0<𝑛𝑝<15
du ∑𝑖=𝑛(𝑋 −𝑋̅)2 ̅ −m
𝒔′ X
théorème 𝜎 : inconnu → 𝜎̂ = 𝑠′ = √ 𝑖=1 𝑛𝑖 → 𝑋̅ ↝ 𝒩(𝑚; 𝒏) → U = 𝑆′ ↝ 𝒩(0; 1)
√
central √n
∑𝑖=𝑛 ̅ 2
𝑖=1 (𝑋𝑖 −𝑋) 𝒔′ 𝑁−𝑛 ̅ −m
X
𝜎 : inconnu → 𝜎̂ = 𝑠′ = √ → 𝑋̅ ↝ 𝒩(𝑚; 𝑛 √ 𝑛−1 ) →U= ↝
𝑛 ⏟ √ 𝒔′ 𝑁−𝑛
√
√n 𝑛−1
𝑛>30
𝒩(0; 1)
𝑺′ 𝑁−𝑛 ̅ −m
X
𝜎 : inconnu 𝜎̂ = 𝑠′ → 𝑋̅ ↝ 𝒩(𝑚; 𝒏 √ 𝑁−1) → T = ↝ 𝑇𝑛−1
√ 𝑺′ 𝑁−𝑛
( √ )
√𝒏 𝑁−1
Sans 𝐾 = ∑𝑖=𝑛
𝑖=1 𝑋𝑖 ↝ ℋ(𝑁; 𝑛; 𝑝)
⏟
remise 𝑙𝑜𝑖 ℎ𝑦𝑝𝑒𝑟𝑔𝑒𝑜𝑚é𝑡𝑟𝑖𝑞𝑢𝑒 𝑝(1−𝑝) 𝑁−𝑛 F−p
𝐹 → 𝒩 (𝑝; √ ( 𝑁−1)) 𝑈=
𝑛
𝐸(𝐾) = 𝑛𝑝 √𝑝(1 − 𝑝) (𝑁 − 𝑛)
𝑛 𝑁−1
𝑁−𝑛
𝑉(𝐾) = 𝑛𝑝𝑞 ( 𝑁−1) si : np>18 ou si n>30 ou p ≅ 0,5
𝑎𝑣𝑒𝑐 𝑈 ↝ 𝒩(0; 1)
𝑁−𝑛
𝜎(𝐾) = √𝑛𝑝𝑞 ( 𝑁−1)
{
𝑛 ≤ 30 Si la taille de l’échantillon est faible, on a recours aux lois exactes : loi binomiale, loi de poisson, etc.