Vous êtes sur la page 1sur 29

1

Chapitre 1 : Thorie de lchantillonnage


Section 1 : Techniques de lchantillonnage
1- Notion dchantillon
Un chantillon de taille n est un sous-ensemble de n lments prlevs
dun ensemble de N lments appels population- mre. La notion dchantillon
pose deux types de problme lun relatif aux procdures de son choix et lautre
li linduction de linformation quil contient partir de la population- mre
(Distribution dchantillonnage)
Pour quun chantillon soit reprsentatif il doit avoir une taille
suffisamment importante de telle sorte ce quil ny a pas perte dinformations
ainsi que ses caractristique doivent tre relativement les mmes que celles de
la population- mre. Le choix dun tel chantillon sinscrit dans le cadre de deux
techniques appeles techniques dchantillonnage savoir : sondage alatoire et
sondage par choix raisonn. Le premier sondage aboutit la constitution
dchantillons alatoires et le deuxime gre des chantillons empiriques.
1) Echantillon alatoire
a) Sondage alatoire
Un chantillon est dit alatoire si chacun de ses lments est prlev
partir de la population- mre avec la mme probabilit. Cet chantillon peut tre
obtenu soit par un tirage sans remise (exhaustif) ou par un tirage avec remise.
1

b) Mthode des nombres au hasard
La table des nombres au hasard est une liste de nombre compose par des
groupes de 5 chiffres. Si on suppose que lon dispose dune population de 100
individus numrots de 0 99 et on veut extraire un chantillon de 10 lments.
On choisi au hasard la troisime ligne et on slectionne un nombre de deux
chiffres en allant de la gauche vers la droite on obtient : 68-81-13-36-60-06-
65-54-..
c) Sondage systmatique

1
Il faut toujours que les individus de lchantillon ait la mme probabilit de figurer dans le tirage.
2
On dfinit dabord la base de sondage, ensuite, on choisi au hasard un
individu dont le numro est compris entre 0 et N/n et enfin, on constitue
lchantillon par un saut de N/n partir du premier numro tir au hasard.
Exemple : population P= 100 et chantillon E= 10. N/n = 10
On choisi au hasard le numro 4 do lchantillon est obtenu par :
4 ; 14 ; 24 ; 34 ; 44 ; 54 ; 64 ; 74 ; 84 ; 94
d) Sondage stratifi
Si la population est constitue par des groupes appels strate, alors
lchantillon devra tre slectionn partir de chaque strate pour quil soit
reprsentatif.
Exemple : le choix dun chantillon compos de mauvais et de bons
payeurs de point de vue banque.
Il existe dautres types de sondage alatoire tels que sondage plusieurs degrs
et par grappe.
2) Echantillon empirique
La principale mthode du choix de lchantillon empirique est connue par
la mthode des quotas. Elle consiste tirer un chantillon reprsentatif
quelconque partir dune population stratifie en labsence dune base de
sondage.

3
2 : Pralable la distribution dchantillonnage
Lintroduction la distribution dchantillonnage ncessite la comprhension de la
distribution de la loi normale. A cet effet, et en raison de la configuration de cette loi dans le
semestre 3 on ne va pas lexposer proprement dite mais on se limitera, dans ce manuel, la
prsentation de ses grands traits caractristiques.
1- Rappels : Test de normalit d'une distribution
Exemple:
A titre dillustration de la distribution normale, nous allons prendre un exemple relevant de la
statistique descriptive. La distribution des salaires dans une entreprise est la suivante :
Classe de salaire en DH Effectifs Centre de classe
[800- 900[
[900- 1000[
[1000- 1100[
[1100- 1200[
[1200- 1300[
[1300- 1400[
[1400- 1500[
20
25
23
20
15
10
5
850
950
1050
1150
1250
1350
1450
Total 118 -----
a- Vrification par Histogramme
La normalit peut tre observe directement sur l'histogramme en comparaison de la courbe
empirique ajuste par la courbe normale thorique (place -gausse) voire figure ci-dessous.
X
1500,0 1400,0 1300,0 1200,0 1100,0 1000,0 900,0
Observations pondres par Y
30
20
10
0
Sigma = 171,62
Moyenne = 1079,7
N = 118,00

La rpartition des salaires semble avoir la forme gaussienne (normale) de moyenne
=1079,66 et dcart type S=171,62. la conclusion de la normalit par l'histogramme n'est pas
satisfaisante. Pour sassurer on devrait calculer les cfficients d'aplatissement et d'asymtrie
ou bien on effectue le test de normalit de Kolmogorov-Smirnov.
b- Les statistiques de normalit
4
Les statistiques permettant de vrifier la normalit d'une distribution statistique empirique
sont les cfficients d'aplatissement (Kurtosis) et d'asymtrie (ou Skewness)
Cfficient d'aplatissement
L'aplatissement Mesure le degr de concentration des observations dans les queues. Pour une
distribution gaussienne (Normale), la valeur de la statistique d'aplatissement est 0. Pour les
chantillons issus d'une distribution gaussienne, les valeurs de l'aplatissement fluctueront
autour de 0. Un aplatissement ngatif indique que les queues comptent moins d'observations
que dans une distribution gaussienne. Un aplatissement positif indique que les queues
comptent plus d'observations que dans une distribution gaussienne. L'aplatissement peut tre
utilis, conjointement la statistique d'asymtrie, pour estimer si une variable est
normalement distribue.
Cfficients d'asymtrie (ou Skewness)
Ce cfficient mesure l'asymtrie d'une distribution. La distribution normale est symtrique et
a une valeur Skewness de zro. Le rapport de l'asymtrie l'erreur standard peut tre utilis
comme test de normalit (vous pouvez rejeter la normalit si le ratio est infrieur -2 ou
suprieur +2). Une distribution avec un Skewness positif significatif possde une longue
queue vers la droite. Une distribution avec un Skewness ngatif significatif possde une
longue queue vers la gauche. Approximativement, une valeur de Skewness suprieure deux
fois son erreur standard correspond une distribution symtrique.
Le calcul de ces cfficients peut tre obtenu rapidement par le logiciel des statistiques
SPSS.
On prend l'exemple ci-dessus (rpartition des salaires) et on le traite par ce logiciel.
Procdure :
1- Saisir les donnes et les variables dans l'diteur des donnes. Les classes sont remplaces
par les centres des classes
2- Pondrer la variable par les observations dans le menu Donnes
3- Dans le menu analyse, cliquer sur statistique descriptive puis choisir caractristiques
4- Dans la petite fentre cliquer sur option puis cocher les cases aplatissement et asymtrie
5- Valider par ok
On obtient un fichier des rsultats qu'on appelle output identique celui l.
Statistiques descriptives
N Asymtrie Kurtosis
Statistique Statistique Erreur std Statistique Erreur std
S 118 ,405 ,223 -,763 ,442
N valide
(listwise)
118
Commentaire
Le cfficient d'aplatissement est ngatif donc la distribution empirique compte moins
d'observation dans les queues qu'une distribution normale mais sa valeur est proche de zro et
par consquent on accepte la normalit.
5
Le cfficient d'asymtrie est positif donc la distribution a une longue queue vars la
droite. Mais le rapport de l'erreur standard l'asymtrie est de 0,5507 <2, donc la distribution
Statistiques est normale
c-Test de Kolmogorov-smirnov2
Le test de Kolmogorov-Smirnov pour un chantillon compare la fonction de distribution
cumule observe d'une variable avec une distribution thorique spcifie, qui peut tre
normale, uniforme, de Poisson ou exponentielle. Le Z de Kolmogorov-Smirnov est calcul
partir de la plus grande diffrence (en valeur absolue) entre les fonctions de distribution
cumules observes et thoriques.
Exemple : la plupart des tests paramtriques ncessitent des variables distribues
normalement. Le test de Kolmogorov-Smirnov pour un chantillon permet de tester si une
variable comme REVENU, par exemple, est distribue normalement
Procdure par SPSS
A partir du menu, slectionnez :
Analyse
Tests non paramtriques
K-S 1 chantillon...
Slectionnez une ou plusieurs variables numriques tester. Chaque variable produit un test
distinct.
Si vous le souhaitez, vous pouvez cliquez sur Options... pour les statistiques caractristiques,
les quartiles et le contrle du traitement des valeurs manquantes.
On obtient le fichier des resultants suivant:
Test de Kolmogorov-Smirnov un chantillon
S
N 118
Paramtres normaux Moyenne 1079,6610
Ecart-type 171,6234
Diffrences les plus extrmes Absolue ,156
Positive ,156
Ngative -,094
Z de Kolmogorov-Smirnov 1,699
Signification asymptotique (bilatrale) ,006
a La distribution tester est gaussienne.
2- Prsentation de la loi de probabilit
Soit X une variable alatoire quelconque
A- Densit de probabilit
Dfinition

2
Le test de Lilliefors est une correction du test de Kolmogorov-Smirnov qui vrifie la normalit lorsque les
moyennes et les variances ne sont pas connues, mais doivent tre estimes partir de donnes. Le test de
Kolmogorov-Smirnov est bas sur la plus grande valeur absolue des diffrences entre les distributions cumules
observes et thoriques.

6
Soit I un intervalle.
On appelle densit de probabilit sur I toute fonction continue et positive sur
I=]- ; + [telle que :
}
+

= 1 ) ( dt t f
Exemple :
Dterminer un rel a de faon que la fonction dfinie sur [0, 1] par f(x) = x + a
soit une densit de probabilit sur [0, 1].
On cherche a tel que :
}
= +
1
0
1 ) ( dx a x f
Rponse a =1/2
Exemple 2 : on peut vrifier que La fonction
2

2
1
) (
x
e x f =
t
est une densit
de probabilit car 1
2
1
2
2
=

}
x
e
t

B- Loi de probabilit :
Soit P une loi de probabilit sur un intervalle I de densit f
On dit qu'une variable alatoire X, valeurs dans I, suit une loi de probabilit P lorsque pour
tout intervalle [a, b] de I, on a :
P (a < X b) =
}
b
a
dt t f ) (
C- Fonction de rpartition
La fonction de rpartition d'une variable alatoire continue est la primitive de la densit de
probabilit .

La fonction de rpartition a les proprits suivantes :
- F
X
est croissante.
- Elle est partout continue droite. et admet en tout point une limite gauche, gale
.
-
-
D- Vrification de A ; B ; et C pour une Variable alatoire qui suit une loi normale
1- Dfinition de la loi normale
7
On appelle loi normale (ou gaussienne) centre rduite la loi dfinie par la densit de
probabilit
2

2
1
) (
x
e x f

=
t
et on la note par X N(0 ;1)
On peut montrer facilement que la moyenne est nulle et lcart type gal lunit.
On peut vrifier que 1
2
1
) (
2

= =
+

+

} }
dx e

x f
x

La reprsentation graphique de cette densit est une courbe en cloche (ou courbe de Gauss).




2- Fonction de rpartition de la loi normale :
En probabilit, la fonction de rpartition d'une variable alatoire X est la fonction F(x) qui
tout rel x associe
F
x
(x)=P[Xsx)
Pour une loi normale : F
x
(x)=P[Xsx) = dx e

x
x
2
2
2
1


}


X suit une loi normale de moyenne m et dcart type o si sa densit de probabilit est donne
par :
X rel tout pour e X f
X
X
) (
2
1
) (
o
o

[
=
3- Exemple de calcul des probabilits par la loi normale : P(x< ou >u)3

3
Pour tout calcul de probabilit dune variable suivant une loi, ncessite la table statistique donnant les valeurs de (Pt>u) ou
P (t<u). Certaines tables sont reportes la fin de ce manuel.

8
* Utilisation de la table donnant les valeurs suprieurs : P(X>u)
Soit X une variable alatoire telle que :
Premire situation : XN(0,1)
Calcul par exemple de p(X >1,5), daprs la table on lit directement cette
probabilit. p(X >1,5)=0.0668
Deuxime situation : XN (1 ; 0,5)
Calcule par exemple de p(X >1,5). Dans ce cas on devrait centrer et rduire la
variable alatoire X. Soit 1
5 , 0
1 5 , 1
= =

t
m X
o

Donc P(X>1,5) =P(t>1)=0.1587
*Utilisation de la table donnant la probabilit pour les valeurs
infrieures P(X<u)
Premire situation : XN (0,1)
Calcule par exemple de p(X <2,15), daprs la table on lit directement cette
probabilit. p(X <2,15)=0.9842
Deuxime situation : XN (2 ; 1,3)
Calcule par exemple de p(X= 2,15). Dans ce cas on devrait centrer et rduire la
variable alatoire X. Soit 1153 , 0
3 , 1
2 15 , 2
= =

t
m X
o

Donc P(X>2,15) =P (t>0,1153)=0.4562

* Soumission du calcul des probabilits lune des deux tables.
Soit XN (3 ; 2), Calculer P(X<2,16)
= > = < =

<

) 42 , 0 ( ) 42 , 0 ( )
2
3 16 , 2 3
( t P t P
X
P
o
0.3372 (Car la courbe est symtrique).
3 : Distribution dchantillonnage
Les valeurs caractristiques calcules dans un chantillon (moyenne, variance, coefficient de
variation) sont appeles statistiques, par contre ces mmes valeurs caractristiques dune
population sont appeles paramtres et elles sont constantes. Donc une statistique est une
variable qui prend une valeur diffrente dun chantillon lautre.
Les statistiques sont reprsentes par des lettres majuscules et les paramtres par des lettres
minuscules :

2 2
; ; ; o S X
a) infrence statistique.
La distribution dchantillonnage reprsente une distribution de probabilit dune statistique
pour une infinit dchantillons de tailles n prlevs dune mme population. On aura donc
une distribution dchantillonnage de la moyenne de la variance et de la proportion.
9
A partir de la distribution dchantillonnage dune statistique on peut estimer les paramtres
dune population inconnues cest ce quon appelle infrence statistique, plus la taille de
lchantillon est importante meilleure est lestimation.
b) Distribution dchantillonnage de la moyenne :
Si X est une variable alatoire quelconque considre dans une population de moyenne et
de variance o, la distribution des moyennes
i
X de lchantillonnage de taille n prlevs de
cette population tend vers une variable alatoire normale de moyenne et de variance o/n.
10
Illustration :
Pour bien illustrer le problme on prend un exemple trs simple : Ltude des notes de
statistique dune population constitue de 20 Etudiants combien y a il de faons
diffrentes de choisir un chantillon alatoire de 4 Etudiants sans remise ?
Rponse : 4845
1 * 2 * 3 * 4
17 * 18 * 19 * 20
4
20
= = C chantillons diffrents
Pour chaque chantillon il sensuit de calculer une moyenne et une variance qui seront au
nombre de 4845.
Dans le cas gnrale si on prend une population finie respectivement (infini) on prlve n
chantillon respectivement une infinit dchantillons. Et pour chaque chantillon on calcule
une moyenne
i
X ces moyennes comme on va le montrer seront autour de la vraie moyenne
de le population.
c) Principe de la distribution des moyennes
Soient E
1
; E
2
..E
n
n chantillons de taille n prlevs de la population finie de moyenne
et dcart type o
2
. Pour chaque chantillon on calcul la moyenne arithmtique. On obtient
ainsi
1
X ,
2 i
X
in
X . Cette srie de moyenne arithmtique constitue ce quon
appelle distribution dchantillonnage des moyennes.
11
Dfinition :
La distribution d'chantillonnage des moyennes consiste en la
distribution des moyennes arithmtiques de tous les chantillons possibles de taille donne n
pouvant tre forms partir de la population.
Cette distribution des moyennes aussi une moyenne, note,
X
et un cart type not
1
X
o
Calcul de
X
et de
1
X
o
Lesprance mathmatique de la distribution des moyennes est E(. ) X
X E X nE
n
X E X E X E
n
X E X E X E
n
X X X E
n
X E
n n
X
E X E
n
n i
i
= = =
+ + + = + + + =
+ + = = =

) ( ) ( *
1
) ( ........ ) ( ) ( [
1
)] ( ...... ) ( ) ( [
1
) ...... (
1
) (
1
) ( ) (
2 1
2 1

Les observations Xi sont indpendantes et identiquement distribues donc elles ont la mme
esprance mathmatique.
On conclue que La moyenne de la distribution d'chantillonnage des
moyennes est gale exactement la moyenne de la distribution de la
population, i.e. = ; ou encore les moyenne des chantillons fluctuent
autour de la vraie moyenne Cette fluctuation peut tre apprcie par la
variance des moyennes des chantillons.
Calcul de Variance des moyennes note Var( ) ( X
n
n
n
n
X Var
X Var X Var X
n
X Var
n
X Var
n
X
X
X
n
i
i
o
o
o o
o o o
=
= =
+ + + =
+ + + =
= =

: type cart d' terme En


i.i.d sont X les puisque
n
1
) X Var(
i
2
2
2
2
2 2 2
2 1 2
2
) (
) ....... (
) ( .... ) ( ) [var(
1
) (
1
) (

La variabilit avec laquelle les moyennes de tous les chantillons de taille n se dispersent
autour de est gale o2/n . Plus n est grand, moins il y a de variabilit autour de
Remarque : le tirage dun chantillon alatoire peut se faire avec ou sans remise :
Dans le cas dun tirage avec remise :
X
= () et
X
o =
Dans le cas dun tirage sans remise :
n
o
12
X
=() et
X
o
=
1
*

N
n N
n
o
cette dernire quantit sappelle facteur dexhaustivit.
d- Relation entre n et
X
o
* Ces deux expressions montre que lcart type de
X
o diminue au fur et mesure que la taille
de lchantillon agrandit, cela signifie que plus que la taille de lchantillon augment plus
lerreur type est petit et les moyennes chantionnales sont proche de la moyenne de la
population.
* Le facteur dexhaustivit tend vers 1 lorsque N devient trs grand et par consquent lorsque
la population est infinie on a simplement
X
o =
* Lorsque n= N,
X
o =0, donc il ny a pas derreur type
* l'autre extrme, si on prenait un chantillon de taille minimale, i.e. n = 1, le taux d'erreur
serait gal la dispersion des donnes dans la population puisque
X
o =
1
*

N
n N
n
o
=o
Exemple 1 :
Soit une population de moyenne = 12 et dcart type o =2,6. Si on tire avec remise plusieurs
chantillon de taille n= 10 et on calcul chaque fois la moyenne de lchantillon. Comment
fluctuent les moyennes de ces chantillons. ?
Rponse : Les diffrentes moyennes calcules fluctuent autour de 12 avec un cart type de
0,7505
Exemple 2 :
Une population comporte 4 individus dont les masses sont respectivement de 3, 7, 11 et 15 kg.
On considre tous les couples quil est possible dextraire de cette population sans remise.
Vrifier les relations entre la moyenne de la population et la moyenne de la distribution
dchantillonnage de la moyenne et entre lcart type de la population et lcart type de
distribution dchantillonnage de la moyenne.
Rponse :
La moyenne 9 = =

n
X

i

L'cart type = 164 , 5
) (
2
=

=

n
X
i
o
Les diffrents chantillons sont :
(3,7); (3;11); (3;15); (7,11); (7;15); (11;15).
La distribution d'chantillonnage de la moyenne :
X
1
= 5; X
2
=7; X
3
=9; X
4
9= X
5
=6; X
6
=13.
La moyenne des moyenne =
X
=8,16.
10 , 2
6
164 , 5
= = =
n
X
o
o
n
o
13

X ~
la non adquation s'explique par un l'erreur type qui est relativement important du fait
de l'importance de la variance de la population..
Exercice:
Selon une enqute, lge moyen daccs Internet pour les grandes firmes du secteur
transport est de 12,4 ans avec un cart-type de 3,2 ans. On prlve un chantillon alatoire de
64 entreprises de la base initiale.
1)Quels sont les paramtres de la distribution dchantillonnage de la variable alatoire sur
lge moyen daccs Internet?
2) Quelle est la probabilit pour que, dans lchantillon de taille n=64, lge moyen daccs
Internet soit infrieur 11,8 ans ?
3) Quelle est la probabilit pour que lge moyen daccs Internet soit compris entre 11,4 et
13,4 ans ?
Rponse :
1) Les paramtres de la distribution dchantillonnage de la variable alatoire:
) 4 , 0 ; 4 , 12 ( ) ; ( N X
n
N X
o

2- Calcul de probabilit
0668 , 0 ) 5 , 1 (
) 5 , 1 ( )
4 , 0
4 , 12 8 , 11
( ) 8 , 11 (
= > =
< =

<

= <
Z P
Z P
X
P X P
X
o

3-
9876 , 0 1 ) 5 , 2 ( 2
)] 5 , 2 ( 1 [ ) 5 , 2 ( ) 5 , 2 ( ) 5 , 2 (
) 5 , 2 ( ) 5 , 2 ( ) 5 , 2 5 , 2 (
)
4 , 0
4 , 12 4 , 13
4 , 0
4 , 12 4 , 11
( ) 4 , 13 4 , 11 (
= < =
< < = > < =
< < = < <
=

<

<

= < <
Z P
Z P Z P Z P Z P
Z P Z P Z P
X
P X P
X
o

e) Distribution dchantillonnage de la Variance
Partant du mme principe du cas de la distribution des moyennes c'est--dire on prlve n
chantillons alatoires partir dune population normale et on calcul la variance (s) de chaque
chantillon on obtient donc une distribution dchantillonnage des variances qui a elle-mme
une moyenne et un cart type. A noter galement que la variance est une variable
alatoire par ce quelle varie dun chantillon lautre.
Sans dmonstration, la moyenne de la distribution dchantillonnage des variances not :
) (
2
s E est telle que :
2 2
1
) ( o
n
n
s E

=
Lcart type de la mme distribution est gal :
2

) 1 ( 2
o
n
n

14
f) La loi de probabilit de (La forme de la distribution dchantillonnages des moyennes)
Thorme central limite
4

Si la taille n de l'chantillon est suffisamment grande (disons n 30), la distribution
d'chantillonnage des moyennes s'approche d'une distribution normale et ce, quelle que soit
la distribution de la population,
Si la distribution de la population est normale, alors la distribution d'chantillonnage des
moyennes est une distribution normale, quelle que soit la taille de l'chantillon.
Si n < 30, on ne peut rien dire si la distribution de la population nest pas normale.
Exercice : Quelle est la forme de la distribution dchantillonnage de la moyenne si la
population analyse obit une loi normale ? Si elle nobit pas une telle loi.
Rponse : la forme de distribution des moyennes est en relation avec la taille de lchantillon
et la forme de distribution de la population.
- Si la population est normale, quelque soit la taille de lchantillon alors les moyennes
arithmtiques sont distribues normalement.
- Si la population est quelconque, il faut que la taille de lchantillon soit suffisamment grande
pour que la distribution des moyennes soit normale. Autrement elle nest pas normale.
Exercice:
Le revenu moyen d'un chantillon reprsentatif de 16 mnages s'lve 62 000 F net par
mois, avec un cart type de 16 000 F. a) Quelle est la probabilit que le revenu moyen de
l'ensemble de la population soit infrieur 60 000 F ?
b) Quelle est la probabilit que le revenu moyen de la population soit infrieur 65 000 F ?
Solution :
a) le revenu est infrieur 60 000.

< 60 000 : s'carte de de plus de 0,5
on prend la valeur de la table
Prob = 0,309 = 30,6 %
b) le revenu est infrieur 65 000.

4
Ce thorme est trs important
15

< 65 000 : ne s'carte pas de de plus de 0,75 vers le haut
on prend la valeur P de la table et on calcule 1-P
P = 0,227
1-P = 0,773 = 77,3 %
Exercice
A- Une organisation de consommateurs dsire savoir si le poids rel des pains de 800 gr
produits dans une boulangerie est bien conforme au poids annonc. Pour cela, elle prlve 100
pains au hasard. Elle obtient un poids moyen de 780 gr, avec un cart type de 80 gr. Quelle est
la probabilit que le boulanger triche en moyenne sur le poids de ses pains ?

Il n'y a pas tricherie si est de 800 gr ou moins, c'est--dire 20 gr au-dessus de .

D'aprs la table, la probabilit que soit suprieur d'au moins 2,5 est de 0,006.
100 - 100 0,006 = 100 - 0,6 = 99,4 %
Il y a 99,4 % de chances pour que le boulanger triche
on peut raisonnablement conclure la tricherie
B- Dans une autre boulangerie, l'chantillon de 100 pains conduit au rsultat suivant :

D'aprs la table, la probabilit que soit suprieur ou gal 800 gr est de 0,159
Il y a donc 84,1 % de chances que ce boulanger triche
Mme si il la prsomption est forte, ce n'est pas suffisant pour conclure la tricherie !
C- Dans une troisime boulangerie, on obtient :
gr
50gr s X
X
5
100
50
n
s
; gr 810 ; 100 n
= = =
= = =
o

16
2
5
810 800
Z =

=
D'aprs la table, la probabilit que soit infrieur ou gal 800 gr est de 0,023
Il n'y a que 2,3 % de chance que le boulanger triche. On peut conclure qu'il est honnte !
Exercice : Une population normale dtudiants une taille moyenne de = 69cm et un cart
type (o=3,22 cm. Si un chantillon alatoire de taille n =10 individus est prlev, quelle est la
probabilit pour que la moyenne de lchantillon scarte de 2 cm de la moyenne de la
population .
Rponse
Calcul de ) 71 67 ( < < X P ;
On centre et on rduit, on obtient :
X X X X
X
P
X
P
o o o o o o
69 71 69 67
( )
71 67
(

<

<

<

<


) 964 , 1 964 , 1 (
10
22 , 3
69 71
10
22 , 3
69 67
( <

<

<

<

X X
X
P
X
P
o o

) 1 , 0 ( ) , ( N
X
n
N X
X


o
o

Soit P(-0,96<Z<1,96) = 1-2 P(Z<1,96) = 0,95

Section 2 : Estimation
1 : Principe et proprits des estimateurs
1-Principe de lestimation
Rappelons que la moyenne de la population et sa variance o sont constantes bien
quelles soient gnralement inconnues. Alors que la moyenne de lchantillon
i
X et sa
variance s sont (des statistiques) ou des variables alatoires.
Revenons au problme dinfrence statistique
5
comment une population peut tre
estime par un chantillon cest dire comment et quand peut-on affirmer sans trop
derreurs que les statistiques calcules sur un chantillon expriment les vraies valeurs des
paramtres de la population ?
Exemple : le salaire moyen des employs de lEtat (population) est inconnu, pour faire une
approximation de ce revenu moyen, on prlve un chantillon de taille n suffisante et on
effectue le calcul, on conclue donc que le salaire moyen calcul est approximativement le
mme que le vrai salaire si le calcul tait effectu sur la population. Le fait de dire
approximativement le mme signifie que l'on a procd l'estimation du paramtre (qui est
la moyenne) de la distribution de la population mais avec une marge derreur.

5
Voir en haut
17
Dduction :
- Le salaire moyen calcul sur lchantillon est un estimateur du salaire moyen de la
population qui est inconnu.
-la valeur particulire du salaire moyen trouve est une estimation.
Dfinitions :
LEstimateur est un indice statistique utilis pour estimer un paramtre de la population
Estimation: la valeur particulire de l'indice statistique est une estimation du paramtre de la
population.
Dans ce qui suit on ne traite que lestimation de la moyenne de la population par la
moyenne arithmtique de lchantillon
i
X et de la variance de la population o par la
variance de lchantillon s. Un tel estimateur est dit bon sil vrifi les proprits suivantes.
2- Proprits des estimateurs
Soient u un paramtre de la distribution, dont la vraie valeur u
0
est inconnue et
.
u un
estimateur de u.
1
re
proprit : Absence de biais (sans biais)
u u u =
.
)

E( si de biais sans estimateur un est


Si l'estimateur a la mme moyenne que le paramtre estimer, on dit que cet estimateur est
non biais. Dans le cas contraire, on dit qu'il est dit biais.
Le biais = u u - ) E(
.

Un estimateur est dit asymptotiquement sans bais si, lorsque la taille de lchantillon croit
indfiniment u u )

( E c'est dire u u =
.
+
) ( lim E
n

2
me
proprit : La convergence
Un estimateur
.
u est dit convergent s'il tend en probabilit vers 0 lorsque n tend vers +;
0 ]

P[ , 0 = > > c u u c
Remarque 1: Pour montrer q'un estimateur sans bais est convergent il suffit de montre
que sa variance tend vers zro lorsque n tend vers plus l'infini
Remarque 2: un estimateur sans biais convergent est dit absolument correct.
3
me
proprit : Efficacit des estimateurs non biaiss : Variance minimale
S'il l'on dispose de deux estimateurs sans bais et convergents d'un mme paramtre, le plus
efficace est ce lui qui a la plus faible variance.
2 : Estimation ponctuelle
a) Estimation de la moyenne de la population
La moyenne de lchantillon
n
X est un bon estimateur de la moyenne de la
population car il vrifie les trois proprits.
* E(
n
X ) =
18
* 0
) (
lim ) ( lim = =
+ +
n
X Var
X Var
n n

* on peut montrer que la variance de lchantillon est la plus petite variance de diffrentes
caractristiques de tendance centrales, donc efficace.
b) Estimation de la variance de la population gaussienne
Dans ce paragraphe, on va prsenter les rsultats sans dmonstration
B1) La moyenne est connue
Au niveau de la population, la variance est o :
n
Xi
T X V


= =
2
2
) (
) ( = o
On peut Montrer que E(T) = o et V(T) tend vers zro donc T est un sans bais et efficace.
Dmonstration
2 2 2
2 2
2 2
2 2 2
2
2
2
) ( )] ( [ ) (
)] ( [ ) ( [
)] ( [ ) ( (
1
2 ) (
1
] ) ( 2 ) ( [
1
) 2 (
1
) (
o = = =
=
=
+ =
+ =
+ =


X Var E X E
E X E
n
n
E n X nE
n
n n X E
n
X E X E
n
X X E
n
T E
i
i
i
i
i
i
i i

b2) la moyenne est inconnue
Au niveau de lchantillon la variance est donne par :

=
2 2
) (
1
X X
n
S
i
; S est un estimateur biais de la variance o mais asymptotiquement
sans biais.
Preuve :
2 2
1
) ( o
n
n
S E

= Donc S est biais,
Le biais = E(S)-o
2 2
1
o o

=
n
n

2 2
1
)
1
1 ( o o
n n
n
Biais

=

+ = ; Le biais tend vers 0 lorsque n tend vers + donc S est


un estimateur asymptotiquement sans biais de o.

19
Pour avoir un estimateur sans biais de o que lon note par
2
.
S on devrait multipli S par
1 n
n
ce qui donne
1
) (
1
*
) (
1
2 2
2
2

=

.
n
X X
n
n
n
X X
n
n
S S
i i

Alors, dans ces conditions :
- S est un estimateur sans biais car
2 2 2
2
) (
1
)
1
( ) ( o =

=
.
S E
n
n
S
n
n
E S E
- 0 ) ( lim =
.
+
S E
n
donc convergent.
Conclusion : La variance de lchantillon S est un paramtre adquat mais biais, la variance
de lchantillon
2
.
S
est la fois non biais et convergent.
Remarque :
Quand n est grand ) ( ) (
2
2
S E S E ~
.
on prfre donc S
2
.
S Quand n est petit on prfre
2
.
S .
Remarque : Estimation ponctuelle: estimer le paramtre par une valeur unique (peu utile
parce que cette estimation est peu probable et qu'elle ne donne aucune valuation de la
prcision de l'estimation).
3 : Estimation par intervalle
En ralit les paramtres de la population ne concident pas exactement avec les statistiques
calcules sur un chantillon. Il y a donc un cart entre eux. Cest pour cette raison quon
devrait construire un intervalle destimation appel intervalle de confiance qui peut contenir la
vraie valeur du paramtre de la population. Cet intervalle est estim en fonction dun
coefficient de risque o qui reprsente la probabilit de se tromper lorsquon affirme que la
valeur du paramtre, dans la population statistique, se situe lintrieur de lintervalle donn.
L'intervalle de confiance un risque de 5% s'interprte comme suit : Sur 100 chantillons
alatoires, 5 parmi eux n'encadrent pas la vraie valeur du paramtre de la population.
Autrement dit si on construit 100 intervalles de confiance, 5 parmi eux ne contiennent pas la
vraie valeur du paramtre de la population.
Dans se qui suit on se limitera aux intervalles de confiance des paramtres moyenne et
variance.
1- Estimation par intervalle : cas de la moyenne
Les cas distinguer sont :
Taille
d'chantillon
Loi de
population
Ecart type de
population o
Loi des moyennes
chantillonnales
1
er

cas
n>30
grands
chantillons
Quelconque
Connu
Normale
Inconnu (estim) Normale
2
me

cas
ns30
Petits
Gaussienne Connu
Normale
20
chantillons Inconnu (estim) Student
Non
gaussienne
------ -----
a) Cas ou la taille de lchantillon n est grande, (n > 30)
Suivant le thorme central limite, Il nest pas ncessaire de supposer que la population est
gaussienne, mais il suffit de distinguer uniquement le cas o o est connu et le cas o o est
inconnu.
- cas o o est connu.
Si XN(0,1) ou si n est grand alors X N(,

) on centre et on rduit X on obtient :

) 1 , 0 ( N
n
X

o

, lintervalle de confiance au seuil o est donne par :
1 ) ( = +


n
X
P
o

Pour un niveau de certitude moins que 1, fixons le 0,95 par exemple alors:
95 , 0 ) ( =

Z
n
X
Z P
o
;
D'aprs la table de la loi normale "probabilit connue recherche de t" la valeur de Z est de
1,96, d'o: 95 , 0 ) 96 , 1 96 , 1 ( =


n
X
P
o

Lencadrement de sobtient donc par :

95 , 0 ) 96 , 1 96 , 1 (
95 , 0 ) 96 , 1 96 , 1 (
= + s s
= +


n
X
n
X P
X
n

X P
o o
o


L'intervalle de confiance contenant est I.C = ] 96 , 1 ; 96 , 1 [
n
X
n
X
o o
+


Pour la moyenne d'un seul chantillon, il est possible d'encadrer la moyenne avec un risque
de 5%
D'une faon gnrale, un niveau de confiance 1-o , l'intervalle de confiance est :
o
o

o o
= <

<

1 ) (
2
1
2
1
Z
n
X
Z P

o
o

o
o o
= + < <

1 ) (
2
1
2
1
n
X
n
z X P
Pour un niveau de confiance (1-o) donn les valeurs de Z correspondantes sont donnes par la
table de la loi normale.
n
o
21
(1-o) 0,99 0,95 0,90
Z 2,58 1,96 1,44
Exemple :
Un chantillon alatoire de 64 lves est extrait dune population qui se prsente un
concours dentre luniversit. La note moyenne de lchantillon est de 13 avec un cart
type de la population de 5. Dterminer lintervalle de confiance 95% pour la note moyenne
de la population
Rponse :
On a un chantillon gaussien donc :
)
8
5
; 13 ( ) ; ( N X
n

N X >
La probabilit pour que lintervalle contenant la moyenne de la population est de 95% ce
qui se traduit par :
95 , 0 ) (
95 , 0 ) (
2
1
2
1
2
1
2
1
= < <
= <

<


n

z X
n

z X P
z
n
X
z P



La valeur de
2
1

z

avec o =5% est donne par la table de la loi normale, elle est gale 1,96.
Signification : pour o =5%,
2
1

z

=
997 , 0
z signifie quelle valeur de z correspond une
probabilit de 0,997. Daprs la table z=1,96
On remplace
997 , 0
z et
n

par leur valeur dans lquation suivante, et on dduit lintervalle.


95 , 0 ) (
2
1
2
1
= < <

n

z X
n

z X P


] 225 . 14 ; 775 . 11 [ ]
8
5
* 96 , 1 13 ;
8
5
* 96 , 1 13 [ = + = I
Donc lintervalle contient la vraie moyenne de la population avec une probabilit de 95%.
- cas o o est inconnu.
Dans ce cas on devrait estimer la variance de la population o par :
2 2 2
1

S
n
n
S que tel S

=
Si XN(0,1) ou bien n est grande alors: Z= ) 1 , 0 (
/
N
n S
X


Lintervalle de confiance pour la moyenne au seuil o fix d'avance est donne par :
22
o
o o
= + < <
.

1 ) (
2
1
2
1
n
S
X
n
S
z X P
Exemple :
Un chantillon alatoire de 64 lments a une moyenne de 50 et un cart type de 20 est tir
dune population de 800 lments. Etablir une estimation par intervalle pour la moyenne de
cette population, telle que nous soyons assurs 95% que lintervalle inclut ladite moyenne.
Que signifie ce rsultat.

Rponse :
Lchantillon est grand donc la distribution de lchantillon est gaussienne de paramtres :
) 20 ; 50 ( ) ; ( N X N X
X
>
Puisque o est inconnu on lestime par :
2 2 2
1
S
n
n
S que tel S

=
. .

Do 15 . 20 3992 . 406
2
= =
.
.
S S do lintervalle :
o
o o
= + < <
.

1 ) (
2
1
2
1
n
S
X
n
S
z X P
un seuil de o =5%
IC
c
= [45.6112 ; 54,9387]
b) Cas ou la taille de lchantillon n est petite, (n s 30)
Dans ce cas il y a lieu de distinguer le cas de la population gaussienne et quelconque ainsi que
le cas de o est connu et le cas o inconnu.
- Cas ou la population est normale (gaussienne)
Soit X une variable alatoire suivant une loi N (, o),
* o est connu :
Daprs ce quon a mentionn ci-dessus ) ; (
n
N X
o

do ) 1 , 0 ( N
n
X

o


On se fixe le risque o et on cherche dans la table de la loi normale la valeur que telle z
2
1
o

:
o
o
o o
=


1 ) (
2
1
2
1
z
n
X
z P Aprs calcul on obtient le mme intervalle que
prcdemment : o
o

o
o o
= + < <

1 ) (
2
1
2
1
n
X
n
z X P .
Exemple :
N=15, o =3,75 ; o =5%, 160 =

X , 96 , 1
975 , 0
2
1
= =

z z
o

On suppose que la population est gaussienne lintervalle de confiance est :
] 90 . 161 ; 10 . 158 [ ]
15
75 , 3
96 , 1 160 ;
15
75 , 3
96 , 1 160 [ = + =

I
23
* o est inconnu :
Dans ce cas on devrait estimer la variance de la population o par
2 2 2
1
S
n
n
S que tel S

=
. .

1 1
1
:
2
2
2
2

=
.
n
S
n n
S
n
S
n
n
n
S
devient
n
o o

et par consquent :
1
:


n S
X
devient
n
X
o
.
On peut montrer que si XN(0,1) et n<30 alors
1

n S
X
Suit une loi de student (n-1) degr de libert note :
1
1

n
t
n S
X

On cherche dans la table de la loi de student, sachant que o tant fix, la valeur t
n-1 (1-o/2)
telle
que :
o
o o
=


1 ) (
)
2
1 ( 1 )
2
1 ( 1 n n
t
n
S
X
t P , tout calcul fait, la moyenne se trouvera encadre
comme suit :

n
S
t X
n
S
t X P

n

n
=


1 )
1 1
(
)
2
1 ( 1 )
2
1 ( 1

Remarque : Dans le cas dune population quelconque avec une taille de lchantillon n < 30
on ne peut rien conclure.
c- Dtermination de la taille de l'chantillon
Lorsque l'on crit l'intervalle
2
1
o

Z X < <
2
1
o

+ Z X
La forme des bornes est :
X
Z X o c'est--dire c X avec c la marge d'erreur.
Or
2
2 2
2
2
1
2
2
1
) (
c
o o
c
o
c
o o
Z
n
n
Z
n
Z > > >


3- Estimation par intervalle : cas de la variance
Lintervalle de confiance pour le cas de la variance fait appelle une nouvelle loi statistique
qui est la loi de Khi-2.
Rappel :
Soient X
1
, X
2
, X
3
, ..X
n
, n variables alatoires indpendantes centres et
rduites. La somme au carr des Xi not X telle que:
2 2
2
1
2
2
1
2
.........
n
n
i
i
X X X X + + + = =

=

Suit une loi appele loi de Khi - 2 n degr de libert. Les valeurs de Khi2 ayant la
probabilit P dtre dpasse sont donnes par la table statistique de Khi2.
24
La distribution de Khi2 est dissymtrique (voir figure ci-dessous) elle tend devenir
symtrique lorsque n augmente, elle se rapproche distribution normale lorsque n>30.

Estimation de la variance (suite)
Par hypothse, la population est gaussienne, donc X N( ;o), dans le cas de lestimation de
la variance par intervalle l'objectif recherch est d'encadrer la variance o. A cet effet, deux
ventualits peuvent survenir : la moyenne est connue ou inconnue.
25
* Cas o la moyenne est connue (rare)
2
1
2
2
1
2
) (

= =

= =

=
n n
2
i
2
i
2
) (X
variance la de estimateur bon un est
n
) (X
T
i
i
i
X nT
nT
o o

Puisque
somme une est ) ( ) , (
2
1

=

n
i
i i
X
alors N
X
o
o
o


2
2
2
nT
: donc et normale loi la suivant alatoire s n variable de
n
_
o
Lerreur o tant fix, on
cherche dans la table de
2
n
les valeurs
)
2
(

n
k telles que :
] ; [
1 ) (
1 ) (
2
1 ) ( :
1 ) (
)
2
( )
2
1 (
2
)
2
(
2
)
2
1 (
2
)
2
(
2
2
)
2
1 (
2
2
)
2
1 (
2
2
)
2
(

n
k
n
T
K
n
T I

k
nT

k
nT
P
k

nT
P et

nT
P or
k

nT
k P

=
= < <
= < = <
= < <
Exemple :
N=10, =6 , T= 4,2 ; k
10(0.025)
=20,5 et k
10(0,975)
= 3,25
] 92 . 12 ; 05 . 2 [ ]
25 . 3
2 . 4 * 10
;
5 , 20
2 , 4 * 10
[ = = I
* Cas o la moyenne est inconnue (plus frquent)

Puisque la moyenne est inconnue alors on ne peut calculer T, on va lestimer par S et
par consquent :
2
1

nS

On cherche dans la table de
2
1 n

les valeurs :
:
)
2
( 1 )
2
1 ( 1
que telles k et k

n

n

26
o o
o
o
o
o
o
o
o o
o
o
o o
= < <

= <
= <
= < <



1 )

(
2
)

(
2
1 )

(
1 )

(
)
2
1 ( 1 )
2
( 1
)
2
( 1
)
2
1 ( 1
)
2
( 1 )
2
1 ( 1
n n
n
n
n n
k
nS
k
nS
P
k
nS
P
k
nS
P
k
nS
k P

Do lintervalle de confiance de o au seuil o est:
] ; [
)
2
( 1
2
)
2
1 ( 1
2

n
k
nS
k
nS
I

= ou encore :
] ; [
)
2
( 1 )
2
1 ( 1

n

n
k
n
S
k
n
S I

=
Exemple :

= =
= = =
30
1
2
30
1
% 10 , 98295 , 1683 , 30
i
i
i
i
x x n
La Moyenne est inconnue on lestime par :

= = = 77 , 55
30
1683 1
i
X
n
X
Lcart type est inconnu on lestime par : 87 , 165
2 2 2
= =

X x S
i

K
29(0,05)=
42,6 et k
29(0,95)
=17,7
]
7 , 17
87 . 165 * 30
;
6 , 42
87 . 165 * 30
[ = I
Exercice :
On prlve 25 pices dans une production industrielle. Une tude pralable a montr que le
diamtre de ces pices suivait une loi gaussienne de moyenne 10mm et dcart- type 2mm.
Entre quelles valeurs a-t-on 95% de chances de trouver lcart type de ces pices ?
Rponse :
Il sagit ici dune estimation par intervalle de la variance, puisque la moyenne est inconnue
alors on travaillera avec la dernire relation qui est :
2
1

nS

Pour commencer il faut dterminer o et | telles que :
)

( )

( 85 , 0 )

( o
o
|
o
|
o
o < < = = < <
nS
P
nS
P
nS
P
).

( )

( |
o
o
o
> > =
nS
P
nS
P
27
: de valeurs les libert de degr 24
2 - Khi de table la dans cherche on ,

2
1 25
suit comme de et
donc
nS
que sait on
| o
_
o

= >
= >
05 , 0 )

(
90 , 0 )

nS
P

nS
P


On trouve : o = 15,650 et |= 36,415.
Alors: P(15,650<

nS
<36,415)=0,85
P(2,5054<S<5,8264)=0,85.
P(1,58<S<2,41)=085.
28
Exercices rcapitulatifs
Exercice 1 :
On a pes 15 Dauphins mles pchs au large des ctes marocaines. On suppose que pour cet
espce de Dauphins, les poids sont rpartis suivant une loi normale desprance et dcart-
type o. Ci-joint un chantillon de 15 valeurs obtenues :
1150, 1500, 1700, 1800, 1800, 1850, 2200, 2700, 2900, 3000, 3100, 3500, 3900, 4000, 5400
1) Donner un estimateur de et de o partir des donnes de lchantillon.
2) Construire un intervalle de confiance de de niveau de confiance 95%. Donner
lamplitude de cet intervalle.
3) Si n dsigne la taille dun chantillon, donner lamplitude de lintervalle de confiance de
pour un intervalle de confiance de niveau 95% en fonction de n.
4) On souhaite construire un intervalle de confiance de au niveau de confiance 95% ayant
une amplitude de 500 grammes. Quelle taille de lchantillon est ncessaire ?
Exercice 2:
Ayant mesur les poids en grammes de 1000 pots de confiture sortis successivement dune
machine conditionner, on a class les pots en 12 tranches de poids (chaque tranche est un
intervalle de longueur 2 grammes, la 1
re
est [2000, 2002), la 2
me
[2002, 2004), jusqu`a la
dernire [2022, 2024]). Les rsultats obtenus sont les suivants:

Tranche 1 2 3 4 5 6 7 8 9 10 11 12
Nombre de
pots
9 21 58 131 204 213 185 110 50 16 3 0
On admet que les poids X des pots sont des variables indpendantes de distribution N(;o ).
(a) Donner une estimation de et o.
(b) Donner des intervalles de confiance de niveau 95% et 99% pour .
Exercice 3 :
Pour un chantillon de 104 tudiants dune universit, on a not des dpenses hebdomadaires
moyennes pour la nourriture de 37 Dh avec un cart - type de 14,60 Dh
a) Construire un intervalle de confiance 95 % pour la moyenne des dpenses
hebdomadaires des tudiants de cette universit.
b) Quel serait le niveau de confiance dun intervalle de longueur 1 centr 37 Dh pour ces
dpenses hebdomadaires ?
c) Supposons que les dpenses hebdomadaires soient distribues normalement suivant une
loi normale avec variance connue
2
= 22,5. Quelle taille dchantillon suggriez-vous pour
que lintervalle de confiance 95 % pour ait une marge derreur dau plus 1% dh ?
Exercice 4 :
Une biochimiste tudie un type de pourriture qui attaque les cultures de bl. La toxine
contenue dans cette pourriture est obtenue sous forme dune solution organique. On mesure la
quantit de substance par gramme de solution. Sur 9 extraits on a obtenu les mesures
suivantes exprimes en milligrammes
29
1, 2 0, 8 0, 6 1, 1 1, 2 0, 9 1, 5 0, 9 1, 0
(a) Calculer la moyenne et la variance de cet chantillon.
(b) Dterminer un intervalle de confiance 95% pour la moyenne de la quantit de substance
toxique par gramme de solution (cette quantit de substance est suppose suivre une loi
normale).
Exercice 5 :
On souhaite estimer la concentration (en mg/ml) d'une substance dans l'urine chez une
population cible. Chez 25 volontaires, la concentration moyenne a t mesure gale
7mg/ml avec un cart-type de 2 mg/ml. Supposez que la distribution des concentrations dans
la population est normale et assimilez les 25 volontaires un chantillon alatoire.
(a) Construisez un intervalle de confiance 95% pour la concentration moyenne de la
substance dans la population.
(b) Construisez un intervalle de confiance 99% pour la variance des concentrations dans la
population.
(c) Quelle taille d'chantillon faudrait-il considrer pour s'assurer que la longueur de
l'intervalle de confiance 95% pour la concentration moyenne soit gale 5.

Exercice 6 :
Au contrle de la qualit d'un institut de beaut, on analyse le PH d'un certain parfum. On sait
que ce facteur maintien un aspect "normal" de moyenne 2,8. Afin de connatre sa variance, on
effectue un prlvement de 25 units de ce parfum dont on mesure le PH. Pour cet
chantillon, la valeur
de 0625 , 0 ) 8 , 2 ( ) (
2
de est ou X
i
= .
Donner l'intervalle de confiance permettra d'estimer la variance 99%.