Vous êtes sur la page 1sur 25

STATISTIQUE

COURS 10-11
LCHANTILLONNAGE OU LENQUTE
STATISTIQUE (LE SONDAGE)
2
Linfrence statistique
La recherche statistique suive dobtenir les informations qui
permettent la caractrisation quantitative des phnomnes de
masse.
Il y a deux faons d'obtenir ces informations, telles que: les
donnes peuvent tre collectes pour toutes les units qui
composent la collectivit tudi (enqute statistique totale) ou
de slectionner une sous collectivit pour lanalyser et pour tirer
des conclusions fondes sur les informations obtenues, de
gnraliser les rsultats pour lensemble de la collectivit ou
population (enqute statistique partielle ou sondage).
Dans les conditions conomiques et sociales d'aujourd'hui,
quand on a besoin des informations rapides, multiples et
complexes, la principale mthode pour obtenir des informations
statistiques tend devenir, pratiquement, l'chantillonnage
statistique, laide duquel on obtient des donnes empiriques
et, par une interprtation probabiliste, on estime les indicateurs
pour lentire population.
Linfrence statistique
La mthode des sondages alatoires est caractrise par le fait que
lchantillon est dsign de faon que chaque unit de la population ait
une probabilit connue, diffrente de zro, dtre retenue.
Trs souvent, en pratique, on affecte chaque unit de la population la
mme probabilit dappartenir lchantillon: la dsignation de celui-ci
peut tre assimile au tirage de boules dans une urne.
Les tirages peuvent tre excuts de deux faons diffrentes:
1. Avec remise dans lurne (tirages indpendants). Apres chaque tirage,
lunit qui vient dtre prleve est remise dans lurne avant de procder
la dsignation de lunit suivante. La composition de lurne reste inchange
et chaque unit de la population de rfrence peut tre dsigne plusieurs
fois par le sort.
2. Sans remise dans lurne (tirages exhaustifs). Lunit qui vient dtre
tire nest pas remise dans lurne dont la composition varie ainsi chaque
tirage. Chaque unit de la population ne peut tre choisie quune seule fois
et lchantillon est compose de n units diffrentes qui peuvent tre, par
consquent, dsignes dun seul coup.
3
4
Linfrence statistique
La mthode de sondage inclue deux tapes:
ltape descriptive, pendant laquelle on collecte les donnes
et on calcule les indicateurs qui caractrisent la sous-
collectivit analyse;
ltape de linfrence, pendant laquelle les rsultats obtenus
pour cette sous-collectivit sont gnraliss, en termes
probabilistes, pour lentire collectivit (population).

La slection statistique reprsente lopration dextraction dune
partie de la collectivit statistique, dune sous collectivit
surnomm chantillon, collectivit partielle ou collectivit de
slection.

On doit faire une premire diffrence entre la collectivit totale et
celle de slection. Evidement, la taille de lchantillon est
toujours plus petite que la taille de la collectivit gnrale (totale).

On va noter avec N la taille de la collectivit gnrale et avec
n la taille de la collectivit de slection, 1 s n s N-1.
5
Linfrence statistique
Population (collectivit gnrale) Echantillon
6
Linfrence statistique
Linfrence statistique est un processus par lequel on obtient des
informations et on tire des conclusions concernant la population
gnrale laide de lchantillon. Il y a deux mthodes principales
pour raliser cette infrence: lestimation et la vrification des
hypothses statistiques.
Lestimation signifie la dtermination de la valeur approximative
du paramtre provenant de la collectivit gnrale, en utilisant
lchantillon statistique. Par exemple, la moyenne de sondage est
utilise pour estimer la moyenne de la collectivit gnrale (elle est,
donc, un estimateur).
On peut utiliser les donnes provenant de lchantillon pour estimer
le paramtre en deux manires:
estimation ponctuelle (on calcule la valeur de lestimateur et
on considre cette valeur comme une valeur du paramtre (avec
l'augmentation de la taille de l'chantillon, les rsultats seront
plus prcis car ils sont bass sur plus d'informations);
estimation par intervalle de confiance.
7
Linfrence statistique
Pour raliser une estimation sur la moyenne par intervalle de
confiance il faut parcourir les tapes suivantes:
1. Le calcul des indicateurs de sondage
2. Lextension des rsultats du sondage sur la collectivit
gnrale
Le calcul des indicateurs de sondage suppose la dtermination:
- de la moyenne de lchantillon;
- de la variance moyenne de lchantillon;
- de lerreur moyenne de reprsentativit;
- de lerreur limite maximale admissible.

Lextension des rsultats du sondage sur la collectivit
gnrale suppose la dtermination dun intervalle de confiance
par un estimateur ponctuel- pour la moyenne de la collectivit
gnrale.
8
Linfrence statistique
Le calcul des erreurs pour le sondage simple alatoire dans le
cas dun chantillon indpendant (tir avec remise) et dun
chantillon exhaustif (tir sans remise)

1. Lcart-type (lerreur-type) de la moyenne (lerreur
moyenne de reprsentativit)
Dans le cas dune variable quantitative non alternative, pour estimer
le paramtre moyenne de la collectivit gnrale (

), il faut calculer la
moyenne de lchantillon ( x ).
Sur la base des valeurs observes x
1
, x
2
, , x
n
, pour un chantillon
alatoire simple, ayant la taille n, extrait dune population ayant la
taille N, la moyenne de sondage
n
x
x
n
i
i
=
=
1
est un estimateur non
biais de la moyenne

de la collectivit gnrale (population).



9
Linfrence statistique
La variance des moyennes de slection pour un chantillon
indpendant est n fois plus petite que la variance de la
collectivit gnrale et, dans la plupart de cas, parce que la
variance de la collectivit gnrale (o
2
) nest pas connue, elle
est estime laide de la variance de lchantillon:
n
s
s
x
x
2
2
=

Donc, la variance des moyennes de slection est inversement
proportionnelle avec la taille de lchantillon (n).
Dans le cas dun chantillon exhaustif, quand la variance
de la collectivit gnrale (o
2
) nest pas connue, la variance des
moyennes de slection est gale :
|
.
|

\
|

=
1
2
2
N
n N
n
s
s
x
x
Le facteur (N - n)/(N - 1), qui rduit la variance de
lestimateur en fonction de leffectif de lchantillon est appel
coefficient dexhaustivit.

10
Linfrence statistique
Lerreur moyenne de reprsentativit (lcart-typ de
la moyenne dun chantillon) dans le cas dun chantillon
indpendant est dtermine laide des donnes de
lchantillon:
n
s
n
s
s
x
x
x
= =
2


Parce que on a tir un chantillon de taille n par une
collectivit gnrale ayant N units, nous ne pouvons pas tre
sures 100% sur la valeur relle de la moyenne de la collectivit
gnrale. Toutefois, si l'chantillon a une taille normale ou
grande (n> 30 units statistiques), en utilisant le thorme
central limite (thorme de la limite centrale), on peut
construire un intervalle de confiance, pour le seuil de
probabilit 100 (1 - o)%, pour le paramtre - moyenne de la
collectivit gnrale.
Linfrence statistique
La thorme central limite permet dobtenir une approximation de la
distribution de la moyenne chantillonale , ou plutt de la moyenne
chantillonale standardise


don t la moyenne est 0 et la variance 1, quelle que soit la taille n de
lchantillon.
Dfinition TCL: La moyenne chantillonale standardise suit
approximativement une loi N(0,1) lorsque la taille de lchantillon est
suffisamment grande.
Le calcul de la variable normale rduite est approximatif correct si on
remplace lcart-type de la moyenne de la population , qui nest pas
connu, avec lcart-type de la moyenne de slection , respectivement
lcart-type de la population o avec lcart-type de lchantillon s
x
:



11
( ) x
n
x x
z
x
o

o

=

=
x
o
x
s
n s
x
s
x
z
x
x

~

~
12
Linfrence statistique
Lcart-typ des moyennes de slection pour un chantillon exhaustif est gal :



2. Lerreur limite
Pour un seuil de probabilit 100(1-o)%, dans le cas dun chantillon tir avec remise,
lerreur limite (maximale) admissible est gale :
n
s
z s z
x
/
x
/
x
2 2 o o
= = A
, o 2 /
z
o est largument de la fonction Gauss-Laplace et
dpend au seuil de probabilit (les valeurs de z se trouvent dans le tableau pour diverses
seuils de signification).
Ca signifie que dans 100(1-o)% cas, la moyenne de lchantillon ( x ) est biaise par
rapport la moyenne de la collectivit gnrale (

) au moins ou pas plus que z


o/2
multipli
par lerreur moyenne de reprsentativit
x
s
.
Dans le cas dun chantillon tir sans remise, lerreur limite (maximale) admissible
est gale :

N
n
n
s
z
N
n N
n
s
z s z
x x
x x
~

= = A 1
1
2 / 2 / 2 / o o o


N
n
n
s
N
n N
n
s
s
x x
x
~

= 1
1
13
Linfrence statistique
Lintervalle de confiance pour la moyenne

pour un chantillon
de grande taille (n > 30)
Lintervalle de confiance, calcul sur lerreur limite maximale admissible est,
dans le cas dun chantillon tir avec remise, gale :
n
s
z x
x
2 / o


qui contient la vraie valeur de la moyenne de la collectivit gnrale (

) dans
100(1-o)% parmi les cas.
Dans le cas dun chantillon tir sans remise, il est gale :
N
n
n
s
z x
x
1
2 / o

Le plus utilis seuil de probabilit est 0,95 ou 95% (z
0,025
=1.96), c'est--dire
P(-1,96<z<1,96)=0,95. Il y a aussi des autres seuils de probabilit qui peuvent
tre utiliss, comme, par exemple, 0,99 ou 99% (z
0,005
=2,58).
Le principe de base utilis cest de trouver un quilibre entre la taille de
lintervalle de confiance (un intervalle plus petit signifie une prcision augmente)
et la probabilit dinclusion du paramtre de la collectivit gnrale (un seuil de
probabilit augment peut tre prfr).
14
Linfrence statistique
Pour un chantillon ayant une taille normale ou plus grande, la taille relative
de lintervalle de confiance peut tre reprsente schmatique ainsi:

Intervalle de confiance pour 1-o=0,999

Intervalle de confiance pour 1-o=0,99

Intervalle de confiance pour 1-o=0,95

Intervalle de confiance pour 1-o=0,90




La taille relative de lintervalle de confiance pour un chantillon de grande taille

On observe que, avec laugmentation du niveau de confiance (du seuil de
probabilit), l'intervalle de confiance devient plus grand pour rpondre cette
exigence et la prcision de l'estimation se diminue.


15
Linfrence statistique
Lextension des rsultats du sondage sur l'ensemble de la
collectivit statistique sera ralise pour la moyenne de la
caractristique numrique analyse laide de lerreur
limite maximale admissible et de l'intervalle de confiance:
x x
x x A + < < A

Souvent, nous sommes intresss non seulement destimer,
en utilisant le sondage, la moyenne de la caractristique, mais,
aussi, le niveau totale de la caractristique dans la
collectivit gnrale (par exemple, lestimation par intervalle
de confiance de la masse totale des salaires, de la production
totale obtenue etc.).
L'intervalle de confiance pour le niveau totale de la
caractristique est gal :
) ( ) (
1
x
N
i
i
x
x N x x N A + < < A

=


16
Linfrence statistique
Exemple 1
Le directeur

d'un

htel

veut

estimer la dure

moyenne

de sjour

des touristes

sjournant

dans l'htel
.
Dans ce cas
,
il

slectionne

alatoire les donnes provenant de
registre de lhtel pour

80

touristes
,
pour lesquels il calcule

la

dure moyenne de
sjour,
, 8 , 4 jours x =

avec un cart-type
jours s
x
7 , 2 =
et veut estimer, par un intervalle
de confiance, pour un seuil de probabilit de 95%, la dure moyenne de sjour pour les
touristes sjournant dans lhtel.
96 , 1 , 80 , 7 , 2 , 8 , 4
025 . 0 2 / 05 . 0 2 /
= = = = = = z z z n jours s jours x
x o
jours
n
s
s
x
x
30 , 0
94 , 8
7 , 2
= = =
(Lerreur moyenne de reprsentativit (lcart-
typ de la moyenne de lchantillon))
jours s z
x x
59 , 0 30 , 0 96 , 1
2 /
= = = A
o (Lerreur limite (maximale) admissible)
x x
x x A + s s A
(Lintervalle de confiance)
59 , 0 8 , 4 59 , 0 8 , 4 + s s

jours 39 , 5 21 , 4 s s
(au seuil de probabilit de 95%).

Linfrence statistique
Lintervalle de confiance pour la moyenne m pour un chantillon de petite taille
(n < 30)
En conformit avec la thorme central limite, la distribution dchantillonnage de la
moyenne de slection, dans le cas des chantillons de grande taille (n > 30), est
approximatif normale.
Dans le cas des chantillons de petite taille (n < 30), si lcart-type de la population (o)
est connu et la population est normal distribue, lintervalle de confiance sera calcul
comme dans le cas des chantillons de taille normale ou grande parce que la distribution
dchantillonnage de la moyenne de slection est normale quand la population est
normale, nimporte pas la taille de lchantillon.
Si lcart-type de la population (o) nest pas connu et il est remplac par lcart-type
dchantillonnage (s
x
), la statistique est un statistique t (n-1) degrs de libert

(dans ce cas, la population doit tre normal distribue).
Lintervalle de confiance pour la moyenne m est gal :


Les valeurs de la statistique t

sont prises du tableau de la distribution Student, pour un
seuil de signification o /2 et (n - 1) degrs de libert.



17
n s
x
x

( ) ( )
n
s
t x
n
s
t x
x
n
x
n
+ < <
1 ; 2 1 ; 2 o o

18
Dtermination de la taille dun chantillon
La taille de l'chantillon pour le sondage alatoire simple avec remise

La prcision de lestimation et le seuil de probabilit pour une estimation par
intervalle de confiance sont inversement proportionnelles afin que ces objectives
doivent tre mis dans une relation dquilibre, en fonction du but de la recherche
statistique.
Souvent, le problme est abord sous un angle diffrent, afin que il faut
dterminer la taille de l'chantillon ncessaire pour la probabilit et prcision requise
par la recherche.
Pour dterminer la taille de l'chantillon, nous nous concentrons notre attention
sur trois facteurs:
- le niveau de confiance dsir;
- l'erreur limite permise;
- lhomognit des donnes, mesure par l'cart-type.

19
Dtermination de la taille dun chantillon
En gnral, nous pouvons exprimer la prcision requise, associe avec la taille de
l'intervalle de confiance pour la moyenne de la population (

) dans l'une des deux


faons quivalentes:

- nous pouvons spcifier lerreur limite maximale admissible (
x
A
), dans
lintervalle duquel nous voulons estimer la moyenne avec un seuil de confiance
(1-o). Cette erreur limite maximale admissible est gale la moitie de la
longueur de lintervalle de confiance (L);
- nous pouvons spcifier la longueur totale de lintervalle de confiance, L=2
x
A
.
Pour estimer le paramtre de la collectivit gnrale, avec un erreur limite maximale
admissible
x
A
ou, quivalent, sur un intervalle de confiance ayant la longueur totale L,
pour un seuil de confiance (1-o), la taille ncessaire de lchantillon est dtermine par
la solution d une des quations suivantes:
x
x
n
s
z A =
2 / o
ou
2
2 /
L
n
s
z
x
=
o


20
Dtermination de la taille dun chantillon
- La solution peut tre crite ainsi:
2
2 2
2 /
) (
x
x
s z
n
A

=
o
ou 2
2 2
2 /
) ( 4
L
s z
n
x

=
o
.
- Bien sr, ici aussi, s
x
2
est utilis comme une estimation du
2
x
o
, gnralement ,
inconnu. La valeur approximative du s
x
2
peut tre connue par un sondage antrieur.
Comme alternative, nous pouvons approximer ltendue des observations, A
x
, et,
aprs, en supposant quon a une distribution normale, nous pouvons calculer:
4 /
x x
A s ~

tenant compte du fait qu'une telle distribution, ayant une tendance normale,
environ de 95% des observations, c'est--dire la plupart d'eux sont inclues dans un
intervalle gal 4 multipli par l'cart-type.
Pour une distribution normale ou peu prs normale, environs 99,73% des
observations sont incluses dans un intervalle gal 6 multipli par lcart-type
( ). 6 /
x x
A s ~

La valeur de la taille de lchantillon, n, ainsi dtermin, sera, en tout cas,
arrondie au nombre entier suprieur (il y a des units statistiques), pour tre sres
que la taille de l'chantillon est suffisante pour obtenir la prcision dsire.
21
Dtermination de la taille dun chantillon
Exemple 2

Les vacances dhiver reprsentent la priode la plus importante pour les
sports dhiver, en particulier pour le ski, car nombreux enfants, tudiants
et adultes sont prts consacrer beaucoup de temps dans les
montagnes, pratiquant ce sport. Pour valuer son activit, le manager
d'une station de tlcabine veut estimer le temps moyen d'attente la
gare pour les clients, de l'arrive jusqu'au moment de lutilisation. Par
une recherche prcdente, il sait que le temps d'attente a une
distribution approximative normale avec un cart-type
min 18 =
x
s
.
Combien de clients doivent tre slectionns pour estimer le temps
moyen d'attente au seuil de probabilit de 95% pour un intervalle de
confiance de 10 minutes (

5 minutes)?
. min 5 2 / 10 2 / , 96 , 1 ., min 18
025 . 0 2 / 05 . 0 2 /
= = = A
'
= = = = L z z z s
x
x o
50 78 , 49
25
324 96 , 1
2
2
2
2
2
~ =

=
A'
=
x
x
s z
n
o
touristes.
Dtermination de la taille dun chantillon
La taille de l'chantillon pour le sondage alatoire simple sans
remise
- est calcule en partant de la formule de lerreur limite (maximale)
admissible:






Quand la taille de la population N est trs grande (N) les rsultats
concident et il rsulte que:




22
N
n
n
s
z
N
n N
n
s
z s z
x x
x x
~

= = A 1
1
2 / 2 / 2 / o o o
N
s z
s z
n ou
N s z
N s z
n
n s z N s z nN
N
n N
n
s
z
x
x
x
x x
x
x x x
x
x
2 2
2 2
2 2
2
2 2 2
2
2 2
2
2 2
2
2 2
2
2
2
2
2
2
o
o
o
o
o o o
+ A
=
A +
=
= A

= A
0
2 2
2
2
2 2
2
2 2
2 2
2 2
2

+ A
N
s z
que parce
s z
N
s z
s z
x
x
x
x
x
x o o
o
o
Dtermination de la taille dun chantillon
Exemple 3

Un chantillon alatoire, incluant 80 observations, a t slectionn sans
remise partir d'une population normalement distribu, ayant la taille N=800
units. A la suite des calculs a rsult la valeur moyenne de la caractristique
dans lchantillon et lcart type de lchantillon s
x
= 2,6.
1) Dterminez l'intervalle de confiance garanti avec une probabilit de 95%
pour la moyenne de la collectivit gnrale () et pour la valeur agrge de la
caractristique ;

2) Dterminer le volume de l'chantillon qui doive tre extrait une nouvelle
estimation si l'erreur limite est (la longueur de l'intervalle de
confiance est L = 0,6).

Solution:
1) Lerreur moyenne de reprsentativit

23
|
.
|

\
|

=
N
i
i
x
1
1 , 14 = x
3 , 0 = A'
x
276 , 0
800
80
1
80
6 , 2
1 = = =
N
n
n
s
s
x
x

Dtermination de la taille dun chantillon
100 (1-o)% = 95% z
/2
= z
0,025
= 1,96

Lerreur limite
Lintervalle de confiance pour le paramtre de la collectivit gnrale



Lintervalle de confiance pour le niveau total de la caractristique
tudie




800 13,56 < < 800 14,64

10848 < < 11712
24
54 , 0 276 , 0 96 , 1
2
= = = A
x x
s z
o
64 , 14 56 , 13
54 , 0 1 , 14 54 , 0 1 , 14
< <
+ < <
A + < < A

x x
x x

=
=
= =
N
i
i
N
i
i
x N
N
x
1
1

( ) ( )
x
N
i
i x
x N x x N A + < < A

=1

=
N
i
i
x
1

=
N
i
i
x
1
Dtermination de la taille dun chantillon

2)










units statistiques
25
N
n
n
s
z
N
n N
n
s
z s z
L
x x
x x
x
'

'
~

'

'
= = A'
= = = A'
1
1
3 , 0
2
6 , 0
2
2 / 2 / 2 / o o o
N
s z
s z
n ou
N s z
N s z
n
n s z N s z N n
N
n N
n
s
z
x
x
x
x x
x
x x x
x
x
2 2
2 2
2 2
2
2 2 2
2
2 2
2
2 2
2
2 2
2
2
2
2
2
2
o
o
o
o
o o o
+ A
'
=
'
A
'
+
=
'
'
= A
' '

'

'
= A
'
217 4 , 216
800
6 , 2 96 , 1
3 , 0
6 , 2 96 , 1
2 2
2
2 2
~ =

=
'
n