Académique Documents
Professionnel Documents
Culture Documents
et estimation
Sommaire
AVANT-‐PROPOS
...............................................................................................................................................
2
I-‐
Notion
de
variables
aléatoires
..................................................................................................................
4
1.
Les
caractéristiques
d’une
variable
aléatoire
discrète:
........................................................................
4
2-‐Les
caractéristiques
d’une
variable
aléatoire
continue:
............................................................................
5
II-‐
Lois
théoriques
discrètes
:
.......................................................................................................................
6
1.
Loi
de
BERNOULLI
.................................................................................................................................
6
2.
Loi
BINOMIALE
......................................................................................................................................
7
3.
Loi
de
POISSON
....................................................................................................................................
8
4.
Loi
géométrique
...................................................................................................................................
9
5.
Loi
hypergéométrique
.......................................................................................................................
10
III-‐
Lois
théoriques
continues
:
................................................................................................................
12
1.
Loi
normale
.........................................................................................................................................
13
2.
Loi
de
KHI-‐DEUX
..................................................................................................................................
18
2
Loi
de
STUDENT
..................................................................................................................................
20
3
Loi
de
FISCHER
SNEDECOR
..................................................................................................................
21
4
Théorème
centrale
limite
...................................................................................................................
23
II.
Echantillonnage
..........................................................................................................................................
24
1.
Comment
dénombrer
?
......................................................................................................................
24
2.
Terminologie
.......................................................................................................................................
24
3.
Méthodes
d’échantillonnage
..............................................................................................................
25
3.1
Echantillonnage
probabiliste
...........................................................................................................
25
3.2
Echantillonnage
empiriques
.......................................................................................................
28
4.
Détermination
de
la
taille
de
l’échantillon
.........................................................................................
28
4.1
Utilisation
de
l’inégalité
de
Bienaymé
Tchebychef
.........................................................................
28
4.2
Utilisation
de
la
loi
normale
........................................................................................................
30
5.
Distribution
d’échantillonnage
...........................................................................................................
34
III
Estimation
.................................................................................................................................................
37
1.
Estimation
ponctuel
............................................................................................................................
37
2.
Estimation
par
intervalle
de
confiance
...............................................................................................
42
IV
Exercices
...................................................................................................................................................
45
1
Echantillonnage
et
estimation
AVANT-‐PROPOS
Dans
ce
travail,
nous
voulons
présenter
les
principaux
concepts
de
l’introduction
à
la
statistique
mathématique
(inférentielle)
de
manière
intégrée
et
systématique
en
adoptant
une
démarche
pédagogique
qui
se
veut
centrée
sur
l’étudiant(e).
Cette
démarche
devrait
assurer
une
plus
grande
autonomie
d’apprentissage
et
développer
de
façon
concrète
des
aptitudes
à
l’analyse
statistique.
Le
calcul
des
probabilités
apporte
les
outils
nécessaires
aux
techniques
de
la
statistique
mathématique,
c’est-‐à-‐dire
les
modèles
qui
vont
être
utilisés
pour
décrire
des
phénomènes
réels
où
le
hasard
intervient.
La
statistique
est
un
ensemble
de
méthodes
permettant
de
prendre
de
bonnes
décisions
en
présence
de
l’incertain.
En
résumé
:
-‐ La
mise
en
ordre
des
données
relève
des
techniques
de
la
statistique
descriptive
(caractéristiques
numériques
ou
graphiques),
-‐ La
prévision
de
l’évolution
d’un
phénomène
réel’
à
partir
des
données
numériques
et
des
lois
de
probabilité
théoriques,
relève
de
la
statistique
mathématique.
Une
étude
statistique
pourtant
sur
tous
les
éléments
d’une
population
étant,
soit
impossible
à
réaliser
(trop
grand
nombre
d’individus
à
étudier),
soit
trop
onéreuse,
il
faut
obtenir
des
résultats
fiables
sur
les
caractéristiques
d’une
population
en
se
limitant
à
l’étude
des
éléments
ou
unités
d’u
échantillon.
Cet
échantillon
doit
non
seulement
donner
des
estimations
non
biaisées
des
paramètres
mais
permettre,
de
plus,
d’évaluer
la
marge
d’erreurs
dues
aux
fluctuations
d’échantillonnage.
L’objectif
de
l’échantillonnage
est
de
présenter
le
concept
d’échantillon
aléatoire
ce
concept
est
particulièrement
important
car
il
fonde
la
théorie
de
l’estimation.
Le
problème
général
est
le
suivant
:
on
souhaite
étudier
une
caractéristique
(appelée
aussi
caractère
ou
variable
statistique)
associée
à
des
individus
appartenant
à
une
population.
Pour
mener
à
bien
cette
étude,
on
a
deux
solutions
:
le
recensement
ou
l’échantillonnage.
La
solution
du
recensement
n’est
bien
évidement
applicable
que
lorsque
la
taille
de
la
population
est
étudiée
est
relativement
faible.
Par
exemple
à
l’époque
d’Adam
et
Eve,
un
recensement
reviendrait
à
peser
et
à
mesurer
ces
deux
individus.
Avec
deux
couples
de
mesures
(80kg/1,80m
et
55kg/1,60),
on
obtiendrait
une
information
complète
sur
le
poids
et
la
taille
de
la
population.
Toute
méthode
d’estimation
et
de
test
statistique
(inférence)
serait
alors
inutile.
Mais
aujourd’hui,
si
l’on
admet
qu’il
y
a
près
de
quarante
millions
de
français
ou
de
françaises
de
plus
de
18
ans,
on
imagine
facilement
que
le
recensement
est
de
fait
impossible
car
le
coût
est
trop
élevé.
Il
est
nécessaire
de
recourir
à
la
seconde
solution
:
l’échantillonnage.
L’intérêt
de
constituer
un
échantillon
est
d’étudier
les
caractéristiques
pour
les
individus
sélectionnés
dans
l’échantillon
afin
d’en
tirer
de
l’information
sur
ces
mêmes
caractéristiques
pour
l’ensemble
de
la
population.
Par
conséquent,
d’un
coté
la
dimension
de
l’échantillon
doit
être
suffisamment
importante
pour
que
l’on
puisse
obtenir
une
information
fiable
sur
la
population,
mais
d’un
autre
coté
elle
doit
être
la
plus
petite
possible
afin
de
limiter
le
coût
de
l’enquête.
L’objectif
d’une
estimation
est
de
révéler
de
l’information
sur
une
caractéristique
de
la
population
à
partir
d’un
échantillon.
On
construit
pour
cela
un
estimateur.
Un
estimateur
est
une
variable
aléatoire,
définie
comme
une
fonction
des
variables
de
l’échantillon.
La
démarche
du
statisticien
est
alors
la
suivante
:
on
commence
par
étudier
les
propriétés
de
l’estimateur.
Cela
revient
à
analyser
certaines
caractéristiques
de
sa
distribution
:
son
espérance,
sa
variance
etc.
l’idée
générale
est
de
vérifier
théoriquement
si
la
réalisation
de
cette
variable
aléatoire
a
une
grande
chance
2
Echantillonnage
et
estimation
d’être
«
proche
»
de
la
vraie
valeur
du
paramètre
que
l’on
souhaite
l’estimer.
On
peut
aussi
comparer
différents
estimateurs
afin
de
choisir
le
plus
performant
:
on
introduit
pour
cela
les
notions
d’estimateur
optimal
et
d’estimateur
efficace.
Une
fois
que
l’on
dispose
d’un
«
bon
»
estimateur,
on
l’utilise
pour
obtenir
une
estimation.
Une
estimation
ponctuelle
n’est
rien
d’autre
que
la
réalisation
de
l’estimateur
obtenue
à
partir
de
la
réalisation
de
l’échantillon,
c’est-‐à-‐dire
à
partir
des
données
statistiques
ou
des
observations.
Il
est
aussi
possible
de
fournir
un
intervalle
de
confiance,
c’est-‐à-‐dire
un
encadrement
sur
la
valeur
du
paramètre
que
l’on
souhaite
estimer.
Cet
encadrement
permet
de
rendre
compte
de
l’incertitude
autour
de
la
prévision
ponctuelle.
Cette
concept
de
l’estimation
se
situe
au
cœur
de
très
nombreux
domaines
d’application
dans
la
vie
courante
et
la
vie
des
entreprises
:
sondages
politiques,
enquêtes
d’opinion,
enquêtes
économiques,
méthode
de
scoring,
analyses
marketing
quantitatives,
modèles
de
prévision,
etc.
3
Echantillonnage
et
estimation
Une
variable
aléatoire
est
une
grandeur
numérique
attaché
au
résultat
d’une
expérience
aléatoire.
Chacune
de
ses
valeurs
est
associée
à
une
probabilité
d’apparition.
Exemple
On
jette
une
pièce
de
monnaie
deux
fois
et
on
s’intéresse
au
nombre
de
fois
que
pile
apparaît
au
cours
des
deux
jets.
On
à
quatre
résultats
possibles
:
PP,
PF,
FP,
FF
Exemple
Soit
une
agence
immobilière
qui
désire
se
lancer
dans
la
location
à
la
journée
de
studios
meublés.
Elle
étudie
la
demande
journalière
possible
X
de
location
durant
les
mois
de
juillet
et
août.
Elle
obtient
les
résultats
suivants
:
xi
0 1 2 3 4 5
p( X = xi )
0.05 0.1 0.2 0.3 0.25 0.1
Une
variable
aléatoire
peut
être
discrète
ou
continue
:
q Une
VA
est
dite
discrète
si
l'ensemble
des
valeurs
qu'elle
est
susceptible
de
prendre
est
fini
ou
infini
dénombrable.
q Une
VA
est
dite
continue
si
elle
peut
prendre
toute
valeur
à
l'intérieur
d'un
intervalle
donné.
En
règle
générale,
toutes
les
variables
qui
résultent
d’une
mesure
sont
de
type
continu.
On appelle loi de probabilité d’une variable aléatoire X l’ensemble des couples ( xi , pi ) / pi = p( X = xi )
F : ° → [0,1]
x a F ( x) = p ( X ≤ x)
4
Echantillonnage
et
estimation
On
appelle
espérance
mathématique
de
la
variable
X
et
on
note
E(X)
la
moyenne
des
valeurs
possibles
pondérées
par
leurs
probabilités.
E ( X ) = ∑ xi pi
1.4
Variance
On
appelle
variance
de
la
variable
aléatoire
X
le
nombre
réel
définie
par:
V ( X ) = E ( X 2 ) − E ( X )2
1.5
Ecart-‐type
On appelle écart-‐type de la variable aléatoire X, la racine carrée de sa variance.
∂ X = V ( X )
Exemple
Soit
une
agence
immobilière
qui
désire
se
lancer
dans
la
location
à
la
journée
de
studios
meublés.
Elle
étudie
la
demande
journalière
possible
X
de
location
durant
les
mois
de
juillet
et
août.
Elle
obtient
les
résultats
suivants
:
xi
0 1 2 3 4 5
p( X = xi )
0.05 0.1 0.2 0.3 0.25 0.1
On appelle fonction de densité de probabilité toute fonction satisfaisant aux 2 conditions suivantes :
5
Echantillonnage
et
estimation
1) ∀x ∈ ° f ( x) ≥ 0
+∞
2) ∫−∞
f ( x)dx = 1
Soit
X
une
VA
continue
et
f
sa
densité
de
probabilité.
La
fonction
de
répartition
de
X
est
la
fonction
F
telle
que:
FX : ° → [0,1]
t
t a FX (t ) = ∫ f ( x)dx
−∞
+∞
E( X ) = ∫ xf ( x)dx
−∞
2.4
Variance
+∞ +∞
V ( X ) = ∫ x 2 f ( x)dx − ( ∫ xf ( x)dx) 2
−∞ −∞
Il existe de nombreuses lois de probabilités, chacune s'appliquant dans des conditions bien particulières.
La
variable
de
BERNOULLI
est
une
variable
qui
prend
les
valeurs
0
et
1
avec
les
probabilités
respectives
q
et
p
avec
p
+
q
=1.
La
valeur
1
est
associé
à
la
réalisation
de
l’événement
considéré
‘succès’
et
la
valeur
0
à
sa
non
réalisation
‘échec’.
Elle
a
pour
caractéristiques
:
6
Echantillonnage
et
estimation
E ( X ) = ∑ xi pi = p ⇒ E ( X ) = p
2
( )
V ( X ) = ∑ xi2 pi − ∑ xi pi = p − p 2 = p (1 − p ) = p.q ⇒ V ( X ) = p.q
2. Loi
BINOMIALE
Une
variable
aléatoire
est
dite
binomiale
si
elle
représente
le
nombre
de
succès
obtenus
dans
une
expérience
de
n
épreuves
où
la
probabilité
de
succès
reste
constante.
La
fonction
de
probabilité
d’une
telle
fonction
est
donnée
par
:
P ( X = k ) = Cnk pk qn−k
La
variable
binomiale
est
entièrement
spécifiée
par
la
connaissance
de
n
et
p.
La
variable
de
BERNOULLI
est
un
cas
particulier
de
la
variable
binomiale
:
n=1.
Pour
appliquer
la
loi
binomiale
il
faut
que
les
conditions
suivantes
soient
satisfaites
:
1ère
condition
:
L’expérience
consiste
en
une
suite
d’épreuves
se
soldant
à
chaque
fois
soit
par
un
succès
soit
par
un
échec.
2ème
condition
:
Les
épreuves
se
répètent
de
manière
identique
et
dans
les
mêmes
conditions.
3ème
condition
:
La
probabilité
de
succès
reste
constante
tout
au
long
des
n
épreuves.
Toute
variable
aléatoire
qui
sui
la
loi
binomiale
X
peut-‐être
décrite
comme
une
somme
de
n
variables
de
BERNOULLI
indépendantes. On
écrit X = X1 + X 2 + .... + X n . Alors
elle
a
les
caractéristiques
suivantes
:
1 2 (
E ( X ) = E X + X , +.... + X n = E X + E X + ....... + E ( X n )
1 2 ) ( ) ( )
= p + p + .... + p
= n. p
1 2 (
V ( X ) = V X + X , +.... + X n = V X + V X + ....... + V ( X n )
1 2 ) ( ) ( )
= p.q + p.q + ........ + p.q
= n. p.q
La
loi
binomiale
peut
être
approchée
par
d’autres
lois.
1er
cas
:
lorsque
n
est
élevé
et
p
n’est
ni
proche
de
1
ni
de
0,
la
loi
binomiale
est
approchée
par
la
loi
normale.
2ème
cas
:
Lorsque
n
est
élevé
et
p
est
faible
(p<0.1),
la
loi
binomiale
est
approchée
par
la
loi
de
poisson.
Exemple:
L’agence
immobilière
dispose
d’un
parc
de
5
studios.
La
probabilité
de
louer
chacun
d’eux
au
mois
de
juin
est
de
0.6.
L’agence
désire
étudier
la
probabilité
de
location
de
ce
parc.
7
Echantillonnage
et
estimation
1-‐ Quelle
est
la
loi
de
probabilité
suivie
par
cette
variable
aléatoire
?
Quels
en
sont
les
paramètres
?
2-‐ Calculer
la
probabilité
de
louer
0,
1,
2
studios.
Réponse
:
E( X ) = λ
V (X ) = λ
Pour appliquer la loi de poisson il faut que les conditions suivantes soient satisfaites :
1ère
condition
:
Soit
une
approximation
de
la
loi
binomiale
est
ceci
lorsque
n
est
élevé
et
p
très
faible
(proche
de
0).
Généralement
l'approximation
est
valable
dés
que
n
>
50
et
p
<
0.1.
ème
2
condition
:
Soit
une
résultante
d’un
processus
aléatoire
particulier
qui
s’appelle
le
processus
de
Poisson.
La
loi
de
POISSON
s'applique
en
particulier
dans
le
cas
d'événements
se
réalisant
de
façon
aléatoire
dans
le
temps
ou
l'espace
(pannes
de
machines,
arrivées
de
clients
à
un
comptoir,
appels
téléphoniques
sur
une
ligne
……).
Si
la
réalisation
d'un
événement
donné
vérifie
les
conditions
suivantes
:
Le
nombre
moyen
de
fois
qu'un
événement
se
réalise
dans
un
intervalle
de
temps
ou
dans
un
espace
est
connu
λ,
la
probabilité
que
cet
événement
se
produise
dans
un
intervalle
de
temps
est
proportionnelle
à
la
longueur
de
cet
intervalle
et
ne
dépend
en
aucun
cas
du
nombre
d'événements
qui
se
sont
produits
antérieurement.
8
Echantillonnage
et
estimation
La
probabilité
que
l'événement
se
produise
plus
d'une
fois
dans
un
intervalle
de
temps
très
court
est
négligeable,
alors
le
nombre
X
d'événements
réalisés
au
cours
d'une
période
de
temps
t
est
une
variable
de
POISSON
ayant
pour
paramètre
λ
=
p.t.
Exemple:
L’arrivé
des
clients
à
un
supermarché
est
considérée
comme
un
processus
de
POISSON.
On
sait
que
le
nombre
moyen
de
clients
arrivant
par
minute
au
supermarché
est
égale
à
2.
Calculer
la
probabilité
pour
que
pendant
une
période
particulière
de
5
minutes
il
arrive
12
clients.
Réponse
:
Il
s’agit
d’une
loi
de
poisson
de
paramètre
λ = 10 .
Alors
la
probabilité
pour
que
pendant
une
période
particulière
de
5
minutes
il
arrive
12
clients
est
:
1012
p( X = 12) = e−10 × = 0, 0947.
12!
Exemple:
Une
entreprise
utilise
des
pots
de
peinture
dont
0.2
%
sont
défectueux.
Quelle
est
la
probabilité
que
sur
les
1000
pots
qu’utilise,
il
en
trouve
un
défectueux?
Réponse
:
0, 2 ×1000
Il
s’agit
d’une
loi
de
poisson
de
paramètre
λ = = 2 .
100
21
p( X = 1) = e−2 × = 0, 2706
1!
4. Loi
géométrique
On
considère
une
épreuve
aléatoire
et
un
événement
A
lié
à
cette
épreuve
de
probabilité
p ( A) = p .
On
répète
cette
épreuve
dans
des
conditions
identiques
(
p
est
constante
et
les
épreuves
sont
indépendantes).
Soit
X
le
nombre
d’épreuves
effectuées
jusqu’à
ce
que
A
soit
réalisé
pour
la
première
fois.
On
dit
que
X
est
le
temps
d’attente
du
premier
événement
A .
Soit
X une
variable
aléatoire
qui
suit
la
loi
géométrique.
On
peut
considérer
que
X
prend
les
valeurs
1,..,
n ,
…
Nous
avons
pour
tout
n ≥ 2 ,
p ( X = n ) = (1 − p)n−1 p
et
p ( X = 1) = p ( A1 ) = p .
On
a
donc
pour
tout
n ∈ • * ,
p ( X = n ) = (1 − p)n−1 p .
9
Echantillonnage
et
estimation
4.1
Définition
Soit
p ∈ ]0;1[ .
On
dit
qu’une
variable
aléatoire
X
suit
la
loi
géométrique
de
paramètre,
(notée
G ( p) )
4.2
Caractéristiques
Si
X suit
la
loi
géométrique
de
paramètre
p .
Alors
:
1
E( X ) =
p
1− p
V (X ) = 2
p
Exemple
:
Calculer la probabilité que cet appareil tombe en panne au dixième essai.
Réponse :
Le
nombre
d’essais
nécessaires
pour
obtenir
la
panne
est
une
variable
aléatoire
suivant
la
loi
géométrique
de
paramètre
p = 0, 02 .
La probabilité que ce matériel tombe en panne ( pour la première fois) au dixième essai est :
5. Loi
hypergéométrique
La
loi
hypergéométrique
intervient
dans
le
cas
de
plusieurs
expériences
aléatoires
dépendantes
auxquelles
on
associe
un
caractère
étudié
quelconque.
La
probabilité
de
succès
varie
d’une
expérience
aléatoire
à
l’autre.
C’est
le
cas
des
prélèvements
d’individus
au
hasard
dans
une
population
finie,
lorsque
les
individus
ne
sont
pas
remis
en
place
au
fur
et
à
mesure
des
prélèvements.
10
Echantillonnage
et
estimation
Désignons
par
N
l’effectif
total
de
la
population
dans
laquelle
on
prélève
au
hasard
et
sans
remise
n
individus.
La
population
est
composée
d’individus
qui
possèdent
le
caractère
étudié,
le
nombre
de
ces
individus
se
désigné
par
n1
on
note
par
n2
le
nombre
d’individus
de
la
population
qui
ne
possèdent
pas
le
caractère
étudié.
N = n1 + n2
Cnk1 Cnn2−k
p( X = k ) =
CNn
n1
Si
X
suit
une
loi
hypergéométrique
de
paramètres
N ,
n et
p = ,
nous
avons
:
N
E ( X ) = np
N −n
V (X ) = npq
N −1
Exemple :
Dans
une
population
de
40
personnes,
dont
6
personnes
sont
originaires
du
Sud,
14
du
Nord,
12
de
l'Est
et
8
de
l'Ouest,
on
choisit
au
hasard
un
échantillon
de
4
personnes.
La variable aléatoire X désigne le nombre d'individus de l'échantillon qui sont originaire du Nord.
La
population
étant
finie
et
les
prélèvements
s'effectuent
sans
remise,
la
variable
X
suit
donc
une
loi
hypergéométrique
de
paramètres
:
n1 = nombre d'individus de la population qui sont originaires du Nord = 14
Calculer la probabilité pour que trois personnes parmi les personnes choisis soient originaires du Nord?
Réponse :
C143 × C26
1
p( X = 3) = = 0,1035.
C404
11
Echantillonnage
et
estimation
Remarque :
Cnk1 Cnn2−k
Dés
que
l’effectif
N
de
la
population
devient
grand
le
calcul
des
probabilités
p( X = k ) =
CNn
Devient
fastidieux.
On
peut
démontrer
dans
ce
cas
la
loi
hypergéométrique
tend
vers
la
loi
binomiale
de
paramètres
n et
p .
On
peut
aussi
effectuer
les
calculs
de
probabilités
de
façon
approximative
à
l’aide
de
la
formule
de
la
loi
binomiale.
En
pratique,
l’approximation
est
satisfaisante
dés
que
la
proportion
des
individus
prélevés
inférieure
à
5
%.
n
< 0, 05
ou
N > 20n
N
Exemple :
C30k C704− k
p( X = k ) = 4
.
C100
X
0
1
2
3
4
Total
p( X = k )
0,2338
0,4188
0,2679
0,0725
0,0070
1
La
distribution
de
cette
variable
peut
être
calculée
à
l’aide
de
l’approximation
par
la
loi
binomiale
de
paramètres
4
et
0,3
(
car
N > 2n ).
Les
probabilités
approximatives
sont
telle
que
:
X
0
1
2
3
4
Total
p( X = k )
0,2401
0,4116
0,2646
0,056
0,0081
1
Le
but
des
lois
théoriques
est
la
description
des
phénomènes
statistiques.
Parmi
les
lois
de
probabilités
les
plus
courantes
et
qui
ont
un
rôle
très
important
dans
les
problèmes
d’estimation
et
les
tests
d’hypothèses,
il
y
a
la
loi
normale,
la
loi
de
khi
deux,
la
loi
de
Student
et
la
loi
de
Fisher.
12
Echantillonnage
et
estimation
1. Loi
normale
La
loi
normale
est
la
loi
continue
la
plus
importante
et
la
plus
utilisée
dans
le
calcul
de
probabilité.
Elle
est
aussi
appelée
la
loi
de
LAPLACE
GAUSS.
On
parle
de
loi
normale
ou
de
loi
de
LAPLACE
–
GAUSS,
lorsque
l’on
a
affaire
à
une
variable
aléatoire
continue
dépendant
d’un
grand
nombre
de
causes
indépendantes,
dont
les
effets
s’additionnent
et
dont
aucune
n’est
prépondérante,
par
exemple
:
une
caractéristique
de
qualité,
La
durée
d’un
trajet,
les
fluctuations
accidentelles
d’une
grandeur…
1.1 Définition
Une
V.A
continue
X
est
dite
distribuée
selon
une
loi
normale
si
sa
densité
de
probabilité
est
:
f(x) = 1 exp[− 1 ( x − m)²]
σ 2π 2 σ
La
loi
normale
dépend
de
deux
paramètres
m
et
σ
.
On
note
:
X
N(m;σ).
La
fonction
de
répartition
d'une
variable
normale
est
donnée
par
l'expression
:
x 1 x 1 x−m 2
F ( x) = p( X ≤ x) = ∫ f ( x ) dx = ∫ exp[ − ( ) ]dx
−∞ σ 2π −∞ 2 σ
1.3
Caractéristiques
de
la
loi
normale
E (X ) = m
1.4
Propriétés
V (X ) = σ 2
Le
graphique
de
la
fonction
de
densité
de
probabilité
de
la
Loi
normale
est
une
courbe
en
cloche
symétrique
par
rapport
au
point
d'abscisse
x=m.
La
droite
verticale
x=m
divise
l'aire
comprise
entre
la
courbe
et
l'axe
des
abscisses
en
deux
parties
égales
P(X<m)
=
0,5
et
P(X>m)
=
0,5.
La grande partie des observations se situe dans l'intervalle [m-‐3σ ; m+3σ].
13
Echantillonnage
et
estimation
Nous avons :
2 2
p (m − σ < X < m + σ ) ; 50%
3 3
p (m − σ < X < m + σ ) ; 68%
p (m − 2σ < X < m + 2σ ) ; 95%
p (m − 3σ < X < m + 3σ ) ; 99, 74%
Pour
une
VA
continue,
on
s'intéresse
surtout
à
une
probabilité
d'intervalle.
La
fonction
de
densité
étant
compliquée,
des
tables
ont
été
prévues
pour
faciliter
ce
calcul.
Toutefois,
étant
donnée
qu'il
existe
une
infinité
de
lois
normales
distinctes
par
leurs
paramètres,
une
seule
variable
normale
est
tabulée
et
sert
de
référence
pour
les
autres
:
il
s'agit
de
la
loi
normale
centrée
réduite.
Le
passage
de
la
loi
normale
à
la
loi
normale
centrée
réduite
s'effectue
à
l'aide
du
changement
de
variable
suivant
:
X −m
z=
σ
La
loi
normale
centrée
réduite
à
pour
paramètre
:
m = 0
et
σ = 1 .
Le
graphique
de
la
fonction
de
densité
de
probabilité
de
la
loi
normale
centrée
réduite
(LNCR
)
est
une
courbe
en
cloche
symétrique
par
rapport
au
point
d'abscisse
z = 0 .
La
droite
verticale z = 0
divise
l'aire
comprise
entre
la
courbe
et
l'axe
des
abscisses
en
deux
parties
égales
p ( z < 0) = 0,5
Et
p ( z > 0) = 0,5
.
14
Echantillonnage
et
estimation
La grande partie des observations se situe dans l'intervalle ]-‐3 ;3[.
2 2
p (− < Z < ) ; 50%
3 3
p (−1 < Z < 1) ; 68%
p (−2 < Z < 2) ; 95%
p (−3 < Z < 3) ; 99, 74%
La
table
suivante
s’appelle
la
table
de
la
loi
normale
centrée
réduite
et
nous
donne
les
probabilités
de
trouver
une
valeur
inférieure
à
z
c’est-‐à-‐dire
p ( Z ≤ z )
qui
sera
notée
par
la
suite
∏( z ) .
15
Echantillonnage
et
estimation
16
Echantillonnage
et
estimation
X −m x−m
F ( x) = p( X ≤ x) = p ( ≤ )
σ σ
= p(Z ≤ z )
= Π ( z)
Pour
lire
une
valeur
de
П(z)
dans
la
table,
il
suffit
de
lire
l’intersection
entre
la
ligne
correspondante
à
la
valeur
de
z
et
la
colonne
correspondante
au
deuxième
chiffre
après
la
virgule
de
z.
Exemple
:
X
suit
une
loi
normale
N(345;
167).
On
souhaite
connaître
la
probabilité
pour
que
X
soit
inférieur
à
500.
On
effectue
le
changement
de
variable:
Z = X − x = X −345
σ 167
500 − 345
p( X < 500) = p(Z < )
167
= p( Z < 0.93)
= Π (0.93)
= 0.8238
Exemple
:
Le
poids
moyen
de
500
colis
est
de
141kg
et
l’écart
type
est
de
15
kg,
en
supposant
que
ces
poids
sont
normalement
distribués,
calculer
le
nombre
de
colis
pesant
:
Réponse :
La variable aléatoire suit une loi normale de paramètres m = 141 et σ = 15 .
X −m X − 141
Le
changement
de
variable
Z = =
donne
:
σ 15
14 ⎡ 7 ⎤
= ∏ ( ) − ⎢1 − ∏ ( ) ⎥
15 ⎣ 5 ⎦
14 7
= ∏ ( ) + ∏ ( ) − 1
15 5
= 0,8238 + 0,91924 − 1
= 0, 74304
Alors le nombre de colis qui pèsent entre 120 et 155 kg est 500 × 0, 74307 ; 372 colis.
Maintenant cherchons le nombre de colis pesant plus de 185 kg.
⎛ 185 − 141 ⎞ ⎛ 44 ⎞
p ( X ≥ 185 ) = p ⎜ Z ≥ ⎟= p⎜Z ≥ ⎟
⎝ 15 ⎠ ⎝ 15 ⎠
⎛ 44 ⎞
= 1 − ∏ ⎜ ⎟
⎝ 15 ⎠
= 1 − 0,9983
= 0, 0017
2.1
Définition
On
appelle
variable
de
khi
deux
de
Pearson,
la
variable
χ 2
qui
varie
entre
0
et
+∞
est
définie
par
la
fonction
de
densité
de
probabilité:
k x
−1 −
f ( x) = c × x 2
e 2
Le
paramètre
k
est
une
constante
entière
positive
appelée
nombre
de
degrés
de
liberté:
on
dit
variable
de
Khi
deux
à
k
degrés
de
liberté,
désignée
par
χ 2 à k dl
+∞
K
est
une
constante
telle
que
:
∫
0
f ( x)dx = 1 .
18
Echantillonnage
et
estimation
2.2 Caractéristiques
E ( χ 2 à k dl ) = k
V ( χ 2 à k dl ) = 2k
La
table
de
la
loi
de
Khi
deux
dépend
du
paramètre
k,
elle
donne
les
valeurs
de
χ 2 à k dl
pour
des
valeurs
de
la
fonction
de
répartition
(probabilités).
Pour
lire
une
valeur
χ 2 à k dl
dans
la
table,
il
suffit
de
lire
l’intersection
entre
la
colonne
correspondante
à
la
valeur
de
la
probabilité
et
la
ligne
correspondante
au
degré
de
liberté
k.
Pour lire une valeur χ 2 à k dl dans la table, il suffit de lire l’intersection entre la colonne correspondante à la
19
Echantillonnage
et
estimation
Exemple :
La
valeur
de
χ 2 à10 dl
pour
une
probabilité
de
0,95
correspond
à
l’intersection
entre
la
colonne
correspondante
à
10,
on
peut
lire
la
valeur
18,3
χ 2 à10 dl = 18,3
2.1 Définition
On appelle variable T de Student, la variable T définie par la fonction de densité de probabilité:
t 2 − k 2+1
f (t ) = c(1 + )
k
Le
paramètre
k
est
une
constante
entière
positive
appelée
nombre
de
degré
de
liberté:
on
dit
variable
Student
T
à
k
degrés
de
liberté,
désignée
par
T à k dl
+∞
K
est
une
constante
telle
que:
∫
−∞
f (t )dt = 1
2.2
Caractéristiques
E (T à k dl ) = 0
k
V (T à k dl ) = pour k > 2
k −2
La
table
de
la
loi
T
de
Student
dépend
du
paramètre
k,
elle
donne
T à k dl
les
valeurs
de
T à k dl
pour
les
valeurs
de
la
fonction
de
répartition
(probabilités).
Pour
lire
une
valeur
de
T à k dl
dans
la
table,
il
suffit
de
lire
l’intersection
entre
la
colonne
correspondante
à
la
probabilité
et
la
ligne
correspondante
au
degré
de
liberté.
20
Echantillonnage
et
estimation
Exemple :
La valeur de T à 10 degrés de liberté et pour une probabilité 0.95 est: T0.95 à 10 dl = 1,812 .
On
appelle
variable
F
de
Fischer,
la
variable
F
définie
par
la
fonction
de
densité
de
probabilité:
k1 k1 + k2
−1 −
f ( x) = cx 2 (k1 x + k2 ) 2
Les
paramètres
k1
et
k2
sont
deux
constantes
entières
positives
appelées
nombre
de
degrés
de
liberté:
on
dit
F
à
k1
et
k2
degrés
de
liberté,
désignée
par
:
F à k1 et k2 dl .
+∞
k1
et
k2
sont
des
constantes
telle
que:
∫0
f (t )dt = 1.
21
Echantillonnage
et
estimation
3.1
Caractéristiques
k2
E ( F à k1 et k2 dl ) = pour k2 > 2
k2 − 2
2k2 2 (k1 + k2 )
V ( F à k1 et k2 dl ) = pour k2 > 4
k1 (k2 − 2)(k2 − 4)
Il ya plusieurs tables de la loi de Fischer pour différentes valeurs de la fonction de répartition (probabilités).
Chaque table de la loi F dépend des degrés de liberté k1 et k2 .
Pour
lire
une
valeur
F à k1 et k2 dl
dans
la
table,
il
suffit
de
lire
l’intersection
entre
la
colonne
correspondante
à
la
valeur
de
k1
et
la
ligne
correspondante
à
la
valeur
de
k2 .
Exemple :
La
valeur
de
F à 10 et 15 dl
pour
une
probabilité
de
0.95
se
trouve
dans
la
table
de
la
loi
F ( p = 0.95) : F à 10 et 15 dl = 2.54.
22
Echantillonnage
et
estimation
Le
théorème
central
limite
est
une
généralisation
de
la
propriété
d’additivité.
Toute
somme
de
variables
aléatoires
indépendantes
tend
à
suivre
une
loi
normale
quelles
que
soient
les
lois
de
probabilités
suivies
par
ces
variables.
Quelles
que
soient
les
variables
aléatoires
indépendantes
X 1 , X 2 ,...., X n
de
moyennes
respectives
m1 , m2 ,...., mn .
Nous
avons:
(
X1 + X 2 + ... + X n ≈ N m1 + m2 + ... + mn , σ12 + σ 22 + ... + σ n2
)
Exemple
:
Une
caisse
d’assurance
maladie
reçoit
120
personnes
pour
l’obtention
de
remboursements.
On
suppose
que
la
somme
à
rembourser
à
chaque
personne
est
une
variable
aléatoire
de
moyenne
1000
dirhams
et
d’écart-‐type
600
dirhams.
La
caisse
dispose
de
130000
dirhams.
Quelle
est
le
risque
que
cette
somme
ne
soit
pas
suffisante
pour
rembourser
toutes
les
personnes
?
Réponse :
Désignons par X la somme totale que doit payer aux 120 personnes.
X = X1 + X 2 + ... + X120
D’après
le
théorème
central
limite,
on
peut
affirmer
que
X
suit
une
loi
normale
de
moyenne
la
somme
des
moyennes
et
d’écart-‐type
la
racine
carrée
de
la
somme
des
variances.
(
X = N 120 ×1000; 120 × (600) 2 = N (120000;6572,67 )
)
La
somme
de
130000
dh
ne
sera
pas
suffisante
si
la
somme
totale
à
rembourser
aux
120
personnes
dépasse
130000
dh
:
Il
y
a
donc
un
risque
de
6,5
%
que
la
somme
de
130000
dirhams
ne
soit
pas
suffisante
pour
rembourser
toutes
les
personnes.
23
Echantillonnage
et
estimation
II. Echantillonnage
1. Comment
dénombrer
?
Question
:
combien
y
a-‐t-‐il
de
personnes
atteintes
de
troubles
de
la
vue
parmi
les
conducteurs
automobiles
au
Maroc
?
Il est impossible de les compter toutes en examinant toute la population des conducteurs marocains
Il
va
être
nécessaire
d’utiliser
une
procédure
particulière
(l’échantillonnage)
et
des
méthodes
statistiques
pour
estimer
la
précision
du
résultat
(incertitude)
2. Terminologie
Population
:
Toutes
les
personnes
à
qui
les
résultats
doivent
s’appliquer
Echantillon : Dans la plupart des cas, la taille de la population est trop importante pour que l’on puisse
étudier tous les individus qui la composent. On étudie un sous-‐groupe appelé échantillon.
Unité de base : il peut s’agir d’une unité de sondage, c’est l’élément pris en considération dans l’enquête.
Enquête:
ensemble
des
opérations
de
collecte
et
de
traitement
des
données
relatives
à
quelques
domaines
que
ce
soit.
Recensement:
Enquête
complète
ou
enquête
exhaustive,
c’est
une
enquête
au
cours
de
laquelle
toutes
les
unités
de
base
de
la
population
sont
observées.
Echantillonnage:
ensemble
des
opérations
qui
permettent
de
sélectionner
de
façon
organisée
les
éléments
de
l’échantillon.
Base
de
sondage:
énumération
ou
présentation
ordonnée
de
toutes
les
unités
de
base
constituant
la
population.
24
Echantillonnage
et
estimation
Erreur d’échantillonnage: écart entre les résultats obtenus auprès d’un échantillon et ce que.
Fraction
ou
taux
de
sondage:
proportion
des
unités
de
la
population
qui
font
partie
de
l’échantillon.
C’est
le
rapport
entre
la
taille
de
l’échantillon
n,
et
la
taille
de
la
population
N.
n
f = ×100
N
3.
Méthodes
d’échantillonnage
Ensemble
de
méthodes
appelées
sondages
probabilistes,
parce
que
chaque
unité
échantillonnée
a
une
probabilité
connue
à
l’avance
de
figurer
dans
l’échantillon.
Ceci permet :
• de
généraliser
l’estimation
du
phénomène
à
la
population
dont
est
issu
l’échantillon.
• d’apprécier
la
marge
d’erreur,
le
degré
d’incertitude
de
l’estimateur.
Chaque sujet de la population a la même probabilité d’être inclus dans l’échantillon
…
Procéder
à
un
tirage
au
sort
des
sujets
dans
la
base
:
Programme
informatique
Tables
de
nombre
au
hasard
25
Echantillonnage
et
estimation
Avantages
:
Réduction
des
coûts
d’investigation,
meilleure
qualité
de
l’observation
chez
chaque
sujet
(enquête,
questionnaire,
investigation
),
délai
d’obtention
des
résultats
plus
rapide.
Limite : il est nécessaire d’avoir une base de sondage fiable
Dans
certains
cas,
on
peut
craindre
d’obtenir
trop
peu
de
sujets
d’un
sous-‐groupe
particulier
(p.ex.
les
conducteurs
occasionnels),
alors
qu’on
peut
supposer
une
fréquence
particulière
du
phénomène
dans
ce
sous-‐groupe.
On
risque
que
l’échantillon
de
ce
sous-‐groupe
de
la
population
ne
permette
pas
de
calculer
un
estimateur
suffisamment
précis
Par
le
simple
fait
du
hasard,
on
peut
sous-‐estimer
ou
sur-‐estimer
la
fréquence
du
phénomène
dans
ce
sous-‐
groupe
La
méthode
consiste
à
identifier
les
niveaux
/
catégories
de
la
variable
qui
caractérise
cet
aspect
de
la
population
exemple
:
on
peut
supposer
que
les
personnes
d’un
même
groupe
partagent
des
caractéristiques
qui
déterminent
plus
particulièrement
le
phénomène
Les troubles de la vue peuvent comporter une composante d’origine génétique : daltonisme, myopie
Les personnes d’une même famille ont donc une probabilité différente d’une autre famille
L’échantillon est constitué par un sondage aléatoire simple par strate :
26
Echantillonnage
et
estimation
3.1.3
Echantillonnage
par
degré
L’échantillonnage
par
degrés
regroupe
toute
une
série
de
plans
d’échantillonnage
caractérisés
par
un
système
ramifié
et
hiérarchisé
d’unités.
L’échantillonnage
par
degrés
s’impose
lorsqu’il
est
impossible
d’inventorier
les
éléments
de
toute
la
population
et
qu’il
est
possible
d’énumérer
les
unités
prélevées
au
premier
degré.
Il
permet
une
concentration
du
travail
sur
le
terrain
et
donc
une
réduction
des
coûts.
Pour
un
même
nombre
total
d’observations,
il
faut
citer
sa
plus
faible
efficacité
que
l’échantillonnage
aléatoire
simple.
Exemple:
Pour
étudier
le
niveau
de
consommation
des
ménages
d’une
ville,
on
a
tiré
aléatoirement
5
quartiers.
Dans
chaque
quartier
sélectionné,
on
retient
une
rue
sur
5,
dans
chaque
rue
retenue,
on
retient
un
immeuble
sur
3,
et
dans
chaque
immeuble,
un
ménage
par
étage
sera
questionné
L’échantillonnage
systématique
est
une
technique
qui
consiste
à
prélever
des
unités
d’échantillonnage
situées
à
intervalles
égaux.
Le
choix
du
premier
individu
détermine
la
composition
de
tout
l’échantillon.
N
k= (arrondi à l ' entier le plus proche)
n
L’échantillonnage
systématique
est
facile
à
préparer
et,
en
général
facile
à
exécuter,
il
réduit
le
temps
consacré
à
la
localisation
des
unités
sélectionnées.
Si
les
éléments
de
la
population
se
présentent
dans
un
ordre
aléatoire
(
pas
de
tendance
)
l’échantillonnage
systématique
est
équivalent
à
l’échantillonnage
aléatoire
et
simple.
Par
contre
si
les
éléments
de
la
population
présentent
une
tendance,
l’échantillonnage
systématique
est
plus
précis
que
l’échantillonnage
aléatoire.
Exemple :
On veut sélectionner an échantillon de 30 entreprises au sein d’une population de 1800 entreprises.
1800
k= = 60
30
Ainsi on va tirer une entreprise toutes les 60 en partant d’un nombre tiré aléatoirement entre 1 et 60.
27
Echantillonnage
et
estimation
Supposons
que
ce
nombre
est
le
15.
On
va
donc
sélectionner
la
15
ème
entreprise
puis
la
75
ème
la
135
éme
jusqu’à
la
1755
éme
ce
qui
nous
donnera
l’échantillon
de
30
entreprises.
Il
s’agit
d’un
échantillon
constitué
d’individus
qui
se
trouvaient
accidentellement
à
l’endroit
et
au
moment
où
l’information
a
été
collectée.
Exemple:
-‐ Enquêtes réalisées dans la rue, les lieux publiques, en sortie de super marché…
C’est
un
échantillonnage
par
jugement
à
priori.
Il
consiste
à
sélectionner
des
individus
dont
on
pense,
avant
de
les
interroger,
qu’ils
peuvent
détenir
l’information.
Le
risque
de
ce
type
d’échantillonnage
est
de
considérer
des
individus,
apparemment
représentatifs
de
la
population
étudiée.
Cette
méthode
est
réservée
aux
populations
composées
d’individus
dont
l’identification
est
difficile
ou
qui
possèdent
des
caractéristiques
rares.
L’échantillonnage
par
quotas
est
l’échantillonnage
non
probabiliste
le
plus
connu,
et
finalement
le
mieux
accepté
comme
substitut
aux
méthodes
probabilistes
dans
le
cas
où
ces
dernières
rentreraient
des
contraintes
de
base
de
sondage.
Mais
la
représentativité
de
la
population
reste
douteuse.
A
fin
de
déterminer
la
taille
de
l’échantillon,
nous
utilisons
l’inégalité
de
Bienaymé
Tchebycheff
ou
la
loi
normale.
28
Echantillonnage
et
estimation
4.1.1
Taille
de
l’échantillon
pour
estimer
une
moyenne
L’inégalité de Bienaymé Tchybecheff dans le cas de la moyenne s’écrit:
σ2
p( X − m < ε ) ≥ 1 −
nε 2
Pour
obtenir
un
maximum
de
fiabilité
dans
les
résultats,
on
commence
par
se
fixer
une
marge
d’erreur
"ε "
que
l’on
accepte.
On
se
fixe
un
seuil
de
confiance
(1 − α ) ,
qui
représente
la
probabilité
minimale
pour
que
la
moyenne
calculée
à
partir
de
l’échantillon
ne
s’écarte
pas
de
la
moyenne
de
la
population
de
plus
de
" ε " .
p( X − m < ε ) ≥ 1 − α
σ2
n=
ε 2 ×α
Exemple:
Un
parc
de
loisirs
souhaite
estimer
à
10dh
prés
le
montant
moyen
d’achats
effectués
par
chaque
visiteur,
c’est-‐à-‐dire
on
se
fixe
une
marge
d’erreur
de
10
dans
l’analyse
des
résultats:
ε = 10
Une
étude
pilote
menée
sur
50
visiteurs
choisis
au
hasard
a
montré
que
l’écart-‐type
des
achats
est:
σ = 100dh
1002
n= = 2000
102 × 0.05
29
Echantillonnage
et
estimation
L’inégalité de Bienaymé Tchybecheff dans le cas de la proportion s’écrit:
pq
p( f n − p < ε ) ≥ 1 −
nε 2
Pour
obtenir
un
maximum
de
fiabilité
dans
les
résultats,
on
commence
par
se
fixer
une
marge
d’erreur
" ε "
que
l’on
accepte.
On
se
fixe
un
seuil
de
confiance
(1 − α )
,
qui
représente
la
probabilité
minimale
pour
que
la
fréquence
calculée
à
partir
de
l’échantillon
ne
s’écarte
pas
de
la
proportion
de
la
population
de
plus
de
" ε "
p( f n − p < ε ) ≥ 1 − α .
Ce montre que :
pq
n=
ε ×α2
Exemple:
Le
parc
souhaite
estimer
la
proportion
des
visiteurs
qui
font
des
achats
à
cinq
points
prés,
c’est-‐à-‐dire
on
se
fixe
une
marge
d’erreur
de
5%
dans
l’analyse
des
résultats:
ε = 0.05
0.65 × 0.35
n= = 1820
0.052 × 0.05
On
applique
cette
méthode
si
la
variable
suit
une
loi
normale
ou
si
elle
peut
être
approché
par
la
loi
normale.
30
Echantillonnage
et
estimation
a-‐
Cas
des
prélèvements
dans
une
population
finie
avec
remise
ou
dans
une
population
infinie
sans
remise
Pour
obtenir
un
maximum
de
fiabilité
dans
les
résultats,
on
commence
par
se
fixer
une
marge
d’erreur
"ε "
que
l’on
accepte.
On
fixe
ensuite
un
seuil
de
confiance
(1 − α ) ,
qui
représente
la
probabilité
minimale
pour
que
la
moyenne
calculée
à
partir
de
l’échantillon
ne
s’écarte
pas
de
la
moyenne
de
la
population
de
plus
de
" ε " .
Ceci
s’écrit:
p( X − m < ε ) ≥ 1 − α
ε : précision souhaitée
X : moyenne de l ' échantillon
m : moyenne de la population
σ2
n = Z2 α
1−
2 ε2
Exemple:
Reprenons
l’exemple
du
parc
de
loisirs
qui
souhaite
estimer
à
10
dh
prés
le
montant
moyen
d’achats
effectués
par
chaque
visiteur,
c’est-‐à-‐dire
on
se
fixe
une
marge
d’erreur
de
10
dans
l’analyse
des
résultats:
ε = 10 .
Une
étude
pilote
menée
sur
50
visiteurs
choisis
au
hasard
a
montré
que
l’écart-‐type
des
achats
est:
σ = 100dh .
Si
on
se
fixe
un
seuil
de
confiance
(1 − α ) = 95% .
1002
n = 1.96 = 384,16 = 385
2
102
31
Echantillonnage
et
estimation
b-‐-‐
Cas
des
prélèvements
dans
une
population
finie
sans
remise
Dans
le
cas
d’un
prélévement
sans
remise
dans
une
population
finie
nous
avons
:
E( X n ) = m
N − n σ 2
V (Xn) = ×
N −1 n
N −n σ σ n
σX = × ≈ × 1 −
N −1 n n N
De la
même
manière,
on
arrive
à:
Z 2 ασ 2N
1−
n= 2
ε N + Z 2 ασ 2
2
1−
2
Pour
obtenir
un
maximum
de
fiabilité
dans
les
résultats,
on
commence
par
se
fixer
une
marge
d’erreur
"ε "
que
l’on
accepte.
On
fixe
ensuite
un
seuil
de
confiance
(1 − α )
,
qui
représente
la
probabilité
minimale
pour
que
la
moyenne
calculée
à
partir
de
l’échantillon
ne
s’écarte
pas
de
la
moyenne
de
la
population
de
plus
de
" ε "
.
Ceci
s’écrit:
p( f n − p < ε ) ≥ 1 − α
La
proportion
est
souvent
inconnue,
il
faut
avoir
des
informations
antérieures
ou
mener
une
étude
pilote,
sinon
on
utilise
une
proportion
de
50%.
32
Echantillonnage
et
estimation
a-‐ Cas des prélèvements dans une population finie avec remise ou dans une population infinie
sans remise
E ( fn ) = p
pq
V ( fn ) =
n
On
a
alors:
n = Z2 α
1−
2
pq
ε2
Exemple:
Reprenons
l’exemple
du
parc
de
loisirs
qui
souhaite
estimer
la
proportion
des
visiteurs
qui
font
achats
à
cinq
points
prés,
c’est-‐à-‐dire
on
se
fixe
une
marge
d’erreur
de
5
%
dans
l’analyse
des
résultats:
Une
étude
pilote
a
estimé
cette
proportion
à
65
%,
c’est-‐à-‐dire
p=0,65.
Si
se
fixe
un
seuil
de
confiance
1-‐
α=95%,
on
se
reporte
à
la
table
de
la
distribution
de
la
loi
normale,
et
on
cherche
la
valeur
correspondante
à
une
probabilité
1-‐
α/2=
0.975
ce
qui
donne
Z=1.96.
0.65 × 0.35
n = 1,962 × = 349,58 = 350
0.052
b-‐-‐
Cas
des
prélèvements
dans
une
population
finie
sans
remise
E ( fn ) = p
N − n pq
V ( fn ) = ×
N −1 n
Z 2 α pqN
1−
n= 2
ε 2 N + Z 2 α pq
1−
2
33
Echantillonnage
et
estimation
Exemple:
Un enfant a réalisé 4040 lancers d’une pièce de monnaie, et il a obtenu 2048 fois le résultat « Pile ».
La variable X sui une loi binomiale de paramètres n et p avec n=4040 et p=0.5.
L’intervalle de fluctuation, au seuil de 95% , pour une loi binomiale
⎡ 1 1 ⎤
I = ⎢0.5 − ;0.5 + ⎥ = [0.4843;05157 ]
⎣ 4040 4040 ⎦
2048
f = ; 0.5096 ∈ I
4040
5. Distribution
d’échantillonnage
La
notion
de
distribution
d’échantillonnage
est
la
base
des
méthodes
d’inférence
statistique
dont
les
deux
principales
applications
sont
les
problèmes
d’estimation
et
les
testes
d’hypothèses.
Les
problèmes
d’estimation
ont
but
d’estimer,
à
partir
d’un
échantillon,
la
valeur
numérique
d’un
ou
de
plusieurs
paramètres
de
la
population,
et
de
déterminer
la
précision
de
cette
ou
des
estimations.
Les
principales
distributions
d’échantillonnage
sont
la
distribution
d’échantillonnage
de
la
moyenne,
de
la
variance
et
de
la
proportion.
A
tout
paramètre
de
la
population
θ,
on
peut
associer
une
série
infinie
de
valeurs
observées
t,
t’,
t’’…,
calculées
à
partir
d’échantillons
successifs
de
même
effectif
(taille),
prélevés
dans
des
conditions
identiques.
Ces
valeurs
peuvent
être
considérées
comme
des
valeurs
observées
d’une
même
variable
aléatoire
T,
et
cette
variable
est
une
fonction
de
différentes
variables
aléatoires
correspondant
à
chacun
des
individus
de
l’échantillon:
T = f ( X1 , X 2 ,..., X n )
En
supposant
que
l’échantillon
est
aléatoire
simple,
la
variable
aléatoire
T
possède
une
distribution
de
probabilité,
dite
distribution
d’échantillonnage.
34
Echantillonnage
et
estimation
La
distribution
d’échantillonnage
est
donc
la
distribution
des
différentes
valeurs
que
peut
prendre
la
variable
aléatoire
T,
pour
les
différents
échantillons
possibles.
Son
écart
type
σ T
est
appelé
erreur
standard.
Supposons
que
dans
une
population
infinie
quelconque,
on
ait
prélevé
au
hasard
un
premier
échantillon
de
n
observations:
x1 , x2 ,..., xn
Et
qu’on
ait
calculé
la
moyenne:
∑x i
x= i =1
n
Si
on
prélève,
dans
les
mêmes
conditions,
un
deuxième
échantillon
de
même
effectif
La
moyenne
correspondante
:
n
∑ x' i
x' = i =1
n
sera
généralement
différente
de
la
première
observée.
Les moyennes observées x, x ',... sont alors des valeurs observées d’une même variable aléatoire
∑X i
X= i =1
n
On
démontre
alors:
E( X ) = m
σ 2
V (X ) =
n
σ
σX =
est
appelé
erreur
standard
de
la
moyenne
d’un
échantillon
aléatoire
et
simple.
n
Dans
le
ca
d’une
population
finie
d’effectif
N,
au
sein
de
laquelle
est
prélevé,
sans
remise,
un
échantillon
aléatoire
et
simple
d’effectif
n,
l’erreur
standard
est:
σ N −n
σX = ×
n N −1
35
Echantillonnage
et
estimation
Si
la
taille
de
l’échantillon
est
supérieure
ou
égale
à
30,
la
variable
aléatoire
X
est
asymtotiquement
normale
N (µ X
, σ X ) .
Supposons
que
dans
une
population
infinie
quelconque,
on
prélève
un
échantillon
aléatoire
et
simple
d’effectif
n,
on
désigne
par
x
le
nombre
d’individus
possédant,
dans
l’échantillon,
le
caractère
étudié
Xn
fn =
est
la
fréquence
ou
proportion
des
individus
possédant
le
caractère
étudié.
n
Xn
Comme
dans
le
cas
de
la
moyenne
on
peut
définir
une
variable
aléatoire
Fn =
n
E ( Fn ) = p
pq
V ( Fn ) =
n
σF =n
pq
n
est
l’erreur
standard
de
la
proportion
d’un
échantillon
aléatoire
et
simple.
Dans
le
cas
d’une
population
finie
d’effectif
N,
au
sein
de
laquelle
est
prélevé,
sans
remise,
un
échantillon
aléatoire
et
simple
d’effectif
n,
l’erreur
standard
est:
pq N −n
σF = ×
n
n N −1
36
Echantillonnage
et
estimation
III
Estimation
Les
premiers
problèmes
d’inférence
statistique
auxquels
s’applique
la
théorie
des
distributions
d’échantillonnage
sont
les
problèmes
d’estimations.
Le
but
poursuivi
est
d’estimer,
à
partir
d’un
échantillon,
la
ou
les
valeurs
numériques
d’un
ou
de
plusieurs
paramètres
de
la
population
considérée
et
de
déterminer
la
précision
de
cette
ou
de
ces
estimations.
On distingue deux formes d’estimations: l’estimation ponctuelle et l’estimation par intervalle de confiance.
A
partir
des
données
de
la
population-‐mère,
la
théorie
de
l’échantillonnage
permet
de
déduire
des
résultats
au
sujet
des
échantillons
extraits
de
la
population.
Le
problème
de
l’estimation
est
le
problème
inverse.
D’un
point
de
vue
utilitaire,
ce
dernier
problème
est
plus
important
que
le
problème
contraire,
car
devant
la
difficulté
de
recourir
à
des
recensements,
le
seul
moyen
dont
dispose
le
statisticien
pour
connaître
les
paramètres
d’une
population
réside
en
l’estimation
de
ceux-‐ci
à
partir
d’échantillons
significatifs
de
la
population.
1. Estimation
ponctuel
1.1
Définition
L’estimation
ponctuelle
ou
l’estimation
de
point
d’un
paramètre
est
la
connaissance
de
la
seule
valeur
estimée
de
ce
paramètre.
Les
paramètres
les
plus
recherchés
sont
la
moyenne,
la
variance
et
la
proportion.
1.2
Estimateur
37
Echantillonnage
et
estimation
Soit
une
variable
aléatoire
X
dont
la
loi
de
probabilité
est
caractérisée
par
la
densité
de
probabilité
f ( x,θ )
,
laquelle
dépend
d’un
paramètre
θ
à
estimer.
Soient
x1 , x2 ,..., xn
les
valeurs
prises
par
X
dans
un
échantillon
taille
n
On
appelle
estimateur
Tn
de
θ
,
la
fonction
qui
aux
variables
de
l’échantillon
fait
correspondre
la
valeur
du
paramètre
θ
:
Tn ( x1 , x2 ,..., xn ) = θ
La fonction Tn est une fonction numérique d’un échantillon aléatoire. C’est donc une variable aléatoire.
Un
estimateur
Tn
est
dit
sans
biais,
si
l’espérance
mathématique
de
l’estimateur
est
égale
à
la
vraie
valeur
du
paramètre
θ
à
estimer
E (Tn ) = θ
lim E (Tn ) = θ
n →∞
1
Var (Tn ) ≥
I (θ )
⎧⎡ ∂Log f ( x,θ ) ⎤ 2 ⎪
⎪ ⎫
I (θ ) = n.E ⎨⎢ ⎥⎦ ⎬
⎪
⎩ ⎣ ∂θ ⎪
⎭
1.6
Estimateur
efficace
1
Un
estimateur
Tn
est
dit
efficace
si:
Var (T ) =
I (θ )
Où
I (θ )
est
la
quantité
d’information
38
Echantillonnage
et
estimation
Considérons
une
variable
aléatoire
X
qui
suit
une
loi
de
probabilité
définie
par
sa
densité
de
probabilité
f ( x,θ ) ,
où
θ
est
un
paramètre
inconnu
à
estimer.
On
tire
un
échantillon
au
hasard
de
n
valeurs
de
X:
x1 , x2 ,..., xn
La
fonction
de
vraisemblance
de
X
est:
L ( x1 , x2 ,..., xn ) = f ( x1 ,θ ) . f ( x2 ,θ ) ... f ( xn ,θ )
La
valeur
θ$
qui
rend
maximum
la
vraisemblance
L
est
ainsi
solution
de
l’équation:
∂Log ( L )
= 0 ⇒ θ$
∂θ
Exercice:
On admet que la durée de vie d’un matériel est une variable aléatoire suivant une loi continue de densité:
1 − at
f (t ) = e , t ≥ 0, a > 0,
a
a étant un paramètre inconnu que l’on veut estimer à l’aide d’observations indépendantes: t1 , t2 ,...., tn .
∑t i
a$ = i =1
n
4. Retrouvez
le
résultat
par
la
méthode
du
maximum
de
vraisemblance.
Réponse:
• l’espérance
mathématique
de
la
variable
aléatoire
considérée
est
par
définition:
+∞ +∞ t − at
E (T ) = ∫ tf (t )dt = ∫ e dt = a
0 0 a
La
variance
est
par
définition
égale
au
moment
simple
du
second
ordre,
diminué
du
carré
du
moment
simple
du
premier
ordre:
+∞
V (T ) = ∫ t 2 f (t ) dt − ( E (T )) 2
0
t 2 − at
+∞
= ∫0 a e dt − a
2
= 2a 2 − a 2
= a2
39
Echantillonnage
et
estimation
• Désignons
par
a$
une
estimation
ponctuelle
de
a .
nous
savons
que
l’inégalité
de
Cramer-‐Rao,
donne
une
bonne
inférieure
de
la
variance
de
l’estimateur:
,
1
Var (a$) ≥
I (a)
⎧⎪⎡ ∂Log f (t , a) ⎤ 2 ⎫⎪
I (a) = n.E ⎨⎢ ⎥⎦ ⎬
⎪⎩⎣ ∂a ⎪⎭
Calculons I(a) :
1 − at
f (t , a) = e
a
t
Log ( f (t , a)) = − − Log ( a)
a
∂Log ( f (t , a)) t 1 t − a
= 2− = 2
∂a a a a
2
⎡ ∂Log ( f (t , a)) ⎤ (t − a) 2
⎢⎣ ⎥ =
∂a ⎦ a4
1 a2
Var (a$) ≥ = .
I (a) n
•
l’estimateur
sera
un
estimateur
efficace
de
a
quand
la
variance
de
l’estimateur
sera
égale
à
l’inverse
de
la
quantité
d’information:
$ 1 a2
Var (a) = =
I (a) n
40
Echantillonnage
et
estimation
∑t i
i =1
= a$
n
Il
faut
montrer
que:
⎛ n ⎞
⎜ ∑ ti ⎟ a2
Var ⎜ i =1 ⎟ =
⎜ n ⎟ n
⎜ ⎟
⎝ ⎠
Nous avons :
1 1
2
Var ( t1 + t2 + ... + tn ) = 2 ⎡⎣Var ( t1 ) + Var ( t2 ) + ... + Var ( tn )⎤⎦
n n
1
= 2 ( a 2 + a 2 + ... + a 2 )
n
1
= 2 ( na )2
n
a2
=
n
L ( t1 , t2 ,...., tn , a ) = f ( t1 , a ) . f ( t2 , a ) ..... f ( tn , a )
t t t
1 −1 1 −2 1 −n
= e a . e a .............. e a
a a a
⎛ n ⎞
⎜
∑
⎜ ti ⎟
⎟
−⎜ i=1 ⎟
⎜ a ⎟
1 ⎜ ⎟
= e ⎝ ⎠
an
Prenons
le
logarithme
de
L :
n
∑t i
Log ( L ) = − i =1
− nLog ( a )
a
Dérivons
cette
quantité
par
rapport
au
paramètre
a
à
estimer:
n n
∂Log ( L ) ∑ ∑ (t − na )
t i i
n
= i =1
− = i =1
∂a a2 a a2
41
Echantillonnage
et
estimation
∂Log ( L ) ∑ (t i − na )
=0⇒ i =1
=0
∂a a2
n
⇒ ∑ ti − na$ = 0
i =1
n
∑t i
⇒ a$ = i =1
2.1
Définition
Estimer
un
paramètre
θ
par
un
intervalle
[a;
b]
contenant
θ ,
avec
une
certaine
probabilité
1 − α ,
constitue
une
estimation
par
intervalle
de
confiance:
p {θ ∈ [a; b]} = 1 − α
Considérons
une
population
dans
laquelle
une
proportion
p,
inconnue,
des
individus
possèdent
un
caractère
A.
Dans
un
sondage
significatif
de
taille
n,
le
caractère
A
est
observé
avec
la
fréquence
f n
Si
n
est
assez
grand
(n>30)
ou
si
le
caractère
A
suit
une
loi
normale,
on
sait
que
(cf.
distribution
d’
⎛ pq ⎞
échantillonnage)
la
loi
de
probabilité
de
f n
est
une
loi
normale
N ⎜ p, ⎟
.
⎜ n ⎟⎠
⎝
Si
on
s’intéresse
à
la
proportion
p ,
l’estimation
par
intervalle
de
confiance
consiste
à
déterminer
de
part
et
d’autre
de
l’estimateur.
Les bornes p1 et p2 d’un intervalle qui a un niveau de confiance Fn .
1 − α de contenir p .
p( p1 ≤ p ≤ p2 ) = 1 − α
42
Echantillonnage
et
estimation
Ou d’autre façon:
α
p( p < p1 ) = p( p > p2 ) =
2
p = f
1 n
− d1 et p2 = f n + d2 .
On
peut
écrire:
α
p( p < f n − d1 ) = p( p > f n + d 2 ) =
2
α
p( f n − p > d1 ) = p( p − f n > d 2 ) =
2
⎛ pq ⎞
Comme,
la
distribution
de
la
proportion
suit
une
loi
normale
N ⎜ p, ⎟⎟
à
condition
que
la
taille
de
⎜ n
⎝ ⎠
l’échantillon
soit
supérieure
ou
égale
à
30
et
le
produit
n. p ≥ 5 ,
on
peut
écrire:
⎛ ⎞ ⎛ ⎞
⎜ f −p d1 ⎟ ⎜ p− f d ⎟
p⎜ n > ⎟ = p⎜ n
> 2 ⎟
⎜ pq pq ⎟ ⎜ pq pq ⎟
⎜ ⎟ ⎜ ⎟
⎝ n n ⎠ ⎝ n n ⎠
⎛ ⎞ ⎛ ⎞
⎜ d ⎟ ⎜ d ⎟ α
p ⎜ Z1 > 1 ⎟ = p ⎜ Z2 > 2 ⎟ =
⎜ pq ⎟ ⎜ pq ⎟ 2
⎜ ⎟ ⎜ ⎟
⎝ n ⎠ ⎝ n ⎠
⎛ ⎞ ⎛ ⎞
⎜ d ⎟ ⎜ d2 ⎟ α
p ⎜ Z1 < 1 ⎟= ⎜
p Z2 < ⎟ = 1−
⎜ pq ⎟ ⎜ pq ⎟ 2
⎜ ⎟ ⎜ ⎟
⎝ n ⎠ ⎝ n ⎠
d1 d
= 2 =Z α
pq pq 1−
2
n n
Il en résulte:
pq
d1 = d 2 = Z α
1−
2 n
43
Echantillonnage
et
estimation
p (1 − p ) p (1 − p )
p1 = f n − Z α
et
p2 = f n + Z α
1−
2 2 1−
2 2
⎡ p(1 − p) p(1 − p) ⎤
⎢ f n − Z1−α ; fn + Z α ⎥
⎣ 2 n 1−
2 n ⎦
Exemple:
On
étudie
le
pourcentage
d’utilisation
d’une
machine.
400
observations
ont
été
effectuées
qui
ont
donné
le
résultat
suivant:
L’estimation ponctuelle de la proportion d’utilisation de la machine est:
µp = f = 320 = 0.8
n
400
L’intervalle de confiance de la proportion à niveau de confiance de 95 % est défini par:
⎡ p(1 − p) p(1 − p) ⎤
⎢ f n − Z1−α ; fn + Z α ⎥
⎣ 2 n 1−
2 n ⎦
L’intervalle de [76%; 84%] a une probabilité de 95% de contenir de vrai taux d’utilisation de la machine.
Si
on
s’intéresse
à
la
moyenne
inconnue
m
d’une
population
normale
d’écart
type
connu
σ
,
l’estimation
par
intervalle
de
confiance
consiste
à
déterminer
de
part
et
d’autre
part
de
l’estimateur
X
les
bornes
X 1
et X 2 d’un intervalle qui a un niveau de confiance de 1 − α de contenir m .
Nous avons:
(
p X 1 ≤ m ≤ X 2 = 1 − α
)
Ou
d’une
autre
façon:
α
(
p m < X1 = p m > X 2 = ) ( ) 2
44
Echantillonnage
et
estimation
σ σ
X1 = X − Z α
et
X 2 = X + Z α
1−
2 n 1−
2 n
⎡ σ σ ⎤
⎢ X − Z1−α ; X +Z α ⎥
⎣ 2 n 1−
2 n ⎦
Exemple:
On
veut
estimer
la
moyenne
m
d’une
variable
aléatoire
X
suit
une
loi
normale,
de
variance
connue
σ 2 = 6, 25
A l’aide d’un échantillon de taille n=100 valeurs indépendantes. La moyenne X observé est 4,3.
Construire un intervalle de confiance au seuil de confiance de 95%.
Réponse:
Un intervalle de confiance au seuil de 95% est de la forme:
⎡ 6, 25 6, 25 ⎤
⎢ 4,3 − Z 0,975 × ; 4,3 + Z 0,975 × ⎥
⎣ 100 100 ⎦
⎡ 6, 25 6, 25 ⎤
⎢ 4,3 − 1,96 × ; 4,3 + 1,96 × ⎥
⎣ 100 100 ⎦
[3,81; 4, 79]
IV
Exercices
Exercice
1
:
Des
chambres
à
air
sont
produites
en
série
et
5%
ont
des
défauts.
Un
garagiste
en
achète
10.
a) Quelle
est
la
probabilité
que
les
10
soient
en
bon
état
?
b) On
suppose
qu’il
annule
sa
commande
si
plus
de
2
articles
ont
des
défauts.
Quelle
est
la
probabilité
qu’il
annule
sa
commande
?
45
Echantillonnage
et
estimation
Exercice
2
:
30
étudiants
dont
aucun
n’a
étudié
les
sujets
du
cours
passent
un
examen
en
deux
questions.
La
question
une
a
quatre
réponses
indiquées
dont
une
seule
est
juste.
La
deuxième
question
a
cinq
dont
une
seule
est
juste.
Soit la variable aléatoire X qui désigne le nombre d’étudiants qui ont au moins une réponse correcte.
a) Quelle
est
l’espérance
du
nombre
d’étudiant
qui
ont
au
moins
une
réponse
correcte
?
b) Calculer
la
probabilité
pour
que
15
étudiants
de
la
classe
aient
au
moins
une
réponse
correcte.
Exercice
3
:
Le
stock
journalier
d’un
produit
destiné
à
un
atelier
suit
une
loi
normale
de
moyenne
120
pièces
et
d’écart
type
50
pièces.
a) Calculer
la
probabilité
pour
que
le
nombre
de
pièces
en
stock
soit
compris
entre
80
et
160.
b) Calculer
la
probabilité
pour
que
le
nombre
de
pièces
en
stock
soit
supérieure
à
200.
c) Calculer
la
probabilité
pour
qu’il
y
ait
rupture
de
stock.
Exercice
4
:
La
longueur
d’une
pièce
fabriquée
par
une
machine
est
une
variable
normale
de
moyenne
15
cm
et
d’écart
type
0.2
cm.
a) Trouver
la
probabilité
de
rejet
si
les
dimensions
admissibles
de
la
pièce
doivent
être
comprises
entre
14,7
et
15,3
cm.
b) Quelle
précision
de
longueur
de
la
pièce
fabriquée
peut-‐on
garantir
avec
une
probabilité
de
0,95
?
Exercice
5
:
Le
lait
produit
par
une
usine
a
une
teneur
en
matières
grasses
qui
suit
une
loi
normale
de
moyenne
160
grammes
par
litre
et
d’écart
type
10
grammes
par
litre.
Les
consommateurs
n’acceptent
que
le
lait
dont
la
teneur
en
matières
grasses
est
comprise
entre
135
grammes
par
litre
et
185
grammes
par
litre.
Calculer la proportion de la production du lait inacceptable par les consommateurs.
Exercice6
:
On
étudie
la
durée
X
des
communications
téléphoniques
dont
la
fonction
de
répartition
est
:
⎧0 si x < 0
F ( x) = ⎨ − kx
⎩1 − e si x ≥ 0
5
Sachant
que
k = .
6
a) Quelle
est
la
probabilité
pour
qu’une
communication
dure
plus
de
3
minutes
?
b) Quelle
est
la
probabilité
pour
qu’une
communication
ait
une
durée
entre
3
et
6
minutes
?
46
Echantillonnage
et
estimation
c) Si
on
ne
connaît
pas
k,
quelle
valeur
faudrait-‐il
lui
donner
pour
que
la
probabilité
d’une
communication
supérieure
à
3
minutes
soit
égale
à
0.1
?
Exercice
7
:
Soit
la
variable
aléatoire
continue
définie
par
la
fonction
de
répartition
suivante
:
F ( x) = kx si 0 ≤ x ≤ 4
2
Exercice
8:
Un
standard
téléphonique
reçoit
en
moyenne
400
appels
par
jour
avec
un
écart
type
de
25.
a) Quelle
est
la
probabilité
pour
qu’en
une
journée
donnée,
le
nombre
d’appels
soit
compris
entre
360
et
440
?
b) Quelle
est
la
probabilité
pour
que
le
nombre
moyen
d’appels
par
jour
en
une
période
d’un
mois
soit
compris
entre
380
et
420
?
Exercice
9:
Une
enquête
sur
l’emploi
a
pour
but
d’estimer
le
taux
d’activité
dans
un
pays.
Dans
les
statistiques
disponibles,
la
population
active
du
pays
est
estimée
à
10000000
personnes
sur
une
population
totale
de
40
millions
de
personnes.
Déterminer
la
taille
de
l’échantillon
si
l’on
accepte
une
erreur
de
1
%
avec
une
probabilité
de
0,95.
Exercice10
:
Dans
le
but
d’étudier
l’intention
d’achat
d’un
produit,
on
décide
de
réaliser
un
sondage.
Combien
de
personnes
doit-‐on
interroger
pour
que
la
fréquence
empirique
ne
s’éloigne
pas
de
la
vraie
proportion
de
1%
et
ce
avec
une
probabilité
au
moins
égale
à
95%
?
Exercice11
:
On
veut
contrôler
par
sondage
l’exactitude
d’un
stock
commercial
comprenant
plusieurs
milliers
d’articles.
Déterminer
la
taille
d’échantillon
requise
si
l’on
considère
qu’une
marge
d’erreur
inférieure
ou
égale
à
2
%
est
acceptable
dans
l’exactitude
de
l’intervalle,
avec
un
niveau
de
confiance
de
95,44%.
Exercice12
:
Un
groupe
d’étudiantes
inscrites
en
sciences
de
la
santé
veut
effectuer
un
sondage
auprès
de
la
population
étudiante
pour
estimer
le
pourcentage
d’adeptes
du
tabagisme.
La
population
étudiante
est
environ
8000.
47
Echantillonnage
et
estimation
a) Déterminer
la
taille
d’échantillon
requise
pour
assurer
une
marge
d’erreur
(en
valeur
absolue)
n’excédant
pas
5
%,
avec
un
niveau
de
confiance
de
95
%.
Une
enquête
similaire
effectuée
il
ya
3
ans
indiqua
que
32
%
d’individus
fumaient
régulièrement.
b) Déterminer
la
taille
d’échantillon
requise
en
supposant
que
nous
n’avons
aucune
information
préalable
sur
la
probabilité
des
étudiantes
qui
fument.
Exercice13
:
A
fin
d’estimer
le
revenu
mensuel
moyen
dans
un
secteur
de
production.
Quelle
doit
être
la
taille
de
l’échantillon
de
salariés
à
interroger
pour
que
la
moyenne
empirique
ne
s’éloigne
pas
de
la
moyenne
de
la
population
de
100
dh
avec
une
probabilité
au
moins
égale
à
0,95
sachant
que
l’écart
type
est
de
500
dh
par
salarié
?
Exercice14
:
On
souhaite
réaliser
une
enquête
sur
la
consommation
des
ménages
afin
d’estimer
la
dépense
moyenne
par
ménage.
Quelle
doit
être
la
taille
de
l’échantillon
de
ménages
si
la
population
est
composée
de
5
millions
de
ménages
et
que
l’erreur
admise
ne
doit
pas
dépasser
100
dh
avec
une
probabilité
de
0,99
?
l’écart
type
de
la
dépense
des
ménages
est
de
2000
dh.
Exercice15
:
On
souhaite
réaliser
une
enquête
sur
l’emploi
afin
d’estimer
le
taux
de
chômage.
La
population
active
est
de
5
millions
de
personnes.
Quelle
doit
être
la
taille
de
l’échantillon
pour
que
la
fréquence
empirique
ne
s’éloigne
pas
du
vrai
taux
de
chômage
et
ce
avec
une
probabilité
de
0.95
de
2%.
Une
enquête
récente
avait
donné
un
taux
de
chômage
de
12%.
Exercice16
:
Une
variable
aléatoire
K
représente
le
nombre
de
pannes
d’un
dispositif
électronique.
La
variable
K
obéit
à
une
loi
de
poisson.
On
expérimente
8
appareils
comportant
le
dispositif.
Pour
chaque
appareil,
on
relève
le
nombre
de
pannes
dans
un
mois.
On
obtient
les
nombres
suivants
:
6,
3,
1,
3,
1,
4,
0,
2.
Exercice17
:
Dans
une
municipalité,
on
a
effectué
un
sondage
pour
connaître
l’opinion
des
contribuables
sur
un
nouveau
règlement
d’emprunt.
D’une
liste
informatisée
de
6000
payeurs
de
taxes,
on
a
prélevé,
par
tirage
au
sort,
150
noms.
Sur
ces
150
;
45
étaient
en
faveur
du
nouveau
règlement
d’emprunt.
Déterminer
un
48
Echantillonnage
et
estimation
intervalle
de
confiance
pour
p,
la
proportion
vraie
de
contribuables
de
cette
municipalité
qui
sont
en
faveur
du
nouveau
règlement
d’emprunt,
avec
un
niveau
de
confiance
de
90%,
95%
et
de
99%.
Exercice18
:
Le
service
des
sports
du
collège
veut
estimer
le
pourcentage
d’individus
qui
s’adonnent
à
une
activité
physique.
Sur
une
liste
informatisée
de
8000
individus
inscrits
au
collège,
on
prélève,
par
tirage
au
sort,
400
individus.
Sur
ces
400
individus
;
180
s’adonnent
à
au
moins
une
activité
physique
par
semaine.
1) Quelle
est,
pour
l’ensemble
du
collège,
l’estimation
ponctuelle
de
la
proportion
p
des
individus
qui
s’adonnent
à
une
activité
physique
?
2) Quel
est
le
taux
de
sondage
?
est-‐ce
nécessaire
d’utiliser
le
facteur
de
correction
pour
le
calcul
de
l’écart-‐type
de
la
proportion
d’échantillon
?
3) Calculer
l’intervalle
de
confiance
associé
à
l’estimation
de
p
ayant
un
niveau
de
confiance
de
95%.
Vérifier
également
si
les
conditions
d’application
nécessaires
à
l’utilisation
de
la
table
de
la
loi
normale
centrée
réduite
pour
le
calcul
de
l’intervalle
sont
satisfaites.
Exercice19 :
f
Dans
un
sondage
portant
sur
50
personnes,
on
a
trouvé
pour
la
fréquence
n
d’un
caractère
la
valeur
0,25.
Déterminer
un
intervalle
de
confiance
pour
p,
fréquence
pour
l’ensemble
de
la
population,
supposée
très
nombreuse,
avec
un
coefficient
de
confiance
de
95%.
Exercice20 :
Une
variable
aléatoire
X
est
distribuée
normalement
de
moyenne
µ
et
de
variance
81.
Un
échantillon
aléatoire
de
taille
n = 36
donne
une
moyenne
de
250.
a) Quelle
serait
une
estimation
ponctuelle
de
µ
?
b) Donner
deux
propriétés
de
l’estimation
employée.
c) Déterminer
les
limites
de
l’intervalle
qui
aurait
95
de
chances
sur
100
d’encadrer
la
vraie
valeur
de
µ .
Exercice21
:
On
veut
estimer,
à
l’aide
d’un
test
d’aptitudes,
le
résultat
moyen
d’individus
du
lycée
sigma
voulant
s’orienter
vers
l’informatique.
On
suppose
que
les
résultats
à
ce
test
d’aptitudes
sont
distribués
normalement.
Un
échantillon
de
25
individus
donne
un
résultat
moyen
de
192.
De
plus,
∑( x − X )
2
i = 9600
.
a) Calculer
la
variance
des
résultats
de
cet
échantillon.
b) Entre
quelles
limites
peut
se
situer
le
résultat
moyen
dans
la
population
d’individus
dont
l’échantillon
a
été
prélevé
?
Utiliser
un
niveau
de
confiance
de
99%.
c) D’après
la
norme
nationale,
le
résultat
moyen
à
ce
test
d’aptitude
est
de
200.
Peut-‐on
affirmer,
sans
trop
se
tromper,
que
les
individus
de
ce
lycée
sont
conformes
à
la
norme
nationale
?
49
Echantillonnage
et
estimation
Exercice22
:
Lors
d’un
récent
sondage
effectué
auprès
de
la
population
étudiante
du
collège,
on
a
observé
que,
sur
un
échantillon
de
700
personnes,
380
sont
satisfaits
de
la
qualité
de
la
nourriture
offerte
à
la
cafétéria.
a) Quelle
est
la
marge
d’erreur
de
ce
sondage,
au
niveau
de
confiance
de
95%
?
b) Estimer,
pour
l’ensemble
de
la
population
étudiante,
la
proportion
des
personnes
qui
sont
satisfaites
de
la
qualité
de
la
nourriture
offerte
à
la
cafétéria
avec
un
niveau
de
confiance
de
95%.
Exercice23
:
L’entreprise
TEMCA
fabrique
et
alimente
environ
40
%
du
marché
international
des
séchoirs
à
cheveux.
Une
nouvelle
politique
gouvernementale
sur
l’exportation
de
certains
appareils
électriques
permettrait
d’introduire
ce
séchoir
à
cheveux
sur
un
nouveau
marché
d’environ
1500000
consommateurs.
Une
étude
de
marché
révèle
que
sur
un
échantillon
aléatoire
de
2500
personnes
interrogées,
800
seraient
des
utilisateurs
éventuels.
a) Calculer
l’intervalle
de
confiance
associé
à
l’estimation
de
la
proportion
des
consommateurs
éventuels
avec
un
niveau
de
confiance
de
95
%.
b) Entre
quelles
limites
peut
situer
le
nombre
de
séchoirs
à
cheveux
que
l’entreprise
TEMCA
peut
espérer
vendre
sur
ce
nouveau
marché
?
50