Académique Documents
Professionnel Documents
Culture Documents
Statistique inférentielle
Échantillonnage
A- Statistique inférentielle et échantillon
B- Théorie de l’échantillonnage
C- Distributions d’échantillonnage
D- Simulation d’échantillons
A- Statistique inférentielle et
échantillon
A- 1 Introduction
Etude Statistique = étude des caractéristiques (variables statistiques) d’un ensemble
d'objets (population, composée d'individus) .
Sondage :
On n'étudie qu'une partie de la population : un échantillon. Les méthodes
permettant de réaliser un échantillon de bonne qualité (sui ressemble à la
population dont il est issu) sont étudiées en théorie de l’échantillonnage.
On cherche alors à extrapoler à la population entière les propriétés mises
en évidence sur l'échantillon ⇒ statistique inférentielle
.
A-2 Les hypothèses de la statistique
inférentielle
La population est considérée comme infinie (très
grande )
R é p a r titio n d e s v a le u r s d u s a la ir e
0.00015
fréquence de réalisation
0.00010
0.00005
0.00000
0 2 0 0 0 4 0 0 0 6 0 0 0 8 0 0 0 1 0 0 0 0
v a le u r s p o s s i b le s
A-2 Les hypothèses de la statistique
inférentielle
La répartition des valeurs de Ex: si l’on suppose que les salaires sont
ces variables sont caractérisées soumis à un grand nombre de
par des lois de probabilités petites fluctuations d’origines
diverses, X suit une loi normale
La répartition d’une variable tronquée à zero.
statistique X sur la population
répartition des salaires
est décrite par une loi de
4 e-04
probabilité,
3 e-04
caractérisée par une densité de
probabilité (X continue )ou une
2 e-04
séquence de fréquences relatives à
chacune de ses valeurs (X discrète)
1 e-04
(E(X), V(X), autres paramètres 0 1000 2000 3000 4000 5000 6000
résumant la distribution.) x
A-2 Les hypothèses de la statistique
inférentielle
Les variations simultanées de deux ou plusieurs variables
statistiques sont décrites par une loi jointe
caractérisée par une densité jointe (variables continues) ou une séquence des
fréquences jointes (variables discrètes).
Ex : les variations simultanées du salaire et de l’age des salariés pourront être décrites
par une fonction de densité jointe f(x,z).
0.00030
sondage un grand nombre de
0.00020
fréquence de réalisation
fois, on obtiendrait la plupart
0.00010
du temps une répartition
différente des valeurs
0.00000
0 2000 4000 6000 8000 10000 12000
prélevées. v a le u r s p o s s i b le s
1° sondage : 2° sondage :
( x1 ,....x100 ) ( x '1 ,....x '100 )
= ( X (ω1 ), .... X (ω100 )) = ( X (ω '1 ), .... X (ω '100 ))
B-3 Notion d’échantillon aléatoire
S = f ( X1 ,..., X n )
Définition : 1 n Info :
Xn = ∑ Xi X n « approche» m : c’est un
n i =1 estimateur de m. Il est :
Loi et moments : - sans biais (i))
Loi inconnue en général - asymptotiquement efficace (ii))
σ² - fortement convergent (iii))
i ) E ( X n ) = m, ii ) V ( X n ) =
n - la loi de l’erreur d’approximation est
Propriétés asymptotiques : approximativement gaussienne
lorsque n est grand (iv).
Loi des grands nombres distribution de la moyenne
iii ) X n
P
→ m ; X n →
p. s.
m n=∝
Théorème central limite (TCL)
n’’’>n’’
n’>n
n’’>n’
Xn − m n
iv) n
L
→ N (0,1)
σ
n ( X n − m )
L
→ N (0,σ )
m
C-1 Moyenne empirique
0.40
0.40
et la variance de ces k valeurs est d’autant
0.35
0.35
plus faible que n est grand.
iii) ≈ lorsque la taille de l’échantillon prélevé
0.30
0.30
0.25
0.25
est très grande, les k moyennes valent presque
-1.0 -0.5 0.0 0.5 1.0 -1.0 -0.5 0.0 0.5 1.0
toutes m.
iv) ≈ si l’on prélève un grand nombre k
x x
n=1000 n=5000
d’échantillons de grande taille n et que l’on
0.40
0.40
calcule leurs moyennes renormalisées,
0.35
0.35
l’histogramme des k valeurs est proche de la
0.30
0.30
densité de la loi normale centrée réduite.
0.25
0.25
-1.0 -0.5 0.0 0.5 1.0 -1.0 -0.5 0.0 0.5 1.0
x x
C-1 Moyenne empirique
p (1 − p )
E (Q) = p; V (Q) =
n
p (1 − p )
Lorsque n est grand, Q ≈ N p,
n
C-2 Variance empirique
Définitions :
Autres expressions :
1 n
Sn = ∑ ( X i − X )2
2
1 n 2
n i =1 S = ∑ Xi − X 2 = X 2 − X 2
2
n
n i =1
Rq : ce n’est pas une somme de va indépendantes
1 n
(*) S = ∑ ( X i − m)² − ( X − m)²
2
n
n i =1
Loi et Moments : La loi est généralement inconnue.
n −1 n −1 µ4 −σ 4
E (S ) =
2
n σ ², V ( S n2 ) = 3 ( (n − 1) µ 4 − (n − 3)σ 4 ) 2
V (S ) ∼
n
n n n
µ3 1
Propriétés asymptotiques : Cov( X n , S ) =
2
n 1 −
n n
Sn2
P
→σ 2 ; Sn2 →
p .s.
σ2
Sn2 − σ 2
n
L
→ N (0,1)
µ4 − σ 4
Tn − σ 2
Dém : S = Tn − ( X − m)² avec n
2
n
L
→ N (0,1) et ( X − m)²
P
→0
µ4 − σ 4
C-3 Moyenne et la variance empirique :
Cas gaussien
Si X suit une loi N(m, σ). Alors :
Cov( Sn2 , X n ) = 0 : S n2 ⊥ X n
σ
X n ∼ N m,
n
nS n2
∼ χ 2
(n − 1)
σ 2
X −m
n −1 n ∼ T (n − 1)
S2
n
Définition :
Fn(x)
nombre de X i ≤ x 1 n
Fn ( x) = = ∑1X i ≤ x
n n i =1 1
iv) Fn ( x)
P
→ F ( x) ; Fn ( x) →
p.s.
F ( x) n
donc nFn ( x) = ∑ Yi ∼ B (n, F ( x))
Théorème central limite (TCL) i =1
v) n ( Fn ( x) − F ( x) )
L
→ N ( 0, F ( x)(1 − F ( x)) )
C-4 Fonction de répartition empirique
F(x) et Fn(x)
1.0
0.8
0.6
0.4
0.2
0.0
-3 -2 -1 0 1 2 3
x
D-1 Simulations d’un échantillon: Cas
général
Théorème d’inversion
k =1