Vous êtes sur la page 1sur 34

Introduction Est. ponc. Est. interv.

IC moyenne IC proportion

Statistique inférentielle

Pr. Nicolas MEYER

———————
Laboratoire de Biostatistique et Informatique Médicale
Fac. de Médecine de Strasbourg
———————
Janvier 2011
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Plan

1 Introduction

2 Estimation ponctuelle

3 Estimation par intervalle

4 Intervalle de confiance d’une moyenne

5 Intervalle de confiance d’une proportion


Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Plan

1 Introduction

2 Estimation ponctuelle

3 Estimation par intervalle

4 Intervalle de confiance d’une moyenne

5 Intervalle de confiance d’une proportion


Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Statistique inductive

Statistique : domaine inductif et non déductif → l’observation


(( remonte )) vers la loi
• statistique inductive
à partir d’observations sur un échantillon
permet d’induire la valeur des paramètres de la loi de
distribution de la population (∼ parente)
induction faite avec une certaine incertitude
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Exemple

extraction avec remise de 100 boules dans une urne (très


grande)
comptabilisation du nombre de boules blanches
• soit 40% de blanches
peut-on conclure qu’il y a 40% boules blanches dans la
population ?
autres valeurs possibles ? 41% ? 38% ?
certaines valeurs sont peu compatibles avec la valeur
observée : par exemple 1%, 89% etc
observation → estimation ponctuelle qui doit être entourée d’un
intervalle de confiance
Calcul de probabilités Statistique inféren-
tielle
Données n et nB sont connus, p = p est inconnue. On effectue
nB /n est connu n tirages et on obtient nB
boules blanches
Problème
- Caractériser la loi de probabilité - Affecter à p une valeur
du nombre de boules blanches vraisemblable (= estimation
obtenues en n tirages. ponctuelle)
- Calculer E (X ), Var (X ) - Trouver un intervalle de valeurs
compatible avec p (estimation par
- Calculer Pr(D|θ) etc.
intervalle)
- Décider si la vraie valeur de p est
différente, inférieure ou supérieure
à une valeur donnée (test
statistique)

Conclusion Déduction des probabilités des évènements Inférence des paramètres à partir de l’obser-

à partir des paramètres avec une précision vation des évènements. Le risque d’erreur

arbitraire augmente avec la précision des estimations


Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Statistique inductive
Remarque 1
Lorsque l’on peut admettre qu’un phénomène suit une loi de
probabilité connue (cas le plus fréquent), le problème : l’étude des
paramètres de cette loi.
si un phénomène ∼ loi de Gauss → le problème : estimer les
valeurs de µ et σ

Remarque 2
⇒ il faut d’abord faire une hypothèse sur la loi de distribution des
données puis en estimer les paramètres.

Remarque 3
Lorsque la loi est inconnue, il faut soit essayer de la déterminer
(méthodes non vues dans ce cours) puis en estimer les paramètres,
soit recourir aux méthodes non paramétriques.
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Rappel

notion d’échantillon et de population


en recherche clinique, obtenir des résultats présentant un
caractère général (universel) afin de pouvoir utiliser cette
connaissance sur l’ensemble d’une population
→ étude sur un échantillon issu de la population
à partir des connaissances obtenues sur l’échantillon
→ induction des connaissances sur la population
on établit certaines grandeurs à partir de l’échantillon,
grandeurs qui constituent des estimations des grandeurs
correspondantes de la population.
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Plan

1 Introduction

2 Estimation ponctuelle

3 Estimation par intervalle

4 Intervalle de confiance d’une moyenne

5 Intervalle de confiance d’une proportion


Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Estimation ponctuelle

Soit une V.A. X , d’espérance mathématique et de variance E (X )


2
et σX
on effectue n tirages non exhaustifs : chaque tirage peut être
associé à une variable Xi prenant la valeur xi
effectuer n tirages dans une population revient à observer les
valeurs {x1 , x2 , . . . , xi , . . . , xn } prises par les n variables
aléatoires {X1 , X2 , . . . , Xi , . . . ,Xn }
L’échantillon est caractérisé par les valeurs prises par les n
variables Xi .
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Estimation ponctuelle

On définit alors deux nouvelles variables aléatoires appelées


moyenne d’échantillon et variance d’échantillon

Moyenne d’échantillon :
X1 + X2 + · · · + Xi + · · · + Xn
X̄ =
n
Variance d’échantillon :
n
0 1X
σ2= (xi − x̄ )2
n
i=1
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Estimation ponctuelle de la moyenne

La moyenne d’échantillon est caractérisée par son espérance


mathématique E (X̄ ) et sa variance Var (X̄ )

E (X1 +X2 +···+Xn )


E (X̄ ) = n

E (X1 )+E (X2 )+···+E (Xn ) n·E (X )


= n = n

car E (Xi ) = E (X )

d’où E (X̄ ) = E (X )
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Estimation ponctuelle de la moyenne

Calcul de la variance de la moyenne :


 
2 X1 + X2 + · · · + Xn
σX̄ = Var
n

2 n · Var (X ) σ 2 (X )
σX̄ = =
n2 n
car les variables aléatoires Xi sont indépendantes entre elles
(tirages non exhaustifs dans une même population)
σX
• donc : σX̄ = √ n
→ ne pas confondre la variance des données et la variance de la
moyenne de l’échantillon, encore appelée erreur standard de la
moyenne
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Exemple

Soit les données suivantes :


dosage de la glycémie, µ = 0,95 et σ = 0,1, d’une gaussienne
N (µ = 0,95, σ = 0,1)
alors la distribution de la moyenne suit une loi de Gauss

N (µ, σ/ n)
on réalise un échantillon de taille n = 25
la moyenne = 0,95

on obtient pour e.s.m. : σX̄ = 0,1/ 25 = 0,02

soit N (µ = 0,95, σ/ n = 0,02)
Remarque : ici, valeurs théoriques mais même principe sur des
données observées
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Estimation ponctuelle de la variance

0
Variance d’échantillon σ 2 :
• espérance mathématique de la variance d’échantillon :

n
" #
02 1X n −1 2
E (σ ) = E (xi − x̄ )2 = σ
n n
i=1

0
• σ 2 est un estimateur biaisé de la variance de la population
• d’où la nécessité de corriger la variance pour obtenir un
estimateur sans biais
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Estimation ponctuelle de la variance

On définit alors S 2 :
n
" #
1 X n 0
S2 = E (xi − x̄ )2 = σ2
n −1 n −1
i=1

E (S 2 ) = σX
2

• S 2 est un estimateur sans biais de la variance σ 2 de la


population parente
Remarque : on peut calculer la variance de la variance d’échantillon
mais peu d’intérêt pratique.
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Conclusions
la moyenne de l’échantillon est un estimateur sans biais de
l’espérance mathématique de X
ce qui ne signifie pas que la moyenne estimée sur un
échantillon donné est numériquement égale à la moyenne de la
population
S 2 est un estimateur sans biais de la variance de la population
0
parente σ 2 contrairement à σ 2
ce qui ne signifie pas que la variance estimée sur un échantillon
donné est numériquement égale à la variance de la population
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Plan

1 Introduction

2 Estimation ponctuelle

3 Estimation par intervalle

4 Intervalle de confiance d’une moyenne

5 Intervalle de confiance d’une proportion


Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Notions générales

• l’estimation ponctuelle d’un paramètre tend vers la vraie valeur


du paramètre quand la taille de l’échantillon tend vers l’infini
• en pratique, échantillon de taille limité
• estimation d’une zone de valeurs compatibles avec la vraie valeur
• cette zone : intervalle de confiance (IC), défini avec un risque
d’erreur sur l’affirmation que la vraie valeur du paramètre est
contenue dans l’IC
• IC à (100 − α)% (95% le plus souvent)
• notion de balance entre précision de l’estimation et risque
d’erreur : si IC très large, erreur très faible mais précision très faible
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Plan

1 Introduction

2 Estimation ponctuelle

3 Estimation par intervalle

4 Intervalle de confiance d’une moyenne

5 Intervalle de confiance d’une proportion


Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Intervalle de confiance d’une moyenne : grands échantillons

premier cas :
si n > 30
et/ou si la population parente est gaussienne
alors la distribution de la moyenne est gaussienne
on constitue un échantillon de taille n et de moyenne observée
m
En supposant que σ 2 est connue, on défini alors l’IC de µ par :
 √ √ 
IC = m − z1−α/2 (σ/ n) ; m + z1−α/2 (σ/ n)
si α = 0,05, alors z1−α/2 = 1,96
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Intervalle de confiance d’une moyenne : grands échantillons

Interprétation de cet IC :
Un IC à (100 − α)% est un intervalle tel que (100 − α)% des
échantillons construits de la même manière contiennent la vraie
valeur µ de la moyenne

Ne pas confondre avec la définition suivante, très fréquente mais


FAUSSE
Un IC à (100 − α)% est un intervalle qui a (100 − α)% de chance
de contenir la vraie valeur µ

Pour utiliser cette définition, il faut utiliser la théorie bayésienne.


Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Intervalle de confiance d’une moyenne : grands échantillons

Si l’on ne connaı̂t pas σ 2 (cas le plus fréquent), alors on remplace


σ 2 par son estimation S 2 (et donc σ par S ) :
 √ √ 
IC = m − z1−α/2 (S / n) ; m + z1−α/2 (S / n)
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Intervalle de confiance d’une moyenne : petits échantillons

second cas : Si n petit, i.e. n < 30, la loi de Gauss n’est plus valide
(car approximation non fiable)
on utilise alors la loi de Student
tenir compte des degrés de liberté : si taille n → ddl = n − 1
l’IC de µ devient :
 √ √ 
IC = m − tddl;1−α/2 (S / n) ; m + tddl;1−α/2 (S / n)
Plus large qu’avec la loi de Gauss pour tenir compte de
l’incertitude plus grande sur la variance
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Intervalle de confiance d’une moyenne : petits échantillons

Exemple : Un échantillon aléatoire de n = 10 prélèvements


(tirages) indépendants est effectué dans une population parente
quelconque. Les valeurs obtenues sont les suivantes :
• 1,19 ; 1,08 ; 1,18 ; 1,13 ; 1,16 ; 1,20 ; 1,15 ; 1,13 ; 1,10 ; 1,14
→ Déterminer une estimation et un intervalle de confiance à 95%
pour la moyenne µ de la population
• On trouve :
m = 1,146, s 2 = 1,4711.10−3 , s = 0,03836,
n = 9, ddl = 9, donc t1−α/2 = 2,262
√s
n
= 1,2129.10−2

IC : [1,119 ; 1,173] (soit 1,146 ± 2,262 × 0,03836/ 10)
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Remarques

• quelle que soit la taille de l’échantillon, le plus souvent, la


variance n’est pas connue : on utilise s 2 , l’estimation de la variance
obtenue sur l’échantillon
• on peut également définir l’IC d’une variance, basé sur une loi du
χ2 mais rarement utilisé
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Plan

1 Introduction

2 Estimation ponctuelle

3 Estimation par intervalle

4 Intervalle de confiance d’une moyenne

5 Intervalle de confiance d’une proportion


Introduction Est. ponc. Est. interv. IC moyenne IC proportion

IC d’une proportion

On souhaite estimer la fréquence (ou proportion) π à laquelle est


présente une caractéristique donnée dans une population
(tabagisme, ATCD d’IDM, etc) à partir d’un échantillon :
on observe un nombre no de sujets parmi les n ayant la
caractéristique recherchée
no
on définit la proportion observé po = n estimant la vraie
proportion π dans la population
et q = 1 − p
lorsque n > 30 (toujours dans ce cours) : n grand
condition de validité de l’estimation : np > 5, nq > 5, i.e. p et
q ne sont pas trop proches ni de 0 ni de 1.
Alors :
.../...
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

IC d’une proportion

.../...
no
la variable aléatoire n suit une loi de Gauss
d’espérance mathématique E ( nno ) = E (po ) = π
et de variance σ 2 nno = pq

n

On définit alors l’IC de π suivant :


 r r 
pq pq
IC = po − z1−α/2 ; po + z1−α/2
n n
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

IC d’une proportion

Exemple :
• soit un échantillon de taille n = 41, avec no = 23
• : po = 0,561 et IC : [0,409 ; 0,713],
q
• i.e. 0,561 ± 1,96 × 0,561×(1−0,561)
41
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Remarques divers sur les IC

Retour sur la notion de risque et de précision de l’IC


(( si IC très large, erreur très faible mais précision très faible ))
sur l’exemple de la proportion :
pour un IC à 95% : [0,409 ; 0,713]
pour un IC à 90% : z1−α/2 = 1,645
d’où un IC : [0,434 ; 0,688]
Donc,

si précision plus grande, risque d’erreur plus important


si risque d’erreur plus faible (donc IC plus large), précision
plus faible
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Remarques divers sur les IC

on calcul l’intervalle de confiance du paramètre de la


population
à partir des données observées
donc les paramètres de la population n’interviennent pas dans
le calcul
il existe aussi un intervalle de prédiction : calcul, à partir des
données connues de la population, de l’intervalle dans lequel
se trouve la valeur observée sur un échantillon donné
peu utile en pratique
Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Intervalle de fluctuation

Soit une population et une V.A. X → N (µ,σ 2 )


On tire un échantillon de taille n, de moyenne observée m
 
|m−µ|
la loi de Gauss : Pr √ 2 > zα/2 , probabilité d’un écart
σ /n
|δ| = |m − µ| au seuil α
sur un échantillon aléatoire, l’intervalle deqfluctuation de m,
2
valeur observée de la moyenne : µ ± zα/2 σn
p (( proche )) de µ :
le plus souvent m sera
Pr (|m − µ| < 1,96 σ 2 /n) = 0,95
parfois m sera éloignée
p de µ :
Pr (|m − µ| > 1,96 σ 2 /n) = 0,05

ici : de la population → l’échantillon


Introduction Est. ponc. Est. interv. IC moyenne IC proportion

Remarques divers sur les IC

Retour sur la notion de risque et de précision de l’IC


IC doivent être très largement utilisés
moyenne, proportion, différence de moyennes et de proportions
risque relatif, odds-ratio, différence de risque,
coefficient de corrélation, etc.
l’IC englobe l’estimation ponctuelle
en tenant compte de la variabilité et de l’incertitude sur
l’estimation
donc en tenant compte de la taille de l’échantillon
équivalence avec le test statistique

Vous aimerez peut-être aussi