Vous êtes sur la page 1sur 27

Comprendre la variation

Inférence statistique
Inférence statistique
 Nous avons vu que bien souvent, nous fondons notre opinion ou
prenons des décisions à partir d’échantillons.
 Si l’échantillon est représentatif et précis pour mesurer la
caractéristique de la population,alors notre décision sera ‘bonne’.
 L’inférence statistique consiste à utiliser des méthodes sur les
données de l’échantillon que nous avons observées pour ensuite
généraliser nos conclusions à l’ensemble de la population.
 En d’autres termes, l’inférence nous permet d’estimer ou de
déterminer quelles sont les valeurs possibles dans la populations
pour s’assurer que notre jugement ou décision ne serait pas
modifié si nous avions les résultats pour toute la population
(resensement).
Facteurs qui influencent la
précision de l’inférence

 Représentativité de l’échantillon –
méthode d’échantillonnage
 Taille de l’échantillon
Inférence statistique

 Estimation et inférence pour la proportion


p (pourcentage) d’une population
 Estimation et inférence pour la moyenne µ
d’une population
 Estimation et inférence pour la différence
entre 2 proportions .
Inférence pour une
proportion p
 Exemple: Sur un échantillon de 125 étudiants
d ’un collège interrogés pour savoir s ’ils ont
l ’intention de voter aux prochaines élections de
leur association, 45 ont répondu positivement.
 Estimer, de façon ponctuelle, la proportion de
l ’ensemble des étudiants de cette institution qui
ont l ’intention de voter aux prochaines élections.

45
p  0,36
125
Inférence pour une
proportion p

 Quelle est la précision de cet estimé?


 Quelle est l’influence de la taille de
l’échantillon?
 Est-ce que nous sommes ‘certains’ que
cette proportion est nettement inférieure
à 50 %?
Inférence pour une
proportion p

 Pour répondre à ces questions, nous


avons besoin de la distribution (estimé
des résultats de plusieurs échantillons)de
la statistique qui nous intéresse.
 Suppose la normalité des données
 Utilise les méthodes de simulation de Monté-
Carlo
 La distribution nous permet ensuite de
construire l’intervalle de confiance
Estimation par intervalle de
confiance
 Pour estimer la proportion p d ’individus possédant
la caractéristique à l ’étude dans la population, ou
la moyenne  , on utilise un intervalle de confiance
au niveau (1- ).
 L ’estimation par intervalle de confiance consiste à
établir un intervalle de valeurs qui nous permet
d ’affirmer, avec un certain niveau de confiance ou
de certitude prédéterminé (en général: 90%, 95%
ou 99%), que la vraie valeur du paramètre dans la
population se trouve dans cet intervalle.
Intervalle de confiance pour p

la proportion p d ’individus possédant la


caractéristique à l ’étude dans la population
p  proportion " de succès" dans l' échantillon ;

 Puisque cette estimé est une statistique obtenue


à partir d’un échantillon, on peut obtenir sa
distribution:
 On suppose la normalité
 On simule la distribution (Monté-Carlo)
Intervalle de confiance pour
estimer une proportion p (suite)
 De façon générale, si la taille de l’échantillon n est
assez grande, l ’intervalle de confiance au niveau
(1 - ) pour estimer la vraie proportion p du
caractère à l ’étude dans la population, est donnée
par:
p(1 - p) p(1 - p)
p [ p - z /2 ; p  z /2 ]
n n
où p  proportion " de succès" dans l' échantillon ;
z /2 , lu dans la table de la loi normale, est tel que,
P[ - z /2  Z  z /2 ]  1 -  ;
si   5%, alors z /2  1,96 .
Exemple (suite) :
 Par conséquent, un intervalle de confiance de 95%
de certitude pour la proportion de l ’ensemble des
étudiants de cette institution qui ont l ’intention de
voter aux prochaines élections nous est donné par:

0,36x0,64 0,36x0,64
p [ 0,36 - 1,96 ; 0,36  1,96 ]
125 125

p [ 0,276 ; 0,444]
Exemple (suite) :
 Comment rapporterait-on les résultats de ce
sondage dans le journal étudiant de ce
collège?
 36% des étudiants du collège ont l ’intention
d ’exercer leur droit de vote aux prochaines
élections de l ’association étudiante. La
marge d ’erreur est de 8,4% avec un niveau
de confiance de 95% (ou avec un degré de
certitude de 95% ou 19 fois sur 20).
Remarques:
 Cette formule est approximative et s ’applique
uniquement pour les grands échantillons.
 Si je prends tous les échantillons aléatoires possibles
de taille n et que je calcule pour chacun un intervalle
de confiance au niveau de 95%, 95% d’entre eux
incluront la vraie proportion p de la population, et
donc 5% ne l ’incluront pas.
p(1 - p)
 La quantité 1,96 n est appelé marge
d ’erreur ou précision, au niveau de confiance 95%
(19 fois sur 20).
Marge d ’erreur au niveau 95%

Marge d'erreur ou précision (en %) selon la taille de


l'échantillon n et la valeur de p au niveau 95%

p (%) taille de l'échantillon n


100 300 500 1000 3000 10000
10 5,9 3,4 2,6 1,9 1,1 0,6
20 7,8 4,5 3,5 2,5 1,4 0,8
30 9,0 5,2 4,0 2,8 1,6 0,9
40 9,6 5,5 4,3 3,0 1,8 1,0
50 9,8 5,7 4,4 3,1 1,8 1,0
60 9,6 5,5 4,3 3,0 1,8 1,0
70 9,0 5,2 4,0 2,8 1,6 0,9
80 7,8 4,5 3,5 2,5 1,4 0,8
Marge d ’erreur au niveau 90%

Marge d'erreur ou précision (en %) selon la taille de


l'échantillon n et la valeur de p au niveau 90%

p (%) taille de l'échantillon n


100 300 500 1000 3000 10000
10 4,9 2,8 2,2 1,6 0,9 0,5
20 6,6 3,8 2,9 2,1 1,2 0,7
30 7,5 4,4 3,4 2,4 1,4 0,8
40 8,1 4,7 3,6 2,5 1,5 0,8
50 8,2 4,7 3,7 2,6 1,5 0,8
60 8,1 4,7 3,6 2,5 1,5 0,8
70 7,5 4,4 3,4 2,4 1,4 0,8
80 6,6 3,8 2,9 2,1 1,2 0,7
90 4,9 2,8 2,2 1,6 0,9 0,5
Calcul de la taille n pour assurer une
marge d ’erreur maximale

 Si nous voulons estimer la proportion p au


niveau de confiance (1-) avec une marge
d ’erreur maximale notée e, alors nous
avons la relation suivante pour le calcul de la
taille n de l ’échantillon:
2
p(1 - p) 0,5x0,5 z/2  z /2 
z/2  z /2  e  n  
n n 2 n  2e 
Intervalle de confiance pour 

 On estime le coût moyen du panier d’épicerie


avec

x  moyenne de l' échantillon ;


 Puisque cette estimé est une statistique obtenue
à partir d’un échantillon, on peut obtenir sa
distribution:
 On suppose la normalité
 On simule la distribution (Monté-Carlo)
Intervalle de confiance pour
estimer la moyenne 
 De façon générale, si la taille de l’échantillon n est
assez grande, l ’intervalle de confiance au niveau
(1 - ) pour estimer la vraie moyenne  de la
population, est donnée par:
z /2  z /2 
 [ x - ; x ]
n n
où x  moyenne de l' échantillon ;
  écart type de la variable à l' étude dans la population ;
z /2 , lu dans la table de la loi normale, est tel que,
P[ - z /2  Z  z /2 ]  1 -  .
Remarques:
 Cette formule est approximative et s ’applique
uniquement pour les grands échantillons (sauf si
la caractéristique a une distribution normale et
que l ’écart type est connu  la formule est
exacte).
 Lorsque l ’écart type  est inconnu, on utilise une
estimation de  et on remplace la valeur de
Z0,025=1,96 pour une valeur légèrement supérieure
lu dans une table de la loi de Student qui dépend
de la taille de l ’échantillon.
Remarques: (suite)
 Interprétation d’un intervalle de confiance
au niveau 95% pour la moyenne  d ’une
caractéristique dans la population:
Si je prends tous les échantillons aléatoires
de taille n et que je calcule pour chacun un
intervalle de confiance de 95%, 95%
d’entre eux incluront la vraie moyenne  de
la population, et donc 5% ne l ’incluront
pas.
Intervalle de confiance pour 
Exemple

 Afin de connaître le coût hebdomadaire


moyen du panier d ’épicerie pour une famille
de 4 personnes résidant à Sherbrooke, on
prélève un échantillon de 50 de ces familles
et on note le montant de leur épicerie de
cette semaine. On obtient un montant
moyen de 155$ avec une estimation de
l ’écart type de 15$.
Exemple (suite) :
 Estimer le coût actuel moyen du panier d ’épicerie
d ’une famille de 4 personnes résidant à Sherbrooke à
l ’aide d ’un intervalle de confiance de 95% de certitude
(on suppose l ’écart type connu à 15$):
1,96 x 15 1,96 x 15
 [ 155 - ; 155  ]
50 50
 [ 150,84$ ; 159,16$ ]
 En affirmant que le coût actuel moyen du panier
d ’épicerie d ’une famille de 4 personnes résidant à
Sherbrooke est dans l ’intervalle [150,84$; 159,16$], je
suis 95% certain d ’avoir raison.
Estimation et inférence
entre 2 proportions
 Exemple:
 La compagnie qui effectue du marketing
direct en ligne désire améliorer son taux de
réponse pour une de ces campagnes de
promotion.
 On vous a confié le mandat de planifier ces
tests et de déterminer si la nouvelle
campagne est plus efficace que l’ancienne.
 Comment allez-vous procéder?
Estimation et inférence
entre 2 proportions

 Soit p1 le taux de réponse de la campagne


actuelle et p2 le taux de réponse de la
nouvelle campagne.
 En termes mathématiques, nous voulons
déterminer si nous avons une évidence
statistique nous permettant de conclure
que la différence entre p1 et p2 est
significativement différente , i.e p1  p2
Estimation et inférence
entre 2 proportions

 Nous estimerons p1 et p2 à partir de


statistiques calculées sur des échantillons.
 Nous savons que toutes les statistiques
ont une distribution échantillonnale.
 Nous devons donc estimer quelle est la
variation possible de p1  p 2
Estimation et inférence
entre 2 proportions

 La distribution de p1  p 2
Sera construite en supposant le ‘statue quo’,i.e
p1 = p2 =p. Sous cette hypothèse, notre estimé
de la proportion de la population est donc
obtenu en combinant les résultats des deux
échantillons:
n1  n 2
p 1 1
n p  n2 p 2
 L’intervalle de confiance pour la différence
sera obtenu, en supposant la distribution
normale ,par
1 1 1 1
p1 - p 2 [ (p1 - p 2) - z /2 p (1  p )(  ) ; (p1 - p 2)  z /2 p (1  p )(  ) ]
n1 n2 n1 n2

 Ou par simulation de Monté-Carlo

Vous aimerez peut-être aussi