Vous êtes sur la page 1sur 10

Université de Metz

IUT Thionville – Yutz


S1M1 – Mathématiques

Doc S4 – Echantillonnage & Estimation

Echantillonnage
ou « Comment, à partir d'informations connues sur une population (moyenne & écart-type ou
proportion), peut-on prévoir celles d'un échantillon ? »

Moyenne d’un échantillon


Soit une population sur laquelle est définie une variable aléatoire X dont on connaît
l'espérance (ou la moyenne) et l'écart-type .
Notons X la variable aléatoire qui, à chaque échantillon de taille n, associe sa moyenne ( X
s'appelle encore la distribution des moyennes de l’échantillon).

Théorème Central Limite (De Moivre & Laplace)


Si la VA X suit une loi normale sur la population, soit si X ~ N( ; ),
Alors la moyenne X de l’échantillon de taille n, prélevé au hasard (et assimilé à un tirage
avec remise), suit également une loi normale, telle que :

X ~N ,
n
Si la VA X suit une loi quelconque sur la population, avec E(X) = et Var(X) = ,
Alors la moyenne X de l’échantillon de taille n, avec n ≥ 30, prélevé au hasard (et assimilé
à un tirage avec remise), suit approximativement une loi normale, telle que :
X ~N ,
n

Rem : on remarque une atténuation de la dispersion par le processus d'échantillonnage.

Proportion dans un échantillon


Soit le caractère A, distribué dans la population entière avec une proportion p.
Notons F la VA qui, à chaque échantillon de taille n, associe sa proportion du caractère A (F
s'appelle distribution des fréquences de l’échantillon).

On retiendra le théorème suivant :


Soit un caractère A, répandu dans une population avec une fréquence p.
Un échantillon de taille n (prélevé avec remise), et tel que n ≥ 30, présente une fréquence F du
caractère A telle que la VA F suit approximativement une loi Normale, selon :

F ~ N p, p(1 p)
n

Frédéric Quignon 1
Université de Metz
IUT Thionville – Yutz
S1M1 – Mathématiques

Estimation
ou « Comment, à partir d'informations calculées sur un échantillon (moyenne & écart-type ou
proportion), estimer celles d'une population entière ? »

Estimation d’une moyenne


a) Estimation ponctuelle
Soit X une VA sur une population de moyenne (ou espérance) µ inconnue et d'écart-type
(connu ou non).
On suppose que l'on a prélevé un échantillon de taille n (tirage avec remise
ou assimilé) sur lequel on a calculé la moyenne µSple et l'écart-type Sple.

Une estimation ponctuelle ˆ de la moyenne µ de la population est : ˆ Sple

n
Une estimation ponctuelle ˆ de l'écart-type de la population est : ˆ Sple
n 1

n
s’appelle le coefficient de biais. Il est voisin de 1 pour n suffisamment grand.
n 1
(Ex : pour n = 30, ce coefficient vaut environ 1,017. Dans ce cas, Sple est un estimateur
acceptable de .)

Exemple : dans une université de 10 000 étudiants, on vérifie la taille de 25 étudiants pris au
hasard.
La moyenne µSple et l'écart-type Sple pour cet échantillon valent :
µSple = 176 cm et Sple = 6 cm
Nous pouvons donc estimer les paramètres de la population par :
ˆ = 176 cm et ˆ = (25/24) x 6 6.124 cm

Ce n’est qu’une estimation de la valeur vraie pour la population entière. Pour apprécier
l’imprécision de cette estimation et le risque associé de se tromper en adoptant cette
estimation ponctuelle, il est par exemple recours à l’estimation par intervalle de confiance
(IC).

b) Estimation par intervalle de confiance


Nous savons, avec le Théorème Central Limite, que la VA X , correspondant à la moyenne
d’un échantillon de taille n pris au hasard dans la population considérée, suit, pour n
suffisamment grand, une loi normale selon :
X ~N ,
n

Pour un niveau de risque arbitrairement choisi (par exemple, de 5%), nous allons chercher un
intervalle autour de µ, de largeur r, tel que :
Pr( X r≤ ≤ X r) 0,95
C’est-à-dire que, dans 95% des cas, la moyenne µ de la population tombe effectivement dans
l’intervalle X ± r.

Frédéric Quignon 2
Université de Metz
IUT Thionville – Yutz
S1M1 – Mathématiques

Autrement dit, on a aussi : Pr( µ r≤ X ≤ µ r) 0,95

b.1) connu
Introduisons maintenant la VA Z.
(X )
Par définition, Z suit une loi normale centrée réduite : Z ~ N(0 , 1).
n

Ainsi, estimer Pr( µ r≤ X ≤ µ r) 0,95 revient à estimer :

n n
Pr r Z r = 0.95

Or, comme Pr z Z z =2 (z) – 1, il vient :1

n
2 r – 1 = 0.95, ou encore :

n
r = 0.975.

Dans la table de la loi normale centrée réduite, on peut lire :


z 0.975 .
Cette valeur correspond à z = 1.96.
[Dans Excel-FR, la valeur s’obtient avec :
« =LOI.NORMALE.STANDARD.INVERSE(0,975) », ou bien « =NORMSINV(0.975) dans
XL-UK]]
Remarques :
de même, pour un IC au seuil de 1% de risque, z 0.995 correspond à
z = 2.575
une autre appellation courante pour la fonction de répartition d’une loi N(0,1) est (z ) (=
z )

Ainsi, le choix d’un niveau de risque décide de la valeur de z, ainsi que de la largeur r de l’IC,
puisque :

n
z r ou r z
n

1
A titre d’exercice, développez ces 3 lignes

Frédéric Quignon 3
Université de Metz
IUT Thionville – Yutz
S1M1 – Mathématiques

Si nous disposons maintenant des valeurs d’un échantillon, alors la moyenne µ de la


population entière est estimée par µSple et nous pouvons, au niveau de risque choisi de 5%,
déterminer un IC de largeur r 1.96 .
n
Ainsi, l'intervalle obtenu pour cet échantillon s’écrit :

Sple 1.96
; Sple 1.96 ( connu)
n n
Il fait partie d'une famille d’intervalles dans laquelle 95 % d’entre eux contiennent la
moyenne vraie (inaccessible) de la population.
On l'appelle intervalle de confiance à 95 % de l’estimation réalisée.

b.2) inconnu

Enfin, si l’écart-type de la population est inconnu, ce qui est bien souvent le cas, alors deux
approches coexistent. La première fournit un IC approché, tandis que la seconde fournit un IC
exact.

Calcul d’un IC approché


L’écart-type de la population étant inconnu, il est remplacé dans la formule de l’IC ci-
n
dessus par l’estimateur ˆ fondé sur l’écart-type de l’échantillon : ˆ Sple , pour
n 1
donner au final :
Sple Sple
Sple 1.96 ; Sple 1.96 ( inconnu)
n 1 n 1

Calcul d’un IC exact


X
Avec Z qui suit une loi N(0 ; 1)
n
n
2
Xi X
i 1 2
et U 2
qui suit une loi du à (n-1) ddl,
les variables U et Z étant de plus indépendantes,
Z
nous nous appuyons sur le fait que la variable T
U
(n 1)
suit une loi de Student à (n-1) degrés de liberté. (cf. Doc – Lois de probabilité)

n
s s 1 2
Ainsi, avec Pr X tn 1
X tn 1
1 2 et s 2 Xi X ,
n n n 1i 1

Frédéric Quignon 4
Université de Metz
IUT Thionville – Yutz
S1M1 – Mathématiques

nous retrouvons qu’un intervalle de confiance autour de µ peut être calculé, sans connaître
(population), à l’aide de la série d’observations Xi (fournissant ˆ X et ˆ s ) et de la
valeur de t n 1 , lue dans la table de Student pour (n-1) ddl et pour un quantile.

Le seuil de confiance (1-α) associé à cet intervalle est ici égal à : 1-2γ ( quantile).

Pour n observations et un niveau de risque bilatéral, l’IC s’écrit alors :


s s
Sple t n -1 ; Sple t n -1 ( inconnu)
n n

Le cas qui nous occupe fait appel à une variable de Student à (n-1) degrés de liberté, pour un
risque bilatéral (distribution des observations de part et d’autre de la valeur centrale µ)
Par exemple, la valeur de t n 1 , pour 10 observations indépendantes et pour un risque = 2 =
5%, vaut : t(0.05, 9) = 2.262.

Cette valeur est lue dans la table de la fonction de répartition de la loi de Student (cf. Doc –
Lois de probabilité) ou obtenue dans Excel-FR à l’aide de la commande :
« =loi.student.inverse(0.05 ; 9) » ou « =TINV(0,05;9) » in XL-UK.

Remarques :
l’IC est centré sur la valeur µSple car c'est la seule valeur de référence que nous
disposons. (Il fluctue avec l’échantillon choisi.)
la vraie valeur µ (inaccessible) de la moyenne de la population peut ne pas appartenir
à l’IC (déterminé à partir d’un échantillon donné).
r z
Le rayon de l’IC (à savoir la quantité n ) dépend du niveau de confiance choisi.
Plus le degré de confiance est proche de 100%, et plus la borne z sera élevée et l’IC
large.
Dans le cas du calcul exact de l’IC, n intervient non seulement sous la racine, mais
aussi dans le nombre de ddl de la variable t.

Frédéric Quignon 5
Université de Metz
IUT Thionville – Yutz
S1M1 – Mathématiques

Exemple : dans l’exemple précédent de la taille de 25 étudiants pris au hasard parmi 10 000,
nous avons estimé les paramètres de la population par :
ˆ = 176 cm et ˆ = (25/24) x 6 6.124 cm
Déterminons maintenant un IC à 95% (risque de 5%) autour de ˆ .
Notons X la VA correspondant à la moyenne d'un échantillon de taille 25 pris au hasard.
Par application du Théorème Central Limite, nous savons que :

X ~ N ˆ, .
25
Aussi, nous cherchons à déterminer la largeur r de l’IC centrée sur ˆ et tel que :
Pr( µ r≤ X ≤ µ r) 0,95 (au risque de 5%),

Calcul approché de l’IC :


(X )
Ou encore, en posant Z
n
n n
Pr r Z r = 0.95

L’intervalle correspondant à cette probabilité est borné par la valeur z = 1.96.


6.124
D’où r z = 1.96 2.40
n 25

Pour cet échantillon, l’IC à 95% vaut donc


[176 - 2,4 ; 176 + 2,4] = |173.4 ; 178.4]
Nous pouvons donc estimer, avec une confiance de 95 %, que la taille moyenne de la
population estudiantine est comprise entre 173,4 cm et 178,4 cm.

Calcul exact de l’IC :


s 1 n 2
Ici, r t n 1 avec s 2 Xi X .
n n 1i 1
Au niveau de risque = 5% bilatéral, la valeur de t correspondante est t(0.05 ; 24) = 2.064.
Mais, pour calculer s, il nous faudrait les 25 valeurs observées…

Frédéric Quignon 6
Université de Metz
IUT Thionville – Yutz
S1M1 – Mathématiques

Estimation d’une proportion

a) Estimation ponctuelle
On considère un caractère A, présent dans une population avec la proportion p, inconnue.
On suppose de plus que l'on a prélevé un échantillon de taille n (tirage avec remise ou
assimilé) sur lequel on a calculé la proportion pSple d'individus ayant le caractère A.

Notons F la VA correspondant à la proportion du caractère A dans un échantillon de taille n


pris au hasard.
F suit approximativement une loi normale, selon :
p(1 p)
F ~ N(p, ) avec
n

Une estimation ponctuelle p̂ de la proportion p de l'attribut A dans la population est :


p̂ p Sple
Une estimation ponctuelle ˆ de l'écart-type vaut, selon le cas :
p(1 p)
Si n ≥ 30 : ˆ
n
n p(1 p) p(1 p)
Si n < 30 : ˆ
n 1 n n 1

Exemple :
À quelques jours d'une élection, un candidat fait effectuer un sondage. Sur les 150 personnes
interrogées, 45 se disent prêtes à voter pour lui aux prochaines élections.

Dans l'échantillon des individus sondés, la proportion en faveur de ce candidat est ici de
pSple = 45/150 = 0.3
C’est donc cette proportion qui peut être retenue pour estimer la vraie proportion d’individus
en faveur du candidat dans la population entière (hélas inaccessible… sauf lors du scrutin) :
pˆ p Sple 0.3

On peut de plus estimer par :


p(1 p) 0.3x0.7
ˆ 0.037
n 150
On voudrait en fait plutôt être capable de calculer, pour un niveau de risque choisi, un
intervalle de confiance associé à l’estimation ci-dessus.

b) Estimation par intervalle de confiance (IC)


Nous savons que la VA F, qui est la proportion d’un caractère A dans un échantillon de taille
p(1 p)
n (n ≥ 30) pris au hasard, suit une loi Normale N(p, ) avec .
n

Définir un intervalle autour de la proportion p avec un niveau de risque de 10% (par exemple)
revient à déterminer r tel que :

Frédéric Quignon 7
Université de Metz
IUT Thionville – Yutz
S1M1 – Mathématiques

Pr(F - r ≤ p ≤ F + r) = 0.90 ou encore


Pr(p - r ≤ F ≤ p + r) = 0.90

F p
Utilisons alors la VA Z , qui suit une loi Normale centrée réduite N(0, 1).
L’encadrement recherché s’écrit donc :
r r
Pr Z 0.90 soit

r
2 1 0.90 ou enfin

r
0.95

La valeur de z r fournissant une aire sous la courbe de densité de probabilité égale à 0.95
se lit dans la table de la loi N(0, 1) : z = 1.645
[Dans Excel, « =LOI.NORMALE.STANDARD.INVERSE(0,95) » ou « =NORMSINV(0.95) »
donne : 1.6449.]

Ainsi, le choix d’un niveau de risque décide de la valeur de z, ainsi que de la largeur r de l’IC,
puisque :

z r ou r z

Si nous disposons maintenant des valeurs d’un échantillon, alors la moyenne µ de la


population entière est estimée par µSple et nous pouvons, au niveau de risque choisi de 10%,
déterminer un IC de largeur r 1.645 .
Ainsi, l'intervalle de confiance à 90% obtenu pour cet échantillon s’écrit :
pSple (1 pSple ) pSple (1 pSple )
pSple 1.645 ; pSple 1.645
n 1 n 1

n
Si la correction de biais n’est pas effectuée, l’IC s’écrit alors :
n 1
pSple (1 pSple ) pSple (1 pSple )
pSple 1.645 ; pSple 1.645
n n
Remarque : y pSple (1 pSple ) est maximale pour pSple = ½ et vaut alors ¼. C’est pourquoi
1
certains auteurs préfèrent prendre la valeur comme estimateur de l’écart-type .
4n

Exemple :
A quelques jours d'une élection, un candidat fait faire un sondage. Sur les 150 personnes
interrogées, 45 se disent prêtes à voter pour lui aux prochaines élections.

Frédéric Quignon 8
Université de Metz
IUT Thionville – Yutz
S1M1 – Mathématiques

La proportion d'individus prête à voter pour ce candidat dans l'échantillon est ici de :
pSple 45 / 150 0.3
Précédemment, l’estimation ponctuelle avait fourni : pˆ pSple 0.3 et ˆ 0.037
Déterminons maintenant une estimation de p par intervalle de confiance à 80%.

Notons F la VA correspondant à la proportion d'individus prêts à voter pour ce candidat dans


un échantillon de taille 150 pris au hasard.
p(1 p)
Nous avons vu qu'approximativement F ~ N( p, ) où
n

On cherche en fait un rayon r tel que : Pr(p - r ≤ F ≤ p + r) = 0.80


r r
Soit : 2 1 0.80 , ou enfin : 0.90

Par lecture inverse de la table de la loi normale centrée-réduite, la borne z telle que
Π(z) = 0,9 avec z r vaut z = 1,28.
D’où r = 1,28 1,28 x 0,037 = 0,047

L’IC à 80% de confiance pour cet échantillon est alors


IC = [0,3 - 0,047 ; 0,3 + 0,047] = [0,253 ; 0,347]

Nous pouvons donc estimer, avec une confiance de 80 %, que la proportion d'individus dans
la population prêts à voter pour le candidat en question est comprise entre 25,3 % et 34,7 %.

De l’estimation

La pertinence biologique ou clinique d’un résultat dépend de l’importance de l’effet qui est
estimé lors du test quantitatif. Cette estimation est constituée d’une valeur centrale (moyenne,
médiane…) et de son intervalle de confiance (IC) associé, qui traduit la précision statistique
du résultat.

Le but de l’estimation est d’approcher, sur la base de l’analyse d’un ou de plusieurs


échantillons, la valeur vraie d’un paramètre d’une population entière. Aussi, la valeur estimée
dans un échantillon peut être assez loin de la valeur vraie (mais inaccessible), du fait des
fluctuations aléatoires d’échantillonnage, c’est-à-dire du fait du hasard. L’intervalle de
confiance permet de prendre en compte cette incertitude aléatoire dans la présentation des
estimations.

L'intervalle de confiance (IC) à 95% est un intervalle de valeurs qui a 95% de chance de
contenir la vraie valeur du paramètre estimé. Les bornes supérieures et inférieures de l’IC sont
les valeurs les plus éloignées du résultat qui ne lui sont pas statistiquement différentes. Par
contre les valeurs situées à l’extérieur de l’intervalle sont statistiquement différentes du
résultat observé.

Dans l’interprétation d’un test biologique ou d’un essai thérapeutique, la signification


statistique est un élément important qui assure que le résultat obtenu a de forte chance d’être
Frédéric Quignon 9
Université de Metz
IUT Thionville – Yutz
S1M1 – Mathématiques

ou non le fruit du hasard. Cependant la signification statistique n’est pas synonyme de


signification biologique ou de pertinence clinique.

En effet, un test statistique ne se prononce que sur l’existence, probable ou non, d’une
différence entre deux conditions (e.g. l’effet d’un traitement), et ne donne aucune information
directe sur l’importance de cette différence.

Le niveau de risque choisi (de première espèce, ou ) ou encore la valeur de probabilité


critique (ou p-value) ne représente pas l’intensité de l’effet du traitement. Un traitement n’est
pas d’autant plus efficace que le niveau de risque choisi (ou la p-value) est petit.

En effet, toute différence entre deux conditions testées, aussi petite soit-elle, peut-être rendue
aussi significative que souhaitée en augmentant le nombre d’individus (e.g. colonies, cellules,
patients). Ainsi, un test peut être statistiquement significatif avec un effet dont l’amplitude est
biologiquement ou cliniquement pertinente, mais aussi bien avec un effet de faible amplitude,
sans intérêt pratique ou signification biologique, si un très grand nombre d’individus a été
inclus dans l’essai. Une différence statistiquement significative n’est donc pas forcément une
différence biologiquement ou cliniquement significative.

Frédéric Quignon 10

Vous aimerez peut-être aussi