Académique Documents
Professionnel Documents
Culture Documents
Echantillonnage
ou « Comment, à partir d'informations connues sur une population (moyenne & écart-type ou
proportion), peut-on prévoir celles d'un échantillon ? »
X ~N ,
n
Si la VA X suit une loi quelconque sur la population, avec E(X) = et Var(X) = ,
Alors la moyenne X de l’échantillon de taille n, avec n ≥ 30, prélevé au hasard (et assimilé
à un tirage avec remise), suit approximativement une loi normale, telle que :
X ~N ,
n
F ~ N p, p(1 p)
n
Frédéric Quignon 1
Université de Metz
IUT Thionville – Yutz
S1M1 – Mathématiques
Estimation
ou « Comment, à partir d'informations calculées sur un échantillon (moyenne & écart-type ou
proportion), estimer celles d'une population entière ? »
n
Une estimation ponctuelle ˆ de l'écart-type de la population est : ˆ Sple
n 1
n
s’appelle le coefficient de biais. Il est voisin de 1 pour n suffisamment grand.
n 1
(Ex : pour n = 30, ce coefficient vaut environ 1,017. Dans ce cas, Sple est un estimateur
acceptable de .)
Exemple : dans une université de 10 000 étudiants, on vérifie la taille de 25 étudiants pris au
hasard.
La moyenne µSple et l'écart-type Sple pour cet échantillon valent :
µSple = 176 cm et Sple = 6 cm
Nous pouvons donc estimer les paramètres de la population par :
ˆ = 176 cm et ˆ = (25/24) x 6 6.124 cm
Ce n’est qu’une estimation de la valeur vraie pour la population entière. Pour apprécier
l’imprécision de cette estimation et le risque associé de se tromper en adoptant cette
estimation ponctuelle, il est par exemple recours à l’estimation par intervalle de confiance
(IC).
Pour un niveau de risque arbitrairement choisi (par exemple, de 5%), nous allons chercher un
intervalle autour de µ, de largeur r, tel que :
Pr( X r≤ ≤ X r) 0,95
C’est-à-dire que, dans 95% des cas, la moyenne µ de la population tombe effectivement dans
l’intervalle X ± r.
Frédéric Quignon 2
Université de Metz
IUT Thionville – Yutz
S1M1 – Mathématiques
b.1) connu
Introduisons maintenant la VA Z.
(X )
Par définition, Z suit une loi normale centrée réduite : Z ~ N(0 , 1).
n
n n
Pr r Z r = 0.95
n
2 r – 1 = 0.95, ou encore :
n
r = 0.975.
Ainsi, le choix d’un niveau de risque décide de la valeur de z, ainsi que de la largeur r de l’IC,
puisque :
n
z r ou r z
n
1
A titre d’exercice, développez ces 3 lignes
Frédéric Quignon 3
Université de Metz
IUT Thionville – Yutz
S1M1 – Mathématiques
Sple 1.96
; Sple 1.96 ( connu)
n n
Il fait partie d'une famille d’intervalles dans laquelle 95 % d’entre eux contiennent la
moyenne vraie (inaccessible) de la population.
On l'appelle intervalle de confiance à 95 % de l’estimation réalisée.
b.2) inconnu
Enfin, si l’écart-type de la population est inconnu, ce qui est bien souvent le cas, alors deux
approches coexistent. La première fournit un IC approché, tandis que la seconde fournit un IC
exact.
n
s s 1 2
Ainsi, avec Pr X tn 1
X tn 1
1 2 et s 2 Xi X ,
n n n 1i 1
Frédéric Quignon 4
Université de Metz
IUT Thionville – Yutz
S1M1 – Mathématiques
nous retrouvons qu’un intervalle de confiance autour de µ peut être calculé, sans connaître
(population), à l’aide de la série d’observations Xi (fournissant ˆ X et ˆ s ) et de la
valeur de t n 1 , lue dans la table de Student pour (n-1) ddl et pour un quantile.
Le seuil de confiance (1-α) associé à cet intervalle est ici égal à : 1-2γ ( quantile).
Le cas qui nous occupe fait appel à une variable de Student à (n-1) degrés de liberté, pour un
risque bilatéral (distribution des observations de part et d’autre de la valeur centrale µ)
Par exemple, la valeur de t n 1 , pour 10 observations indépendantes et pour un risque = 2 =
5%, vaut : t(0.05, 9) = 2.262.
Cette valeur est lue dans la table de la fonction de répartition de la loi de Student (cf. Doc –
Lois de probabilité) ou obtenue dans Excel-FR à l’aide de la commande :
« =loi.student.inverse(0.05 ; 9) » ou « =TINV(0,05;9) » in XL-UK.
Remarques :
l’IC est centré sur la valeur µSple car c'est la seule valeur de référence que nous
disposons. (Il fluctue avec l’échantillon choisi.)
la vraie valeur µ (inaccessible) de la moyenne de la population peut ne pas appartenir
à l’IC (déterminé à partir d’un échantillon donné).
r z
Le rayon de l’IC (à savoir la quantité n ) dépend du niveau de confiance choisi.
Plus le degré de confiance est proche de 100%, et plus la borne z sera élevée et l’IC
large.
Dans le cas du calcul exact de l’IC, n intervient non seulement sous la racine, mais
aussi dans le nombre de ddl de la variable t.
Frédéric Quignon 5
Université de Metz
IUT Thionville – Yutz
S1M1 – Mathématiques
Exemple : dans l’exemple précédent de la taille de 25 étudiants pris au hasard parmi 10 000,
nous avons estimé les paramètres de la population par :
ˆ = 176 cm et ˆ = (25/24) x 6 6.124 cm
Déterminons maintenant un IC à 95% (risque de 5%) autour de ˆ .
Notons X la VA correspondant à la moyenne d'un échantillon de taille 25 pris au hasard.
Par application du Théorème Central Limite, nous savons que :
X ~ N ˆ, .
25
Aussi, nous cherchons à déterminer la largeur r de l’IC centrée sur ˆ et tel que :
Pr( µ r≤ X ≤ µ r) 0,95 (au risque de 5%),
Frédéric Quignon 6
Université de Metz
IUT Thionville – Yutz
S1M1 – Mathématiques
a) Estimation ponctuelle
On considère un caractère A, présent dans une population avec la proportion p, inconnue.
On suppose de plus que l'on a prélevé un échantillon de taille n (tirage avec remise ou
assimilé) sur lequel on a calculé la proportion pSple d'individus ayant le caractère A.
Exemple :
À quelques jours d'une élection, un candidat fait effectuer un sondage. Sur les 150 personnes
interrogées, 45 se disent prêtes à voter pour lui aux prochaines élections.
Dans l'échantillon des individus sondés, la proportion en faveur de ce candidat est ici de
pSple = 45/150 = 0.3
C’est donc cette proportion qui peut être retenue pour estimer la vraie proportion d’individus
en faveur du candidat dans la population entière (hélas inaccessible… sauf lors du scrutin) :
pˆ p Sple 0.3
Définir un intervalle autour de la proportion p avec un niveau de risque de 10% (par exemple)
revient à déterminer r tel que :
Frédéric Quignon 7
Université de Metz
IUT Thionville – Yutz
S1M1 – Mathématiques
F p
Utilisons alors la VA Z , qui suit une loi Normale centrée réduite N(0, 1).
L’encadrement recherché s’écrit donc :
r r
Pr Z 0.90 soit
r
2 1 0.90 ou enfin
r
0.95
La valeur de z r fournissant une aire sous la courbe de densité de probabilité égale à 0.95
se lit dans la table de la loi N(0, 1) : z = 1.645
[Dans Excel, « =LOI.NORMALE.STANDARD.INVERSE(0,95) » ou « =NORMSINV(0.95) »
donne : 1.6449.]
Ainsi, le choix d’un niveau de risque décide de la valeur de z, ainsi que de la largeur r de l’IC,
puisque :
z r ou r z
n
Si la correction de biais n’est pas effectuée, l’IC s’écrit alors :
n 1
pSple (1 pSple ) pSple (1 pSple )
pSple 1.645 ; pSple 1.645
n n
Remarque : y pSple (1 pSple ) est maximale pour pSple = ½ et vaut alors ¼. C’est pourquoi
1
certains auteurs préfèrent prendre la valeur comme estimateur de l’écart-type .
4n
Exemple :
A quelques jours d'une élection, un candidat fait faire un sondage. Sur les 150 personnes
interrogées, 45 se disent prêtes à voter pour lui aux prochaines élections.
Frédéric Quignon 8
Université de Metz
IUT Thionville – Yutz
S1M1 – Mathématiques
La proportion d'individus prête à voter pour ce candidat dans l'échantillon est ici de :
pSple 45 / 150 0.3
Précédemment, l’estimation ponctuelle avait fourni : pˆ pSple 0.3 et ˆ 0.037
Déterminons maintenant une estimation de p par intervalle de confiance à 80%.
Par lecture inverse de la table de la loi normale centrée-réduite, la borne z telle que
Π(z) = 0,9 avec z r vaut z = 1,28.
D’où r = 1,28 1,28 x 0,037 = 0,047
Nous pouvons donc estimer, avec une confiance de 80 %, que la proportion d'individus dans
la population prêts à voter pour le candidat en question est comprise entre 25,3 % et 34,7 %.
De l’estimation
La pertinence biologique ou clinique d’un résultat dépend de l’importance de l’effet qui est
estimé lors du test quantitatif. Cette estimation est constituée d’une valeur centrale (moyenne,
médiane…) et de son intervalle de confiance (IC) associé, qui traduit la précision statistique
du résultat.
L'intervalle de confiance (IC) à 95% est un intervalle de valeurs qui a 95% de chance de
contenir la vraie valeur du paramètre estimé. Les bornes supérieures et inférieures de l’IC sont
les valeurs les plus éloignées du résultat qui ne lui sont pas statistiquement différentes. Par
contre les valeurs situées à l’extérieur de l’intervalle sont statistiquement différentes du
résultat observé.
En effet, un test statistique ne se prononce que sur l’existence, probable ou non, d’une
différence entre deux conditions (e.g. l’effet d’un traitement), et ne donne aucune information
directe sur l’importance de cette différence.
En effet, toute différence entre deux conditions testées, aussi petite soit-elle, peut-être rendue
aussi significative que souhaitée en augmentant le nombre d’individus (e.g. colonies, cellules,
patients). Ainsi, un test peut être statistiquement significatif avec un effet dont l’amplitude est
biologiquement ou cliniquement pertinente, mais aussi bien avec un effet de faible amplitude,
sans intérêt pratique ou signification biologique, si un très grand nombre d’individus a été
inclus dans l’essai. Une différence statistiquement significative n’est donc pas forcément une
différence biologiquement ou cliniquement significative.
Frédéric Quignon 10