Vous êtes sur la page 1sur 8

Echantillonnage - Estimation T ale S

I - Fluctuation dechantillons
Lechantillonnage est letude des liens existants entre les parametres, moyenne ou frequence, des
echantillons preleves dans une population et ceux de la population elle-meme.

1) Position du probleme
Population
Dans une population donnee, on connat la frequence frequence f
f dun caractere. Echantillonnage
(deduction)
On repete n fois, de facon independante, le choix dun
individu dans cette population de facon a constituer Echantillon
un echantillon de taille n. frequence f
taille n
On aimerait alors connatre, ou du moins estimer, sur
cet echantillon, la frequence f du caractere.

Si Xn est la variable aleatoire egale au nombre de personnes possedant le caractere etudie dans notre
echantillon, Xn suit alors une loi binomiale B(n; f ).
Xn
On cherche donc a estimer la frequence f = .
n

2) Intervalle de fluctuation
Definition Lorsquon repete n fois la meme experience aleatoire, on obtient une serie de n succes ou
echecs que lon appelle echantillon de taille n.
Si on realise plusieurs echantillons de meme taille, les frequences de succes ou dechecs
calculees pour chaque echantillon varient dun echantillon a lautre.
Ce phenomene sappelle la fluctuation dechantillonnage.
Exemple : On lance une piece bien equilibree (donc, la probabilite dobtention des evenements Pile et
Face sont egales a p = 0, 5) 100 fois successivement :
54
pour une 1ere serie de 100 lancers, on obtient 54 fois Pile, soit une frequence f = = 0, 54 ;
100
41
pour une 2eme serie de 100 lancers, on obtient 41 fois Pile, soit une frequence f = = 0, 41 ;
100
pour une 3eeme serie . . .
Bien que ce phenomene soit aleatoire, on sait que, dapres la loi des grands nombres, plus la taille
des echantillons augmente, plus les frequences observees se rapprochent, ou se stabilisent autour, dune
valeur limite f = p = 0, 5.
Dans lexemple precedent, on sait que meme si le nombre de succes varie dune experience a lautre,
il sera rare (cest-a-dire la probabilite sera faible) davoir une frequence de Pile tres faible ou tres
grande (disons, par exemple, inferieure a 0,1 ou superieure a 0,9).
La notion dintervalle de fluctuation permet de quantifier ce phenomene : la frequence de succes
calculee sur un echantillon de taille n donne est comprise, avec une certaine probabilite, dans un intervalle
de valeurs, ou intervalle de fluctuation.

Y. Morel xymaths.free.fr/Lycee/TS/ Echantillonnage - Estimation - T S - 1/8


Definition Soit X une variable aleatoire qui suit la loi binomiale B(n; p) et 0 < < 1.
Dire que [a; b] est un intervalle de fluctuation au seuil 1 signifie que

P (a 6 X 6 b) = 1

Propriete Soit Xn une variable aleatoire suivant la loi binomiale B(n; p), alors pour tout ]0; 1[, on a
 
Xn
lim P In = 1
n+ n
" p p #
p(1 p) p(1 p)
ou In designe lintervalle p u ; p + u
n n
avec u le nombre tel que, si X suit la loi normale N (0; 1),

P (u 6 X 6 u ) = 1

Lintervalle In sappelle lintervalle de fluctuation asymptotique au seuil 1 .

Demonstration: Si Xn suit la loi binomiale B(n; p), alors dapres le theoreme de Moivre-Laplace, pour
p Xn
n assez grand, Xn suit approximativement la loi normale N (np; np(1 p)), et donc, suit approxi-
p ! nr
np np(1 p) p(1 p)
mativement la loi normale N ; , soit la loi normale N (p; ), avec = .
n n n
 
Xn
On cherche alors tel que P p 6 6 p + = 1 .
n
Xn

Xn p

En ramenant a une variable suivant la loi normale reduite N (0; 1) : P 6 n 6 = 1
n
Xn
p
La variable aleatoire X = n suit une loi normale centree reduite N (0; 1), et on sait donc quil

existe un unique nombre u tel que P (u 6 X 6 u ) = 1 .
r
p(1 p)
Le theoreme est donc verifie pour = u = u = u et on a donc, pour n assez grand,
n
 
Xn
P In = 1
n


En pratique, la variable aleatoire Xn designe le nombre succes, cest-a-dire le nombre dindividus
Xn
possedant le caractere etudie, dans lechantillon de taille n forme, et alors f = est la frequence de
n
ce caractere dans lechantillon.
Cette propriete fournit donc un intervalle In de fluctuation au seuil .

3) Calcul pratique de lintervalle de fluctuation

Avec les valeurs approchees, u0,05 1, 96 et u0,01 2, 58, on peut preciser les intervalles de fluctuation
les plus utilises, au seuil de 95 % et au seuil de 99 % :

Y. Morel xymaths.free.fr/Lycee/TS/ Echantillonnage - Estimation - T S - 2/8


Corollaire Si n > 30, np > 5 et n(1 p) > 5, alors,
lintervalle de fluctuation au seuil de 95% est environ :
" p p #
p(1 p) p(1 p)
p 1, 96 ; p + 1, 96
n n

lintervalle de fluctuation au seuil de 99% est environ :


" p p #
p(1 p) p(1 p)
p 2, 58 ; p + 2, 58
n n
Exemple : On lance une piece de monnaie bien equilibree 100 fois successivement, et on compte le nombre
de tirages Pile.
Ce phenomene etant aleatoire, on peut sattendre a obtenir un nombre quelconque de tirages Pile
compris entre 0 et 100.
Neanmoins, on imagine bien que, la piece etant equilibree, obtenir un faible nombre (par exemple,
inferieur a 10) ou un fort nombre (par exemple, superieur a 90) de Pile sera rare.
Lintervalle de fluctuation permet de preciser cela.
La probabilite dobtenir Pile sur un lance est p = 0, 5, et donc de ne pas lobtenir : q = 1 p = 0, 5.
Les lances successifs de la piece etant identiques et independants entre eux, la variable aleatoire X100 ,
qui au n = 100 lancers associe le nombre dobtention de Pile, suit la loi B(100; 0, 5).
On a ici, n = 100 > 30 et np = n(1p) = 50 > 5, et donc, dapres la propriete precedente, lintervalle
X100
de fluctuation au seuil de 95 % de la variable aleatoire (le nombre moyen de Pile obtenus, ou
100
encore la frequence de Pile sur les 100 lancers) est :
p p
p(1 p) p(1 p)
 
p 1, 96 ; p + 1, 96
n n
 
0, 5 0, 5 0, 5 0, 5
= 0, 5 1, 96 ; 0, 5 + 1, 96
100 100
[ 0, 5 0, 098 ; 0, 5 + 0, 098 ] = [ 0, 402 ; 0, 598 ]

Dans 95% des cas, la frequence f de Pile obtenue sera dans lintervalle [0, 402 ; 0, 598].
De la meme facon, lintervalle de fluctuation au seuil de 99% est :
" p p #
p(1 p) p(1 p)
p 2, 58 ; p + 2, 58 [0, 5 0, 129 ; 0, 5 + 0, 129]
n n
= [0, 371 ; 0, 629]

Dans 99% des cas, la frequence f de Pile obtenue sur ces 100 lances sera comprise entre 0,371 et 0,629.

Corollaire Si n > 30, np > 5 et n(1 p) > 5, lintervalle de fluctuation au seuil de 95% peut-etre
approxime par lintervalle  
1 1
p ; p+
n n
Demonstration: Lintervalle de fluctuation au seuil de 95%, dapres le theoreme precedent est, avec
= 5% = 0, 05, " p p #
p(1 p) p(1 p)
p u0,05 ; p + u0,05
n n

Y. Morel xymaths.free.fr/Lycee/TS/ Echantillonnage - Estimation - T S - 3/8


ou u0,05 est le nombre tel que si X suit la loi normale centree reduite N (0; 1),

P (u0,05 6 X 6 u0,05 ) = 1 0, 05 = 0, 95 = 95%

On sait que u0,05 1, 96, et donc que lintervalle de fluctuation au seuil de 95% est :
" p p #
p(1 p) p(1 p)
p 1, 96 ; p + 1, 96 .
n n

De plus, soit f : p 7 p(1 p), pour p [0; 1], alors f est une fonction trinome du second degre dont
le sens de variation est :
1
p 0 2
1
1
4
f (p)
0 0
1
p 0 2
1
1
dou, la fonction racine carree etant croissante : p 2
p(1 p)
0 0
et donc, pour tout p [0; 1],
p 1
1, 96 p(1 p) 6 1, 96 < 1
2
On a donc, pour tout p [0; 1],
" p p # 
p(1 p) p(1 p)

1 1
p 1, 96 ; p + 1, 96 p ; p+
n n n n
 
1
Lintervalle p est plus large, donc un peu moins precis. 
n
Exemple : Avec les donnees de lexemple precedent, lintervalle de fluctuation approche au seuil de 95%
est alors :    
1 1 1 1
p ; p+ = 0, 5 ; 0, 5 + [0, 4 ; 0, 6]
n n 100 100
En comparant avec les resultats obtenus precedemment pour lintervalle de fluctuation au seuil de 95%,
on commet une erreur relative de seulement 0,2%=0,002 en utilisant cette formule approchee.

4) Exemple
Selon lInstitut national des etudes demographiques (INED), il nat normalement 105 garcons pour
105
100 filles, soit une proportion de garcons p = 0, 51.
205
Aux abords dune ville est venue simplanter, il y a cinq ans, une usine chimique. La toxicite des
substances manipulees et produites par cette usine est depuis grandement source de polemique.
Dans la maternite de cette ville, sont nes depuis ces cinq dernieres annees 693 enfants, dont seule-
ment 332 garcons. Les opposants a cette usine citent cette faible quantite de naissances de garcons
comme une consequence nefaste de lexploitation de cette usine.
Ont-ils raison ?

Y. Morel xymaths.free.fr/Lycee/TS/ Echantillonnage - Estimation - T S - 4/8


Le sexe dun enfant a sa naissance est aleatoire. Ainsi, il est envisageable, en theorie, de navoir aucun
garcon ne parmi les 693 naissances, tout comme il serait envisageable davoir vu natre 693 garcons. Ces
cas extremes sont neanmoins peu probables.
Lintervalle de fluctuation permet de preciser, et quantifier, cette idee de peu probable. En effet,
dans 95% des cas de 693 naissances, la proportion de garcons nes sera comprise dans lintervalle :

I=

Ici, la proportion denfants de garcons nes depuis les cinq dernieres annees est : f = . . .
Comme f I, ce faible nombre de naissance de garcons sexplique, au seuil de 95%, par les
fluctuations aleatoires des naissances de garcons/filles.
Lusine ne peut etre incriminee dans ces observations.
Remarque : Dans le cas ou on aurait eu f / I, il faut toutefois rester prudent : au seuil de confiance
de 95%, les fluctuations aleatoires des naissances ne permettraient pas dexpliquer ce faible nombre de
naissances de garcons ; neanmoins, cela ne signifierait pas directement que lusine est en cause, pas plus
que probablement un certain nombre dautres parametres.
Une etude statistique (ici epidemiologique) plus poussee serait necessaire pour aboutir a une telle
conclusion.

Exercice 1 Dapres les lois genetiques de Mendel, certains croisement de differentes varietes de pois
devraient donner des pois jaunes et verts dans une proportion egale a 3 pour 1.
Lors dune experience, on a obtenu un echantillon, que lon peut considerer comme aleatoire, presentant
176 pois jaunes et 48 pois verts.
Ces resultats sont-ils coherents avec la theorie de Mendel ?

Exercice 2
Deux entreprises A et B recrutent leur personnel dans un bassin demploi ou il y a autant dhommes
que de femmes.
Lentreprise A emploie 60 personnes dont 26 femmes, tandis que lentreprise B emploie 1050 personnes
dont 480 femmes.
1. Calculer les proportions de femmes employees dans chaque entreprise.
Laquelle de ces deux entreprises semble au mieux respecter la parite homme-femme ?
2. Determiner pour chaque entreprise lintervalle de fluctuation au seuil de 95 % de la proportion de
femmes employees.
Les deux entreprises respectent-elles la parite au seuil derreur de 5 % ?

II - Estimation
Lestimation, ou inference, statistique consiste a essayer de determiner les caracteristiques dune
population en ne connaissant des informations que sur un echantillon la composant.
Un des exemples les plus mediatises de nos jours est celui de sondage : en interrogeant un faible
nombre de personnes sur leur intention de vote, on souhaite obtenir une information sur les intentions
de vote de la population constituee par tous les electeurs.
Le journaliste et statisticien americain Georges Gallup a reussi a predire en 1936 lelection de Franklin
Roosevelt contre Alfred Landon : les instituts de sondage etaient nes.

Y. Morel xymaths.free.fr/Lycee/TS/ Echantillonnage - Estimation - T S - 5/8


1) Position du probleme

Dans une population donnee, on connat la frequence Population


frequence f
f dun caractere dun echantillon aleatoire de la po- Inference
pulation complete. (induction)
A partir de la connaissance de cette frequence em-
pirique f , on souhaite estimer la frequence f de ce Echantillon
taille n
caractere dans toute la population. frequence
empirique f

On constitue un echantillon en prelevant aleatoirement et successivement n individus dans la popu-


lation globale.
Chacun de ces n individus a la probabilite f de posseder le caractere etudie.
Si leffectif de cette population est assez important, ces tirages successifs peuvent etre consideres
comme etant avec remise et donc independants entre eux. La constitution dun tel echantillon de taille
n correspond donc a un schema de Bernoulli.
Si on note alors X la variable aleatoire egale au nombre dindividus dans lechantillon qui ont le
caractere etudie, alors X suit une loi binomiale B(n; f ) de parametres n et f .
Cest justement la connaissance et lutilisation de cette loi binomiale, et de son approximation par
une loi normale, qui permet de donner un intervalle dans lequel on peut sattendre a trouver la frequence
f connaissant celle, f , dans lechantillon.

2) Intervalle de confiance

Propriete On considere la variable aleatoire X qui a tout echantillon de taille n associe le nombre
dindividus possedant le caractere etudie. On suppose que X suit une loi binomiale B(n, f ),
X
et on note f = la frequence du caractere dans lechantillon.
n
Alors, pour n assez grand, lintervalle
 
1 1
In = f ; f +

.
n n

contient la frequence f du caractere dans la population avec une probabilite superieure ou


egale a 0,95.
Lintervalle In sappelle lintervalle au niveau de confiance de 95 %.
Demonstration: La frequence f du caractere dans  lechantillon est une valeur prise par la variable
X 1 1
aleatoire . Elle est ou nest pas dans lintervalle f ; f + , mais on sait que 95 % des
n n n
frequences des echantillons sont dans cet intervalle.
De plus,  
1 1 1 1
f f ;f +

f 6 f 6 f +
n n n n
1 1

f >f

f + > f

n n
1 1
f 6 f +
f 6 f

n n

Y. Morel xymaths.free.fr/Lycee/TS/ Echantillonnage - Estimation - T S - 6/8


   
1 1 1 1
Et on a donc, f f ; f +

f f ; f + .

n n  n n
1 1
Ainsi, f sera dans 95 % des intervalles du type In = f ; f + . 
n n
Exemple : Dans un village, lors dun sondage effectue un mois avant le scrutin aupres de 200 personnes
choisies de facon aleatoire, 109 personnes se declarent favorables au candidat A.
La proportion delecteurs favorables dans lechantillon sonde est : p = . . .
Lintervalle de confiance au niveau de 95 % de la proportion p delecteurs qui vont voter pour le candidat
A est :
I=

On peut donc estimer, avec un niveau de confiance de 95 %, a partir du sondage effectue


h sur 200
i
personnes, que le score du candidat A aux prochaines elections sera dans la fourchette ;
En particulier, a partir de ce sondage, le candidat A ne peut pas en conclure quil sera elu car, au
niveau de confiance de 95 %, il nest pas exclu que la proportion de ses electeurs soit dans lintervalle
[47, 4 % ; 50 %[, et donc inferieure a 50 %.

Exercice 3 Avant le premier tour de lelection presidentielle de 2002 un sondage IPSOS, realise
aupres de 989 personnes constituant un echantillon national representatif de la population francaise
inscrite sur les listes electorales, annoncait les intentions de vote suivantes :
20 % pour J. Chirac, 18 % pour L. Jospin et 14 % pour J.M. Le Pen.
Les medias se preparaient donc pour un second tour entre J. Chirac et L. Jospin.
Le resultat reel des votes a ce premier tour a alors surpris bien des personnes . . .
1. Determiner, pour chaque candidat, lintervalle de confiance au niveau de confiance de 0,95 de la
proportion delecteurs ayant eu lintention de voter pour lui.
2. Les resultats a lissue du premier tour ont ete les suivants :
19,88 % pour J. Chirac, 16,18 % pour L. Jospin et 16,86 % pour J.M. Le Pen.
Ces pourcentages sont-ils en accord avec les calculs precedents ?
3. Pouvait-on au vu de ce sondage ecarter avec un niveau de confiance de 0,95 lun de ces trois candidats ?

3) Dimensionnement des echantillons


Le paragraphe precedent donne un intervalle au niveau de confiance de 95 %. Dans lexemple precedent,
cet intervalle se trouve etre au final trop large pour pouvoir en tirer une conclusion.
En sondant un echantillon nettement plus important (plus de 200 personnes), cet intervalle aurait
pu etre restreint.
Quand on cherche la taille de lechantillon a sonder, deux elements sont en concurrence :
si la taille de lechantillon est trop faible, la fourchette obtenue est large, et linformation peut
donc manquer de pertinence ;
on souhaite ne pas avoir a sonder des echantillons de taille trop importante, afin de diminuer le
cout de letude.
On cherche donc la taille minimale de lechantillon a etudier pour pouvoir aboutir a une conclusion.
Exemple : On reprend les donnees de lexemple precedent. Lintervalle de confiance au seuil de 95 % est :
   
1 1 1 1
p ; p + = 0, 545 ; 0, 545 +

n n n n

Y. Morel xymaths.free.fr/Lycee/TS/ Echantillonnage - Estimation - T S - 7/8


On souhaite, avec un niveau de confiance de 95 %, reduire cette fourchette a un intervalle ne contenant
pas 50 %.
1 1
Il faut pour cela que : 0, 545 > 0, 5 0, 545 0, 5 = 0, 045 >
n n
2


1 1
6 n 6 n n > 494
0, 045 0, 045
Il faudrait donc choisir un echantillon aleatoire constitue dau moins 494 personnes.

Exercice 4 Un laboratoire pharmaceutique met en place un test pour estimer lefficacite dun nou-
veau medicament contre les migraines.
Deux groupes de 125 patients souffrant de migraines, consideres comme des echantillons aleatoires,
participent a ce test.
On administre aux patients du groupe A le nouveau medicament, tandis que les patients du groupe
B recoivent un placebo.
Au bout de 4 jours de traitement, 73 patients du groupe A et 64 patients du groupe B declarent
ressentir une diminution de lintensite de leurs migraines.
a) Determiner les intervalles de confiance au niveau de confiance de 0,95 des proportions de patients
declarant ressentir une diminution de lintensite de leurs migraines, dans chaque echantillon.
b) Les intervalles de confiance permettent-ils, au niveau de confiance 0,95, de considerer que le medicament
est plus efficace que le placebo ?
c) Quelle devrait-etre la taille minimale de chaque echantillon pour que, avec des proportions indentiques
a celles observees precedemment, les resultats confirment lefficacite du medicament, au niveau de
confiance 0,95.

Exercice 5 Un magasin sapprete a commercialiser deux modeles dun meme produit : le modele A
et le modele B.
Une enquete prealable a la commande des produits par le magasin a montre que dans une ville
63 % des 400 personnes interrogees preferent le modele A, et que dans une seconde ville, 69 % des 500
personnes interrogees preferent le modele A.
Peut-on considerer, au niveau de confiance de 95 % quil y a une difference de preference entre les
personnes des deux villes ?
Quelle proportion de modele A commanderiez-vous ?

Exercice 6 Dans une experience de perception extra-sensorielle on demande a un sujet dindiquer


la couleur dun jeton tire aleatoirement dans un sac par un experimentateur place dans une autre piece.
Ni le sujet, ni lexperimentateur ne connaissent la proportion de jetons de chaque couleur dans le sac.
On choisit la regle de decision suivante : si le pourcentage de couleurs devinees correctement appar-
tient a lintervalle de fluctuation autour de 50 % a un certain seuil fixe a lavance, on considere que le
sujet na pas de don de perception extra-sensorielle, sinon on considere quil a un don.
Un sujet fait le test, et identifie correctement la couleur de 32 jetons sur 50 essais.
Appliquer la regle de decision aux seuils de 95 %, puis de 99 %.

Y. Morel xymaths.free.fr/Lycee/TS/ Echantillonnage - Estimation - T S - 8/8