Vous êtes sur la page 1sur 20

ECHANTILLONNAGE

Soit une population de taille N sur laquelle est observe une caractristique dont on connat
la moyenne et la variance . Lorsqu'on prlve un individu dans cette population le
rsultat observ est alatoire et constitue donc une observation d'une v.a. X de moyenne et
de variance .
On supposera que la taille de la population est infinie, ou que le taux de sondage est faible
(n/N < 10 %).
La premire observation x1 peut tre considre comme une observation d'une variable
alatoire X1 de mme loi que X;
La deuxime observation x2 peut tre considre comme une observation d'une variable
alatoire X2 de mme loi que X;
..
La nime observation xn peut tre considre comme une observation d'une variable alatoire
Xn de mme loi que X;
Dfinition: Les v.a. (X1, X2, ...., Xn) indpendantes et de mme loi constituent un chantillon
Dfinition: Toute application dfinie sur l'chantillon est appele statistique
Exemples de statistiques importantes:

appele variance d'chantillon (ou encore quasi-variance ou variance


corrige d'chantillon pour viter les confusions avec la variance de la population o la
diffrence tient dans le dnominateur)
Remarque: malgr la similitude, ne pas confondre ces statistiques qui sont des v.a., donc des
applications avec les valeurs prises par ces applications sur un ensemble de n individus qui
sont des valeurs numriques.

1) MOYENNE d'chantillon
Soit (X1, X2, ..., Xn) un chantillon d'une v.a. X de loi quelconque.
Notons = E(X) = E(Xi) ; = V(X) = V(Xi)

2) VARIANCE d'chantillon
Soit (X1, X2, ..., Xn) un chantillon d'une v.a. X de loi quelconque.
Notons = E(X) = E(Xi) ; = V(X) = V(Xi)

3) FREQUENCE ou PROPORTION d'chantillon

dans le cas particulier o les Xi suivent des lois de Bernouilli de paramtre p (c..d. prennent
la valeur 1 avec une probabilit p et la valeur 0 avec une probabilit 1-p)

ESTIMATION
Introduction
Lestimation consiste donner la valeur la plus probable dune grandeur. Cest le problme
inverse de lchantillonnage. On dispose de renseignements sur un ou plusieurs chantillons et
on cherche connatre des informations sur la population mre.
On peut faire deux types destimation :
- Lestimation ponctuelle qui consiste proposer une valeur pour la grandeur considre,
- Lestimation par intervalle de confiance qui donne la probabilit que la grandeur soit
comprise dans un intervalle donn.
On remarque que la probabilit quune estimation ponctuelle soit parfaitement exacte est ...
nulle, ou enfin voisine de zro. Il y a donc lieu quand cest possible, de prfrer lestimation
par intervalle de confiance.

I- Estimation ponctuelle :
La dfinition d'un estimateur tant trs vague, nous ne retiendrons que les estimateurs ayant
de bonnes proprits dont les deux principales sont les suivantes:
Dfinition: Un estimateur T d'un paramtre est dit sans biais si et seulement si E(T) =
Dfinition: Un estimateur T d'un paramtre est dit convergent si et seulement si

Exemples importants:
a) Estimateur de la moyenne :

est un estimateur sans biais et convergent d'une moyenne


b) Estimateur de la variance :

est un estimateur sans biais et convergent d'une variance

c) Estimateur dune proportion :

(dans le cas particulier o les Xi suivent des lois de Bernouilli de paramtre p) est un
estimateur sans biais et convergent d'une proportion p.

II-Estimation par intervalles de confiance :


Soit E = (X1, ..., Xn) un chantillon issu d'une distribution inconnue.
Soit un paramtre de cette distribution, et * une estimation de la valeur de ce paramtre.
Il est possible de "coiffer" cette estimation par un segment tel qu'il soit possible d'affirmer
que ce segment recouvre la vraie valeur 0 (inconnue) du paramtre avec une probabilit P.
Ce segment s'appelle un intervalle de confiance associ l'estimation *. Ses extrmits
sont des variables alatoires qui ne dpendent que de l'chantillon (donc des "statistiques").
La longueur de l'intervalle de confiance est donc une mesure de l'incertitude sur la position
relle de la vraie valeur 0 du paramtre estim.
Dfinition :

La probabilit P, arbitrairement choisie, est note (1 - ), et s'appelle le niveau de


confiance de l'intervalle de confiance. Les valeurs le plus souvent choisies pour sont
0,05 et 0,01, correspondant aux niveaux de confiance 95% et 99%.
Ainsi, si l'on choisit = 0,05, l'intervalle de confiance correspondant a une probabilit
gale 0,95 de contenir la vraie valeur 0 du paramtres estim
Remarque : - Pour un chantillon donn, la taille de l'intervalle de confiance dpend du
niveau de confiance choisi.
-Un intervalle de confiance se traduit par une formule du type :
P {a < 0 < b}= 1 -

Cas dun chantillon gaussien

loi de la population
Paramtre
estimer

Statistique

Loi

connu

N(0 ; 1)

inconnu

Student (n1)

connu

~ N(0 ; 1)

inconnu

~ N(0 ; 1)

Normale
Moyenne

quelconque
n > 30

Variance

n d.d.l.

connu
normale

n-1
d.d.l.

inconnu
Proportion

~ N(0 ; 1)

n > 50

Estimation de la moyenne de la loi normale N( ;2) :


a) Rechercher un intervalle de confiance d'une moyenne d'une population normale dont la
variance est connue.
qui est un bon estimateur de la moyenne

Choix de la statistique: On utilise la statistique

D'aprs la table de la loi N(0 ; 1), tant fix, il est possible de trouver u tel que

Si

est une observation de

sur un chantillon, on peut donc affirmer que

appel intervalle de confiance, contient la valeur inconnue


avec une probabilit 1-

Remarque: A priori il existe une infinit de couples (a ; b) vrifiant P[ a < N(0 ; 1) < b] = 1-
On a pris un intervalle symtrique (-u ; u) car pour une loi symtrique comme la loi
normale, c'est celui qui donne un intervalle d'amplitude minimale, donc la plus grande
prcision.
b) Rechercher un intervalle de confiance d'une moyenne d'une population normale dont la
variance est inconnue.
qui est un bon estimateur de la moyenne

Choix de la statistique: On utilise la statistique

D'aprs la table de la loi de Student, tant fix, il est possible de trouver t tel que

Si

et s sont des observations de

et S sur un chantillon, on peut donc affirmer que

, appel intervalle de confiance, contient la valeur inconnue


avec une probabilit 1-

Remarque: A priori il existe une infinit de couples (a ; b) vrifiant P[ a < T(n-1) < b] = 1- .
On a pris un intervalle symtrique (-t ; t) car pour une loi symtrique comme la loi de
Student, c'est celui qui donne un intervalle d'amplitude minimale, donc la plus grande
prcision.

Estimation de la variance de la loi normale N( ;2) :


a) Rechercher un intervalle de confiance d'une variance d'une population normale dont la
moyenne est connue.
Choix de la statistique: On utilise la statistique suivante :

De plus,

D'aprs la table de la loi du , tant fix, il est possible de trouver a et b tels que

Si xi sont les observations sur un chantillon, on peut donc affirmer que

,
appel intervalle de confiance, contient la valeur inconnue avec une probabilit 1-

Remarque: en fait il existe une infinit de couples (a ; b) vrifiant


La loi du n'tant pas symtrique, on montre que l'intervalle d'amplitude minimale est
obtenu en prenant a et b tels que

b) Rechercher un intervalle de confiance d'une variance 2 d'une population normale dont la


moyenne est inconnue.
Choix de la statistique: On utilise la statistique S qui est un bon estimateur de la variance.

D'aprs la table de la loi du , tant fix, il est possible de trouver a et b vrifiant :

Si s est une observation de S sur un chantillon, on peut donc affirmer que


, appel intervalle de confiance, contient la valeur inconnue avec
une probabilit 1-
Remarque: en fait il existe une infinit de couples (a ; b) tels que :
.
La loi du n'tant pas symtrique, on montre que l'intervalle d'amplitude minimale vrifie

Estimation dune proportion :


Rechercher un intervalle de confiance d'une proportion p partir d'un chantillon de grande
taille.
Choix de la statistique: On utilise la statistique F qui est un bon estimateur d'une proportion p.

D'aprs la table de la loi , tant fix, il est possible de trouver u tel que

Si f est une observation de F sur un chantillon, on obtient

On remplace p par une estimation ponctuelle f, et on obtient lintervalle de confiance suivant

Cas dun chantillon de grande taille


a) Rechercher un intervalle de confiance d'une moyenne d'une population quelconque dont
la variance est connue, partir d'un grand chantillon.
Choix de la statistique: On utilise la statistique
moyenne .

qui est un bon estimateur de la

D'aprs la table de la loi N(0 ; 1), tant fix, il est possible de trouver u tel que

Si

est une observation de

sur un chantillon, on peut donc affirmer que

appel intervalle de confiance, contient la valeur inconnue


avec une probabilit 1-

Remarque: A priori il existe une infinit de couples (a ; b) vrifiant P[ a < N(0 ; 1) < b] = 1-
. On a pris un intervalle symtrique (-u ; u) car pour une loi symtrique comme la loi
normale, c'est celui qui donne un intervalle d'amplitude minimale, donc la plus grande
prcision.

10

b) Rechercher un intervalle de confiance d'une moyenne d'une population quelconque dont


la variance est inconnue, partir d'un grand chantillon.
Choix de la statistique: On utilise la statistique

qui est un bon estimateur de la moyenne

D'aprs la table de la loi N(0 ; 1), tant fix, il est possible de trouver u tel que

Si

et s sont des observations de

et S sur un chantillon, on peut donc affirmer que

, appel intervalle de confiance, contient la valeur inconnue


avec une probabilit 1-

Remarque: A priori il existe une infinit de couples (a ; b) vrifiant P[ a < N(0 ; 1) < b] = 1-
On a pris un intervalle symtrique (-u ; u) car pour une loi symtrique comme la loi
normale, c'est celui qui donne un intervalle d'amplitude minimale, donc la plus grande
prcision.

Quelques exercices dapplication :


Exercice1 : Un caractre est reprsent par une variable alatoire X suivant une loi normale
de variance gale 4.
Un chantillon de 16 observations conduit une moyenne de 2,3.
Dterminer un intervalle de confiance au niveau de confiance de 95% pour la moyenne.
Quelle est la valeur minimale de la taille de lchantillon prlever pour pouvoir estimer m
10% prs au niveau de confiance au moins gal 95%?
Exercice2 : Une machine bien rgle produit des pices dont le diamtre moyen est 25mm.
Deux heures aprs un rglage de la machine, on a prlev au hasard un chantillon de 9
pices.
Les diamtres mesurs (en mm) sont :

11

22, 23, 21, 25, 24, 23, 22, 26, 21.


Que peut-on conclure, avec une probabilit de 95% quant la qualit du rglage de la
machine, aprs deux heures de fonctionnement ?
(Le diamtre des pices suit une loi normale)
Exercice 3 : Les salaires mensuels des employs dune entreprise suivent une loi normale.
Pour un chantillon de taille n =10, on obtient une moyenne m= 6500 DH et une standard
dviation de 900 DH ;
Donner un intervalle de confiance pour la moyenne dun salaire mensuel au niveau de
confiance de 95%.
Exercice 4 : Dans une usine, on note p la proportion de pices dfectueuses.
Pour estimer p, on dispose dun chantillon de 500 pices parmi lesquelles 28 sont
dfectueuses.
1) Dterminer une estimation de p.
2) Lestimateur de p est-il non biais, convergent ?
3) Dterminer un intervalle de confiance pour la proportion p au seuil de confiance
1- = 96%

12

Tests statistiques

Dfinition : Un test est un mcanisme qui permet de trancher entre deux hypothses H0 et H1
partir des rsultats dun chantillon.
H0 est appele hypothse nulle et H1 hypothse alternative.
On se fixe donc a priori un risque (probabilit de rejet de l'hypothse qui serait ralise malgr
les apparences) . La loi de probabilit de la grandeur considre permet de dterminer une
zone de probabilit 1-, niveau de signification du test, dont le complment, de probabilit ,
est appel rgion critique. Si l'estimation tombe dans cette rgion critique, l'hypothse doit
tre rejete avec le risque de se tromper.
Etapes suivre pour un test statistique :
1. nonc de l'hypothse nulle H0 et de l'hypothse alternative H1.
2. Calcul d'une variable de dcision correspondant une mesure de la distance entre les
deux chantillons dans le cas de l'homognit, ou entre l'chantillon et la loi
statistique dans le cas de la conformit. Plus cette distance sera grande et moins
l'hypothse nulle H0 sera probable.
3. Calcul de la probabilit d'obtenir une valeur de la variable de dcision aussi extrme
ou plus extrme que la valeur obtenue, en supposant que H0 soit vraie. Cette
probabilit, gnralement appele risque de premire espce et note , correspond
au risque de rejeter tort H0 si H0 est en fait vraie.
4. Conclusion du test, en fonction d'un risque seuil seuil, en dessous duquel on est prt
rejeter H0. Souvent, un risque de 5% est considr comme acceptable (c'est--dire que
dans 5% des cas quand H0 est vraie, l'exprimentateur se trompera et la rejettera).
Mais le choix du seuil employer dpendra de la certitude dsire et de la
vraisemblance des alternatives.
La probabilit pour que H0 soit accepte alors qu'elle est fausse est , le risque de deuxime
espce. C'est le risque de ne pas rejeter H0 quand on devrait la rejeter. Sa valeur dpend du
contexte, et est trs difficilement valuable (voire impossible valuer), c'est pourquoi seul le
risque est utilis comme critre de dcision.

A) Tests non paramtriques :


I-

Tests dajustement :

Principe :
On se demande si un chantillon extrait d'une population correspond raisonnablement
une loi de probabilit hypothtique de distribution connue F(x).
Soit F(x) la fonction de rpartition de la variable chantillonne.
Soit X le caractre tudi. On fait n observations et on obtient un chantillon (x1, x2,.. ., xIII)
deffectifs (n1, n2 ,.,n I).

13

Il sagit de tester H0 : F(x)= F(x)

contre H1 : F(x) F(x)

au risque .

On note Pi les probabilits associes F et Pi celles associes F.


-Dans le cas isol, P1= P(X x1) ; P2 = P(X=x2) ; ; PI-1 = P(X= xI-1) et PI= P(XxI)
-Dans le cas continu, P1= P(X< x1) ; P2 = P ( x1X<x2) ;. ; PI-1=P( xI-1X<xI) ;
PI = P(XxI)
On est ramen tester : H0 : Pi = Pi pour i=1,2,..,I contre H1 : Pi Pi (pour au
moins un indice i )
Soit Ni la variable alatoire qui compte le nombre dindividus de lchantillon gaux xi
dans le cas isol ou appartenant la classe [zi-1, zi [, dans le cas continu.
Ni ~ B(n , Pi) avec E(Ni) = nPi
Finalement, on est ramen au test :
H0 : ni /n = Pi (i=1,2,,I ) contre H1 : ni /n Pi pour au moins un indice i .
Considrons la statistique D2n = (Ni- n Pi)2 /n Pi dont une ralisation est
d2n = (ni- n Pi)2 /n Pi (cart entre les effectifs raliss et les effectifs esprs.)
1 iI

Remarque : D2n reprsente d'une certaine manire la distance entre les donnes empiriques et
la loi de probabilit suppose. Sous H0 , D2n suit une loi de probabilit de 2 I-r-1 degrs de
libert o r dsigne le nombre de paramtres estims (de la loi connue F(x)) .
Les tables de 2 permettent de dterminer s'il y a lieu de rejeter l'hypothse en prenant le
risque, fix l'avance, de se tromper.
Rgle de dcision : Si d2n > k on rejette lhypothse dajustement H0 au risque
(o k est tel que P(2 < k) = 1- ; le chi deux tant de degr I-r-1)

Tests dindpendance :

II-

Supposons que les individus dune population possdent deux caractres X et Y.


X prend ses valeurs dans A1, A2,.,AI et Y prend ses valeurs dans B1, B2 , ,BJ.
On fait n observations, donc on obtient un chantillon deux dimensions : (x1, y2) ;
(x2, y2) ;..(xn, yn) .
On rassemble les donnes dans un tableau de contingence :
Y
X
A1
A2
.
.
AI

B1

B2

.. Bj

BJ

n11
n21

n12
n22

n1j

n1J

n1.

nI1
n.1

nI2
n.2

nIj
n.j

nIJ
n.J

nI.
n

14

On veut tester :
H0 : X et Y indpendantes contre H1 : X et Y ne sont pas indpendantes.
Do le test suivant : H0 : pij = pi. p.j pour tout i et j contre H1 : pij pi. p.j pour au moins
un couple (i, j)
Notons pij =P(X Ai et Y Bj) ; pi.=P(X Ai) ; p.j = P(Y Bj)
pij est estim par nij /n ; pi. est estim par ni. /n et p.j est estim par n.j /n
On introduit la distance d 2n = (nij-ni. n.j)2/(ni. n.j)/n ralisation de
D2n = (Nij-Ni. N.j)2/(Ni. N.j)/n
Remarque : Sous H0, D2n suit (quand n tend vers linfini) la loi 2 (I-1) (J-1) degrs de
libert.
Dcision du test : Si d2n > k on rejette lhypothse dindpendance H0 au risque (o k est
tel que P(2 < k) = 1- ; le chi deux tant de degr (I-1) (J-1) )

B) Tests paramtriques :
Dfinition : Un test est dit paramtrique si son objet est de tester certaine hypothse relative
un ou plusieurs paramtres dune variable alatoire spcifie ou non.
En gnral, les tests sont bass sur la loi normale.

1) Test sur la valeur moyenne dune loi normale N (m, 2) :


a) 2 connue :
Le test repose sur la variable de dcision :

qui suit la loi normale N (, 2) .


Test unilatral
Soit une v.a. normale de moyenne
et de variance 2. Au vu d'un chantillon de
ralisations indpendantes xi, on veut choisir entre les deux hypothses:
H0 : m=m0

contre H1 : m< m0 (test unilatral gauche)


Ou m > m0 (test unilatral droit)

Comme toujours, l'erreur de premire espce est fixe. Par ailleurs, la moyenne
sera
estime par la moyenne arithmtique . La construction du test est similaire ce que nous
avons vu pour le cas du test simple d'une moyenne. On aboutit :

15

On remarque que la valeur du seuil de dcision est indpendante de la valeur de


l'hypothse H1. Il s'ensuit que le test est uniformment le plus puissant.

sous

La variable Y suit une loi normale (en effet est connue et joue donc le rle d'une constante)
centre et rduite. La valeur du seuil sera donc dduite d'une table de la loi normale. Il en est
de mme pour l'erreur de deuxime espce et pour la puissance du test.

Dcision du test : on rejette lhypothse H0 si y t 1- ; y tant une ralisation de la variable


alatoire Y et P(Y t1- ) = 1- (t1- est lu sur la table de la loi N(0,1))
Test bilatral
Soit une v.a. normale de moyenne
et de variance 2 connue. Au vu d'un chantillon de
ralisations indpendantes xi, on veut choisir entre les deux hypothses:

Comme toujours, l'erreur de premire espce est fixe. Par ailleurs, la moyenne
sera
estime par la moyenne arithmtique . La construction du test est obtenue en remarquant que
l'hypothse H1 peut se dcomposer en deux hypothses lmentaires:

La dtermination des seuils est simple puisque les deux hypothses H et Hsont disjointes.
On a :

16

Il en rsulte une infinit de valeurs possibles pour et . Cependant, la loi de


tant
symtrique (loi normale), on prend gnralement = = /2 ce qui conduit naturellement
des valeurs de symtriques par rapport m0. Chaque cas est en fait une application du test
prcdent mais pour une valeur moindre de .

~ N (0, 1).

Dcision du test :
La valeur critique infrieure vaut t1- /2 et la valeur critique suprieure t1- /2
Si -t1-/2y t1-/2 on accepte lhypothse H0 sinon on la rejette au profit de H1
( P( Y t1-/2) = 1-/2 ; t1-/2 est lu sur la table de N(0,1) )
b) 2 inconnue :
On procde de la mme faon en remplaant 2 par son estimateur S2
Et la nouvelle variable de dcision Y devient :

Y suit la loi de Student n-1 degrs de libert


Dcision du test :
-Dans le cas du test unilatral droit, on rejette H0 si y t 1- ; y tant une ralisation de la
variable alatoire Y et P(Y t1-) = 1- (t1- est lu sur la table de la loi de Student pour n-1
degrs de libert)
-Dans le cas du test unilatral gauche, on rejette H0 si y< t ; P(Yt) =
-Dans le cas du test bilatral, on accepte H0 si -t1-/2 y t1-/2 ; P(Yt 1-/2) =1- /2

17

Exercice 1 :
On pense que la moyenne (sur 100) lexamen de math est de 70. On a choisi un chantillon de 50 lves et
on a trouv une moyenne de 68 avec un cart type de 15.
Tester H0 : m= 70
contre HA : m 70
Au niveau de confiance de 95%.

Exercice 2 :
Une socit de Bourse affirme quune nouvelle formule assure votre placement 90%. Dans un chantillon
de 200 personnes soumis cette formule, 160 en sont contents.
Laffirmation de la socit est-elle lgitime un seuil de signification de 0,01 ?
Exercice 3 : (Application au test sur une proportion)
On veut sintresser la proportion p de mnages qui possdent une automobile dans une catgorie
socioprofessionnelle.
On hsite entre deux hypothses : p=p0 et p=p1
Afin de prendre une dcision, on choisit un chantillon de taille 625.
Sur les 625 mnages, 300 possdent une automobile.
1) Tester lhypothse H0 : p=p0 contre H1 : p p0.
2) Application : p0= 50% et p1= 55% ; = 5%

2) Test sur la variance dune loi normale N (m, 2) :


Rappel :
Densit de la loi du khi deux :

H0 : 2 = 20

contre H1 : 2 < 20 ou 2 >20 (test unilatral)


2 20 (test bilatral)

La variable de dcision est S2 ;


Sous lhypothse H0, dans le cas dun chantillon gaussien, Y= nS2/20 suit la loi du chideux n-1 ddl.
Dcision du test :
- Test unilatral droit : On rejette H0 si y> k1 o P( Y k1) =1-
-Test unilatral gauche : On rejette H0 si y< k2 o P( Y k2) =
- Test bilatral : On accepte H0 si k<y<k o P( Y k) = /2 et P( Y k) =1- /2
( k, k, k1, k2 sont lus sur la table de la loi du chi-deux n-1 ddl)
18

3)Test sur la comparaison des moyennes de deux populations normales :


a) 21 et 22 connues :
C'est un test d'galit des moyennes m1 et m2 de 2 populations sur la base de 2
chantillons indpendants.
On teste H0 : m1 = m2 contre H1 : m1 m2 ou m1 m2 ou m1 m2
La variable de dcision Y est :

Sous lhypothse H0 , Y suit la loi normale suivante :

Posons 2 = 21/n 1+ 22/n2


Dcision du test :
- Si - t1-/2y t1-/2 on accepte lhypothse H0 sinon on la rejette au profit de H1.
( P( N(0,1) t1-/2) = 1-/2 ; t1-/2 est lu sur la table de N(0,1) ) dans le cas dun test bilatral.
-Si y t 1- ; (t1- est lu sur la table de la loi N(0,1)) on rejette H0 dans le cas dun test
unilatral droit.
-Si y< t ; rejette H0 dans le cas dun test unilatral gauche.
b)21 et 22 inconnues :
C'est un test d'galit des moyennes m1 et m2 de 2 populations sur la base de 2
chantillons indpendants lorsque l'cart type des deux populations (
et
) est
inconnu mais o on peut considrer que
=
.
On teste H0 : m1 = m2 contre H1 : m1 m2 ou m1 m2 ou m1 m2
Le test est bas sur la statistique Y suivante :

Si H0 est vraie, Y suit une loi de Student n1 + n2 - 2 degrs de libert

19

Dcision du test :
-Test unilatral droit: On rejette H0 si y > t1-
-Test unilatral gauche: On rejette H0 si y < -t
-Test bilatral : On accepte H0 si t1-/2<y<t1-/2
Avec P(Y t1-) =1- ; P(Y -t)= et P(Y t1-/2)= 1-/2 (lecture sur la table de
Student n1+n2-2 ddl)
Exercice :
25 ingnieurs de la compagnie A gagnent un salaire moyen de 9000DH avec un cart type de 1500 DH ; 36
ingnieurs de la compagnie B gagnent un salaire moyen de 11000DH avec un cart type de 2000 DH.
Peut-on conclure que la compagnie B paie mieux ses ingnieurs que la compagnie A ?
On prendra 0,02 comme seuil de signification.

20