Vous êtes sur la page 1sur 23

Statistique Mathématique

Cours

Mme. Zidani.N

1
Chapitre 1

Statistique descriptive à une dimension


(rappels)

Statistique est une méthode scientifique qui consiste à réunir les données sur des ensembles,
puis à analyser, à commenter et à critiquer ces données. On peut définir la statistique
descriptive comme l’instrument statistique qui permet de donner un sens, une expression à
l’information recueillie. Elle donne une image concise et simplifiée de la réalité.

1.1 Vocabulaire de base

Population : tout ensemble étudié par la statistique,  .


Unité statistique (individu) : tout élément de la population, w   .
Remarque : Selon le nombre d’individus dans une population, cette dernière peut être finie ou
infinie. La population est constituée d’un ensemble d’individus satisfaisant à une définition
commune et représente la collectivité à laquelle on s’intéresse.
Caractère  : toute propriété des éléments d’une population. On peut distinguer des caractères
quantitatifs et des caractères qualitatifs selon qu’ils sont mesurables ou non. Les caractères
peuvent présenter plusieurs modalités (états ou valeurs qui leur sont propres). Dans le cas
d’un caractère quantitatif, les modalités sont mesurables : lorsqu’on peut associer à chaque
individu de la population étudiée un nombre appelé valeur du caractère pour cette unité.
Variable statistique (v.s.): un caractère qui fait le sujet d’une étude est connu sous le nom de
variable statistique. Lorsque cette variable n’est pas susceptible d’une mesure, elle est dite
qualitative. Au contraire, lorsque cette variable peut être exprimée numériquement, elle est
dite quantitative. Une variable quantitative peut être discrète ou continue. Elle est discrète si
elle ne peut prendre qu’un nombre limité de valeurs isolées. Lorsque la variable peut prendre
toutes les valeurs d’un intervalle fini ou infini, elle est alors continue.
Echantillon : un groupe restreint d’individus tirés de la population (population-mère)
préalablement définie. Le nombre d’individus détermine la taille de l’échantillon.

1.2 Quelques définitions

Effectif total d’une population : le nombre d’individus qui constituent la population en


question, N.
Fréquence absolue : est associée à une valeur de la v.s.. Elle est le nombre de fois que cette
valeur se rencontre dans la population : 0  ni  N ,  ni  N .
n
Fréquence relative : est associée à une valeur de la v.s.. Elle est définie par f i  i et
N
 i .f  1
Variable statistique discrète : Soit  d’effectif N. On considère un caractère quantitatif X  :
 
X
R.
X   x1 , x1 ,..., x k  , où k  N et k est le nombre de valeurs distinctes. La suite est strictement
croissante. Alors, on a

2
x1 , x 2 ,..., x k k k
n1 , n 2 ,..., n k . Ici  ni  N et
i 1
f i 1
i  1.
f 1 , f 2 ,..., f k
Variable statistique continue : Soit  d’effectif N. On considère un caractère quantitatif X :
  X
R . Les valeurs de X se trouvent à l’intérieur de l’intervalle  a 0 , a k  . Cet intervalle peut
être divisé en classes de la manière suivante :
  , a 0  ,  a0 , a1  ,...,  ai 1 , ai  ,...,  a k 1 , a k  ,  a k ,  .
Pour une classe  ai 1 , a i  , on a :
a i 1 , a i -- limites ;
a  ai 1
xi  i -- centre ;
2
a i  a i 1 -- amplitude ;
ni -- fréquence absolue ;
f i -- fréquence relative ;
fi
-- densité de fréquence.
a i  a i 1
Fréquences cumulées : On appelle fréquence cumulée croissante de la valeur
i
 i 
x i , i  1,2,..., k ,la somme des fréquences des valeurs x1 , x 2 ,..., xi  :  n j   f j  . La
 
j 1  j 1 
fréquence cumulée décroissante de la valeur xi est le nombre
i
 i 
N   n j 1   f j  .
j 1  j 1 
Distribution de fréquences (voir les cours)

Fonction de répartition de fréquences : Fonction de répartition de fréquences est une


i
 i 
x x
application qui à toute valeur i associe sa fréquence cumulée : i   n j

 x i   f j
.

j 1  j  1 
(Voir la suite dans les cours)

1.3 Caractéristiques de la valeur centrale et de la position d’une variable


statistique

Moyenne arithmétique : La moyenne arithmétique permet d’identifier la quantité autour de


laquelle les valeurs de la v.s. sont réparties et de résumer par un seul nombre l’ensemble des
données. Elle est une moyenne de grandeur.
1
X 
N
n x
i i .
Propriété : X  hU  a , xi  hui  a, i  1,2,..., k .
X  hU  a .
Mode : Mo est la valeur de la variable statistique la plus fréquente. Pour une v.s.d. : sa valeur
qui a la plus grande fréquence. Pour une v.s.c. : classe modale est celle à laquelle correspond
la fréquence la plus élevée. Le mode est le centre de la classe modale. Le mode est une
moyenne de fréquences.

3
Médiane  : Ml est la moyenne de position. La médiane est la valeur (observée ou possible) de
la v.s. qui partage ses valeurs en deux parties, chacun comportant le même nombre de
données de part et d’autre de Ml.
Quantiles : Les valeurs de la variable sont partagées en l parties égales. Lorsque l=4, on a des
quartiles Q1 , Q2 , Q3 . L’intervalle inter quartiles  Q1 , Q3  comporte 50% des valeurs de la
variable en question.

1.4 Caractéristiques de dispersion

n x  X  n x  X 
1 1
Variance  : Var  X    
2 2 2 2
i i i i .
N i N i

Si X  hU  a , alors Var  X   h 2Var U  .


Ecart type :   Var  X  .

Coefficient de variation : C’est une mesure de dispersion relative cv   100 /  . Il est
X
indépendant de l’unité de mesure de la variable observée. Il permet de comparer les
dispersions des v.s. qui ne sont pas exprimées dans les mêmes unités de mesure. Le
coefficient de variation donne une idée sur le degré d’homogénéité d’une distribution. Plus le
coefficient de variation est faible, plus les valeurs de v.s. sont homogènes. cv  15 /  est une
indication d’une bonne homogénéité de la distribution des données.

1.5 Caractéristiques de la forme

Moments :
1
k   ni xik ,  1  X .
N i
 k   ni  xi  X  , 1  0 ,  2   2    1  2  Var  X  .
1 k

N i
Asymétrie : Une distribution est considérée comme symétrique lorsque les observations sont
équiréparties de part et d’autre de la moyenne X .
3
Coefficient de Fisher :  1  . Si  1  0 , il s’agit de l’asymétrie négative (à gauche). Si
3
 1  0 , la distribution est symétrique. Si  1  0 , on a l’asymétrie positive (à droite).
4
Aplatissement : Coefficient de Fisher  :  2   3 . Selon la valeur de ce coefficient (< 0, = 0,
4
>0), la forme de la distribution peut être : aplatie, norme, pointue.

Chapitre 2

Statistique Mathématique à deux dimensions

4
2.1 Définitions

Soit une population  d’effectif total N. Chaque individu de cette population présente
deux caractères : X et Y (quantitatifs). A chaque individu w   , on associe les valeurs
xi  X  w et y j  Y  w . Plusieurs individus peuvent avoir les mêmes valeurs des caractères.
La représentation graphique est un nuage de points.
Soit (X,Y). C'est-à-dire
X   x1 , x 2 ,..., x k 
.
Y   y1 , y 2 ,..., y l 
On appelle fréquence absolue du couple  xi , y j  le nombre nij d’individus de la population
k l

dont les valeurs des caractères sont respectivement xi et y j  :  n


i 1 j 1
ij  N . La fréquence

nij
relative du même couple est définie par f ij  .
N
Le couple de variables statistiques (X,Y) peut être représenté par un tableau dont des lignes
représentent les valeurs du caractère X et des colonnes les valeurs du caractère Y.
l
 l 
Le nombre i.  ij est appelé fréquence marginale de i ,  i.  f ij  .
n  n x  f 
j 1  j 1 
k
 k

Le nombre n. j   nij est appelé fréquence marginale de y j ,  f . j   f ij  .
i 1  i 1 
k l

Il est évident que N   ni.   n. j .


i 1 j 1

2.2 Caractéristiques numériques

Moyennes marginales :
k l
1 1
X 
N
 ni. xi  ; Y  N
n
j 1
.j yj .
i 1
Variances marginales :

 ni.  xi  X   ; Var Y   n y Y  .
k l
1 1
Var  X  
2 2
.j j
N i 1 N j 1

Ecart types :
  X   Var  X   ;  Y   Var Y  .
Covariance  :
Cette caractéristique détecte une liaison entre les variables.
cov X , Y    nij  xi  X   y j  Y  
1 k l 1 k l

N i 1 j 1 N
 n
i 1 j 1
ij xi y j  XY .

cov X , Y 
On définit coefficient de corrélation linéaire de la manière suivante : r  . Ses
  X  Y 
valeurs sont  1  r  1 . Si  1  r  0 , la corrélation est négative ; si 0  r  1 , elle est
positive. Si les variables sont indépendantes, r  0 .

5
2.3 Ajustement : droite de régression de Y en X

Le coefficient de corrélation linéaire nous donne une indication de l’intensité de la liaison


linéaire entre deux variables. Lorsque cette corrélation linéaire s’avère significative, on peut
envisager, à l’aide d’une méthode d’ajustement appropriée, d’établir l’équation de la liaison
linéaire existant entre les deux variables. Cette équation est l’équation d’une droite. On
recherche alors la droite qui s’ajuste le mieux aux observations, et on l’appelle droite de
régression. Cette droite est généralement déterminée par la méthode des moindres carrés :
rendre minimum la somme des carrés des écarts des valeurs observées à la droite.
Supposons qu’on a N couples d’observations  xi , y i  , i  1,2,..., N . L’équation de la droite
est un outil de prévision ; on pourra estimer ou prévoir les valeurs d’une variable à partir des
valeurs prises par l’autre variable. Il faut d’abord convenir de la variable que nous voulons
exprimer en fonction de l’autre. Ce choix est important et permettra d’identifier la variable
dépendante ou expliquée (Y) et la variable indépendante ou explicative (X).
L’équation de la droite est yˆ  a  bx  yˆ  x  . On cherche les coefficients a et b. A cet effet :
Minimiser
 y  yˆ  xi      y i  a  bxi  .
2 2
i
i i

 
Par conséquent,  0  ;  0 . On obtient les équations normales
a b
 y
i
i  a  bxi   0  ;

x y
i
i i  a  bxi   0  ;

Ou bien
aN  b xi   y i  ; (1)
i i

a  xi  b xi2   xi y i . (2)
i i i
1 1
De l’équation (1), on obtient Y  a  bX , où X 
N
x
i
i et Y 
N
y
i
i . Alors
a  Y  bX  : la droite de régression passe par le point  X , Y  . Pour trouver le coefficient b,
de l’équation (2) soustraire l’équation (1) dont les termes sont multipliés par X . En effet,
a  xi  b xi2  aNX  bX  xi   xi y i  X  y i  ;
i i i i i
 
b  x i2  X  xi   x i y i  X  y i  a  xi  aNX .
 i i  i i i

D’où
1  
x yi
i   xi   y i 
i
N i

 i   cov X , Y 
b .
1 
2
Var  X 
i xi  N  i xi 
2

L’équation yˆ  a  bx devient
cov X , Y  cov X , Y  cov X , Y 
yˆ  Y  X x  x  X   Y  bYX  x  X   Y .
Var  X  Var  X  Var  X 
Ici bYX est le coefficient de régression de Y en X.
Prévision  : On peut utiliser la droite de régression pour prévoir les valeurs de Y (en donnant
les valeurs de X, il est possible de calculer b et a, par la suite yˆ  a  bx ).

6
Remarques
1. La droite des moindres carrés (les équations normales) est unique pour N couples de
valeurs observées.
2. La droite de régression ne s’applique qu’à l’intérieur de l’étendue des valeurs
expérimentales qui ont été observées pour la variable explicative. Donc, éviter toute
extrapolation en dehors de ce domaine, à moins d’être certain que le phénomène se
comporte de façon identique.
x  X  y i  Y 
1
3. cov X , Y   i
N i

x y  Xy i  xi Y  XY 
1
 i i
N i

1 1 1 1 1 
   xi y i  x y i i  x y i i  x i   y  
i
N i N i i N i i N i N i 
1 1 
   xi y i  x  y i i   ;
N i N i i 
1   
2 2
1  1
 xi2   X  
1 1
Var  X   i xi2   N i i  N  i i N  i i    ;
2
x  x 2
 x
N i N  
1
cov X , Y 
x y i i 
N
x y i i
 i i i
.
Var  X  1  
2

i x  N  i xi 
2
i

Chapitre 3

Estimation et intervalle de confiance

Introduction

Lorsqu’on veut étudier une variable statistique dans une population donnée, il peut être
difficile (voir impossible) d’interroger ou d’observer tous les individus de la population.
Cette difficulté peut provenir de la taille élevée de la population ou de sa dispersion dans

7
l’espace ou dans le temps. Elle peut également être liée à des moyens matériels et
financiers limités. D’où la nécessité de réduire le nombre d’observations. On prélève donc
un certain nombre d’individus dans la population pour les observer. Il s’agit d’un
échantillon sur une variable dans une population. La taille de l’échantillon correspond au
nombre d’individus prélevés.
Un échantillon doit être : représentatif de la population et obtenu à un coût modique.
Une possibilité d’atteindre une plus grande représentativité est de procéder à des
observations « au hasard » dans une population. On obtient alors, un échantillon aléatoire.
Comment peut-on obtenir un échantillon aléatoire ?
- Tirage avec remise  : Tous les individus de la population ont à priori des chances
égales d’être choisis. On prend un individu au hasard dans la population. Après avoir
observé la valeur prise par la variable à l’étude chez l’individu choisi, on remet cet
individu dans la population. Puis, on recommence. Les observations sont faites donc
de façon indépendante et dans les mêmes conditions.
- Tirage sans remise (exhaustif) : L’individu choisi n’est pas remis dans la population.
Les observations ne sont ni indépendantes, ni effectuées dans les mêmes conditions.
Cependant, si le nombre d’observations est très petit par rapport à la taille de la
population, tirage sans remise peut être étudié comme celui avec remise. Cela a une
grande importance car, dans la pratique, les tirages sont faits très souvent sans remise,
mais la théorie est beaucoup plus simple dans le cas de tirages avec remises.

Distributions d’échantillonnage de la moyenne et de la variance

Considérons une population  , effectuons des tirages avec remise (échantillonnage


aléatoire) et on prélève les échantillons de taille n. Soit X une variable aléatoire représentant le
caractère quantitatif des individus de la population en question.
X1 X2 … Xn X S2

x1 x2 … xn x s2
x1' x 2' … x n' x' s 2'
……………………………………………………..
1 n
La moyenne échantillonnale X   X i varie d’un échantillon à un autre.
n i 1
On a
1 n  1 n
 
E X  E  X i    E  X i  
n  i 1  n i 1
nm
n
 m , où m  E  X i , i  1,2,..., n  ;

n 2  2
Var  X  
n
1
n2
 Var  X i  
i 1 n 2

n
, où   Var  X i , i  1,2,..., n .
2

La variance échantillonnale S 2

1 n
  X i  X  2

1 n
  X i  m 2   X  m 2 . On a également
n i 1 n i 1

ES 2  
 n  1  ; Var S 2  2 n  1  4 .
2
 
n n2

Théorème 1 Loi faible des grands nombres


Pour tout écart   0 considéré entre X et m, on a le résultat : pour n assez grand,
P X  m     1 .
Théorème 2 Loi forte des grands nombres

8
Pour tout écart   0 considéré entre X et m, on a le résultat : pour n assez grand,
P X  m     1 .
Remarque  : Loi faible : convergence en probabilité ; loi forte convergence presque sûrement.
Théorème 3 Théorème de la limite centrale
X m
T
Soit  , telle que E T   0 et Var T   1 , n . La variable T suit approximativement
n
une loi normale centrée et réduite N  0,1 lorsque la taille de l’échantillon est suffisamment
grande.

Estimation ponctuelle

On considère une caractéristique  d’une population  . Par exemple,  est la moyenne


d’une variable X qui concerne les individus de  . Pour connaître la valeur exacte de  , il
faudrait étudier tous les individus de la population considérée en effectuant un recensement ou
une élection. Si l’on n’a pas la possibilité d’étudier tous les individus de  , on se contente
d’analyser un échantillon de taille n extrait de façon aléatoire de la population  . On veut
étudier comment il est possible d’en déduire une valeur approchée du paramètre  et mieux
un encadrement de  . Il faut noter que la valeur de  inconnu, calculée à partir d’un nombre
restreint de données aura toujours un caractère aléatoire. On appelle estimation de  cette
valeur approchée et aléatoire.

Modèle mathématique

Soit X une variable aléatoire dont la loi de probabilité (en général, une loi de probabilité est
définie par espérance mathématique et variance) contient un paramètre inconnu  . Il s’agit
de trouver une estimation convenable pour  d’après les résultats de l’échantillon :
X 1 , X 2 ,..., X n . Chacune de ces variables est répartie selon une même loi que X. Soit ˆ
l’estimation de  . Elle est une fonction de X 1 , X 2 ,..., X n  : ˆ  ˆ X 1 , X 2 ,..., X n  . Elle est
également une variable aléatoire. L’estimation ˆ doit être:
- consistante : ˆ Probabilite
   ;
ˆ
- non biaisée : E     ;

- effective : Var ˆ  min .

3.3.1 Estimation de la moyenne de la population

Soient  une population, X une variable qui concerne les individus de cette population.
Supposons que E  X   m est inconnue. On prélève un échantillon de taille n dans la
population : X 1 , X 2 ,..., X n . Pour estimer la valeur de m, il est naturel de prendre la moyenne
1 n
arithmétique des valeurs observées : mˆ  X   X i . Cette estimation est consistante : en
n i 1
vertu de la loi faible des grands nombres, lorsque n   , m̂ converge en probabilité vers m.
Cette estimation est également non biaisée : E  mˆ   E  X   m . En outre, si la loi de X est celle
2
normale, Var  mˆ   Var  X     2.
n

Estimation de la variance de la population

9
Supposons que la variance de la population  2  Var  X  est inconnue. A première vue,
1 n
l’estimation la plus naturelle est la variance de l’échantillon tiré : S    X i  mˆ  , où
2 2

N i 1
n
1
ˆ  X . Vérifions la consistance : S   X i  m
2 2
m ˆ 2 . Le premier terme est la moyenne
n i 1
arithmétique de n valeurs observées de la variable X 2 . Il converge en probabilité vers
 
E X 2   2 . Le second terme converge en probabilité vers m   1 . Donc, S 2 converge en
probabilité vers  2  ( 1 ) 2   2 et est consistante. Vérifions est-elle non biaisée ?
 
E S2 
n 1 2
n
   2 . La réponse est non. En utilisant S 2 au lieu de  2 , on commet une

n 2 1 n
certaine erreur systématique au moins. Par conséquent, ˆ 
2

n 1
S    X i  mˆ  2 . En
n  1 i 1
n
outre, vu que lim  1 , ˆ 2 converge en probabilité vers  2 . Nous avons obtenu une
n n 1
estimation consistante et non biaisée ˆ 2 de la variance  2 inconnue.

3.4 Intervalle de confiance

Nous avons envisagé l’estimation du paramètre inconnu  à l’aide d’un seul nombre. Une
telle estimation est dite ponctuelle. Dans un certain nombre de problèmes, il ne suffit pas de
trouver pour le paramètre une valeur numérique convenable, mais il faut estimer également sa
précision et sa fiabilité. On veut savoir quelles sont les erreurs qu’entraîne le remplacement du
paramètre inconnu par son estimation ponctuelle, et en quelle mesure on peut être sûr que ces
erreurs se trouvent dans certaines limites.
Soient  inconnu et ˆ son estimation. Estimons maintenant l’erreur possible. A cet effet,
choisissons une probabilité assez grande 1   (par exemple, 0.95 ou 0.99) telle qu’un
événement, avec cette probabilité, puisse être considéré comme certain et déterminons la
valeur  pour laquelle on a P  ˆ       1   , ou bien Pˆ      ˆ     1   . Les
erreurs interviennent avec une petite probabilité  . L’intervalle de confiance est
 
I1  ˆ   ;ˆ   .
La grandeur  n’est pas aléatoire, par contre l’intervalle de confiance l’est.

3.4.1 Intervalle de confiance pour la moyenne m d’une population

Supposons que la loi de la population soit normale N  m,  2  . Deux situations peuvent se


présenter selon que l’on connaît ou non la variance de la population  2 .
Premier cas : Grand échantillon n>30,  2 connue.
On prélève un échantillon aléatoire d’effectif n et de moyenne X . La moyenne X est
X m
 2 Z  N  0,1
répartie selon N  m,  . On considère la variable centrée et réduite  . On
 n  n
sait que pour une variable normale centrée et réduite,
P   z  Z  z   1  
   z     z   2  z   1  ;

  z   1  .
2

10

Par exemple, si   0.05 , alors 1   0.975 et z  1.96 (de la table de N  0,1 ).
2
X m
Si on applique cette propriété à la variable  , on obtient
n
 
 X m 
P  z    z   1   .
  
 n 
       
P  z  X  m  z   P X  z  m  X  z  .
 n n  n n
Ainsi, l’intervalle de confiance de la moyenne m de la population est :
   
I 1   X  z ; X  z 
 n n
Et
   
P X  z  m  X  z   1   .
 n n
Il faut noter que le choix du niveau de confiance 1   est arbitraire. Il dépend du degré de
précision qu’on désire obtenir. En outre, plus la taille de l’échantillon soit grande, plus
l’intervalle de confiance diminue.
Second cas : Grand échantillon n  30 ,  2 inconnue.
On remplace  par S 2 de l’échantillon et on suit la même démarche que dans le premier
cas.
Troisième cas : Petit échantillon n  30 ,  2 connue.
On utilise la même procédure que dans le premier cas (grand échantillon).
Quatrième cas  : Petit échantillon n  30 ,  2 inconnue.
 S
On remplace par son estimateur , où S est l’écart type de l’échantillon, et on
n n 1
X m
montre que S suit une loi de Student à (n-1) degrés de liberté. Vu la similitude des lois
n 1
normale centrée et réduite N  0,1 et Student t n 1 , on peut construire de la même manière
l’intervalle de confiance pour m  :
 S S 
I 1   X  t n 1, ; X  t n 1,  et P m  I 1   1   .
 n 1 n 1

La valeur t n 1, se lit sur la table de Student. Il s’agit du quantile d’ordre 1  et de nombre
2
de degrés de liberté (ddl) égal à (n-1).
Il faut noter que la loi de Student à n ddl est définie de la manière suivante :
U
X Student  n
Y , où U  N  0,1 et Y   n 
2
X
i 1
i
2
avec X i  N  0,1 .
n
Exemple 1
On a effectué 5 mesures du diamètre d’une sphère, qui ont donné respectivement : 6.33 ,
6.37, 6.36, 6.32, 6.37. Déterminer des estimateurs de la moyenne vraie et de la variance de la
population :

11
1 n
mˆ   X i  6.35cm  ;
n i 1
n 2 1 n
ˆ 2  S    X i  mˆ  2  0.00055cm 2 .
n 1 n  1 i 1
Exemple 2
Supposons que les poids de 100 étudiants d’une université représentant un échantillon
aléatoire a donné une moyenne de 67.45 kg avec un écart de 2.93 kg. Déterminer un intervalle
de confiance au niveau de confiance 0.95 puis au niveau de confiance 0.99 pour estimer le
poids moyen des étudiants de cette université.
On a X  67.45kg et S  2.93kg . 1    0.95 , alors   0.05 . Vu que nous avons un
grand échantillon n=100, pour construire l’intervalle de confiance il faut utiliser une loi
normale centrée et réduite. De ce fait, z  1.96 . L’intervalle de confiance correspondant
est :
 S S 
I 1   X  z ; X  z   ;
 n n
 2.93 2.93 
I 0.95  67.45  1.96 ;67.45  1.96   66.88;68.02 .
 10 10 

A présent, 1    0.99 , alors   0.01 et 1   0.995 .
2
  z   0.995 , alors de la table de la loi N  0,1 il vient que z  2.58 . Par conséquent,
 2.93 2.93 
I 0.95  67.45  2.58 ;67.45  2.58   66.69;68.21 .
 10 10 
m   66.69;68.21 avec une probabilité 0.99 (99%).

Exemple 3 :
La durée d’écoulement d’un grand sablier est une variable aléatoire de loi N  m,  2  dont on
ne connaît pas les paramètres. En le faisant fonctionner 10 fois, on obtient une durée moyenne
égale à 16 et un écart type égal à 1.Déterminer l’intervalle de confiance pour m au niveau de
confiance 95%.
L’échantillon est petit n=10 et  2 est inconnue. Donc,
 S S 
I 1   X  t n 1, ; X  t n 1, .
 n 1 n 1
Dans la table de la loi de Student à (n-1) ddl, on trouve t n 1, . En effet, n  1  9ddl et

1    0.95 . Par conséquent, 1   0.975 et t 9, 0.05  2.262 .
2
  1 1 
P m  16  2.262 ;16  2.262    0.95 et I 0.95  15.25;16.75 .
  9 9  

3.4.2 Intervalle de confiance pour la variance d’une loi normale

Considérons une population admettant une loi N  m,  2  , où  2 est un paramètre inconnu


que l’on désire estimer. On a deux possibilités :
2
n
 Xi  m
1. m est connue : la variable      n2 .
i 1   

12
2
X X n
2. m est inconnue : la variable   i    n21 .
i 1   
n
La loi  2 à n degrés de liberté est définie par  n   Z i , où Z i  N  0,1 .
2 2
Note  :
n 1

E  n2
n et Var     2n . La table de cette loi est organisée de la manière suivante :
2
n

l’entrée est présentée par n    , où n est ddl et  est une probabilité ; à l’intérieur de
la table se trouvent les valeurs de  n ,  telles que   P   n   n,   .
2 2 2

Considérons

 X  X
n
2
i
(n  1)ˆ 2  ou bien
i 1
   n21
2  2

X  X
n
2
i nS 2
n nS 2  ; Y 2  2   n21  .
i 1
  2   n21 
2 n 
Premier cas : Petit échantillon n  30 .
Le niveau de confiance  étant choisi et le ddl étant connu, la table de  2 nous donne
les bornes a et b de l’intervalle telles que P  a  Y 2  b   1   .
 
P Y 2  b    b    et P Y 2  a   1   a    .
2 , n 1
2
2 1 , n 1
2

 nS 2   nS 2 nS 2 
P a  2  b   P 2    1 .
    b a 
 
 nS 2 nS 2 
I 1   2 ; 2 .

 n 1, 
  
n 1,1
 2 2 
Second cas : Grand échantillon n  30 .
Comme les tables de  2 s’arrêtent au nombre ddl égal à 30, on ne peut donc les utiliser si
n  30 . On applique le théorème suivant :
Théorème Si Y 2 est une variable aléatoire qui suit une loi du chi-deux à v>30 degrés de
liberté, alors la variable aléatoire Z  2Y 2  2v  1 suit sensiblement la loi réduite de
Gauss ( N  0,1 ).
2nS 2
En effet, Z   2n  3 . En fixant  , on détermine z grâce à la table de la loi
2
normale N  0,1 telle que P  z  Z  z   1   , puis
 2nS 2   2nS 2 2nS 2 
P  z   2 n  3  z   P 2    1 .

 2




  2n  3  z   2
( 2n  3  z ) 2 
D’où l’intervalle de confiance au niveau 1   est
 2nS 2 2nS 2 
 ; .
  2n  3  z   
2
2n  3  z   2

Exemple 4 :

13
Construire l’intervalle de confiance pour la variance  2 de la durée d’écoulement du sablier
au niveau de confiance 0.95.
On a n=10 , S  1 et   0.05 .
 
 nS 2 nS 2 
I 1  2 ; 2 .

 n 1, 
  
n 1,1
 2 2 

 0.025   92, 0.025  19.02  ;
2

1   0.975   92, 0.975  2.70 .
2
 10  1 10  1 
I 0.95   ;   0.53;3.70 .
 19.02 2.70  

3.4.3 Intervalle de confiance pour une proportion

La population est formée d’individus ayant ou non un caractère donné A. Soit p une
probabilité pour qu’un individu pris au hasard dans la population présente le caractère A. On
considère p la fréquence d’apparition d’un individu de caractère A dans la population et f la
fréquence d’apparition du même caractère dans un échantillon de taille n (tiré de la population
en question).
La fréquence f est une estimation ponctuelle non biaisée de p. Quelle confiance peut-on
accorder à cette estimation ?
Soit n f le nombre d’individus ayant le caractère A dans l’échantillon de taille n. Cette
variable suit une loi binomiale B  n, p  . Si la taille de l’échantillon est assez grande et que p
est ni proche de 0 ni proche de 1, alors on peut approximer la loi binomiale B  n, p  par une
loi normale N  np,  np1  p    . De plus, la fréquence f est la moyenne arithmétique des
2

valeurs de X qui dans chaque tirage prend la valeur 1 ou 0 : f  X i


. Par conséquent,
n
f p
 p 1  p   Z   N  0,1
f  N  p,  et p 1  p  . On utilise la table de N  0,1 pour lire z telle
 n 
n
que P  z  Z  z   1   . On en déduit l’intervalle de confiance pour p :
 p 1  p  p 1  p  
P f  z  p  f  z  1 .
 n n 
 
Remarques
1. L’intervalle de confiance ainsi obtenu, contient p le paramètre inconnu que l’on se
propose d’estimer par l’estimateur non biaisé f. On obtient alors
 f 1  f  f 1  f  
I 1   f  z ; f  z .
 n n 
2. D’autre part, p étant comprise entre 0 et 1, le produit p(1-p) a pour valeur maximale ¼.
p 1  p  1
On peut donc majorer l’intervalle de confiance en substituant par .
n 2 n
 z z 
On a alors I 1   f  ; f   .
 2 n 2 n
Exemple 5 :

14
On s’intéresse aux intentions de votes d’une population pour un candidat C. Soit p la
proportion d’individus qui lui sont favorables. On prélève un échantillon aléatoire d’effectif
900 (dans cette population) dans lequel nous dénombrons 243 intentions de votes pour C.
Donner l’intervalle de confiance pour p au niveau de confiance 0.95.
 f 1  f  f 1  f  
I 1   f  z ; f  z .
 n n 
 0.27  0.73 0.27  0.73 
I 0.95  0.27  1.96 ;0.27  1.96    0.241;0.299 .
 900 900 

Chapitre 4

Tests d’hypothèses

4.1 Introduction

Les tests d’hypothèses ont pour but de vérifier, à partir des données d’un ou plusieurs
échantillons, la validité de certaines hypothèses relatives à une ou plusieurs populations.
On peut distinguer différents types de tests, en fonction des hypothèses auxquelles on
s’intéresse :
- Tests d’ajustement : sont destinés à vérifier si un échantillon observé peut être
considéré comme extrait d’une population donnée (à vérifier la compatibilité des
données avec une distribution choisie à priori).
- Tests d’indépendance : ont pour but de contrôler, toujours à partir d’un échantillon,
l’indépendance stochastique de deux ou plusieurs critères de classification (variables
aléatoires) généralement qualitatifs.
- Tests de conformité : sont destinés à comparer entre eux un échantillon observé et une
population théorique, mais dans un but plus précis. Ils servent à vérifier si un
échantillon donné peut être considéré comme extrait d’une population possédant non
pas telle distribution entièrement spécifiée, mais seulement telle moyenne, telle
variance, … .
- Tests d’homogénéité (d’égalité) : ont pour but de comparer entre elles un certain
nombre de populations à partir d’un même nombre d’échantillons.
Encore, les tests peuvent être paramétriques ou non paramétriques :
- Tests paramétriques : on stipule que les données sont issues d’une population paramétrée.
Les caractéristiques des données peuvent être résumées à l’aide de paramètres estimés sur
l’échantillon. L’hypothèse de normalité des données est la plus souvent utilisée, la moyenne et
la variance suffisent pour caractériser complètement la distribution.

15
- Tests non paramétriques : ils ne font aucune hypothèse sur la distribution des données.
L’étape préalable consistant à estimer les paramètres des distributions avant de procéder au
test d’hypothèse n’est plus nécessaire.

4.2 Principes

Déroulement d’un test


1. On émet une hypothèse H 0 à tester. On donne également l’hypothèse alternative H 1 .
2. On calcule une variable de décision correspondant à une mesure de la distance (écart)
observée (soit entre certaines caractéristiques de la population et de l’échantillon, dans
le cas des tests d’ajustement et de conformité ; soit entre certaines caractéristiques des
divers échantillons, dans le cas des tests d’égalité). Cette variable de décision se base
sur une statistique qui se calcule à partir des observations (échantillon).
3. On calcule la probabilité P, en supposant que H 0 est vraie, d’obtenir une valeur de la
variable de décision au moins aussi grande que la valeur de la statistique que l’on a
obtenue avec notre échantillon.
4. Conclusion du test : Si cette probabilité P est relativement élevée, on considère H 0
comme plausible et on l’accepte. Dans le cas contraire, si P   (un seuil de
signification préalablement fixé), l’écart observé apparaît comme peu compatible avec
H 0 , et on rejette celle-ci. On admet donc implicitement l’hypothèse H 1 .

L’ensemble des valeurs de la variable de décision pour lesquelles H 0 peut être admise
forme une région d’acceptation. Les autres valeurs constituent une région de rejet. Les
valeurs limites sont appelées valeurs critiques.
Risques
Le hasard de l’échantillonnage peut fausser les conclusions. Il est nécessaire d’envisager
quatre probabilités :
- accepter H 0 (A H 0 ) alors qu’elle vraie : conclusion correcte ;
- rejeter H 0 (R H 0 ) alors qu’elle vraie :   ;
- accepter H 0 alors qu’elle est fausse :   ;
- rejeter H 0 alors qu’elle est fausse : conclusion correcte.
  P RH 0 / H 0  est le risque de première espèce ;
  P AH 0 / H 1  est le risque de seconde espèce.
En pratique :   0.05 - écart observé est significatif,   0.01 - écart observé est hautement
significatif.
La probabilité  est le niveau de signification du test ; la probabilité   1   est la
puissance du test : probabilité de rejeter H 0 lorsque H 1 est vraie. On choisit la probabilité 
et on calcule la probabilité  . Les risques  et  sont liées et varient en sens inverse.
Types
Un test peut être :
- Bilatéral  : H 0 est rejetée si la variable de décision prend une valeur en dehors de
l’intervalle [valeur critique1 ; valeur critique2] (correspondant à la probabilité 1   ).
- Unilatéral à gauche : H 0 est rejetée si la variable de décision prend une valeur <
valeur critique.
- Unilatéral à droite : H 0 est rejetée si la variable de décision prend une valeur >
valeur critique.

16
Comparaisons portant sur les moyennes (tests paramétriques)

Supposons que nous disposons de deux échantillons de taille respective n1 et n 2  :


X 1 , X 2 ,..., X n de X représentant une population 1  ;
1

Y1 , Y2 ,..., Yn2 de Y représentant une autre population  2 .



Les X i , i  1,..., n1 , suivent une loi N m X ,  X2  et sont indépendantes ; les Yi , i  1,..., n2 ,

suivent une loi N mY ,  2
Y  et sont également indépendantes entre elles.
En ce qui concerne les échantillons, on dispose de X , Y , S X2 , S Y2 , ˆ X2 , ˆY2 . On a
également
 X2  Y2
E  X   m X  ; Var  X  
n1
 ; E Y   mY  ; Var Y  
n2
.

4.3.1 Comparaison d’une moyenne à une valeur donnée (test de conformité)

Premier cas : La variance de la population est connue :  X2   02  ; n1  30 et n1  30 .


Test bilatéral
H 0 : m X  m0 H 0  : l’échantillon est prélevé d’une population dont la
moyenne m X est égale à m0 .
H 1 : m X  m0 H 1  : l’échantillon est prélevé d’une population dont la
moyenne m X est différente de m0 .
  X2 
Variable de décision : X est un estimateur de la moyenne X à tester, m X  N  m ,
 X n  .
 1 
X  m0
U obs   N  0,1
Sous l’hypothèse H 0 ,  02 .
n1
Règle de décision : fixer   ;
rejeter H 0 , si U obs  vc 2 ou U obs  vc1  ;
accepter H 0 , si vc1  U obs  vc 2 .
Calcul des valeurs critiques :
 
vc1 :  PU  vc1  ; vc2 : 1   P U  vc 2 . On a que vc1  vc 2 .
2 2
Test unilatéral (à droite)
H 0 : m X  m0
H 1 : m X  m0 (l’échantillon est prélevé d’une population dans la moyenne est  m0 ).
X  m0
U obs   N  0,1
Sous H 0 , la variable de décision  02 .
n1
Règle de décision : fixer   ;
rejeter H 0 , si U obs  vc  ;
accepter H 0 , si U obs  vc .

17
Calcul de la valeur critique vc :
vc  u1 : 1    PU  vc  .
Test unilatéral (à gauche)
H 0 : m X  m0
H 1 : m X  m0 (l’échantillon est prélevé d’une population dans la moyenne est  m0 ).
X  m0
U obs   N  0,1
Sous H 0 , la variable de décision  02 .
n1
Règle de décision : fixer   ;
rejeter H 0 , si U obs  vc  ;
accepter H 0 , si U obs  vc .
Calcul de la valeur critique vc : vc  u :   PU  vc  .
Second cas : La variance de la population  X2 est inconnue.
Si n1  30 , la procédure précédente peut être appliquée en remplaçant  X2 par S X2 .
Considérons n1  30 . La variance inconnue sera remplacée par ˆ X2 .
Test bilathéral
H 0 : m X  m0 H 0  : l’échantillon est prélevé d’une population dont la
moyenne m X est égale à m0 .
H 1 : m X  m0 H 1  : l’échantillon est prélevé d’une population dont la
moyenne m X est différente de m0 .
  X2 
Variable de décision : X est un estimateur de la moyenne X à tester, m X  N  m ,
 X n  .
 1 
X  m0
t obs 
Sous l’hypothèse H 0 , ˆ 2 suit une loi de Student à (n-1) ddl.
X

n1
Règle de décision : fixer   ;
rejeter H 0 , si t obs  vc 2 ou t obs  vc1  ;
accepter H 0 , si vc1  t obs  vc 2 .
Calcul des valeurs critiques :
 
vc1 :  P t  vc1  ; vc2 : 1   P t  vc 2  . On a que vc1  vc 2 .
2 2
Test unilatéral (à droite)
H 0 : m X  m0
H 1 : m X  m0 (l’échantillon est prélevé d’une population dans la moyenne est  m0 ).
X  m0
t obs 
Sous H 0 , la variable de décision ˆ 2 suit une loi de Student à (n-1) ddl.
X

n1
Règle de décision : fixer   ;
rejeter H 0 , si t obs  vc  ;
accepter H 0 , si t obs  vc .
Calcul de la valeur critique vc :
vc  t n 1,1 : 1    P  t  vc  .

18
Test unilatéral (à gauche)
H 0 : m X  m0
H 1 : m X  m0 (l’échantillon est prélevé d’une population dans la moyenne est  m0 ).
X  m0
t obs  
Sous H 0 , la variable de décision ˆ 2 X
Student à (n-1) ddl.
n1
Règle de décision : fixer   ;
rejeter H 0 , si t obs  vc  ;
accepter H 0 , si t obs  vc .
Calcul de la valeur critique vc : vc  t n 1, :   P t  vc  .
4.3.2 Comparaison de deux moyennes (test d’égalité)

Il s’agit d’un test de comparaison de deux moyennes provenant de deux échantillons tirés de
deux populations indépendantes. On veut donner les réponses aux questions : Les deux
échantillons proviennent-ils d’une même population  m X  mY  ou bien les deux échantillons
proviennent-ils de deux populations distinctes de moyennes m X et mY  ? Est-ce que les deux
populations (de moyennes respectives m X et mY ) sont homogènes ?
Les hypothèses
H 0 : m X  mY  ; Les populations dont sont extraits les échantillons sont homogènes.

H 1 : m X  mY  ;
H 1 : m X  mY  ;
H 1 : m X  mY  ; La population (X), d’où on a extrait le premier échantillon, a une
moyenne m X qui est différente de la moyenne mY de la seconde
population (Y), d’où on a extrait le second échantillon.
Premier cas : Les variances des populations X et Y sont connues.
  X2  Y2 
On a que X  Y  N  m X  mY ,  .
 n1 n2 
H 0 : m X  mY  ;
H 1 : H 1  .
La variable de décision (sous H 0 ) :
X Y  0
U obs   N  0,1
 X2  Y2 .

n1 n 2
Ceci est valable pour  n1  30 et n2  30 , ainsi que pour n1  30 et n2  30 .
Second cas : Les variances des populations X et Y sont inconnues, n1  30 et n 2  30 .
H 0 : m X  mY  ;
H 1 : H 1  .
La variable de décision (sous H 0 ) :
X Y  0
U obs   N  0,1
S X2 S Y2 .

n1 n2

19
Troisième cas : Les variances des populations X et Y sont connues et égales, n1  30 et
n 2  30 .
On a que  X2   Y2   02 .
H 0 : m X  mY  ;
H 1 : H 1  .
La variable de décision (sous H 0 ) :
X Y  0
t obs  
0
1

1 Student à  n1  n2  2  degrés de liberté.
n1 n 2
Quatrième cas  : Les variances des populations X et Y sont inconnues, n1  30 et n2  30 .
Une question préalable doit être posée : La variabilité des deux échantillons est-elle
comparable, homogène ? En d’autres termes, il faut vérifier l’égalité des variances des deux
populations étudiées. En effet, si les variances sont hétérogènes, la différence de variance
risque d’être confondue avec une différence de moyenne.

Test sur l’homogénéité des variances des échantillons comparés.


On remplace  X2 et  Y2 par une seule variance appelée variance résiduelle Sr 2 (estimation
non biaisée de  X2   Y2   02 ) et obtenue à partir des variances des deux échantillons S X2 et S Y2 .
H 0 :  X2   Y2  ; Les variances des populations comparées sont homogènes. Les deux
échantillons proviennent des populations ayant les variances homogènes.

H 1 :  X2   Y2  .
La variable de décision :
Var max
Fobs   Fisher-Snedecor à (k, m) ddl.
Var min
S X2 S Y2
En d’autres termes, Fobs  2 si S X  S Y et obs
2 2
F  2 si S X  S Y .
2 2

SY SX
Il est nécessaire de comparer Fobs à une valeur théorique Fth des tables de Fisher-Snedecor
(en général pour   0.05 ). Le test est bilatéral. On sélectionne la table où P F  f   0.975 .
L’entrée de la table est k  / m  . Comment choisir k et m ?
1. m  n1  1 et k  n2  1 , si S X2  S Y2 ;
2. m  n 2  1 et k  n1  1 , si S X2  S Y2 .

Règle de décision:
accepter H 0 si Fobs  Fth ; Les variances des populations d’où sont issues les échantillons
sont considérées comme homogènes.
rejeter H 0 si Fobs  Fth ; Les variances des populations d’où sont issues les échantillons
sont considérées comme hétérogènes.

Le test de comparaison des moyennes des populations d’où proviennent les deux échantillons
est possible si l’homogénéité des variances des populations a été confirmée. Si ceci est le cas,
on a la variable de décision suivante :

20
X Y  0
t
1 1  suit une loi de Student à (n1  n 2  2) ddl.
Sr 2   
n
 1 n 2 

S X2  n1  1  S Y2  n 2  1
Ici, Sr 
2
.
n1  n2  2

Tests non paramétriques

Test d’adéquation

- On possède le nombre de réalisations ni , i  1,..., m , de m éventualités, au cours de n


expériences identiques indépendantes.
n
- Les fréquences observées sont 1 .
n
- On observe une variable X sur n individus.
Peut-on assimiler la loi empirique constatée de la variable X à une loi théorique donnée ?
Soit

X ni Prob. théorique Effectif


théorique
x1 n1 p1  P X  x1  n  p1
x2 n2 p2 n  p2
…. …. …. ….
xm nm pm n  pm
 n 1  n
Ou bien

X ni Prob. théorique Effectif


théorique
 x1 , x 2  n1 p1  P X   x1 , x 2   n  p1
 x2 ,x3  n2 p2 n  p2
…. …. …. ….
 x m , x m 1  nm pm n  pm
 n 1  n

- Soit pi la probabilité de chaque éventualité i, ou de chaque classe, calculée à partir


d’une loi théorique de la variable X donnée, parfaitement spécifiée, de fonction de
répartition F connue.

21
m
 ni  npi  2
- On appelle distance du chi-deux : D   .
i 1 npi
- Le problème de test est :
H 0 : la loi de X a pour fonction de répartition F ;
H 1 : la loi de X n’a pas pour fonction de répartition F.
- La région de rejet W est définie par W={ensemble des échantillons  x1 , x 2 ,..., x n 
pour lesquels D  K }. Par conséquent,   PW / H 0  ou bien   P D  K / H 0  .
-  
Sous H 0  : D   m2 1 . Alors   P  m1  K . La table de la loi  m2 1 permet de
2

déterminer K et donc de spécifier la région critique (valeur critique) du test. Il ne reste


plus, alors, à partir de la valeur de la distance D trouvée pour l’échantillon
d’observations, qu’à déterminer l’appartenance de l’échantillon soit à la région de
rejet, W, soit à la région d’acceptation, W .

Remarques
1. Pour que D converge vers une loi chi-deux, lorsque l’hypothèse H 0 est vérifiée, il est
nécessaire que le nombre d’observations ni dans chaque classe i soit supérieur à 5. Si
cela n’est pas le cas pour une classe, il est nécessaire de réunir cette classe avec une
classe adjacente.
2. Si lors de la détermination de la loi théorique, il a été nécessaire d’estimer l
paramètres, alors le nombre de degrés de liberté du  2 doit être diminué de l. On a

donc   P  m 1l  K .
2

Test d’indépendance

Pour le couple (X,Y), on possède le nombre de réalisations nij , i  1, k  , j  1, l  , de k  l


éventualités du type  xi , y j  ou bien du type  X   xi , xi 1  , Y   y j , y j 1   au cours de n
expériences identiques indépendantes.

X  /Y   j ni .
i ...nij ...
n. j n   ni.   n. j
i j

Au vu de l’échantillon, peut-on considérer que les deux variables X et Y sont


indépendantes ? Ou bien : Au vu de l’échantillon, peut-on considérer qu’il y a adéquation de
la loi empirique constatée du couple (X,Y) à la loi théorique que devrait suivre le couple en
question si les deux variables X et Y étant indépendantes ? Dans ces conditions, la conception
d’un test d’indépendance est identique à celle d’un test d’adéquation.
En effet,
H 0 : X et Y sont indépendantes ;
H 1 : X et Y ne sont pas indépendantes ;
Ou bien
H 0 : adéquation de la loi du couple (X,Y) à la loi théorique suivie par les deux variables
indépendantes ;
H 1 : non adéquation à la loi théorique.

22
Si les deux variables étaient indépendantes, alors la loi du couple (X,Y) devrait être telle que
pij  P  X  xi , Y  y j   P X  xi   PY  y j   pi.  p. j ,  x i , y j  .
Vu que les probabilités p ij sont inconnues, nous allons utiliser les fréquences relatives :
nij n n
f ij  , f i.  i. et f . j  . j . Soient donc les estimations : p̂ ij , p ˆ i . et pˆ . j , ainsi que les
n n n
estimateurs : pˆ i.  f i. , pˆ . j  f . j et pˆ ij  f i.  f . j . Le nombre théorique d’observations de la
valeur  xi , y j  pour le couple (X,Y) est alors n  pˆ ij  n  f i.  f . j .
La distance du chi-deux entre la loi théorique et la loi empirique observée est
k l n  npˆ ij 
2

D  
ij
.
i 1 j 1 npˆ ij
La région critique du test est définie, tout d’abord, par W    x1 , x 2 ,..., x n  / D  K  . Soit
  PW / H 0   P D  K / H 0  .
Or, sous H 0  : D   k2l 1 , car le couple (X,Y) est observé selon k  l modalités. Donc,
  P  k2l 1  K  .
ˆ i.
Encore, lors de la mise en place de la loi théorique, on a déterminé (k-1) estimations de p
k
(car la k-ième estimation est donnée par  pˆ i .  1 ) et (l-1) estimations de p
ˆ . j (car la l-ième
i 1
l

estimation est donnée par  pˆ . j  1 ). Lors de la mise en place du test d’adéquation, il faut
j 1

donc diminuer le nombre de degrés de liberté du  2 de la quantité  k  1   l  1 . Donc,


  
  P  2k l 1 k 1  l 1   K , soit   P  2k 1 l 1  K . 
La table de la loi   k 1 l 1 permet de déterminer la constante K et donc de spécifier,
2

complètement, la région critique du test. Ensuite, il ne reste plus, à partir de la valeur de la


distance D trouvée pour l’échantillon d’observations, qu’à déterminer l’appartenance de
l’échantillon soit à la région W soit à la région W .

23

Vous aimerez peut-être aussi