Vous êtes sur la page 1sur 120

STATISTIQUE INFERENTIELLE

INTRODUCTION
Qu’est ce que l’inférence
statistique?

 Inférence statistique : ensemble des


méthodes permettant de formuler en
termes probabilistes un jugement sur
une population, à partir des résultats
observés sur un échantillon extrait au
hasard de cette population.
Les hypothèses de la statistique
inférentielle:

 La population est considérée comme


infinie (très grande).

 Les variables statistiques qui la décrivent


peuvent être considérées comme des
variables aléatoires.
Comparaison et interconnexions entre théorie
des probabilité et statistique
 Les probabilités  La statistique
s’intéressent aux s’intéressent à l’étude
issus théoriques des données
d’une expérience empiriques, en les
aléatoire. Cet recueillant ,en les
aléatoire qu’on analysant
modélise par des lois quantitativement et/ou
qu’on estime qualitativement, en les
correspondre au interprétant, puis en
model réel. On parle les extrapolant pour
d’une faire des hypothèses
connaissance à priori, futurs. On parle d’une
puisque l’étude se fait connaissance à
sans données. postériori
Comparaison entre concepts
probabilistes et concepts statistiques
Concepts probabilistes Concepts statistiques
Espace fondamental (univers des population
éventualités)

épreuve Tirage (d’un individu),expérimentation


Événement élémentaire Individu, observation
Variable aléatoire caractère
Epreuves répétées Echantillonnage
Nombre de répétition d’une épreuve Taille de l’échantillon
probabilité Fréquence observée
Loi de probabilité Distribution observée ou loi empirique

Esperance mathématique Moyenne observée


variance Variance observée
NOTIONS
DE PROBABILITES
 Soient X et Y deux variables aléatoires réelles
admettant une moyenne et une variance.
On note E(X) l’espérance (la moyenne) de X,
E(Y) l’espérance (la moyenne) de Y,
V(X) la variance de X.
V(Y) la variance de Y.
E(X+ Y) = E(X) + E(Y) ; E(X) =  E(X)
V(X) = 2V(X)
 Si X et Y sont indépendantes alors:
V(X+ Y) = V(X) + V(Y)
LOI NORMALE
Définition:
Une variable aléatoire suit une loi normale de moyenne  et d’écart-
type  lorsque sa densité de probabilité est la fonction définie sur
par : 1 x 2
1  2( )
f ( x)  e 
 2
LOI NORMALE CENTREE REDUITE :
Si une variable aléatoire X suit une loi normale de
moyenne  et d’écart-type  ,alors la variable
aléatoire T  X   suit la loi normale N (0,1)

Dont la densité de probabilité est donnée par la fonction:
x2
1 
f ( x)  e 2

2
FONCTION DE REPARTITION DE LA LOI NORMALE :
La fonction de répartition de la loi normale est donnée par:
x
F ( x)  

f (t )dt

dont la courbe représentative est :


Quelques propriétés de la loi N(0,1)
 La fonction de répartition de la loi N(0,1)
est souvent notée :
x t2
1 
 ( x)  P( X  x) 
2
e

2
dt

x
 On a : (x  
)  ( x)  1   (  x)
P( X  x)  2( x)  1
Théorème central limite
Soit X1, X 2 ,.........., X n une suite de n v.a
mutuellement indépendantes, de même loi
de moyenne  et d’écart-type  .

1 n
Pour n  30, la v.a X   X i
n i 1
suit ,approximativement, la loi normale de


moyenne  et d’écart-type
n
 Remarque:
Si une v.a est la résultante d’un grand
nombre de causes, petites, indépendantes,
à effet additif alors cette v.a suit
approximativement une loi normal.
Inégalité de Bienayme-Chebychev
Soit X une variable aléatoire d’espérance
mathématique  et d’écart-type  .
Pour tout réel t strictement positif, on a:
1
P (   t X   t )  1  2
t
Soit encore
X  1
P(  t)  2
 t
Inégalité de B.T
 Pour t =2.  Pour t =3.
La probabilité pour La probabilité pour
que X prenne une que X prenne une
valeur dans valeur dans
l’intervalle l’intervalle
   2 ,   2     3 ,   3 
est au moins égale à est au moins égale à
3/4 8/9
Amélioration de l’inégalité de B.T
dans le cas d’une loi normale

X étant une v.a qui suit la loi normale N (, )


Pour tout t strictement positif, on a:

P(   t  X    t )  2 P( Z  t )  1
X 
avec Z   N (0,1)

Applications
P(     X     ) 0, 68 68%
P(   2  X    2 ) 0,954 95, 4%
P(   3  X    3 ) 0,997 99, 7%
 t = ? Pour que  t = ? Pour que
P(  t  X    t ) 0,95 95% P(  t  X    t ) 0,99 99%
La table de la loi N(0,1) La table de la loi
donne N(0,1) donne
t 1,96 t 2,58

 Donc il y’a 95% de  Donc il y’a 99% de


chance pour que X soit chance pour que X
dans l’intervalle soit dans l’intervalle
  1,96 ;   1,96     2,58 ;   2,58 
2.5% 2.5%
0.5% 0.5%
Normalité d’une population
(droite de Henry)
On dispose d’une série statistique ( xk , fk ) ou k  1, n
Valeurs du x2 xk xn
caractère
x1 ……….. …………..
fréquences f1 f2 fk fn

Soit F la fonction de répartition de la


variable statistique X.
Par définition : k
F ( xk )   fi
i 1
 Si la distribution était normale, de
moyenne  et d’écart-type  ,on aurait,
xk  
pour tout k  1, n : F ( xk )   ( )

xk  
et dans ce cas ,   1 F ( xk )

 Considérons les points
1
M k ( xk ,  1
F ( xk )) donc yk  ( xk   )

et par suite
1
M k  ( D); ou ( D) est la droite d ' équation y  ( x   )

La droite de Henry
1
 La droite (D) d’équation : y  ( x   )
s’appelle « droite de Henry ». 
Remarquons que :
x   équivaut à y  0
et
x     équivaut à y  1
1
Conclusion: si les points M k ( xk ,  F ( xk ))
sont sensiblement alignés c’est que
l’hypothèse de normalité peut être
raisonnablement formalisée.
Etude d’un exemple
 L’étude du taux de cholestérol sur un échantillon de 100 personnes a
conduit aux résultats suivants:
Taux de
cholestérol [1;1,4] [1,4;1,6] [1,6;1,8] [1,8;2] [2;2,2] [2,2;2,4] [2,4;2,6] [2,6;2,8] [2,8;3] [3;3,2]
en g/l

effectifs 6 13 16 22 18 10 6 4 3 2
Fréquences
cumulées
croissantes 0,06 0,19 0,35 0,67 0,75 0,85 0,91 0,95 0,98 1

zk -1,56 -0,88 -0,39 0,18 0,67 1,04 1,34 1,65 2,06

 Il existe un papier, dit gausso-arithmétique constitué :


 D’une échelle arithmétique sur l’axe des abscisses.
 D’une échelle gaussienne sur l’axe des ordonnées.
Permettant d’éviter les calculs de zk  1 F ( xk )
Ajustement linéaire par la méthode des moindres
carrés
2,5

1,5

0,5

0
0 0,5 1 1,5 2 2,5 3 3,5
-0,5

-1

-1,5

-2
Estimation de la moyenne et de l’écart-type
 La méthode des moindres carrés donne
pour équation de la droite d’ajustement :
z=2,2.x-4,38 avec un coefficient de
corrélation r=0,991 .Donc la normalité
de la répartition est acceptable.
 La moyenne de la loi normale est
l’abscisse du point d’ordonné 0,d’où  1,99
 L’abscisse du point de (D) d’ordonnée 1
est    , soit ici , 2,45 . alors :  0,46
Histogramme des effectifs
25

20

15

10

0
LA FONCTION GAMMA

 La fonction gamma est définie par:



( )  t ; pour 
 1  t
e dt 0
0

On a :
  0 , (  1)   ( )
  
, (  1)   !
LOI DE KHI-DEUX
 Définition:
Soient X1 , X 2 ,..........., X n n variables aléatoires
indépendantes suivants toutes la loi N(0,1).
n
La v.a  n2   X i2 suit une loi dite de khi-deux à
i 1
n degrés de libertés.
Sa fonction de densité est donnée par:
0 ; si x 0
 n
 
x
f ( x)   n 1 x 2 e 2 ; si x  0
1

 2 2 ( n )
 2
Courbes représentatives des fonctions de densités
de la loi khi-deux pour certaines valeurs de n
 La probabilité donnée dans la table est
unilatérale: P( 2  (2 , ) )  
LOI DE STUDENT
 Définition:
Soient X , X1 , X 2 ,............, X ndes v.a indépendantes
suivants toutes la loi N(0,1).
X
La variable aléatoire Tn  n suit une loi
1
dite de Student à  i
n i 1
X 2

n degrés de liberté.
Sa fonction de densité est donnée par:
n 1
( ) 2

n 1
2 x
f ( x)  (1  ) 2 ; x
n n
n ( )
2
Courbes représentatives des fonctions de densités
de la loi de Student pour certaines valeurs de n
LOI DE FISHER
 Définition:
Soient X1 , X 2 ,............, X n et Y1 , Y2 ,..........,Ym
des v.a indépendantes suivantsn toutes la loi
1
N(0,1).  i
n i 1
X 2

La variable aléatoire Fn,m  m suit une loi


1
dite de Fisher à i
m i 1
Y 2

n et m degrés de liberté.
Sa fonction de densité est donnée par:
0 ; si x 0
 nm
 ( ) n m 1
f ( x)   2 
nm

 n m n 2
.m 2
( m  nx ) 2
; si x  0
  ( ) ( )
 2 2
Lecture de la table de Fisher
 On lit, pour diverses couples (n,m) et une
probabilité  donnée, la valeur f 0 tel que :
P( Fn,m  f0 )  
1.METHODOLOGIE

Etudier un caractère
C d’une population

Méthode non Méthode


exhaustive exhaustive

Méthode par Recenser


Méthode
choix tous les
des
raisonnés individus de
sondages
« méthode la population
des quotas »
Méthode des Méthode non
recensement exhaustive

Cout
Cout élève
raisonnable

Durée longue Durée courte


1.ECHANTILLONNAGE

Population de
taille N

Méthodes utilisées?????

Echantillon
de taille n
1.1.METHODES PAR CHOIX
RAISONNES:
 Ces méthodes ont généralement recours
au bon sens.
 Requiert la connaissance de la répartition
de la population selon les variables de
contrôle.
 Ne nécessitent pas vraiment de
mécanismes de calculs élaborés.
Méthode des quotas:

avantages inconvénients
Couts Manque de
financiers fondement
théorique
permettant la
Rapidité mesure de l’erreur
de mise commise lors de
en œuvre l’extrapolation des
résultats de
l’échantillon vers la
population
1.2.METHODE DES SONDAGES
ALEATOIRES:
Types de tirages

Tirage avec remise


Tirage sans remise
(non exhaustifs)
(tirage exhaustif)
Modélisé par une représentation
Théorique

Loi hypergéométrique Loi binomiale

Moyennant certaines conditions d’effectifs

Loi normale
11.ESTIMATION

 Population de
 taille N
Extrapolation des résultats

Echantillon
de taille n
Quelques remarques sur la
méthode des sondages aléatoires:
 Toute grandeur de la population
(moyenne, variance, fréquence, effectif,….)
peut être estimée à partir d’un
échantillon.
 On peut associer à l’extrapolation, vers la
population, des résultats trouvés sur
l’échantillon, une mesure de l’erreur
susceptible d’avoir été commise.
2.ESTIMATION D’UN PARAMETRE:
2.1.Notion de biais:
L’estimation consiste à évaluer un
paramètre inconnu  à l’aide de la valeur
de ce paramètre calculée à partir d’un
échantillon.
La valeur estimée du paramètre  est
souvent notée  .
 =valeur réelle du paramètre.
 =valeur estimée de  .
Soit ε=    = l’erreur commise
puisque θ dépend de l’échantillon choisi, alors ε est
une variable aléatoire.

Définition:
θ est dit sans biais si E(    )=0

Remarque:
Le biais d’un estimateur est en général E(    )
2.2.Distribution d’échantillonnage des moyennes:

P(  ,  )
E3 (m3 ,  3 ) E1 (m1 , 1 )
E2 (m2 ,  2 )

E4 (m4 , 4 )
Ei (mi ,  i )

soient E1 , E2 ,......, Ei ,... tous les échantillons de


taille n d’une population de taille N
E1..................m1
E2 .......................m2
E3 .......................m3

.
.
.
Ei .......................mi
Si on considère la variable aléatoire X qui à
chaque échantillon fait correspondre sa
moyenne. On démontre que E( X )  
donc la valeur espérée de la moyenne d’un
échantillon de taille n est la moyenne de
la population .
Le théorème central limite permet
d’énoncer le résultat suivant:

Si on prélève des échantillons


aléatoires d’effectifs n ou ( n  30 ),
n  30
dans une population ,non
nécessairement normale, de moyenne  
et d’écart-type  . Alors la distribution
des moyennes des échantillons suit

approximativement la loi normaleNN((,, ))
nn
D’autre part, si on note S la variable
2

aléatoire qui à chaque échantillon de taille


n, associe sa variance. Alors, on montre
que:
n 1 2
E (S ) 
2

n
n 2
S ) 
2
donc E (
n 1
2.3.Estimation ponctuelle de la moyenne et
de la variance:
 Le biais sur la moyenne est l’erreur
commise quand on remplace la moyenne 
par la moyenne med’un échantillon. C’est
la variable aléatoire notée     X ,donc
E( )    E( X ) ,or E ( X )   d’ou E ( )  0
Donc X est un estimateur sans biais de 
Conclusion1: la moyenne  est estimée
par la moyenne me de l’échantillon.
 Estimation de la variance:

Estimation de la variance  2

Estimation de la
moyenne 

Or, si on prend   me , alors l’une


quelconque des n mesures de
l’échantillon devient dépendante des
(n-1) autres mesures.
1
Soit me  (n1 x1  n2 x2  .........  n p x p )
n
p 1
1
 x p  (nme   ni xi )
np i 1

donc le nombre de mesures réellement


indépendante est   n 1 (on l’appelle
nombre de degrés de liberté).
Alors un estimateur de la variance est
1 p

2
  n ( x  m ) 2

n  1 i 1
i i e
p
1
Soit  e 2   ni ( xi  me )2 la variance de
n i 1

l’échantillon . Alors,
2 n n
  e   
2
e
n 1 n 1
Conclusion2:
L’écart-type  est estimé par
 e ; ou  e est l’écart-type de
n
 
n 1

l’échantillon .
n 1 2
Remarquons que E (S ) 
2

n

donc  e est un estimateur biaisé de  .

n 2
et puisque E ( S )   2 ; alors  est un
n 1

estimateur non biaisé de  .


 Problème :
L’estimation ponctuelle d’un paramètre
dépend de l’échantillon et de sa taille n.
Donc deux échantillons différents
peuvent donner deux estimations très
différentes. Dans la suite, on cherche à
déterminer un intervalle pouvant contenir
la vraie valeur à estimer avec une certaine
probabilité fixé d’avance.
2.4.Intervalle de confiance d’une moyenne:

X désigne la variable aléatoire qui à chaque


échantillon de taille n associe sa moyenne.

loi( X )  N (  , ) ; n  30
n

X 
 loi ( Z  )  N (0,1)

n

  N n
Dans le cas des tirages exhaustifs , n est remplacé par
n N 1
2.4.1.Cas ou  est connu:
On se fixe un seuil de risque  et donc un
seuil de confiance 1   .
Soit t tel que P( Z  t )  1  
Et donc:  
P( X  t    X  t )  1 
n n
D’autre part,

P( Z  t )  2(t )  1 (t )  1 
2
d’où : 1 
t   (1  )
2
   
 me  t , me  t 
 n n
est l’intervalle de confiance de  au
seuil de risque 
t est lu sur la table de la loi normale

Applications:
   
  5%   me  1,96 , me  1,96 
 n n 
   
  1%   me  2,58 , me  2,58 
 n n 
Avec une population mère de plus de 500 personnes,
nous avons calculé à partir d’un échantillon la
moyenne d’âge qui est de 25 ans:

Exemple1: Exemple 2:

Avec n  30 , me  25,   2. Avec n  100 , me  25,   2.


   24,28 ; 25,72    24,61 ; 25,39
avec 95% de confiance avec 95% de confiance
Exemple 3:
Avec n  100 , me  25,   4.
   24, 22 ; 25,78
avec 95% de confiance

Remarque:
L’intervalle se resserre au fur et à mesure
que la taille de l’échantillon augmente.
2.4.2.Cas ou  est inconnu:
On remplaçant  par son estimateur ˆ
X 
la v.a suit une loi de Student Tn 1.
S
n
On estime que Tn  N (0,1) dés que n  30

 ˆ ˆ 
 me  tn1, , me  t 


 2 n n 1,
2 n
est un intervalle de confiance de la moyenne  au
seuil de confiance 1   .
Cet intervalle est légèrement plus grand que celui lorsque 
est connu. Et ceci du fait qu’on a moins d’informations que
dans le premier cas.
Tableau récapitulatif des lois de X

Écart-type
LOI DE LA TAILLE DE
POPULATION L’ECHANTILLON
connu inconnu

NORMALE STUDENT
NORMALE n 30
NORMALE NORMALE
n  30
NORMALE NORMALE
NON NORMALE n  30
INCONNU INCONNU
n 30
Exemple 1
 Un fabricant reçoit de son fournisseur une livraison de
pièces dont il veut contrôler la longueur. La dimension
X d’une pièce suit une loi normale de moyenne m et
d’écart-type  inconnus. Il extrait un échantillon de six
pièces qui donnent les dimensions suivantes (en cm):
50 , 40 , 45 , 43 , 47 , 45

 On veut déterminer, avec un risque de 5% l’intervalle


de confiance pour la longueur moyenne de toute la
population.
 La moyenne de l’échantillon est : me  45
 La variance de la population est estimée par:
n

 (x  m )
i e
2

s 
2 i 1
 11,6 avec n  6
n 1

 Or, puisque X suit une loi normale d’écart-type inconnu,


X m
suit la loi de Student à 5 ddl
s
n
avec s  3, 4

 L’intervalle de confiance de m est :


 s s 
 me  t5, , me  t  
 2 6 5,
2 6
donc , avec 95% de chance m   41.43, 48.57 
Exemple 2
 On a mesuré la longueur de chacune des
abeilles d’un échantillon de taille 100, pris
aléatoirement parmi la population d’une ruche
donnée. On a les résultats suivants:

Longueur [3,5;4,5[ [4,5;5,5[ [5,5;6,5[ [6,5;7,5[ [7,5;8,5[ [8,5;9,5[ [9,5;10,5[


en mm
effectif 1 2 23 46 24 3 1

(les résultats sont donnés au centième le plus proche)

 La moyenne et l’écart-type de cet échantillon


sont : m  7,03 et s  0,92
 On sait qu’un bon estimateur
 de la moyenne de la population est ˆ  m  7, 03
n
 de l ' écart  type de la population ˆ  s  0, 93
n 1
 Un intervalle de confiance de la moyenne des
longueurs (en mm) des abeilles de cette ruche
au risque 5% est :
 ˆ ˆ 
 m  1,96 ; m  1,96   6.84,7.22
 n n
 Déterminons la taille minimale n de l’échantillon
pour que l’amplitude de l’intervalle de
confiance, au seuil de confiance 95%,soit
inférieur à 0,1 mm.
l’amplitude de l’intervalle de confiance au seuil de
confiance 95% est : ˆ
3, 92
n
on veut que cet amplitude soit inferieur à 0,1.
Donc, on aura :
n  (39,2  0,93)2 , d ' ou n  1329,039
donc : n  1330
2.5.Intervalle de confiance d’une fréquence:
2.5.1.Estimation ponctuelle d’une
fréquence:
P étant une population d’effectif N (très
grand).On se propose de déterminer le
pourcentage ou la fréquence p d’un
caractère C.
Soit F la v.a qui à chaque échantillon de
taille n, associe la fréquence du caractère
C dans cet échantillon.
Echantillon de taille n Distribution des fréquences

E1......................... f1
E2 ........................ f 2
..............................
..............................
Ei ......................... f i

On montre que :
pq
E(F )  p et V (F ) 
n
Remarque:
Le biais sur la fréquence du caractère
étant l’erreur commise quand on
remplace la fréquence p du caractère par
la fréquence f observée sur l’échantillon.
Donc la v.a   F  p . or E( )  0 ,alors
la fréquence f observée sur un échantillon
est un estimateur sans biais.
Le théorème central limite permet
d’énoncer le résultat:

Pour n  30 ,la distribution des


fréquences F suit approximativement la
pq
loi normale N ( p, )
n
2.5.2.Intervalle de confiance d’une
fréquence:
pq
loi ( F )  N ( p, ) , pour n  30
n
Fp
 loi ( F )  N (0,1) ou F 
pq
n

On se fixe un seuil de risque  et on


détermine à l’aide de la table de la loi
normale centrée réduite l’unique réel t
tel que:
P( F  t )  1  

pq pq
i  e : P( F  t  p  F  t )  1 
n n

On remarque que p (inconnu) intervient au


niveau des bornes de son propre
encadrement. L’idée donc est de
remplacer p par son estimateur sans biais
f ,on obtient:
 f (1  f ) f (1  f ) 
 f  t , f  t 
 n n 
est un intervalle de confiance de p au
seuil de confiance 1  

Remarque: On peut élargir cet intervalle, en


remarquant que f(1-f) est maximal pour
f=1/2 et vaut 1/4. On aura:
 1 1 
f  t , f  t 
 2 n 2 n 
Est un intervalle de confiance de p au seuil de confiance
1
(cet élargissement n’est acceptable que si 0,3  f  0,7 )
Application

Si   5%, on aura t  1,96 qu ' on majore par 2


Et donc si 0,3  f  0,7
 1 1 
f  , f  
 n n
est un intervalle de confiance de p au seuil
de confiance 95%
Exemple

 L’entreprise XX, spécialisée dans la


commercialisation de pommes de qualité,
adresse à l’un de ses clients un envoi massif de
fruits. Au préalable, un contrôle de qualité
portant sur un échantillon de 1000 pommes a
permis de dénombrer 80 fruits défectueux. On
se propose de calculer au seuil de confiance
90% et 95% entre quelles limites est compris le
pourcentage de fruits défectueux dans l’envoi.
 n étant supérieur à 30. Donc l’intervalle
de confiance du pourcentage p de fruits
défectueux dans l’envoi est :
 f (1  f ) f (1  f ) 
 f  t , f  t 
 n n 
ou f  pourcentage de fruits défectueux dans l ' échantillon
 8%  0,08
  10%  t 1,64  p   0.08  0.014,0.08  0.014
donc p   0.066,0.094
  5%  t 1,96  p   0.08  0.017,0.08  0.017 
donc p   0.063 ,0.097 
2.6.Intervalle de confiance de la variance :

Si on note S 2 la variable aléatoire qui à


chaque échantillon de taille n, associe sa
variance. Alorsn: 1 n
la v.a S 2 
n 1
S2   i
(
n  1 i 1
X  X ) 2


est un estimateur sans biais de , dont
2

une réalisation sur un échantillon de taille


n est : 2 1 n n 2
ˆ 
n 1
 (x  m )
i 1
2
i e 
n 1
e

On montre que la v.a


(n  1)S 2 n X i  X 2
 2
 
i 1
(

) suit une loi de  2
n 1
Ainsi, à l’aide de la table de la loi 
2

on aura :
 2 (n  1) S 2 
P      2
   1
 n 1,1
2  2 n 1,
2 
 
 ( n  1)ˆ ( n  1)ˆ 2 
2

 2 , 
 2

 n 1,

2
n 1,1

2


est l’intervalle de confiance de  2 au seuil de
confiance 1   .
Notez que cet intervalle n’est pas
symétrique
TESTS D’HYPOTHESES
0. GENERALITES
◦ Tests d’hypothèses : procédures basées sur l’analyse
statistique de résultats expérimentaux, permettant de
décider -avec un risque d’erreur – entre une hypothèse
et l’hypothèse alternative.

Test
d’hypothèses

Hypothèse Hypothèse
nulle alternative
Différents tests d’hypothèses
Soit  un paramètre inconnu d’une population sur
lequel on veut faire des tests d’hypothèses
 Test bilatéral:
H0 :"  0 "  H1 :"  0 "
 Test unilatéral droit:
H0 :"  0 "  H1 :" 0 "

 Test unilatéral gauche:


H0 :"  0 "  H1 :" 0 "
Remarques :
 La conclusion d’un test ne peut être que le rejet
ou le non rejet de l’hypothèse, jamais
l’acceptation directe de cette hypothèse.
 Le risque d’erreur ne peut jamais être rendu
nul. Donc la décision est toujours un pari.
 Dans le cas d’une hypothèse simple, il n’est
jamais possible d’affirmer que " x  0 "
exactement. Par contre on peut décider que
" x  0 " est trop grande pour que l’on puisse
supposer "   0 " .
1. TESTS D’HYPOTHESES
(hypothèse simple)
 Raisonnons dans le cas d’une hypothèse concernant une
moyenne. hypothèse nulle H 0 : "   0 "
 La situation générale peut être résumée par le tableau
suivant:
Réalité

Décision H 0 est vraie H 0 est fausse

décision correcte erreur de sec onde espéce


non rejet de H0
(risque 1   ) (risque   )
erreur de première espéce décision correcte
rejet de H 0
(risque   ) (risque 1   )
 Signification des risques :
réalité décision
Non rejet de H 0

H 0 est vraie

Rejet de H 0

Non rejet de H 0

H 0 est fausse

Rejet de H 0

  P(rejeter H 0 / H 0 est vraie)


  P(rejeter H 0 / H 0 est fausse)
Exemple 1
 Entre un fabriquant et un client, il existe un contrat, qui fixe,
à l’avance, la proportion maximale d’objets défectueux que
peut comporter chaque lots d’objets livrés au client. Par
rapport à ce contrat, le service de réception du client peut
être amené à commettre deux types d’erreurs :

Lots corrects défectueux


Décision

Erreur de 2éme
Accepter Décision correcte espèce
(risque de l’acheteur)

Erreur de 1ére espèce


refuser (risque du vendeur) Décision correcte
Exemple 2
 Lors d’un procès, le magistrat doit se prononcer sur
l’hypothèse : H 0 :"le prévenu est innocent "
en ne disposant que d’informations partielles, fournies par
le juge d’instruction et les témoignages. Là encore, il peut
être amener à commettre deux types d’erreurs :
Prévenu
Décision innocent coupable

Acquitter Décision correcte Erreur de 2éme espèce

condamner Erreur de 1ére espèce Décision correcte


2. METHODOLOGIE
 Première étape :
Avant l’expérimentation, il est recommandé de
choisir :
- l’hypothèse nulle H 0
- le risque d’erreur  à priori
 Deuxième étape :
• On définit un écart entre la valeur observée x
et la valeur théorique 0 qu’on note tobs
• On compare cet écart à une valeur critique t lu à
partir d’une table spécifique à la loi du test choisi.
 Troisième étape:
On conclue en distinguant trois éventualités :

 l ' écart observé assez nettement  t  non rejet de H 0


 l ' écart observé assez nettement  t  rejet de H 0
 l ' écart observé  t  rejet de H 0 avec risque d ' erreur 
ou bien proposer de réviser le risque 
Comment exprime -t- on sa décision?

 Le non-rejet doit s’exprimer en laissant le


problème clairement ouvert :

 « Au risque d’erreur  , la différence entre les


résultats observées et ceux qui résulteraient de
H 0 n’est pas significative »

 « Au risque d’erreur  , l’hypothèse H 0 est


compatible avec les résultats observés »
Comment exprime -t- on sa décision?
 Le rejet s’exprimera par contre plus nettement,
par exemple :

 Au risque d’erreur  ,les résultats observés


sont significativement différents de ceux qui
résulteraient de H 0 ,qui est donc rejetée

 Au risque d’erreur  ,l’hypothèse H 0 est rejetée


comme incompatible avec les résultats
observés »
3-TEST DE CONFORMITE
3.1.Cas des moyennes :
On se propose d’étudier la conformité
d’un échantillon par rapport à une norme
préalablement définie.
3.1.1. Position du problème :
Une machine fabrique en grande série des
pièces cylindriques. Soit X la v.a qui à chaque
pièce tirée au hasard dans la production, associe
son diamètre (en mm).X suit une loi normale
de moyenne  et d’écart-type  .
La machine est bien réglée lorsque   0
On prélève périodiquement des échantillons
aléatoires non exhaustifs de n pièces et on
calcule la moyenne des diamètres de ces pièces.
3.1.2. Loi d’échantillonnage :
X 
La v. a T  suit une loi de student à n  1 ddl
ˆ
n
3.1.3.Test bilatéral :

 hypothèse nulle H 0 :"   0 "............ machine bien réglée



 hypothèse alternative H1 :"   1 ".... machine déréglée .
Fixons, à priori, le risque maximal que nous
acceptons de prendre en rejetant H 0 alors
qu’elle est vraie. Ce risque, dit de première
espèce, est noté  .
X 
T  Tn 1 et P( T t )   .
ˆ
n
 Si T t , on rejette ( H 0 ) avec le risque  de se tromper.
 Si T  t , on n ' a aucune raison de rejette ( H 0 ), avec encore
un risque de se tromper (risque  de 2éme espéce)
1

t t

Rejet de H 0 Acceptation de H 0 Rejet de H 0


Mise en œuvre du test
on extrait un échantillon, de taille n, de moyenne me
et d’écart-type  e .
 Si l’écart-type  de la population est connu, on
calcule t  me  0 et on applique la règle de

n

décision précédente en utilisant la loi normale.

Si  est inconnu, on l’estime par ˆ  


n
 e ,puis on
n 1
calcule t  me ˆ 0 et on applique la règle de décision
n
précédente en utilisant la loi de Student
Application 1
 Le temps requis pour accomplir une certaine
tache dans une usine est supposé distribué
normalement avec une moyenne de 590 min. Le
patron de l’usine trouve que ce temps est trop
long et fait subir à ses ouvriers un stage
d’entainement. Apres ce stage, il sélectionne au
hasard 11 ouvriers et note le temps qu’ a mis
chacun d’eux:
620-540-579-603-570-598-587-
530-595-629-550
Avec un seuil de risque égal à 10% et sur la
base de ces observations peut-il conclure que le
stage était bénéfique?
Réponse
 Soit X = « v.a donnant requis pour
accomplir la tache»
X  N (, ) avec  et  inconnus
 On veut tester:
H 0 :"   590"  H1 :"  590"
 On a:
n  11 ; me  581,91 ; ˆ  31,92
me  590
donc : tobs   0,8406
ˆ
n
or sur la table de la loi de student , on lit tn1,  1,372
 Donc puisque tobs tn1, ; on ne doit
pas rejeter H 0 et conclure que sur la base
de cet échantillon de données, la
moyenne de la variable n’est pas
significativement plus petite que 590.Par
conséquent, le stage n’est pas d’une
efficacité significative sur la réduction du
temps.
Application 2
(test d’hypothèse sur une proportion)

 Dans une étude sur le contrôle de l’usage


des cellulaires au volant, une enquête de
surveillance montre que sur 1350
interventions, 148 conducteurs sont
fautifs.
Au seuil de risque 5% et sur la base de
ces données, peut-on affirmer que le
pourcentage des conducteurs utilisant le
cellulaire diffère de 10%?
Réponse
 Soit p la proportion de conducteurs
utilisant le cellulaire au volant.
 On veut tester:
H0 :" p  0,10"  H1 :" p  0,10"
 On a: n  1350 ;   0,5 ; pˆ  0,1096
pˆ  p0
et tobs  1,176
p0 (1  p0 )
n
or t (lu sur la table de la loi normale)  1,96
2

donc : tobs t
2
 Donc, on ne rejette pas H 0 et on conclut
que le pourcentage de conducteur
utilisant le cellulaire au volant n’est pas
significativement différent de 10%.
4-TESTS D’HOMOGENEITE
4.1ETUDE DES MOYENNES:
Position du problème:
On étudie un caractère quantitatif C et on
dispose de deux échantillons indépendants.

A(nA ; mA , A ) B(nB ; mB , B )

A quelle condition peut-on conclure qu’à un


risque donné, ces deux échantillons proviennent
de la même population?
Loi d’échantillonnage:

P( N ;  ,  ) P( N ; , )

A(nA ; mA , A ) B(nB ; mB , B )


Si nA  30, alors : X A  N (  , )
nA

et si nB  30, alors : X B  N (  , )
nB
les v.a X A et X B sont indépendantes ,
alors la v.a X A  X B suit approximativement
2  2
la loi N (    ,  )
nA nB

Hypothèse à tester(test bilatéral):


H 0 :"  et   ne sont pas significativement différentes "
H1 :"  et   sont significativement différentes "
XA  XB
alors , sous H 0 la v.a T   N (0,1)
 2  2

nA nB
Fixons un seuil de risque  et soit l ' unique
réel strictement positif t telque P( T  t )  1  
1 
( t   (1  ) )
2
Règle de décision du test:
 Si T  t , on ne rejete pas H 0 , avec un risque  de se tromper.
 Si T t , on rejete H 0 , avec le risque  de se tromper.

 1 
2 2
Mise en œuvre du test:
mA  mB
On calcule le nombre t  et on compare t à t ;
 2  2

nA nB
et on utilise la régle de décision pour conclure.
En général  et   sont inconnus et remplacés par leurs estimateurs
nA nB
respectifs ˆ A   A et ˆ B   B
nA  1 nB  1

Exemple (étude comparative de deux


marques de pneus)
Exemple
(étude comparative de deux marques de pneus)
 Solution:
1) On sait que m1 est une éstimation ponctuelle de  .
Donc : mˆ 1  48700 et mˆ 2  45500.
n1
Une éstimation ponctuelle de  est ˆ1   1 ,
n1  1
donc : ˆ1  6970 et ˆ 2  5439
 
2) loi ( L )  N (  , ) et loi( L)  N (  , )
n1 n2

3) a) le test est bilatéral.


H 0 :"     "  H1 :"     "
b) on a : loi( L  L)  N (    , 2

 2
)
n1 n2
2  2
donc sous H 0 , on aura : loi ( L  L)  N (0,  )
n1 n2
L  L
par suite , loi (T )  N (0,1) avec T  .
 2
 2

n1 n2
Au risque   5% , on rejette H 0 si T 1, 96

4) Mise en œuvre du test:


m1  m2
on a : t   2, 71; donc t 1,96 et on rejette H 0 .
ˆ1 ˆ 2

n1 n2
Nous concluons donc à l’existence d’une différence
significative de longévité entre les deux types de pneus
avec un risque 5% de se tromper.
4.2.TEST DE KHI-DEUX:
Rappel:
Soient X1 , X 2 ,..........., X n n variables aléatoires
indépendantes suivants toutes la loi N(0,1).
n
La v.a  n2   X i2 suit une loi dite de khi-deux à
i 1
n degrés de libertés.
Sa fonction de densité est donnée par:
0 ; si x 0
 n
 
x
f ( x)   n 1 x 2 e 2 ; si x  0
1

 2 2 ( n )
 2
Courbes représentatives des fonctions de densités
de la loi khi-deux pour certaines valeurs de n
 La probabilité donnée dans la table est
unilatérale: P( 2  (2 , ) )  
 Extrait de la table de khi-deux:
elles donnent en fonction de  et  , la valeur ,
notée lu2 , telle que P( 2  lu2 )   .
  0,05
 5 8 20
 lu2 11,070 15,507 31,410

 8
 0,01 0,05 0,10
 lu2 20,090 15,507 13,362
Position du problème:
On connait une distribution observée
(résultat d’une expérience)
Valeurs du
C1 C2 Ci Cn
caractère …………….. …………………….
Effectifs
O1 O2 Oi On
observés …………….. …………………….

On veut comparer cette distribution à une


loi connue (binomiale, Poisson, Gauss,…..)
Valeurs du C1 C2 Ci Cn
caractère …………….. …………………….
Effectifs
T1 T2 Ti Tn
théoriques …………….. …………………….
 Le test de khi-deux:
Pour mesurer l’écart entre la distribution
observée et la distribution théorique, on
calcule pour chaque classe l’écart
quadratique relatif : (O  T )
2
i i

T n
(Oi  Ti )2
Et on définit la variable aléatoire: S  
i

i 1 Ti
Soit l’hypothèse du test:
H0 :"les observations suivent la loi théorique "
Pearson a montré que sous l’hypothèse H 0
S suit une loi de  à (n  p ) ddl .
2

p  nombre de relations distincts.


Exemple
 En lançant successivement un dé, un
joueur obtient les résultats suivants:
« face » 1 2 3 4 5 6
effectifs 15 7 7 11 6 14

Doit-on considérer, au seuil de risque 5%,


que le dé est truqué?
Réponse:
La distribution théorique est donnée par:
« face » 1 2 3 4 5 6
probabilité 1/6 1/6 1/6 1/6 1/6 1/6
effectifs 10 10 10 10 10 10
H0 :"le dé est normal "  H1 :"le dé est truqué "
Valeurs du Résultats Effectifs (Oi  Ti ) 2
(Oi  Ti ) (Oi  Ti ) 2
caractère observables théoriques Ti
1 15 10 5 25 2,5
2 7 10 -3 9 0,9
3 7 10 -3 9 0,9
4 11 10 1 1 0,1
5 6 10 -4 16 1,6
6 14 10 4 16 1,6
 60 60 0 7,6

Nous sommes en présence d’une loi de khi-deux à (6-1)=5 degrés de


libertés.
Au seuil de risque 5%, la table de khi-deux donne lu2  11,07 , alors que
ob2  7,6 .
Conclusion: Au seuil de risque 5%, nous acceptons que le dé n’est
pas truqué.
0,95

=0,05

 11,07

Zone d’acceptation Zone de rejet


REFERENCES
 G.Laget, Probabilités et statistiques, Cours IUT,
Grenoble,2009.
 H.Carnec, R.Séroux, J.M.Dagoury, M.Thomas,
2éme édition, Pearson, Paris, 2010.
 M.Bourdeau, Abrégé des probabilités et statistiques, Ecole
polytechnique de Montréal, 2001.
 M.Gentes,Cours de probabilités et statistiques, IUT, Orsay,
2009.
 M.Mountassir, Probabilités et statistiques, Afrique orient,
Casablanca, 2014.

Vous aimerez peut-être aussi