Vous êtes sur la page 1sur 30

Statistiques

IUT Biotechnologie 2`eme annee


Jean-Christophe Breton
Universite de La Rochelle
Octobre-Novembre 2008
version du 04 octobre 2008
Table des mati`eres
1 Lois de probabilite usuelles 1
1.1 Denombrement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Lois discr`etes classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Lois de v.a. nies dej`a connues . . . . . . . . . . . . . . . . . . . 3
1.2.2 Lois Geometriques . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.3 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Lois ` a densite classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2 Lois exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Loi normale (ou gaussienne) 7
2.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 R`egle de calcul de probabilites . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Table de la loi A(0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Approximation par la loi normale . . . . . . . . . . . . . . . . . . . . . . 9
2.5 Lois derivees de la loi normale . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.1 Loi du khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.2 Loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3 Estimation statistique 11
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 Loi dechantillonage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2.1 Pour des moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2.2 Pour des frequences . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3.2 Estimation de la moyenne et de la variance . . . . . . . . . . . . . 13
3.4 Intervalles de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.4.2 Calcul dun IC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.4.3 Un exemple dapplication . . . . . . . . . . . . . . . . . . . . . . 17
i
Table des mati`eres ii
4 Tests dhypoth`eses 18
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.2 Test sur la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.3 Test sur la variance dans le cas gaussien . . . . . . . . . . . . . . . . . . 22
4.4 Test sur une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.5 Tests de comparaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.5.1 Comparaison de deux moyennes . . . . . . . . . . . . . . . . . . . 23
4.5.2 Comparaison de deux proportions . . . . . . . . . . . . . . . . . . 24
4.6 Les Tests du
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.6.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.6.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Chapitre 1
Lois de probabilite usuelles
1.1 Denombrement
Considerons un ensemble =
1
, . . . ,
n
de cardinal n.
Permutation
Le nombre de permutations dun ensemble est le nombre de mani`eres dordonner ses
elements. Le nombre de permutations de est n! = 1 2 3 n.
En eet, il sagit de trouver tous les reordonnements de
1
, . . . ,
n
. On a dabord
n choix pour le premier terme, puis n 1 pour le deuxi`eme puis n 2 puis . . . puis 2
choix pour lavant dernier et enn plus quun seul pour le dernier. Il y a donc n (n
1) (n 2) 2 1 = n!.
Exercice. Faire la preuve pour n = 3 et trouver les 3! = 6 permutations de
A, B, C.
Exemple. Un professeur doit faire passer dans la journee 5 etudiants pour un oral
de rattrapage. Il a 5! = 120 mani`eres de choisir lordre de passage.
Tirage avec remise
Tirage de p objets (avec remise) dans un ensemble de cardinal n.
Pour chaque tirage, il y a n objets possibles `a tirer, il y a donc en tout n n = n
p
tirages possibles (avec remise) dans un ensemble de cardinal n.
Exemple. Un professeur note chaque etudiant dune classe de 30 etudiants par une
note enti`ere de 0 ` a 20. Le nombre de resultats possibles est le nombre de mani`eres de
choisir de fa con independante 30 elements de lensemble 0, 1, . . . , 20 de cardinal 21. Il
y a donc 21
30
resultats possibles pour lensemble de la classe.
Arrangement (tirages ordonnes sans remise)
On appelle tirage sans remise de p elements dans un ensemble de cardinal n, tout
tirage successif de p elements de , chaque element ne pouvant etre tire plus dune fois.
1
Chapitre 1. c _JCB IUT2 Universite de La Rochelle 2
Bien evidemment, pour quun tel tirage puisse exister, il faut avoir p n.
Le nombre de tirages sans remise est
n(n 1) . . . (n p + 1) =
n!
(n p)!
Remarque 1.1.1 Le nombre n!/(np)! sappelle le nombre darrangements, on le note
A
p
n
. Lorsque n = p, on retrouve le nombre de permutations, puisquon tire tous les
elements de et quen fait, on les a reordonnes.
Exemple. 3500 personnes se presentent au concours de lagregation de Mathematiques.
300 places sont mises au concours. Combien y-a-t-il de palmar`es possibles (en supposant
quil ny ait pas dex-aequo) ?
Reponse : 3500 3499 3202 3201 =
3500!
3200!
.
Combinaison (tirages desordonnes sans remise)
Cest aussi le nombre de parties dun ensemble possedant p elements.
Cest exactement le nombre de mani`eres de choisir p objets dans un ensemble de n
objets, lordre nayant pas dimportance.
On sait quil y a n!/(np)! tirages de p objets lorsque lon tient compte de lordre. Or
un tirage (desordonne) donne (o` u lordre nest pas pris en compte) represente p! tirages
o` u lordre est pris en compte (car il y a p! permutations de lensemble des p objets du
tirage). Il y a donc p! fois plus de tirages de p objets lorsque lon tient compte de lordre.
Finalement, le nombre de tirages (sans tenir compte de lordre) est
n!
p!(n p)!
.
Exemple. Denombrer le nombre de tirages sans remise de 2 elements parmi 4 avec ordre
puis sans ordre.
Exemple. 3500 personnes se presentent au concours de lagregation de Mathematiques.
300 places sont mises au concours. Combien y-a-t-il de promotions possibles ?
Reponse : C
300
3500
. Ici, est lensemble des candidats et il sagit de choisir 300 dentre
eux. On sinteresse aux dierentes promotions possibles, prises dans leur ensemble, sans
tenir compte du classement de la promotion.
Rappelons dabord la denition des coecients binomiaux et la formule du binome
de Newton :
C
k
n
=
_
n
k
_
=
n!
k!(n k)!
0 k n, (a + b)
n
=
n

k=0
C
k
n
a
k
b
nk
.
C
k
n
sinterpr`ete comme le nombre dechantillons de taille k dans une population de taille
n. Par exemple, si dans une urne de n boules distinctes, on en tire k, il y a C
k
n
tirages
dierents possibles.
Chapitre 1. c _JCB IUT2 Universite de La Rochelle 3
Rappelons les proprietes immediates suivantes pour tout n N

et k n :
C
k
n
= C
nk
n
, C
n
n
= C
0
n
= 1, C
n1
n
= C
1
n
= n
C
k1
n
+ C
k
n
= C
k
n+1
(triangle de Pascal).
1.2 Lois discr`etes classiques
Lesperance E[X] dune v.a. X donne sa valeur moyenne. Sa variance Var(X) =
E[X
2
] E[X]
2
donne une indication sur sa dispersion autour de sa valeur moyenne. Son
ecart-type est
X
=
_
Var(X).
1.2.1 Lois de v.a. nies dej`a connues
Loi de Bernoulli de param`etre p notee b(p). Une v.a. X suit une loi de Bernoulli
de param`etre p [0, 1] si elle ne prend que les deux valeurs 0 et 1 avec :
P(X = 1) = p, P(X = 0) = 1 p := q.
Son esperance est E[X] = 0 (1 p) + 1 p = p. Sa variance est Var(X) = E[X
2
]
E[X]
2
= p p
2
= p(1 p).
Une v.a. X b(p) modelise si le succ`es ou lechec dune experience qui a une proba-
bilite p de succ`es. X = 1 en cas de succ`es. X = 0 en cas dechec.
Exemple. Pile ou face avec p = 1/2 si la pi`ece est equilibree, p ,= 1/2 si elle est
truquee.
Loi equirepartie sur un ensemble ni x
1
, . . . , x
n
notee cx
1
, . . . , x
n
. Une v.a.
X prenant un nombre ni de valeurs x
1
, . . . , x
n
suit une loi equirepartie quand
P
X
(x
i
) =
1
n
, 1 i n.
Son esperance est E[X] =
x
1
+ +x
n
n
.
Exemple. Jet dun de (equilibre).
Loi binomiale de param`etres n, p notee B(n, p). Une v.a. suit une loi binomiale de
param`etres n N

et p [0, 1] si elle prend ses valeurs possibles parmi 0, 1, 2, . . . , n


et pour tout k = 0, 1, . . . , n, on a
P(X = k) = C
k
n
p
k
(1 p)
nk
(1.1)
o` u C
k
n
=
n!
k!(n k)!
est le coecient binomial.
Son esperance est E[X] = np. Sa variance est Var(X) = np(1 p).
Une v.a. X B(n, p) modelise le nombre de succ`es dans une suite de n experiences
independantes o` u il y a une probabilite p de succ`es `a chacune.
Ainsi, P(X = k) est la probabilite davoir exactement k succ`es en n epreuves. On en
deduit lexplication suivante des dierents facteurs de (1.1) :
Chapitre 1. c _JCB IUT2 Universite de La Rochelle 4
p
k
est la probabilite des k succ`es (par independance des tirages),
(1 p)
nk
est la probabilite des n k echecs (pour avoir exactement k succ`es, il
faut bien que les n k autres epreuves soient des echecs),
et C
k
n
pour tenir compte de tous les choix possibles des k epreuves reussies sur les
n realisees.
Interessons nous maintenant aux lois des v.a. discr`etes prenant un nombre inni de
valeurs.
1.2.2 Lois Geometriques
Denition 1.2.1 Une v.a. X suit la loi geometrique de param`etre p ]0, 1[ notee ((p)
si elle prend des valeurs enti`eres positives non nulles et
P(X = k) = (1 p)
k1
p, k N

.
Son esperance est E[X] = 1/p. Sa variance est Var(X) = 1/p
2
.
Une v.a. X ((p) modelise le rang du premier succ`es dans une suite innie depreuve
independante o` u `a chacune il y a une probabilite p de succ`es.
1.2.3 Loi de Poisson
Cette loi intervient dans les processus aleatoires dont les eventualites sont faiblement
probables et survenant independamment les unes des autes : cas de phenom`enes acci-
dentels, danomalies diverses, de probl`emes dencombrement (les dattente), de rupture
de stocks, etc.
Denition 1.2.2 On dit quune v.a. discr`ete X suit une loi de Poisson de param`etre
> 0 si elle prend des valeurs enti`eres postives ou nulles et
k N, P(X = k) =
e

k
k!
.
La loi de Poisson de param`etre > 0 est notee T().
Son esperance est E[X] = . Sa variance est Var(X) = .
Approximation de la loi binomiale par la loi de Poisson
En liaison avec les lois binomiales, on dispose de la r`egle pratique suivante :
R`egle. Lorsque n est grand et np est petit , on peut remplacer la loi binomiale
B(n, p) par la loi de Poisson T() o` u = np.
En general, on consid`ere que lorsque n est de lordre de quelques centaines et np est
de lordre de quelques unites, lapproximation de B(n, p) par T(np) est assez bonne.
Interet : si n est grand, le calcul des coecients binomiaux C
k
n
est fastidieux, voire
impossible. En approchant par la loi de Poisson, le calcul devient assez simple.
Chapitre 1. c _JCB IUT2 Universite de La Rochelle 5
Exemple : Le president dun bureau de vote est ne un 1er avril. Il decide de noter le
nombre de personnes ayant leur anniversaire le meme jour que lui parmi les 500 premiers
votants.
La situation peut etre assimilee `a une suite de 500 epreuves independantes repetees
avec une probabilite p = 1/365 de succ`es (on neglige les eets des annees bissextiles,
sinon il faudrait plutot prendre p = 4/(3 365 + 366)). Notons X la variable aleatoire
qui compte le nombre de succ`es. X suit une loi B(500, p), ainsi :
P(X = k) = C
k
500
p
k
(1 p)
500k
.
Comme 500 est grand et np = 500/365 1, 37, la r`egle ci-dessus permet lapproxi-
mation par la loi T() avec = 500/365. Voici une comparaison numerique pour les
petites valeurs de k :
k 0 1 2 3 4 5
P(X = k) 0, 2537 0, 3484 0, 2388 0, 1089 0, 0372 0, 0101
e

k
k!
0, 2541 0, 3481 0, 2385 0, 1089 0, 0373 0, 0102
On constate eectivement que les valeurs approchees sont tr`es proches des valeurs
reelles.
1.3 Lois `a densite classiques
Une loi est ` a densite (de densite f) si les probabilites sexpriment comme des inte-
grales :
P(X [a, b]) =
_
b
a
f(t)dt.
1.3.1 Loi uniforme
Cette loi modelise un phenom`ene uniforme sur un intervalle donne.
Denition 1.3.1 La v.a. X suit une loi uniforme sur lintervalle borne [a, b] si elle a
une densite f constante sur cet intervalle et nulle en dehors. Elle est notee |([a, b]). Sa
densite est alors
f(t) =
_
1/(b a) si t [a, b],
0 si t , [a, b].
Cette loi est lequivalent continue de la loi discr`ete equirepartie.
Son esperance est E[X] =
ba
2
. Sa variance est Var(X) =
(ba)
2
12
.
Le resultat suivant permet deviter des calculs fastidieux pour la probabilite uniforme
dun intervalle.
Chapitre 1. c _JCB IUT2 Universite de La Rochelle 6
Proposition 1.3.1 Si X est une v.a. de loi uniforme sur [a, b] alors pour tout intervalle
I de R :
P(X I) =
l([a, b] I)
l([a, b])
o` u l(J) designe la longueur de lintervalle J (l([a, b]) = b a).
1.3.2 Lois exponentielles
Denition 1.3.2 Soit un reel strictement positif. La v.a. X suit une loi exponentielle
de param`etre , notee c(), si elle admet pour densite :
f(t) = e
t
1
[0,+[
(t).
Son esperance est E[X] = 1/. Sa variance est Var(X) = 1/
2
.
En pratique, ` a la place de la fonction de repartition, on utilise souvent la fonction de
survie G dune v.a. de loi exponentielle
G
X
(x) = P(X > x) = 1 F
X
(x) =
_
1 si x 0,
e
x
si x 0.
Les lois exponentielles sont souvent utilisees pour modeliser des temps dattente ou
des durees de vie. Par exemple, les temps dattente ` a partir de maintenant du prochain
tremblement de terre, de la prochaine panne dun appareil, de la prochaine desintegration
dans un reacteur nucleaire suivent des lois exponentielles. Le param`etre designe alors
linverse du temps dattente moyen.
Chapitre 2
Loi normale (ou gaussienne)
Cest une loi tr`es importante pour plusieurs raisons :
Elle apparat dans de nombreux probl`emes courants (pour les modeliser),
Bien souvent, on peut approcher une loi par une loi normale.
De plus, on dispose de la table de ses valeurs ` a laquelle on se referre pour des
calculs approches.
Synonymes pour cette loi : loi gaussienne, loi de Gauss.
2.1 Denition
Denition 2.1.1 La loi normale standard A(0, 1) est celle de densite f
0,1
(t) =
1

2
e
t
2
/2
.
Son esperance est E[X] = 0. Sa variance est Var(X) = 1.
Denition 2.1.2 On dit que la v.a. X suit une loi normale A(m,
2
) si elle a pour
densite la fonction
f
m,
(t) =
1

2
2
exp
_

(t m)
2
2
2
_
.
Son esperance est E[X] = m. Sa variance est Var(X) =
2
.
Remarque 2.1.1 Cette loi est fondamentale en theorie des probabilites et en statis-
tique : cest la loi limite de la moyenne dans une suite innie depreuves repetees in-
dependantes. En pratique elle sert ` a modeliser les eets additifs de petits phenom`enes
aleatoires independants repetes souvent.
R`egles pour les lois normales.
Si X A(m,
2
) et a R alors aX A(am, a
2
).
Quand on somme des v.a. gaussiennes independantes de loi A(m
1
,
2
1
) et A(m
2
,
2
2
),
on obtient une v.a. gaussienne avec pour param`etres la somme des param`etres A(m
1
+
m
2
,
2
1
+
2
2
).
X
1
A(m
1
,
2
1
) X
2
A(m
2
,
2
2
) = X
1
+ X
2
A(m
1
+m
2
,
2
1
+
2
2
).
7
Chapitre 2. c _JCB IUT2 Universite de La Rochelle 8
Plus generalement quand X
1
, . . . , X
n
sont n v.a. independante de lois A(m,
2
), alors
X
1
+ +X
n
n
A(m,

2
n
).
Notez encore quon peut facilement passer dune loi normale `a la loi standard.
Proposition 2.1.1 Si la v.a. X suit une loi A(m,
2
), alors Y :=
X m

suit la loi
A(0, 1).
La v.a. Y sappelle la v.a. centree reduite associee `a X. En fait, pour faire des calculs
eectifs de probabilite, gr ace ` a ce resultat, on commencera systematiquement par se
ramener dune loi normale quelconque A(m,
2
) ` a la loi normale standard A(0, 1). On
pourra alors utiliser la table des valeurs pour cette loi.
Demonstration : Calculons pour a < b quelconques P(a Y b) :
P
_
a
X m

b
_
= P(a +m X b +m)
=
_
b+m
a+m
1

2
exp
_

(t m)
2
2
2
_
dt.
Il sut alors de faire le changement de variable s = (t m)/ pour obtenir
a R, b > a, P(a Y b) =
_
b
a
1

2
exp
_

s
2
2
_
ds,
cest ` a dire Y suit la loi A(0, 1).
2.2 R`egle de calcul de probabilites
Dans lutilisation de la table de la loi normale standard A(0, 1), on aura des calculs
de probabilites ` a faire. On les fera avec les r`egles suivantes :
P(X = a) = 0
P(X < a) = P(X a)
P(X > a) = 1 P(X a)
P(X a) = P(X a) = 1 P(X < a)
P(a X a) = 2P(X a) 1.
Les trois premi`eres r`egles sont vraies pour toute v.a. X ` a densite (car pour ces lois les
points sont negligeables). Les deux derni`eres sont vraie pour toute loi symetrique (c` ad
avec densite paire : f(t) = f(t), comme la loi normale ou (cf. apr`es) la loi de Student
mais pas la loi du
2
).
Chapitre 2. c _JCB IUT2 Universite de La Rochelle 9
2.3 Table de la loi A(0, 1)
La table de la loi A(0, 1) permet deux choses pour une v.a. X
0
A(0, 1) :
1. Connaissant la valeur de t 0, trouver la valeur de P(X
0
t),
2. Connaissant la valeur de dune probabilite P(X
0
t), trouver la valeur de t 0
correspondant.
Objectif. En general, on souhaite calculer des probabilites du type
P(X > t), P(X < t), P([X[ > t), P(s < X < t)
lorsque X suit une loi normale A(m,
2
) pas necessairement centree reduite.

Etape 1 Reexprimer les probabilites ` a calculer avec la v.a. centree reduite X


0
=
Xm

Etape 2 Via les r`egles ci-dessus, se ramener ` a des probabilites du type P(X
0
t
0
) pour
certains t
0
0.

Etape 3 Utiliser la table de la loi normale standard.


Exercice 1. Si X A(3, 0.25), calculer P(X > 3.5).
Methode. Dabord on centre et on reduit, pour obtenir une v.a. X
0
A(0, 1),
X
0
=
X 3

0.25
.
On remarque ensuite legalite devenements suivante :
X > 3.5 = X
0
> 1 ;
enn, on cherche P(X
0
< 1) ` a partir de la table de la loi A(0, 1). On trouve
P(X > 3.5) = 0.16.
Exercice 2. Si X A(3; 0, 25) et si P(X > t) = 0, 6, calculer t (et trouver t = 2, 875).
2.4 Approximation par la loi normale
Un resultat general de probabilite (le theor`eme central limite, TCL) justie lap-
proximation de certaines lois par des lois normales. On utilisera par la suite les deux
approximations de loi suivantes :
Loi de X Loi approchee de X conditions requises
B(n, p) A(np, np(1 p)) n 30, np 10, n(1 p) 10
T() A(, ) 10
Chapitre 2. c _JCB IUT2 Universite de La Rochelle 10
Correction de continuite. Lorsque lon approche une loi discr`ete par une loi `a densite,
il convient de faire une correction de continuite que lon peut resumer avec la formule
suivante : pour toute les valeurs x
i
de X,
P
discr`ete
(X = x
i
) P
`a densite
(x
i
0.5 X x
i
+ 0.5).
Cette formule sinterpr`ete bien graphiquement.
2.5 Lois derivees de la loi normale
Parfois dautres lois que la loi normale sont utiles dans les approximations (cf. les
calculs dintervalle de conance, de test). Ce sont les lois de Student et du
2
(lire
khi-deux). Ces lois dependent dun param`etre n entier, appele degre de liberte (d.d.l.).
De meme que pour la loi normale A(0, 1), on disposera de tables pour ces lois.
Les memes r`egles de calcul que pour la loi normale sappliqueront pour reexprimer les
probabilites quon cherchera en des probabilites disponibles dans ces tables.
2.5.1 Loi du khi-deux
Soient X
1
, . . . , X
n
des v.a. independantes de meme loi A(0, 1). Posons
2
=

n
i=1
X
2
i
.
Par denition, la v.a.
2
suit une loi du khi-deux `a n degres de liberte (abreviation d.d.l.).
On note cette loi
2
(n).
Proprietes.

2
0, cette loi nest donc pas symetrique,

2
admet une densite (dicile ` a retenir),
E[
2
] = n et Var(
2
) = 2n,
Pour n 30,
_
2
2

2n 1 suit approximativement une loi A(0, 1).


2.5.2 Loi de Student
Elle se denit ` a partir dune loi A(0, 1) et dune loi
2
(n). Soient X et
2
deux v.a.
independantes telles que X A(0, 1) et Y
2
(n). Posons T =
X

n. Par denition,
la v.a. T suit une loi de student ` a n degres de liberte. On note cette loi T (n).
Proprietes.
T (n) admet une densite paire, cette loi est donc symetrique,
E[T] = 0 et Var(T) = n/(n 2) si n > 2,
Pour n > 30, T (n) peut etre approchee par A(0, 1).
Chapitre 3
Estimation statistique
3.1 Introduction
Lobjectif de lestimation statistique est le suivant : evaluer certaines grandeurs as-
sociees ` a une population ` a partir dobservations faites sur un echantillon. Bien souvent,
ces grandeurs sont des moyennes ou des variances. On prendra soin de distinguer ces
grandeurs theoriques (inconnues et ` a estimer) de celles observees sur un echantillon.
Exemples de probl`emes :
Quelle est la frequence (probabilite) de survenue dun certain cancer chez les sou-
ris ?
Quelle est la glycemie moyenne dun patient ?
Quelle est lecart moyen de la glycemie dun patient autour de sa glycemie moyenne ?
On apporte deux types de reponses `a ces questions : ` a partir dun echantillon,
1. On calcule une valeur qui semble etre la meilleure possible : on parle destimation
ponctuelle,
2. On calcule un intervalle de valeurs possibles : cest la notion dintervalle de
conance.
On se placera toujours dans la situation suivante :
Un echantillon est obtenu par tirages avec remise de n individus dans la popu-
lation de reference,
Les valeurs observees x
1
, . . . , x
n
dune grandeur (ex : poids) sur un echantillon
ne dependront donc pas les unes des autres (ce ne serait pas le cas avec des tirages
sans remise).
Un echantillon est la donnee de n va. X
1
, . . . , X
n
de meme loi.
Une observation correspond ` a une realisation du hasard. On a alors
x
1
= X
1
(), . . . , x
n
= X
n
().
Si on change dobservation, cela correspond ` a changer la realisation du hasard en


et on a dautres valeurs observees sur lechantillon :
x

1
= X
1
(

), . . . , x

n
= X
n
(

).
11
Chapitre 3. c _JCB IUT2 Universite de La Rochelle 12
On modelisera donc cette situation par un ensemble fondamental
= echantillons de taille n avec remise
et des variables aleatoires X
1
, . . . , X
n
independantes (car tirages avec remise) et de meme
loi (car on observe la meme grandeur). On a ainsi pour un echantillon donne, des
valeurs observees X
1
() = x
1
, . . . , X
n
() = x
n
.
3.2 Loi dechantillonage
3.2.1 Pour des moyennes
Soit une population deectif total N connu. On consid`ere un echantillon deectif
n. Un element quelconque X de lechantillon suit la loi dechantillonage de taille n et
de moyenne

X. Quand n devient grand (n 30), la loi dechantillonnage peut etre
approchee par la loi normale A(

X,
2
/n) o` u
2
est supposee connue.
Exemple. Dans une population, lecart-type de la taille est 5 cm. Si sur 200
personnes, la taille moyenne observee est

X = 175 cm, alors la taille X dun indi-
vidu quelconque issu de cette population suit la loi dechantillonage A(175; 0, 125) (car

2
/n = 5
2
/200).
3.2.2 Pour des frequences
On etudie une population de taille N (connu) et un caract`ere X ` a deux eventualites
(echec ou succ`es) avec probabilite p. On sait (cf. loi de Bernoulli) que E[X] = p et
Var(X) = p(1 p).
Si on prel`eve un echantillon de taille n, le nombre de succ`es X
n
est compte par une
loi binomiale B(n, p) avec E[X
n
] = np et Var(X
n
) = np(1 p).
Quand n est grand (n 30), la loi de la frequence X
n
/n des succ`es sapproxime par
A
_
p,
p(1 p)
n
_
.
Exemple. Considerons une population o` u 10% des gens developpent une certaine
allergie. Dans un echantillon de 200 personnes de cette population, le nombre daller-
giques suit la loi binomiale B(200; 0, 1). On lapproxime la loi de la frequence par la loi
normale A(0, 1; 9.10
4
).
3.3 Estimation ponctuelle
3.3.1 Denition
On cherche `a estimer une valeur inconnue liee `a un certain phenom`ene aleatoire, en
general, la moyenne ou la variance
2
ou encore lecart-type de la loi du phenom`ene.
Chapitre 3. c _JCB IUT2 Universite de La Rochelle 13
Pour ce faire, on dispose dobservations independantes du phenom`enes, c`ad de va-
riables aleatoires X
1
, . . . , X
n
independantes et de meme loi (celle du phenom`ene). On
parle dun echantillon. On denit `a partir de lechantillon une nouvelle variable aleatoire
notee T dont les valeurs seront proches de celle de la grandeur ` a estimer. Cette nouvelle
variable aleatoire T sera appelee estimateur de .
Il peut y avoir plusieurs estimateurs pour une meme grandeur , certains meilleurs
que dautres.
Exemple. = = moyenne des poids des nouveaux nes en France. Ici, on prendra
comme estimateur T la variable aleatoire donnee par la moyenne (arithmetique) observee
sur un echantillon de 10 nouveaux nes. On note cet estimateur en general

X :

X =
X
1
+ +X
10
10
.
La valeur de

X calculee sur cet echantillon note x =

X() sera appelee estimation de .
3.3.2 Estimation de la moyenne et de la variance

Etant donne un echantillon X


1
, . . . , X
n
dun caract`ere X inconnu, on admet que
le meilleur estimateur de la moyenne = E[X] du caract`ere X est

X =
X
1
+ +X
n
n
.
le meilleur estimateur de la variance
2
= Var(X) du caract`ere X est la variance
empirique corrigee
S
2
c
=
n
n 1
_
1
n
(
n

i=1
X
2
i
)

X
2
_
=
1
n 1
n

i=1
(X
i


X)
2
.
Dans le cas particulier o` u le caract`ere X suit une loi de Bernoulli b(p), comme la moyenne
est egale ` a la proportion p, cest une estimation de proportion (ou de frequence) quon
fait quand on estime sa moyenne E[X] = p.
3.4 Intervalles de conance
3.4.1 Principe
Un estimateur permet de calculer une valeur sur un echantillon qui devrait etre
proche du param`etre sans pour autant savoir si cette valeur est totalement able.
Chapitre 3. c _JCB IUT2 Universite de La Rochelle 14
Cest pourquoi on a introduit la notion dintervalle de conance : cest un intervalle dans
lequel se trouve avec une probabilite grande 1 (o` u est un risque quon se xe,
en general, petit). On peut en theorie choisir 1 aussi proche de 1 que lon veut, mais
alors lintervalle de conance grandit et devient imprecis. Il sagit donc dun compromis
entre precision (intervalle peu etendu) et s urete ( petit).
La probabilite 1 est appelee niveau de conance et le risque (de 1`ere
esp`ece), c` ad la probabilite que lintervalle propose (quon notera IC, pour intervalle de
conance) ne contienne pas la valeur `a estimer .
Probl`eme : comment trouver un intervalle de conance ? Lidee est de trouver une
variable aleatoire U de loi connue qui serait une fonction des observations aleatoires
X
1
, . . . , X
n
et de , le param`etre `a estimer.
Exemple. Supposons que X
1
, . . . , X
n
suivent une loi A(, 1) et que lon cherche un
intervalle de conance pour avec un niveau de conance de 0.95. On a dej`a vu que

X A(, 1/n). On connat donc la loi de


U =

X
1/

n
A(0, 1).
On remarque alors que la condition [

X t/

n,

X +t/

n] equivaut ` a [U[ t dont


la probabilite doit etre de 0.95. La table de A(0, 1) permet alors de trouver t tel que
P( [

X t/

n,

X +t/

n]) = P([U[ t) = 0.95.


Dapr`es les propriete de la loi normale (symetrie), t doit verier :
P(U t) = 1 0.05/2 = 0.975.
On trouve dans la table de A(0, 1) la valeur t = 1.96. Lintervalle de conance cherche
pour un echantillon donne de taille n est donc
[

X() t/

n,

X() + t/

n] = [ x 1.96/

n, x + 1.96/

n].
Si par exemple pour notre echantillon de taille n = 100, on a x = 2, alors on a IC =
[1.894, 2.196].
3.4.2 Calcul dun IC
On suppose que les observations x
1
, . . . , x
n
sont issues de n v.a. independantes
X
1
, . . . , X
n
de meme loi A(,
2
).
Si la loi nest pas gaussienne, on suppose alors que la taille de lechantillon est grande
(n 30 en pratique), le theor`eme central limite (TCL) permet de faire des approxima-
tions par des lois normales, ce qui donnera des intervalles de conance approximatifs
mais susant en pratique.
On fera donc systematiquement comme si les echantillons sont gaussiens lorsque sa
taille est eleve.
On va chercher les expressions des intervalles de conance au niveau de conance
1 pour la moyenne note IC
1
() et pour la variance
2
note IC
1
(
2
).
Chapitre 3. c _JCB IUT2 Universite de La Rochelle 15
Calcul de IC
1
() lorsque
2
est connu

Etant donne

X, lestimateur ponctuel de calcule sur lechantillon, lintervalle de
conance pour cherche se calcule `a partir dun echantillon donne de taille n par
IC
1
() =
_

X() t

n
,

X() + t

n
_
o` u t

est donne par


P([U[ t

) = 1 P(U t

) = 1 /2
dans la table de la loi A(0, 1) de la v.a. U.
On remarquera que si lon change dechantillon , la moyenne observee

X() change
et lintervalle de conance IC
1
() change aussi.
Calcul de IC
1
() lorsque
2
est inconnu
Dans cette situation lexpression precedente de lintervalle de conance ne peut etre
calculee car
2
nest plus connu.
Idee : remplacer
2
par son estimateur
S
2
c
=
1
n 1
n

i=1
(X
i


X)
2
.
et faire comme avant sauf quil faut remplacer la loi normale A(0, 1) par la loi de Student
T (n 1). Lintervalle de conance pour se calcule `a partir dun echantillon donne
de taille n par
IC
1
() =
_

X() t

S
c

n
,

X() + t

S
c

n
_
(3.1)
o` u t

est donne par


P([U[ t

) = 1 P(U t

) = 1 /2
dans la table de Student T (n 1) de la v.a. U.
Quand n est grand (n 30), on peut considerer que la loi de Student est proche de
la normale et prendre t

dans la table de la loi normale.


Cas dune proportion
Cela correspond ` a chercher la moyenne p dune loi de Bernoulli b(p) dont on ne
connait pas la variance
2
(et pour cause pour une telle loi
2
= p(1 p)).
Chapitre 3. c _JCB IUT2 Universite de La Rochelle 16
Bien s ur, on nest pas dans le cadre dune loi normale (puisque la loi est b(p)), il faut
alors supposer lechantillon assez grand et la loi de reference redevient la loi normale
(par le TCL).
Dans le cas dun intervalle de conance pour une proportion p inconnue, (3.1) devient
IC
1
(p) =
_
f t

_
f(1 f)
n
, f +t

_
f(1 f)
n
_
o` u f =

X() est la frequence observee du caract`ere considere sur lechantillon etudie
(cest donc lestimateur sur lechantillon de linconnue p) et t

est toujours donne par


P([U[ t

) = ou P(U t

) = 1 /2 dans la table de la loi normale A(0, 1) de la


v.a. U.
Les conditions requises pour une bonne approximation par la loi normale sont n 30,
nf 10, n(1 f) 10.
Calcul de IC
1
(
2
) lorsque est connue
Lintervalle de conance de la variance
2
se calcule `a partir de lechantillon de taille
n par
IC
1
(
2
) =
_
n
i=1
(X
i
() )
2
b
,

n
i=1
(X
i
() )
2
a
_
o` u a et b sont `a trouver dans la table de la loi
2
(n) de la v.a. U par
P(U a) = /2 et P(U b) = 1 /2.
Calcul de IC
1
(
2
) lorsque est inconnue
`
A nouveau, comme est inconnue, lidee est de la remplacer par son estimation

X.
Lintervalle de conance de la variance
2
se calcule alors `a partir de lechantillon de
taille n par
IC
1
(
2
) =
_
nS
2
()
b
,
nS
2
()
a
_
,
o` u S
2
() =

n
i=1
(X
i
()

X())
2
n
et o` u les reels a et b sont `a determiner dans la table
de la loi
2
(n 1) de la v.a. U par
P(U a) = /2 et P(U b) = 1 /2.
Chapitre 3. c _JCB IUT2 Universite de La Rochelle 17
3.4.3 Un exemple dapplication
On suppose que le taux de cholesterol X dun individu choisi au hasard dans une po-
pulation donnee suit une loi normale. Sur un echantillon de 100 individus, on constate
la moyenne des taux observes est x =

X() = 1.55(gr pour mille). On constate aussi une
variance corrigee s
2
c
= S
2
c
() = 0.25. Donner un intervalle de conance pour la moyenne
au niveau de conance 0.95.
Reponse :
IC
0.95
() =
_

X t

S
c

n
,

X +t

S
c

n
_
,
o` u t

est donne par P(U t

) = 1 /2 = 0, 975 dans la table de Student T (99). `a


laide de la table de la loi de U
2
(99).
La table de Student la plus proche dont on dispose est celle T (100) pour laquelle
t
0,05
= 1, 984. On en deduit
IC
0.95
() =
_
1, 55 1, 984
0, 25
10
; 1, 55 1, 984
0, 25
10
_
= [1, 504, 2, 046]
Chapitre 4
Tests dhypoth`eses
4.1 Introduction
Il y a deux grands types de tests : les tests parametriques et les tests non parame-
triques (exemple : test du
2
). Un test non parametrique teste une propriete (indepen-
dance ou pas, homgeneite ou pas . . . ). Un test parametrique consiste ` a verier si une
caracteristique dune population, que lon notera , satisfait une hypoth`ese que lon pose
a priori, appelee hypoth`ese nulle H
0
. Il sagit donc de tester un param`etre. Elle est en
general de la forme H
0
: =
0
ou H
0
:
0
ou encore H
0
:
0
. Comme
pour les intervalles de conance, on a besoin pour cela dun echantillon dont les valeurs
sont celles prises par n v.a. X
1
, . . . , X
n
independantes de meme loi. Voici la procedure
generale dun test que lon illustrera avec lexemple suivant :

Enonce. Le temps de reaction X dune souris ` a un certain test suit une loi normale
de moyenne 19 minutes. On desire experimenter un certain produit que lon administre
` a 8 de ces souris. On obtient les temps de reaction (en minutes) suivants :
15, 14, 21, 12, 17, 12, 19, 18.
Le produit reduit-il le temps de reaction moyen ?
1. Formuler H
0
et lhypoth`ese alternative H
1
, par exemple H
0
: = 19 contre
H
1
: < 19 ;
2. Choisir un risque representant la probabilite de rejeter H
0
` a tort (exemple =
0.05). Cest le risque de 1`ere esp`ece.
Il y un autre risque dit de 2`eme esp`ece representant la probabilite daccepter
H
0
` a tort. Cest un risque que lon contr ole assez mal (mais en general, on pref`ere
contr oler le risque de 1`ere esp`ece car il est lie au rejet de H
0
et la notion de rejet
semble plus denitive alors que lacceptation (ou le non rejet) de H
0
peut toujours
etre conrme ou inrme par un autre test).
3. Choisir une v.a. U (appelee statistique, en pratique elle est donnee) dependant de
X
1
, . . . , X
n
et du param`etre = (ici) ` a tester dont la loi est connue sous H
0
(c` ad
18
Chapitre 4. c _JCB IUT2 Universite de La Rochelle 19
lorsque H
0
est vraie). Par exemple, si X suit une loi normale de moyenne , alors
U =

X
S
c
/

n
T (n 1) (sous H
0
).
o` u

X =
X
1
+ +X
n
n
et S
c
=

n
i=1
(X
i


X)
2
n 1
.
Ici, lorsque H
0
est vraie, on a = 19 et
U =
X 19
S
c
/

8
T (7).
La loi de U depend des hypoth`eses : si H
1
est vraie, U aura tendance `a prendre des
valeurs negatives alors que sous H
0
, U aura tendance ` a prendre des valeurs autour
de 0.
4. Determiner une zone de rejet de H
0
notee R

veriant :
Sous H
0
, P(U R

) = .
On choisit la forme de la zone de rejet R

en examinant le comportement de U
sous H
1
: dans notre exemple on prendra R

=] , t

[ avec t

< 0 que lon


determine donc par
P(U < t

) = = 0.05
ce qui donne (dapr`es la table de T (7)) : t

= 1.895 et R

=] , 1.895[.
5. Utiliser la r`egle de decision suivante : calculer la valeur u de U observee sur lechan-
tillon et regarder
si u R

, on rejette H
0
,
si u / R

, on ne rejette pas H
0
.
Dans notre exemple, on a x = 16 et s
c
= 3.29, do` u
u =
16 19
3.29/

8
= 2.58
valeur qui est dans R

=], 1.895[. On rejette donc H


0
(avec un risque derreur
de 5%).
6. Si H
0
est rejetee, cest que le produit reduit eectivement le temps moyen de
reaction.
Le choix de H
0
est parfois dicte par le bon sens ; par exemple imaginons un diagnostic
pour une maladie grave :
Decider que le patient est malade ` a tort entrane des traitements desagreables.
Decider que le patient nest pas malade `a tort entrane des consequences plus
graves.
Chapitre 4. c _JCB IUT2 Universite de La Rochelle 20
Dans ce cas mieux vaut poser : H
0
le patient est malade puisque lon peut contr oler
le risque de 1`ere esp`ece, qui correspond `a lerreur la plus lourde de consequences.
Remarque :
Acceptation/non rejet.
En general, un test negatif am`ene `a rejeter une hypoth`ese mais un test positif nam`ene
jamais ` a accepter demblee une hypoth`ese. Dans le meilleur des cas, on ne rejettera pas
lhypoth`ese demblee.
Concr`etement, cela se comprend de la facon suivante : imaginez que vous perdiez
un bouton de chemise. Si vous en trouvez un par hasard, vous pouvez faire lhypoth`ese
H
0
: le bouton trouve est mon bouton perdu . Vous pouvez faire des tests (taille,
couleur, forme, nombre de trous, etc). Si lun de ces tests est negatif, alors vous rejeterez
lhypoth`ese H
0
. Mais tous les tests positifs ne pourront jamais prouver que lhypoth`ese
H
0
est vraie (au maximum, ils creeront une presomption de verite pour H
0
mais aucune
certitude).
Tests unilateral et bilateral. Le test est bilateral lorsque lhypoth`ese alternative
H
1
est symetique (par exemple ,=
0
), il est unilateral sinon (par exemple H

1
:
>
0
ou H

1
: <
0
)
Dans le cas bilateral, pour un seuil derreur de , la zone de rejet R

devra verier
P([U[ t

) = et (donc par symetrie) P(U t

) = P(U t

) = /2.
Dans le cas unilateral (toujours pour un seuil derreur ), la zone de rejet R

devra
verier
P(U t

) = dans le cas H

1
: >
0

ou P(U t

) = dans le cas H

1
: <
0
.
Il faut donc veiller ` a savoir si on fait un test unilateral ou bilateral pour voir si cest /2
ou qui est ` a rechercher dans la table correspondante.
Risque exact. Le choix prealable du risque est facultatif. Si lon na pas choisi
de risque derreur , on peut quand meme pratiquer le test et calculer la valeur u
observee sur lechantillon de la statistique de test U. On peut alors chercher dans la
table correspondante la valeur de telle que u et t

soient numeriquement proches. On


appelle cette valeur
reel
de le risque exact pour une decision de rejet.
La procedure de decision est alors la suivante :
si
reel
est grand ( 10% ou plus), il y a un risque notable ` a rejeter H
0
. On
proposera alors le non-rejet de H
0
.
Si
reel
est intermediaire (entre 0, 5% et 10%), on se contentera dindiquer le risque
exact dun rejet de H
0
.
Si
reel
est petit (moins de 0, 5%), on propose le rejet de H
0
.
Dans lexemple precedent, avec t

= 2, 58, on trouve dans la table de T (7) que le


correspondant est entre 0, 05 et 0, 02. Le risque reel
reel
est donc compris entre 2% et
5%.
Chapitre 4. c _JCB IUT2 Universite de La Rochelle 21
4.2 Test sur la moyenne
On suppose quon a un echantillon gaussien ou alors que sa taille est susamment
grande pour quon puisse lapprocher par une loi gaussienne.
On suppose donc que la variable consideree suit une loi A(,
2
) et on sinteresse ` a
la moyenne theorique , supposee inconnue. Certaines circonstances am`enent ` a formuler
la question suivante :
La moyenne theorique est-elle egale ` a une certaine valeur
0
?
Pour cela, on desire faire le test suivant : H
0
: =
0
contre H
1
: ,=
0
.
Supposons
2
connue. Dans ce cas, on consid`ere la statistique
U =
X
0
/

n
A(0, 1) (sous H
0
)
o` u X est lestimation ponctuelle de sur lechantillon. On denit une zone rejet R

de
la forme
R

=] , t

[]t

, +[
o` u le nombre t

est donne par la table A(0, 1) de la v.a. U. avec


P([U[ > t

) = c` ad P(U t

) = 1 /2. (4.1)
Noter que t

est lie avec le risque de 1`ere esp`ece.


Si on choisit = 0.05, on a t

= 1.96 dapr`es la table A(0, 1). Et si choisit = 0.1,


on a t

= 1.645.
Il reste alors ` a calculer la valeur u de U ` a partir de lechantillon et ` a se decider en
fonction de u R

ou non.
_
Si u R

, alors rejette H
0
avec un risque derreur de %
Si u , R

, alors on ne rejette pas H


0
avec un risque derreur de %
Supposons
2
inconnue. Dans ce cas, on consid`ere la statistique
U =
X
0
S
c
/

n
T (n 1) (sous H
0
)
o` u S
2
c
=
1
n1

n
i=1
(X
i


X)
2
.
La procedure est la meme que precedemment mais avec t

dans (4.1) ` a chercher dans


la table de T (n 1) de la v.a. U T (n 1).
Remarques.
Ces deux tests sont encore valables dans le cas non gaussien si lechantillon est
assez grand (de taille n 30).
Si on teste lhypoth`ese alternative H

1
: >
0
, il faut prendre R

= [t

, +[
avec P(U t

) = 1 .
Chapitre 4. c _JCB IUT2 Universite de La Rochelle 22
Si on teste lhypoth`ese alternative H

1
: <
0
, il faut prendre R

=] , t

]
avec P(U t

) = 1 .
4.3 Test sur la variance dans le cas gaussien
On suppose que la variable consideree suit une loi A(,
2
) et on sinteresse ` a la
variance theorique
2
, supposee inconnue. Certaines circonstances m`enent `a formuler la
question suivante :
La variance theorique
2
est-elle egale ` a une certaine valeur
2
0
?
On denit le test suivant dans le cas o` u est inconnu, avec un risque : lhypoth`ese
` a tester est H
0
:
2
=
2
0
contre H
1
:
2
,=
2
0
.
On consid`ere la statistique
U =
(n 1)S
2
c

2
0

2
(n 1) (sous H
0
)
o` u S
2
c
=
1
n1

n
i=1
(X
i


X)
2
. On denit la zone de rejet R

par
R

= [0, a

[]b

, +[
o` u a

et b

sont donnes par la table de


2
(n 1) pour la v.a. U. avec les equations
P(U a

) = P(U b

) = /2.
Enn, on calcule u = U() et on regarde si u R

ou si u , R

pour conclure.
Remarques.
Ce test est encore valable dans le cas non gaussien si lechantillon est assez grand
(de taille n 30).
Si on teste lhypoth`ese alternative H

1
:
2
>
2
0
, il faut prendre la zone de rejet
R

= [b

, +[ avec P(U b

) = 1 .
Si on teste lhypoth`ese alternative H

1
:
2
<
2
0
, il faut prendre la zone de rejet
R

=]0, a

] avec P(U a

) = .
4.4 Test sur une proportion
On teste ici la proportion theorique (vraie et inconnue) p dindividus possedant une
certaine caracteristique C, dans une population donnee. On souhaite le comparer ` a une
proportion p
0
de reference. Dans cette situation, on observe sur chaque individu dun
echantillon de taille n la presence ou labsence de la caracteristique C.
Si on observe n
1
fois le caract`ere etudie, on va estimer p par f =
n
1
n
.
Chapitre 4. c _JCB IUT2 Universite de La Rochelle 23
Lorsque n 30, nf 10, n(1 f) 10, on peut consid`erer le test : H
0
: p =
p
0
contre H
1
: p ,= p
0
avec la statistique de test
U =

n(f p
0
)
_
f(1 f)
A(0, 1) (sous H
0
).
On denit la zone de rejet R

de la forme
R

=] , t

[]t

, +[
o` u t

est donne dans la table de A(0, 1) pour la v.a. U. par lequation


P([U[ > t

) = c` ad P(U t

) = 1 /2.
Enn, on calcule u = U() et on regarde si u R

ou si u , R

.
Si on teste lhypoth`ese alternative H
1
: >
0
, il faut prendre R

= [t

, +[
avec P(U t

) = 1 .
Remarques.
Si on teste lhypoth`ese alternative H
1
: p > p
0
, il faut prendre R

= [t

, +[
avec P(U t

) = 1 .
Si on teste lhypoth`ese alternative H
1
: p < p
0
, il faut prendre R

=] , t

]
avec P(U t

) = 1 .
4.5 Tests de comparaison
4.5.1 Comparaison de deux moyennes
On consid`ere deux populations sur lesquelles sont denies deux caract`eres nume-
riques X et Y distribues selon des lois de moyennes
1
et
2
et de meme variance
2
(inconnue). On souhaite tester sil y a une dierence signicative entre les moyennes des
deux populations. Lhypoth`ese nulle ` a tester est H
0
:
1
=
2
contre H
1
:
1
,=
2
.
On dispose dun echantillon de taille n
1
pour X et de taille n
2
pour Y . On introduit
preliminairement
S
2
c
=
(n
1
1)S
2
c,1
+ (n
2
1)S
2
c,2
n
1
+n
2
2
avec les variances empiriques corrigees de X : S
2
c,1
=
1
n
1
1

n
1
i=1
(X
i


X)
2
et de Y :
S
2
c,2
=
1
n
2
1

n
2
i=1
(Y
i


Y )
2
. Puis soit
S

c
= S
c
_
1
n
1
+
1
n
2
.
On consid`ere la statistique
U =

X
1


X
2
S

c
T (n
1
+n
2
2) (sous H
0
)
Chapitre 4. c _JCB IUT2 Universite de La Rochelle 24
o` u

X
1
et

X
2
sont les estimations ponctuelles de
1
et
2
. On denit la zone de rejet R

par
R

=] , t

] [t

, +[
o` u t

est ` a determiner dans la table de Student T (n


1
+n
2
2) de la v.a. U avec
P([U[ > t

) = c` ad P(U t

) = 1 /2.
On conclut en calculant u ` a partir des echantillons de X et de Y et en testant si
u R

ou pas.
Remarques.
Si on teste lhypoth`ese alternative H
1
:
1
>
2
, il faut prendre R

= [t

, +[
avec P(U t

) = 1 .
Si on teste lhypoth`ese alternative H
1
:
1
<
2
, il faut prendre R

=] , t

]
avec P(U t

) = 1 .
4.5.2 Comparaison de deux proportions
On compare deux proportions inconnues p
1
et p
2
. On souhaite tester si ce sont les
memes. Lhypoth`ese nulle `a tester est H
0
: p
1
= p
2
contre H
1
: p
1
,= p
2
.
On dispose de deux series dobservations, de taille n
1
pour p
1
quon estime par f
1
et
de taille n
2
pour p
2
quon estime par f
2
. Soit
f =
n
1
f
1
+n
2
f
2
n
1
+n
2
et S

=
_
f(1 f)
_
1
n
1
+
1
n
2
. On consid`ere la statistique
U =
f
1
f
2
S

A(0, 1) (sous H
0
).
On denit la zone de rejet R

par
R

=] , t

] [t

, +[
o` u t

est ` a determiner dans la table normale A(0, 1) de la v.a. U avec


P([U[ > t

) = c` ad P(U t

) = 1 /2.
On conclut en calculant u ` a partir des deux series observees et en testant si u R

ou
pas.
Remarques.
Si on teste lhypoth`ese alternative H
1
: p
1
> p
2
, il faut prendre R

= [t

, +[
avec P(U t

) = 1 .
Si on teste lhypoth`ese alternative H
1
: p
1
< p
2
, il faut prendre R

=] , t

]
avec P(U t

) = 1 .
Chapitre 4. c _JCB IUT2 Universite de La Rochelle 25
4.6 Les Tests du
2
4.6.1 Principe
On peut distinguer trois types de test du
2
:
le test du
2
dadequation (H
0
: le caract`ere X suit-il une loi particuli`ere ? ),
le test du
2
dhomogeneite (H
0
: le caract`ere X suit-il la meme loi dans deux
populations donnees ? ) ,
le test du
2
dindependance (H
0
: les caract`eres X et Y sont-ils independants ? ).
Ces trois tests ont un principe commun qui est le suivant : on repartit les observations
dans k classes dont les eectifs sont notes n
1
= N
1
(), . . . , n
k
= N
k
(). Lhypoth`ese H
0
permet de calculer les eectifs theoriques, notes n
1,th
, . . . , n
k,th
. On rejette H
0
si les
eectifs observes sont trop dierents des eectifs theoriques.
Pour cela on utilise la statistique de test
U =
k

i=1
(N
i
n
i,th
)
2
n
i,th
.
Cette statistique suit la loi U
2
(k 1 m) o` u k est le nombre de classes et m est le
nombre de param`etres estimes necessaires au calcul des eectifs theoriques.
Il faut sassurer que les eectifs theoriques sont plus grands que 5 et donc faire des
regroupements de classes si besoin est.
`
A partir de l`a, on calcule la zone de rejet unilaterale R

=]t

, +[ au risque en
determinant t

dans la table de
2
(k 1 m) par
P(U > t

) = .
La r`egle de decision est la suivante :
Si u =
k

i=1
(n
i
n
i,th
)
2
n
i,th
appartient `a R

, on rejette H
0
,
Si u =
k

i=1
(n
i
n
i,th
)
2
n
i,th
nappartient pas `a R

, on accepte H
0
.
Remarque :
Contrairement aux autres tests, les tests du
2
nexigent pas de formuler lhypo-
th`ese alternative H
1
, qui correspond ` a la negation de H
0
.
Les eectifs theoriques doivent etre superieurs ` a 5. Si ce nest pas le cas, il faut
regrouper des classes.
Dans la statistique U
2
(k 1 m), on manipule des eectifs et non des
pourcentages.
4.6.2 Exemples
Exemple 1. Un croisement entre roses rouges et blanches a donne en seconde gene-
ration des roses rouges, roses et blanches. Sur un echantillon de taille 600, on a trouve
Chapitre 4. c _JCB IUT2 Universite de La Rochelle 26
les resultats suivants :
couleur eectifs
rouges 141
roses 315
blanches 144
Peut-on armer que les resultats sont conformes aux lois de Mendel ?
Il sagit donc de tester
H
0
: p
rouges
= 0.25, p
roses
= 0.5, p
blanches
= 0.25 au risque disons = 0.05.
On dresse alors le tableau suivant :
couleur eectifs observes n
i
eectifs theoriques n
i,th
rouges 141 0.25 600 = 150
roses 315 0.5 600 = 300
blanches 144 0.25 600 = 150
Ici on a k = 3 classes et m = 0 (aucun param`etre ` a estimer pour pouvoir calculer les
eectifs theoriques) donc k 1 m = 2 ; on calcule ensuite R

=]t

, +[ ` a laide de la
table de
2
(2) et on obtient t = 5.991. Enn, on calcule
u = U() =
(141 150)
2
150
+
(315 300)
2
300
+
(144 150)
2
150
= 1.53 , R

.
On propose le non rejet de lhypoth`ese : on ne peut pas dire que les observations contre-
disent la loi de Mendel.
Exemple 2. On observe le nombre X daccidents journaliers sur une periode de 50
jours dans une certaine ville. On obtient :
Nombre daccidents Nombre de jours
0 21
1 18
2 7
3 3
4 1
On constate que x = 0.9 et s
2
= 0.97. Peut-on armer que X suit une loi de Poisson ?
(risque = 0.05)
H
0
: X suit une loi de Poisson de param`etre 0.9
On dresse donc le tableau suivant :
Nombre daccidents Nombre de jours Nombre de jours theorique
0 21 50 e
0.9
= 20.330
1 18 50 e
0.9
0.9 = 18.295
au moins 2 11 50 (1 e
0.9
(1 + 0.9)) = 11.376
Chapitre 4. c _JCB IUT2 Universite de La Rochelle 27
On a regroupe les 3 derni`eres classes pour avoir un eectif theorique 5 dans la derni`ere
classe. Dans cet exemple 2, on a k = 3 classes et m = 1 param`etre estime ` a savoir x
necessaire au calcul des eectifs theoriques ; donc k1m = 1 est le nombre de d.d.l. de
U. On calcule ensuite R

=]t, +[ `a laide de la table de


2
(1) et on obtient t = 3.841.
Enn, on calcule
u = U() =
(21 20.33)
2
20.33
+
(18 18.295)
2
18.295
+
(11 11.376)
2
11.376
= 0.039 / R

.
On ne rejette pas H
0
au risque derreur 0.05.