Académique Documents
Professionnel Documents
Culture Documents
1. Statistique descriptives
2. Variable aléatoire Continue
3. Introduction à la théorie de l’estimation
4. Introduction à la théorie des tests.
5. Introduction aux series chronologiques
1
Première partie
Statistique descriptives
2
Chapitre 1
Généralité de la statistique
descriptive
1.1 Définition
Selon la définition de l’encyclopédia Universalis, le mot statistique désigne
à la fois un ensemble d’observation et l’activité qui consiste dans leur recueil,
leur traitement et leur interpretation. Nous dirons que la statistique est une
méthode mathématique qui permet de décrire quantitativement et qualitati-
vement les données qui sont susceptibles d’être influencées par le hasard ou
plus simplement, on appelle statistique l’ensemble des techniques et méthodes
permettant d’analyser (traiter) des ensembles des données. Nous voyons bien
que cette definition permet de faire la différence avec les statistiques qui
peuvent signifier les résultats des recencements ou des calculs. Pour conclure
la statistique est outil d’aide à la prise des décisions. Tout travail statistique
n’a de sens que s’il conduit à la prise des décisions et à l’action.
3
Définition 2 On appelle individu ou unité statistique tout élement de la
population.
Exemple 3 L’ensemble des livres de la bibliothèque de l’université de Yaoundé
I forme une population. L’individu est un livre de la bibliothèque.
Définition 4 On appelle échantillon, un ensemble d’élements tirés au ha-
sard de la population sur lequel on éffectue une étude exhaustive pour ensuite
porter certaines conclusions sur l’ensemble de la population. C’est simple-
ment un sous ensemble de la population.
Exemple 5 De l’exemple précedent, un échantillon c’est l’ensemble de 100
livres de statistiques.
Définition 6 La taille d’une population (resp d’un échantillon) est le car-
dinal (le nombre d’élement) de la population (resp de l’échantillon). Elle est
généralement notée N (resp n.)
Exemple 7 De l’exemple précedent, la taille de l’échantillon est 100
1.2.2 Caractères
Chaque individus de la population peut être considéré selon un ou plu-
sieurs caractères
Définition 8 Un caractère ou une variable statistique est un critère étudié
dans la population. c’est une caractèristique relative à chacun des individus
de la population et sur laquelle on veut faire porter l’étude. c’est une variable
aléatoire sur l’ensemble fondamental Ω = population.
Exemple 9 Les domaines abordés dans les livres, le poids du livre, le nombre
de page du livre, la lanque utilisée dans le livre.
Chacun des caractères étudiés peut présenter deux ou plusieurs modalités
Définition 10 Les modalités sont les différentes situations où les individus
peuvent se trouver à l’égard du caractère considéré. Le nombre de modalités
varie selon le niveau de détails de l’information disponible
Exemple 11 De l’exemple précedent, la langue du livre peut être le français,
l’anglais, l’allemand, l’espagnol etc., le français, l’anglais, l’espagnol sont des
modalités du caractère langue
Les modalités d’un caractère sont à la fois incompatibles et exhaustive
c’est à dire un individus de la population ne doit posséder qu’une et une seule
modalité.
4
1.2.3 Les types de caractères
On classe les caractères en deux catégories : le caractère qualitatif et le
caractère quantitatif. Parmi ces derniers, on distingue le caractère quatitatifs
discret et le caractère quantitatif continu
Définition 12 Un caractère est dit qualitatif si ses diverses modalités ne
sont pas mesurables. On parle également d’attributs ou de variables catégorielle.
Dans la littérature, on fait la différence entre les variables qualitatives
nominales et les variables qualitatives ordinales. Une variable qualitative or-
dinale est une variable sur lequel on peut y établir un ordre. ce qui n’est pas
le cas pour les variables qualitatives nominale.
Exemple 13 le diplome est une variable qualitative ordinale alors que le
sexe, la réligion, la nationalité, la langue parlée dans un pays sont des va-
riables qualitatives nominales.
Définition 14 Un caractère est dit quantitatif si ses différentes modalités
sont mésurables ou répérables. Chaque modalité correspond à un nombre. ce
nombre varie d’une modalité à une autre. Un caractère quanttatif est ausi
appélé variable statitique.
Exemple 15 Le poids, la taille, le nombre de page d’un livre.
Définition 16 Une variable statitique est dite discrete lorsque ses valeurs
possibles sont des nombres isolés. les cas les plus généralement rencontrés
sont ceux où les valeurs possibles sont les entiers.
Exemple 17 Le nombre d’enfants d’un couple, le nombre de page d’un livre.
Définition 18 Une variable statistique est dite continue lorsque ses valeurs
possibles sont à priori en nombre infini et quelconques dans un intervalle de
valeurs.
Exemple 19 La taille, le poids
5
note souvent [ei−1 ,ei ]. ei−1 est l’extremité inferieure(ou initiale) de la classe
[ei−1 ,ei ]. ei est l’extremité supérieure (ou finale) de la classe [ei−1 ,ei ].
On est souvent améné à recalculer les limites réelles des classes surtout
lorsque les extremités des classes ne sont pas contigus. Ces limites doivent
être calculées de manière à conserver les centres des classes, les effectifs des
classes et avoir des classes adjacentes.
6
Chapitre 2
2.1 Introduction
Le chapitre précedant nous a permis de définir les élements de base de
la statistique. Notre objectifs dans le présent chapitre est de résumer, les
données sttistiques en remplaçant à celle ci un petit nombre de paramètres
(résultats numériques) qui permettent de synthètiser l’ensemble des données.
X: Classes [e1 ,e2 [ [e2 ,e3 [ ... [ei ,ei+1 [ ... [ek ,ek+1 [ Total
Fréquence absolue: ni n1 n2 ... ni ... nk N
7
2.2.2 Tableau de fréquences cumulées
La fréquence cumulée croissante (resp décroissante) correspondante à la
0
classe [ei−1 ,ei [ de la variable statistique Xnotée Fi (resp Fi ) se calcule de la
i−1 k
P 0 P 0
manière suivante : Fi = nj (resp Fi = nj ). Fi (resp Fi ) représente le
j=1 j=i
nombre d’individus dont les modalités du caractère sont inférieures ou égales
(resp. supérieures) à ei−1 . On la représente dans un tableau qui à la forme
suivante :
X: Classes [e1 ,e2 [ [e2 ,e3 [ ... [ei ,ei+1 [ ... [ek ,ek+1 [ Total
Effectifs: ni n1 n2 ... ni ... nk N
ECC 0 = F1 F2 = n1 ... Fi ... Fk = N − nk Fk+1 = N
0 0 0 0 0
ECD N = F1 F2 = N − n1 ... Fi ... Fk = nk Fk+1 = 0
0
où Fi = n1 + ... + ni−1 ; Fi = ni + ... + nk
8
Pour ei−1 < x ≤ ei ,F (x) = Fi ,i = 2,3,...,k
Pour x > ek , F (x) = Fk+1 = N, où N est l’effectif total.
On voit bien que F est une fonction en escalier. Lorsqu’on joint les points
de coordonnées (xi ,Fi ), on obtient le polygone des effectifs ou des frequences
cumulées croissants. lorsqu’on lisse ce polygone, on obtient la courbe des
effectifs ou des fréquences cumulées croissants ou la courbe cumulative.
9
Dans le cas d’un cactère statistique continue avec les données regroupées
en classes, on parlera plutot de classe dominante ou de classe modale. c’est
celle qui a la plus grande hauteur ou la plus grande densité de fréquence. Le
mode dans ce cas est le centre de la classe modale.
2.3.2 La médiane
Définition 30 La médiane d’une variable statistique est la valeur de cette
variable qui partage les individus, supposés rangés par ordre de valeurs crois-
sant ou décroissante de la variable en deux effectifs égaux. Elle est notée Me .
D’une manière générale, la médiane Me d’une variable statistique est la va-
leur de cette variable qui correspond à l’ordonnée 1/2 de la courbe cumulative.
F (Me ) = 12
10
valeur dans cette intervalle peut être la médiane. Par convention, on prend
Me = xG +x
2
D
Exemple 32
Exemple 33
32 est comprise entre 16 et 34. la seule valeur comprise entre les deux la
valeur 1. c’est donc notre médiane.
11
b+c
deux classes [a,b] et [c,d], alors la médiane est Me = 2
Exemple 34
Exemple 35
12
Une distribustion statistique a 3 quartiles gnéralement notée Q1 ,Q2 ,Q3 .
Q2 est confondu avec la médiane. Le quartile Qk est celui dont la fréquence
cumulée croissante correspond à l’effectif N 4×k où N est l’effectif total de la
population. Leur détermnation algébrique obeit à la même démarche que le
calcul de la médiane et en utilisant u,iquement les effectifs cumulés croissants.
Une distribution statistique a 9 déciles d1 ,d2 ,...,d9 (resp. 99 centiles, c1 ,c2 ,...,c99 ).
Le decile dk (resp. le centile ck ) est celui qui correspond à une fréquence cu-
×k ×k
muléecroissante Fk = N10 (resp. Fk = N100 ) où N est l’effectif total de la
population. Leur détermnation algébrique obeit à la même démarche que le
calcul de la médiane et en utilisant u,iquement les effectifs cumulés croissants.
2.3.4 La moyenne
La moyenne arithmétique
Définition 39 La moyenne arithmétique est le centre de gravité d’une dis-
tribution. On la note x où mx .
13
De l’exemple 4-6, on a
0 0
Classe poids xi Effectif ni ci ci ni ci
[10,20[ 14 15 -6 -84
[20,30[ 18 25 -4 -72
[30,40[ 14 35 -2 -28
:
[40,50[ 11 45 0 0
[50,60[ 3 55 2 6
[60,70[ 4 65 4 16
Total 64 -162
0
c0i = ci −45 , x0 = N1 ki=1 ni ci = −162
d’où x = 5x0 + 45 = 32,3.
P
5 64
,
14
2.4.1 L’étendue
Définition 43 C’est la largeur totale de la distribution notée E.
Pour une variable discrete dont les valeurs x1 ,x2 ,...,xn . ne sont pas re-
groupés en classes, l’étendue correspond à la difference entre la plus grande
modalité et la plus petite modalité du caractère. Pour une variable statistique
continue ou discrete avec valeurs regroupé en classe [ei ,ei+1 [ ,i = 0,1,...,k − 1,
alors E = ek − e1
xi ni
18 12
19 25
20 32
21 27
22 8
[ei ,ei+1 [ ni
[15,20[ 8
[20,25[ 18
[25,30[ 23
[30,35[ 16
[35,40[ 10
E = 22 − 18 = 4
E = 40 − 15 = 25
15
k k
1
P P
de toutes les valeurs de cette distribution. E = N
ni |xi − x| = fi |xi − x|
i=1 i=1
N
1
P
si les données sont groupées en classes et E = N
|xi − x| sinon
i=1
Exemple 48
16
X ni ni xi ni x2i xi − x (xi − x)2 ni (xi − x)2
x1
x2
xk
k
P
Total N = ni A B C D E
i=1
2
A E B A
x = ;V = = −
N N N N
où
k
X
A = ni xi
i=1
Xk
B = ni x2i
i=1
Xk
C = xi − x
i=1
Xk
D = (xi − x)2
i=1
Xk
E = ni (xi − x)2
i=1
17
Exemple 53
xi ni Ei = xi − x Ei2 ni Ei2
0 25 -0,96 0,9216 23,04
1 35 0,04 0,0016 0,056
2 11 1,04 1,0816 11,9
3 2 2,04 4,1616 8,3232
4 1 3,04 9,2416 9,2416
5 1 4,04 16,32 16,32
Total 75 68,88
68,88 p
V = = 0,92 enf ant2 ,σ = 0,92 = 0,95enf ant
75
18
k
1
puissances rème des xi et calculée comme suit : mr = ni xri
P
N
i=1
Remarque 58 Lorsque
– r = 0,m0 = 1,M0,x0 = 1
– r = 1,m1 = x,M1,x = 0
– r = 2,M2,x = V
Graphique à faire
19
2.5.2 Le coefficient d’applatissement
Définition 60 Le coefficient d’applatissement de Yule ou de Fischer permet
d’évaluer l’applatissement de la courbe d’une serie statistique comparée à la
M
courbe de la loi normale. Notée γ2 , il se calcule comme suit: γ2 = σ4,x
4 −3
20
Plus la courbe de Lorentz se rappoche de la diagonale, plus la distrinution
est égalitaire, plus elle s’éloigne, plus elle est inégalitaire.
Plus g est grand plus la serie est inégalitaire. Elle est totalement inégalitaire
pour g = 1 et parfaitement égalitaire pour g = 0.
Salaire ni ci n i c i Pi Qi Ai Bi Ai Bi
[10,20[ 14 15 210 0/64 0 14/64 210/2070 14*210/64*2070
[20,30[ 18 25 450 14/64 210/2070 18/64 870/2070 18*870/64*2070
[30,40[ 14 35 490 32/64 660/2070 14/64 1810/2070 14*1810/64*2070
[40,50[ 11 45 495 46/64 1150/2070 11/64 2795/2070 11*2795/64*2070
[50,60[ 3 55 165 57/64 1645/2070 3/64 3455/2070 3*3455/64*2070
[60,70[ 4 65 260 60/64 1810/2070 4/64 5525/2070 4*5525/64*2070
Total 64 2070 64/64 2070/2070 D
où
k−1
X 107150
Ai = Pi+1 − Pi ,Bi = Qi+1 + Qi ,D = (Pi+1 − Pi ) (Qi+1 + Qi ) = = 0,808
i=1
132480
g = 1 − 0,808 = 0,191
Graphique à faire
21
xi ou [ei−1 ,ei [ Sous population Total
P1 P2 ... Pj Pj+1 ... Pm−1 Pm
x1 ou [e0 ,e1 [ n11 n12 ... n1j n1(j+1) ... n1(m−1) n1m n1·
x2 ou [e1 ,e2 [ n21 n22 ... n2j n2(j+1) ... n2(m−1) n2m n2·
.. .. .. . .. . .. ..
. . . ... .. . ... .. . .
xi ou [ei−1 ,ei [ ni1 ni2 ... nij ni(j+1) ... ni(m−1) nim ni·
.. .. .. . .. .. .. ..
. . . ... .. . ... . . .
xk ou [ek−1 ,ek [ nk1 nk2 ... nkj nk(j+1) ... nk(m−1) nkm nk·
Total n·1 n·2 ... n·j n·j+1 ... n·m−1 n·m n··
22
m
1
n·j σj2 est appélé variance intra sous population et est la
P
Vintra = n··
j=1
variance à l’interieur des sous populations. C’est la variance σ 2 qu’on obtien-
drait si les sous populations avaient toutes la même moyenne.
m
Vinter = n1·· n·j (x − xj )2 est appélé variance inter sous population et est
P
j=1
la variance entre les sous populations. C’est la variance σ 2 qu’on obtiendrait
si les sous populations étaient toutes homogènes (σj = 0).
Pour calculer xj ,Vj ,σj (resp. x,V,σ) on extrait du tableau statistique un
sous tableau formé de deux colones: la colone des modalités et la colonne des
effectifs nij de la sous population Pj (resp. la colonne des effectifs marginaux
n·j de la colonne totale) et on y applique les formules des moyennes, des
variances, et des écarts types.
23
N ote/100 P1 = garçon
[10,20[ n11 = 5
[20,30[ n21 = 6
[30,40[ n31 = 14
[40,50[ n41 = 11
[50,60[ n51 = 10
[60,70[ n61 = 14
Total n·1 = 60
x1 = 44,5; V1 = 248,08; σ1 = 15,75
N ote/100 P2 = F ille
[10,20[ n12 = 2
[20,30[ n22 = 6
[30,40[ n32 = 10
[40,50[ n42 = 9
[50,60[ n52 = 5
[60,70[ n62 = 8
Total n·2 = 40
x2 = 43,25; V2 = 219,43; σ2 = 14,91
N ote/100 Total
[10,20[ n1· = 7
[20,30[ n2· = 12
[30,40[ n3· = 24
[40,50[ n4· = 20
[50,60[ n5· = 15
[60,70[ n6· = 22
Total n·· = 100
x2 = 44; V2 = 237; σ1 = 15,391
24
Chapitre 3
3.1 Introduction
Dans ce chapitre, on s’interresse à l’étude de deux variables X et Y
étudiées sur la même population. L’objectif de l’étude est de mettre en
évidence, une eventuelle variation simultannée de deux variables que nous
appelons liaison ou dépendance. Dans certains cas, cette liaison peut à priori
être causale. c’est à dire une variable expliquant l’autre. Dans d’autres cas,
les deux variables jouants des roles symetriques. Lorsque l’on utilisera les
données regroupées en classes, les modalités xi seront remplacées par les
cebtres de classes dans les formules.
i 1 2 ... i ... n
X x1 x2 ... xi ... xn
Y y1 y2 ... yi ... yn
25
i 1 2 3 4 5
Taille: (X) 1,60 1,70 1,55 1,65 1,75
Poids : (Y) 70 75 80 80 80
– Le poids et la couleur des cheveux de 5 étudiants
i 1 2 3 4 5
Poids en kg: (X) 70 75 80 80 80
Couleur : (Y) Noire Rousse Chataine Blonde Noire
i 1 2 3 4 5
Yeux: (X) Noire Bleu marron Bleu Noire
Cheveux : (Y) Noire Rousse Chataine Blonde Noire
26
Brun Chatain Roux Blond Total
Marron 68 119 26 7 220
Noisette 15 54 14 10 93
vert 5 29 14 16 64
bleu 20 84 17 94 215
Total 108 296 71 127 592
Remarque 70 En divisant toute les valeurs du tableau par l’effectif total,
on obtient le tableau de frequences.
i 1 2 ... i ... n
X x1 x2 ... xi ... xn
Y y1 y2 ... yi ... yn
27
n n n
1 1 2 1
x2i −
P P P
. Les statistiques marginales sont x = n
xi ; y = n
yi ,σX = n
i=1 i=1 i=1
n
1
x2 ,σY2 = yi2 − y 2
P
n
i=1
28
Y1 Y2 ... Yj ... YJ Total
X1 n11 n12 ... n1j ... n1J n1·
X2 n21 n22 ... n2j ... n2J n2·
.. .. .. .. .. .. .. ..
. . . . . . . .
Xi ni1 ni2 ... nij ... niJ ni·
.. .. .. .. .. .. .. ..
. . . . . . . .
XI nI1 nI2 ... nIj ... nIJ nI·
Total n·1 n·2 ... n·j ... n·J n··
29
J J J J
2 1
n·j σj2 + 1
n·j (xj − x)2 = pj σj2 + pj (xj − x)2
P P P P
VX = σX = n·· n··
j=1 j=1 j=1 j=1
La variance globale de X (resp. de Y) est égale à la moyenne arithmétique
des variances des moyennes conditionnelles de X (resp. de Y) pondérées par
les poids des sous populationsY = Yj (resp. X=xi ) auquel on ajoute la va-
riance des moyennes conditionnelles.
J I
pj σj2 (resp pi σi2 ) est appélé variance intra sous population
P P
Vintra =
j=1 i=1
ou variance résiduelle de X (resp. Y )
J I
pj (xj − x)2 (resp. pi (y i − y)2 ) est appélé variance inter
P P
Vinter =
j=1 i=1
sous population ou variance expliquée de X (resp. Y )
3.6 La covariance
Elle se calcule exactement de la même manière que pour les variables
aléatoires.
La covariance peut donner une valeur négative mais la variance est tou-
jours positive. la covariance est une mesure de la relation linéaire entre deux
variables statistiques. Plus la variance est élévé plus la relation linéaire est
entre deux variables est forte.
30
3.7 La regression et la corrélation statistique
3.7.1 Le coefficient de corrélation linéaire.
Le coefficient de corrélation linéaire encore appélé le coefficient de détermination
entre deux variables X et Y est le réel noté ρ (X,Y ) = Cov(X,YσX σY
)
Propriétés:
1. |ρ (X,Y )| ≤ 1
ac
2. ρ (aX + b,cY + d) = |ac|
ρ (X,Y )
31
variance marginale VY de Y (resp VX de X) representé par la variance inter
groupe.
I I
1
ni· (y i −y)2 1
ni· σi2
P P
n·· n··
ηY2 /X = i=1
VY
=1− i=1
σY2
J J
1 1
n·j σj2
P P
n··
n·j (xj −x) n··
2 j=1 j=1
ηX/Y = VX
=1− 2
σX
Les rapports de corrélation sont compris entre 0 et 1 et sont invariant par
changement de variables. Ils donnent une mesure du pourcentage de variation
explicable par la variable indépendante.
3.7.5 Indépendance
Nous dirons que deux variables X et Y sont indépendantes si on a xj =
x,∀j ∈ {1,2,...,J} et y i = y,∀i ∈ {1,2,...,I}, ainsi les courbes de regression
n ×n
sont parallèles aux axes. Dans ce cas, on a nij = i·n·· ·j
3.8 Exemple
3.8.1 Enoncé
Soit X en milliers le salaire que gagne un personnel et Y en dizaines leur
age on a :
32
3.8.3 Moyenne et variance de X et Y
tableau en X
tableau en Y
33
Vinter = 0,35×(3,5 − 3,85)2 +0,4×(3,95 − 3,85)2 +0,25×(4,18 − 3,85)2 =
0,074
34
Deuxième partie
VARIABLES ALEATOIRES
35
Chapitre 1
1.1 Introduction
Définition 72 Etant donné un espace probabilisé (Ω,A,p) et un espace prob-
bilisable (Ω0 ,B) avec Ω0 ⊂ R, on appelle variable aléatoire réel sur Ω, toute
application
X : Ω → Ω0
w 7→ X (w)
Définition 73 Une variable aléatoire est dite discrète si elle ne prend que
des valeurs discontinues dans un intervalle donné (borné ou non borné).
L’ensemble des nombres entiers est discret. En règle générale, toutes les
variables qui résultent d’un dénombrement ou d’une numération sont de type
discrètes.
- le nombre de petits par porté pour une espèce animale donnée (chat,
marmotte, etc),
- le nombre de bactéries dans 100 ml de préparation,
sont des variables aléatoires discrètes.
Les variables aléatoires qui nous interessent lors d’une expérience aléatoire
ne sont pas toujours discretes. Par exemple la taille d’un individu, le temps de
fonctionnement d’un appareil peut prendre n’importe quelle valeur dans un
intervalle de R+ . Dans ce chapitre, nous sommes interéssés par des variables
prenant leur valeur dans un intervalle reel continu.
36
1.2 Densité de Probabilité
Définition 75 Une fonction f () de R dans R est une densité de probabilité
si :
1. f () est positive
2. f () est intégrable sur R
R
3. R f (x) dx = 1
37
2. Densité exponentielle : Soit λ un réel strictement positif. On dit qu’une
variable X suit une loi exponentielle de −λx
parametre λ et on note X
λe si x > 0
ξ (λ) si X a pour densité. f (x) = = λe−λx 1R∗+ . On
0 sinon R
verifie facilement que f () est une densité sur R.En effet R f (x) dx =
R +∞ R +∞ +∞
f (x) dx = 0 d −e−λx = −e−λx 0 = 1
0
3. Lois normales
Soit m ∈ R et σ ∈ R∗+ On dit qu’une variable aléatoire suit une loi
2
normale de moyenne m et de variance σ et on note X N (m,σ 2 ) si
2
X a pour densité. f (x) = √2πσ 1
2
exp − (x−m)2σ 2
1
Si m = 0 et σ = 1 on a f (x) = √2π exp − x2 ,on dit X
N (0,1)
c’est à dire que X suit la loi normale centrée réduite.
Proposition 79 Soit X une variable aléatoire à valeurs dans un intervalle
ouvert U de R. Soit h : U → V une bijection de classe C 1 , telle que h
soit dérivable. Si X a pour densité f (), alors Y = h (X) a pour densité :
0
f (h−1 (y)) (h−1 ) (y) si y ∈ V
g (y) =
0 sinon
Preuve. Supposons que h soit décroissante. ∀a,b ∈ V,p {a < Y < b} = p {a < h (X) < b} =
R h−1 (a)
p {h−1 (b) < X < h−1 (a)} = h−1 (b) f (x) dx. Posons y = h (x) , On a x =
0 R h−1 (a)
h−1 (y) et dx = (h−1 ) (y) dy on a alors : p {a < Y < b} = h−1 (b) f (x) dx =
Ra 0 Rb 0 Rb 0
b
f (h−1 (y)) (h−1 ) (y) dy = − f (h−1 (y)) (h−1 ) (y) dy = f (h−1 (y)) (h−1 ) (y) dy
a a
h : R→R
x 7→ σx + m
h−1 R→R
:
y−m
y →
7
σ
0
on a (h−1 ) (y) = σ1 il résulte de la proposition précedente
que 2la variable
(x−m)
aléatoire Y a pour densité g (y) = σ1 f y−m 1
σ
= √2πσ 2
exp − 2σ2 .ie Y
N (m,σ 2 )
38
1.3 Fonction de répartition
Définition 81 Soit X une variable aléatoire de densité f (), On appelle fonc-
tion de répartition de X la fonction
FX : R → [0,1]
x 7→ FX (x) = p ({X ≤ x})
39
Rb 0
Rb
a
F (x) dx = a
g (x) dx. Si a ∈ ]ai ,ai+1 [ ,i ∈ {0,1,...,n − 1} ,∀b ∈ ]ai ,ai+1 [ ,
Rb Rb
on a F (b)−F (a) = a F 0 (x) dx = a g (x) dx. En faisant tendre bR vers a−
R ai+1 i+1 on
− 0 ai+1
obtient : F ai+1 −F (a) = F (ai+1 )−F (a) = a F (x) dx = a g (x) dx
Rb
intégrale généralisée. Si b ∈ ]ai ,b[ , on a F (b) − F (a) = a F 0 (x) dx =
Rb Rb
a
g (x) dx,En faisant tendre a vers a+ i on en déduit :F (b)−F (ai ) = ai g (x) dx
intégrale généralisée. ∀a,b ∈ ]ai ,ai+1 [ ,i ∈ {0,1,...,n − 1} , on a F (b) − F (a) =
Rb 0 Rb + −
a
F (x) dx = a
g (x) dx.En
faisant tendre a vers ai et b vers ai+1 , on de-
− +
duit que RF ai+1 − F ai = F (ai+1 ) − F (ai ) Car F est continue.F (ai+1 ) −
a
F (ai ) = aii+1 g (x) dx intégrale généralisée. Si a et b n’appartient pas à un in-
tervalle du type ]ai ,ai+1 [ , Soit {ai0 ,ai1 ,...,ain } l’ensemble des ai qui appartient
à [a,b],p {a < X < b} = F (b)−F (a) = (F (b) − F (a11 ))+(F (a11 ) − F (a12 ))+
Rb
.... + F a1n−1 − F (a1n ) + (F (a1n ) − F (b)) = a g (x) dx en utilisant la re-
lation de chasles pour l’intégration généralisée
Etude de l’intégrale à +∞
40
2
On sait que lim x2 [|x|n f (x)] = lim √1 xn+2 exp − x
2π 2
= 0. Par
x→+∞ x→+∞
R +∞
conséquent, ∃A > 0 tq ∀x > A, |x|n f (x) < x12 . Comme A x12 dx converge,
R +∞
alors A |x|n f (x) dx converge également.
Etude de l’intégrale à −∞
2
On sait que lim x2 [|x|n f (x)] = lim √1 xn+2 exp − x
2
= 0.Par
x→−∞ x→−∞ 2π
RB
conséquent, ∃B > 0 tq ∀x < B, |x|n f (x) < x12 . Comme −∞ x12 dx converge,
RB RB
alors −∞ |x|n f (x) dx converge également. Donc R |x|n f (x) dx = −∞ |x|n f (x) dx+
R
RA n R +∞
|x| f (x) dx + A |x|n f (x)Rdx < +∞ On déduit que R |x| f (x) dx <
R
B
+∞. par conséquent E (x) = R
xf (x) dx = 0 car la fonction xf (x) est
impaire.
1. E (X + Y ) existe et on a E (X + Y ) = E (X) + E (Y )
2. E (aX) existe et on a E (aX) = aE (X)
3. Si X ≥ 0, alors E (X) ≥ 0 et si X > Y alors E (X) > E (Y )
Preuve. 1) admise
2) si a = 0 alors le résultat
1 y
est évident. Si a 6= 0, on sait que Y = aX a
pour densité g (y) = |a| f a .
1
f ay dy Posons x = ay , on a alors: R |y| g (y) dy =
R R R
R
|y| g (y) dy = R |y| |a|
( R
+∞ R +∞
−∞
|x| f (x) adx = −a −∞ |x| f (x) dx < +∞ si a < 0
R +∞ R +∞
−∞
|x| f (x) adx = a −∞ |x| f (x) dx < +∞ si a > 0
R R +∞
On déduit que R |y| g (y) dy = |a| −∞ |x| f (x) dx < +∞ On a alors
1
f ay dy. Si a < 0, posons x = ay , On a alors E (aX) =
R
E (aX) = R |y| |a|
R −∞ R +∞
+∞
−axf (x) dx = a −∞
xf (x) dx = aE (X) . Le cas a > 0 est évident.
R R +∞
3) Si X ≥ 0, Il est claire que = R xf (x) dx = 0 xf (x) dx ≥ 0
Si X ≥ Y,alors X −Y ≥ 0 par conséquent 0 ≤ E (X − Y ) = E (X)−E (Y )
41
Si X est à valeurs dans un intervalle ouvert U et ϕ une fonction bijective
de U dans V telque f et f−1 soit dérivable. Dans ce cas Y = ϕ (X) a pour
−1 0
−1
f (ϕ (y)) (ϕ ) (y) si y ∈ V
densité g (y) =
R 0 si y ∈ VR
On a alors E (Y ) = R yg (y) dy = V yg (y) dy.
Supposons que ϕ soit décroissante. Posons x = ϕ−1 (y) , alors
Z Z
0
yf ϕ−1 (y) ϕ−1 (y) dy
yg (y) dy = −
V ZV
0
yf ϕ−1 (y) ϕ−1 (y) dy en supposant que U = ]a,b[
= −
]ϕ(b),ϕ(a)[
Z a Z b
= − ϕ (x) f (x) dx = ϕ (x) f (x) dx
b a
Z b Z
= ϕ (x) f (x) dx = ϕ (x) f (x) dx car f (x) = 0,∀x ∈
/U
a R
n
P
Si ϕ (x) = ai 1Ai (x) où est une partition de R, On peut dire que
i=1
Y = ϕ (X) est à valeurs dans {a1 ,...,an } c’est donc une variable aleatoire
Pn Pn
discrete. Par conséquent E (Y ) = ai p {Y = ai } = ai p {X ∈ Ai } =
i=1 i=1
Pn R Pn R R P n
ai Ai f (x) dx = ai R 1Ai (x) f (x) dx = R ai 1Ai (x) f (x) dx =
Ri=1 i=1 i=1
R
ϕ (x) f (x) dx
Proposition 89 Inégalité de Markov.
Si X est une variable aléatoire positive telque E (X) existe. ∀a > 0, on a :
p {X ≥ a} ≤ E(X)
a
Preuve.
Z Z +∞
E (X) = xf (x) dx car ∀x < 0,f (x) = 0
xf (x) dx =
0
ZRa Z +∞ Z +∞
= xf (x) dx + xf (x) dx ≥ xf (x) dx
0 a a
Z +∞ Z +∞
≥ af (x) dx = a f (x) dx = ap {X ≥ a}
a a
42
Proposition 91 Inégalité de Tchébitchev
Soit X une variable aléatoire telque E (X 2 ) < +∞. ∀a > 0, on a : p {|X − E (X)| ≥ a} ≤
var(X)
a2
Preuve.
E (E (X) − X)2
2 2
var (X)
p {|X − E (X)| ≥ a} = p (|X − E (X)|) ≥ a ≤ =
a2 a2
Propriété
∀a,b ∈ R var (aX + b) = a2 var (X)
La plupart du temps, f (·,·) est une fonction continue sur une partie D de
2
R et nulle en dehors de cette partie. Un vecteur aléatoire X de densité f (·,·)
est à valeurs dans une partie D de R2 et nulle en dehors de cette partie.
Définition 92 Soit f (·,·) une densité sur R2 , On dit que f (·,·) est la densité
de la variable aléatoire X = (X1 ,X2 ) si ∀a 1 ,b1 ,a2 ,b2 ∈ R,a1< b1 et a2 < b2
R b1 R b2
on a p (a1 < X1 < b1 ,a2 < X2 < b2 ) = a1 a2 f (x1 ,x2 ) dx2 dx1
Si X = (X1 ,X2 ) possède une densité, alors ∀x1 ,x2 ∈ R,p {X1 = x1 ,X2 = x2 } =
0
Preuve. ∀a1 ,b1 ∈ R,a1 < b1 , on a : p (a1 < X1 < b1 ) = p (a1 < X1 < b1 ,X2 ∈ R) =
R b R +∞
p (a1 < X1 < b1 , − ∞ < X2 < +∞) = a11 −∞ f (x1 ,x2 ) dx2 dx1 . On en
43
R +∞
déduit que −∞ f (x1 ,x2 ) dx2 est la densité de la variable aléatoire X1 , Le
même raisonnement permet de retrouver la densité de la variable aléatoire X2 .
p (a2 < X2 < b2 ) = p (X
R +∞ R b2 1 ∈ R,aR2 <X 2 < b2 ) = p (−∞< X1 < +∞,a2 < X2 < b2 ) =
b2 R +∞
−∞ a2
f (x1 ,x2 ) dx2 dx1 = a2 −∞ f (x1 ,x2 ) dx1 dx2
44
Définition 100 Si (U,V ) est un vecteur aléatoire à valeurs dans R2 de den-
sité f (·,·) telque E (U 2 ) < +∞ et E (V 2 ) < +∞, on appelle covariance
de U et de V , le réel noté cov (U,V ) défini par : cov (U,V ) = E (U V ) −
E (U ) E (V ) = E ((U − E (U )) (V − E (V ))) .
Définition 101 Soient X et Y deux variables aléatoires telles que E (X 2 ) <
+∞ et E (Y 2 ) < +∞,var (X) 6= 0 et var (Y ) 6= 0, on appelle coefficient
de corrélation du couple (X,Y ) le réel noté ρ (X,Y ) défini par ρ (X,Y ) =
√ cov(X,Y
√)
var(X) var(Y )
45
si et seulement si pour tous les intervalles ouverts réels I1 et I2 , on a p {X1 ∈ I1 ,X2 ∈ I2 } =
p {X1 ∈ I1 } p {X2 ∈ I2 }
46
Preuve. Soit A unRRintervalle de R, Soit B = {(x,y)
RR ∈ R2 ,x + y ∈ A} ,p {X + Y ∈ A} =
p {(X,Y ) ∈ B} = f (x) g (y) dxdy = f (x) g (y) dxdy
B {(x,y)∈R2 ,x+y∈A}
R Effectuons
R le changement de variables (u,v) = (x,x + y) , on a p {X + Y ∈ A} =
u∈A v∈A
f (u) g (v − u)
R dv du. Il en résulte que la variable aléatoire X+Y
a pour densité h (v) = R f (u) g (v − u) du
1.7 Convergences
Theorem 110 Loi faible des grands nombres
Soit (Xk )k≥1 une suite de variables aléatoires indépendantes deux à deux
de même loi, telles que E (X1 ) < +∞, alors ∀ > 0, lim p X n − E (X1 ) ≥ =
n→+∞
n
1
P
0 où X n = n Xi
i=1
n
n
1 nE(Xi ) 1
P P
Preuve. E X n = n
E (Xi ) = n
= E (Xi ) ; var X n = var n
Xi =
i=1 i=1
n
1 var(Xi )
P
n2
var (Xi ) = n
il résulte de l’inégalité de Tchébytchef que p X n − E (X1 ) ≥ ≤
i=1
var(X n )
2
= var(X
n2
i)
→ 0 quand n→ +∞
Cette loi faible des grands nombres, outre son importance en probabilité
sert beaucoup en statistique.
Sn −nE(Xi ) √
Remarque 112 √ = √n −E(Xi )
nX
nvar(Xi ) var(Xi )
47
1.8 Famille exponentielle:
La famille de loi exponentielle joue un rôle important statistique car elle
possède un certain nombre de propriété intéressante. Il s’agit
P de loi dont la
k
densité peut s’écrire sous la forme :f (x,θ) = a (θ) b (x) exp j=1 αj (θ) Tj (x)
48
Troisième partie
Inférence statistique
49
Chapitre 1
L’échantillonnage
1.1 Introduction
Le problème de l’inférence statistique est le suivant : Disposant d’un
échantillon de taille n, on désire en déduire les propriétés de la population
dont il est issu. Ainsi on cherchera à estimer, par exemple, la moyenne de la
population m à partir de la moyenne x d’un échantillon. ceci n’est possible
que si l’échantillon a été choisi d’une certaine manière.
La théorie de l’échantillonage étudié les relations qui existent entre la
distribution d’un caractère dans une population mère ou d’origine et les dis-
tributions de ce caractères dans tous les différents échantillons prélévés dans
cette population mère.
50
1.2.1 Les méthodes empiriques
Ce sont plus connu du grand public et les plus utilisées par les instituts
de sondage d’opinion.
a) méthodes élementaires
Elle consiste à tirer au hasard n individus dans une population N. Chaque
individu ayant une probabilité de 1/N d’être tiré. On parle aussi d’échantillon
aléatoire simple. Si les probabilités d’être tiré varie d’un individu à un autre,
on parle d’échantillon biaisé et de sondage à probabilité inégale.
b) Sondage stratifié
L’idée consiste à composer un échantillon à l’aide des sous échantillons
prélévés généralement de façon proportionnelle dans les différentes sous-
populations appélées strates de la population globale. cette méthode permet
d’améliorer considérablement la précision des estimations.
c) sondage systématique
Il consiste à prendre non pas des individus au hasard sur une liste comme
au point a, mais des individus régulièrement espacés sur la liste.
51
d) sondage par grappe
On tire au hasard des familles d’individus appélée grappes qu’on introduit
dans l’échantillon.
Exemple 119 On tire d’abord les immeubles, on interroge tous les habitants
de l’immeuble.
Exemple 120 On tire au hasard les villes, puis dans les villes on tire au
hasard les quartiers, puis les immeubles, puis les habitants.
Définition 121 L’échantillon sera dit exhaustif si le tirage est sans remise
et il est dit non exhaustif dans le cas contraire.
52
P3
xi
, une variance s2 = 13 x2i − x2 , et
P
correspond une moyenne x = i=1 3
un écart type s et une proportion de succès (1 seule vehicule/résidence)
p = nombre de résidences de l’échantillon
3
ne possédant qu’un seul auto
Nous retrouvons de-
vant l’ensemble des possibilité suivants: P3
xi
s2 = 13 x2i − x p
P
(x1 ,x2 ,x3 ) p (x1 ,x2 ,x3 ) x = i=1 3
(1,1,1) 27/125 1 0 3/3=1
(1,1,2) 18/125 4/3 2/9 2/3
(1,2,1) 18/125 4/3 2/9 2/3
(1,2,2) 12/125 5/3 2/9 1/3
(2,1,1) 18/125 4/3 2/9 2/3
(2,1,2) 12/125 5/3 2/9 1/3
(2,2,1) 12/125 5/3 2/9 1/3
(2,2,2) 8/125 2 0 0
Dans toute la suite et comme en statistique, La majuscule désigne la va-
riable aléatoire ou l’ensemble des possibilités et la miniscule pour identifier
une réalisation ou une possibilité. Plusieurs x; s2 ,p nous amènent à considérer
les variables aléatoires X,S 2 ,P et leur caracteristiques respectives.
La distribution de probabilité de la variable X, moyenne d’échantillon
4 5
x 127 354 336 28 avec pour espérance E X =
aléatoire est :
P X=x 125 125 125 125
27 4 54
+ 53 × 12536 8
= 1,4 et sa variance V X = (1)2 ×
1 × 125 + 3 × 125 + 2 × 125
4 2 5 2
27 54 36
+ (2)2 × 125 8
− (1,4)2 = 0,08
125
+ 3
× 125
+ 3
× 125
La distribution de probabilité de la variable S 2 , variance d’échantillon
2
s2 0
aléatoire est : 2 2 35
9
90 avec pour espérance E (S 2 ) = 0 ×
P ({S = s }) 125 125
2 2 2
35 2 90 35 90
− (0,16)2 =
2
125
+ 9
× 125
= 0,16 et sa variance V (S ) = (0) × 125
+ 9
× 125
0,01
La distribution de probabilité de la variable P , proportion de succès aléatoire,
1 2
p 0 3 3
1
à l’interieur de l’échantillon est : 8 36 54 27 avec
P P =p 125 125 125 125
27
+ 23 × 12554
+ 13 × 125
36 8
pour espérance E P = 1× 125 +0× 125 = 0,6 et sa variance
2 2 2 2
27
+ 23 × 125 54
+ 13 × 125 36 8
− (0,6)2 = 0,08
V P = (1) × 125 + (0) × 125
53
de differentes façons. L’ensemble des différentes échantillons possibles est dit
”échantillons aléatoires” et noté (X1 ,X2 ,...,Xn )
Un ensemble d’échantillons possibles amène un ensemble de moyenne
d’échantillon possibles, un ensemble de variance possibles et un ensemble
de proportions de succès possibles à l’interieur de l’échantillon. L’ensemble
des différentes moyennes d’échantillon possibles sont les observations d’une
variable aléatoire appélée ”moyenne d’échantillon aléatoire” et noté X.
Cette variable possède une distribution de probabilité, une espérance E X
et une variance V X . L’ensemble des différentes variances d’échantillon
possibles sont les observations d’une variable aléatoire appélée ”variance
d’échantillon aléatoire” et noté S 2 . Cette variable possède une distribu-
tion de probabilité, une espérance E (S 2 ) et une variance V (S 2 ) . L’ensemble
des différentes proportions de succès possibles à d’échantillon possibles sont
les observations d’une variable aléatoire appélée ”variance d’échantillon
aléatoire” et noté S 2 . Cette variable possède une distribution de probabi-
lité, une espérance E (S 2 ) et une variance V (S 2 ) .L’ensemble des differentes
proportions de succès possibles à l’interieur de l’echantillon est dit ” propor-
tion de succes ALEATOIRE à l’interieur de l’echantillon” et note P . Cette
variable possède
une distribution de
probabilité, une espe-
rance E P et une variance V P .Enfin une echantillon particulier tirer de
cette population est unique.il est noté(x1; x2 ....xn ) .et il possède une moyenne
unique:x, une variance unique :S 2 et une proportion de succès unique:P
Preuve. E X = E n1 Xi = n1
P P
E (Xi ) car E () est linéaire. E X =
1
µ = n1 nµ = µ et V X = V n1 Xi = n12
P P P
n
V (Xi ) d’après les
1 1 σ2
P 2 2
propriétés des variances V X = n2 σ = n2 nσ = n
Remarque 124 la premiere partie de ce theorème nous indique que bien
qu’il ait plusieurs moyennes d’echantillon possibles x au moment de prelèvement
54
d’un echantillon,l’ensemble de ces differentes possibilite gravite autour de
µ,,la veritable moyenne de la population . comme exemple ;imaginons un
collège ou la moyenne d’age des etudiants serait µ = 18 ans.un echan-
tillon tiré de ce college pourrait presenter une moyenne d’age x1 de 17.75
ans;un second; une moyenne x2 de 18.25 ans;un troisieme; une moyenne x
3 de 17.85 ans, et ainsi de suite. Certains echantillons possèdent donc une
moyenne x inferieure à µ;d0 autre une moyenne supérieurne.mais
la moyenne
probable de ces differentes possibilités de moyennes;E X ;correspond precise-
ment à µ = 18 ans;la moyenne d’age reèlle des etudiants de ce collège.
Quant à la deuxieme partie de ce théorème;elle precise que ces differentes
moyennes d’échantillon possible x tournent autour de la vraie moyenne µ de
la population avec une dispersion qui depend de n au denominateur.ainsi;plus
n est grand;plus V[x] est petit;plus la dispersion des differntes Xest faible,plus
la concentration des xatour de µ est resserrée.pour illustrer cette loi,reprenons
notre exemple de l’age des etudiants d’un collège. Si nous ne prelevons qu’un
echantillon de 2 etudiants,il est possible que celui ci soit composé de 2
etudiants plus jeunes (ou de 2 etudiants très vieux)par rapport à l0 ensemble,
ce qui nous donne une possibilité d’obtenir une moyenne d’echantillon très
faible(ou trè forte)par rappot à la moyenne reelle µ de ce collège.une petite
taille d’echantillon offre donc une possibilité de differences importantes entre
les diverses moyennes d’echantillon possible. Par contre, si nous prelevons
un echantillon de 500 etudiants, il devient trè peu probable.bien que ce soit
toujours possible; que la moyenne xd’un tel echantillon soit très faibleou très
forte par rappot à celle du collège. Ainsi, plus la taille de l’echantillon est
grande,plus les differentes moyennes d’echantillon possibles x ont de chance
d’être rapprochées de la moyenne µ de la population.
1.4.2 ETUDE DE S2
Theorem 125 Soit σ 2 la variance d’un caractère donné a l’intérieur de la
population et S 2 la variance d’échantillon aléatoire de ce caractère, alors
E [S 2 ] = (n−1)
n
σ 2 où n est la taille de l’échantillon
Preuve. en Exercice
55
les différentes variances d’échantillon S 2 sont ( Biaisées ) par rapport à σ 2 .
Le biais provenant du coéfficient n−1 n
. Nous pouvons quand meme constater
que plus la valeur de n est grande moins le biais est prononcé , car alors n−1 n
→ 1. D’autre part , à cause du n dénominateur de V [S 2 ] nous pouvons encore
déduire que plus la taille de l’échantillon est importante , plus la concentration
des différents S 2 est resserée autour de (n−1)
1
σ2
1.4.3 ETUDE DE P
Theorem 127 Soit p la proportion de succès à l’intérieur de la population
et p la proportion de succès aléatoire à l’intérieur d’un échantillon de taille
n prélevé dans cette population , alors E[p] = p et V [p] = pq n
Preuve. en Exercice
Remarque 128 Le sens de ce théorème est très voisin de l’énoncé précédent
au sujet deX Les différentes proportions de succès possibles p à l’intérieur
d’un échantillon gravitent autour de la proportion de succès à l’intérieur de
la population p avec une concentration d’autant plus forte que la taille de
l’échantillon est importante.
56
Si l’on se rappelle que dans une distribution normale , la presque totalité des
valeurs du caractère se situent dans l’intervalle (u − 3σ; u + 3σ), une telle
donnée nous permet de conclure que dans cette région √ la presque totalité
√ dse
bébés garçons mesurent à la naissance entre 49 − 3 1,5 et 49 + 3 1,5cm,
c’est à dire entre 45,33 et 52,67 cm. De plus , avec cette donnée si nous
notons X la taille d’un bébé garçon , nous pouvons calculer entre autres que
le probabilité qu’un bébé choisi au hasard mesure entre 48,5 et 49,5 est égale
à P [48,5 ≤ X ≤ 49,5] = P [−0,41 ≤ Z ≤ 0,41] = 0,3182. Que se passe-
rait -il si l’on tirait un petit échantillon composé de 5 de ces bébés? D’après
l’énoncé de ce théorème , si l’on notex, la taille moyenne d’un tel échantillon
alors x : N (49 : 1,5 5
) = N (49; 0,3), Nous pouvons donc calculer que la
presque totalité des moyennes possibles
√ , pour √ un échantillon
de cette taille
se situent dans l’intervalle 49 − 3 0,3; 49 + 3 0,3 = [47,36; 50,64] cm et
que pour un tel échantillon p [48,5 ≤ x ≤ 49,5] = p [−0,91 ≤ Z ≤ 0,91] =
0,6372, Que se passerait -il , maintenant si l’on tirait un écantillon com-
posé de 50 de ces bébés ? Toujours d’après l’énoncé de notre théorème ,
si l’on notex la taille moyenne d’un tel échantillon , alorsX: N(49; 1,5 50
) =
N (49;0,03 ) Nous pouvons cdonc calculer la presque totalité des moyennes
possibles
√ , pour un échantillon
√ de cette taille , se situent dans l’intervalle
49 − 3 0,03; 49 + 3 0,03 = [48,48; 49,52] cm, et que ,pour un tel échantillon
, P [48,5 ≤ x ≤ 49,5] = P [−2,89 ≤ z ≤ 2,89] = 0,9962, Ainsi, pour la va-
riable x distribuée dans l’ensemble de la population selon une loi N(49 ; 1,5
) , alors que ses différentes possibilités s’étalent normalement entre 45,33 et
52,67 cm ,les différentes possibilités de ses moyennes d’échantillon de taille
n s’étalent aussi normalement autour de u = 49 mais avec une concentration
d’autant plus forte que n est gand
Remarque 132 Plus n est grand ,plus cette approximation est juste dans la
pratique , on la cosidère généralement valable dès que n ≥ 30. Cependant,
si l’on soupçonne que la loi de probabilité de X est vraiment asymétrique ou
plurimodale , une étude minutieuse nous demanderait plutot de considérer
n ≥ 50
57
a ) quelle est la probabilité que le nombre moyen de naissances par jour ,
pour un échantillon de 10 jours se situe entre 6,5 et 7,5?
ici si l’on note X le nombre de naissances par jour, alors X suit une loi
quelconque, Comme n = 10 , la taille de l’échantillon est petite et le théorème
ne s’applique pas , nous ne pouvons pas donc connaitre la loi de probabilité
de X et delà , nous ne pouvons pas repondre à la question posée
b ) Si l’on revélait plutot un échantillon de 125 jours , quelle serait alors la
probabilité que le nombre moyen de naissance par jour , pour cette échantllon
se situe entre 6,5 et 7,5
2
Encore ici , X suit une loi2 aquelconque avec µ = 7 et σ = 4. comme n =
σ
125 est grand ,X N µ : n = N (7; 4/125) et ainsi P 6,5 ≤ X ≤ 7,5 =
P [−2,80 ≤ Z ≤ 2,80] = 0,9948
Exemple 135 Dans une compagnie, 35% du personnel est de sexe feminin
a) Entre quelles valeurs, environ devrait se situer la proportion de femme
dans un échantillon de 100 individu dans cette compagnie?
b) Quelle est la probabilité de retrouver entre 33% et 36,5% à l’interieur
d’un tel échantillon?
a) si l’on note P la proportion des femmes à l’interieur de l’échantillon
et comme n = 100 ≥ 30,np = 100 × 0.35 = 35 ≥ 5,nq = 100 × 0.65 = 65 ≥ 5
pq
alors P ' N p; n = N (0.35; 0.002275) et ainsi
√ √
p ∈ 0.35 − 3 0.002275; 0.35 + 3 0.002275 = [0.2069; 0.4931]
b)p 0.335 ≤ P ≤ 0.365 ' p [−0.31 ≤ Z ≤ +0.31] = 0.2434
58
Chapitre 2
ESTIMATION
2.1 Introduction
La distribution exacte d’une variable X modélisant le caractère qui inter-
esse le statisticien (taux de pollution d’une rivière, dépenses des ménages
pour le logement...) est généralement partiellement connue. La loi de X
dépend d’un parametre inconnu. On cherche à se faire une idée sur ce pa-
ramètre à partir des données observées sur l’échantillon. Ainsi attribuer
au paramètre une valeur numérique unique est une ESTIMATION PONC-
TUELLE. Pour ce faire, on choisit une statistique dont la valeur est, après
tirage aléatoire de l’échantillon, l’estimation du paramètre. Cette statistique
est l’ESTIMATEUR. Mais quelles sont les chances pour que cette estima-
tion ponctuelle soit exacte? Plutôt que d’estimer un paramètre à l’aide d’un
seul nombre, il arrive fréquemment que l’on fasse l’estimation en donnant
un INTERVALLE de valeurs. Un INTERVALLE D’ESTIMATION (ou de
CONFIANCE) est défini de telle sorte que l’on puisse affirmer avec un degré
de confiance fixé que le paramètre visé se trouve dans cet intervalle.
Nous nous intéresserons dans ce chapitre à l’estimation des principales
caractéristiques (ou paramètres) d’une v.a dans une population, à savoir la
moyenne, la variance et la fréquence.
Notations
• les paramètres à estimer seront notés par des lettres grecques minuscules
µ : moyenne
σ : écart-type
σ 2 : variance
π: proportion
• les réalisations d’échantillon seront notées par des lettres latines minus-
cules
59
x1 ,...,xn : valeur de l’échantillon
x : moyenne de l’échantillon
s : écart-type de l’échantillon
s2 : variance de l’échantillon
p : proportion dans l’échantillon
• les estimateurs ( v.a. ou statistiques) seront notés par des majuscules
X
S2
F
60
Définition 141 Un estimateur sans biais ou asymptotiquement sans biais
est dit convergent si V (T ) → 0 pour n → +∞
Une seconde qualité est l’absence de biais d’un estimateur.Un bon esti-
mateur doit être sans biais. c’est à dire que l’estimation ne soit pas décalé
systèmatiquement de sa vraie valeur.
61
Ainsi, de deux estimateurs sans biais, le plus performant sera celui de
variance minimale. Nous chercherons donc
généralement à utiliser des estimateurs sans biais de variance minimale.
Exemple 147 On peut montrer que lorsque µ est connue, l’estimateur Vµ2 =
1
Pn 2 2
n i=1 (Xi − µ) est meilleur que S .
62
Ce qui signifie que si T est connue, l’échantillon n’apportera plus aucune
autre information supplémentaire sur θ
Exemple
Pn 151 Pour la loi normale de moyenne connue , la statistique T =
1 2 2
n i=1 (Xi − µ) est exhaustive pour σ .
Exercise 154 Donner des statistiques exhaustives pour les lois de Bernoulli,
exponentielle et normale (avec soit la variance connue, soit la moyenne).
Propriété :
(i) Si le domaine de définition de la loi de l’échantillon ne dépend pas de
θ, In (θ) = nI1 (θ)
(ii) Si la loi de l’échantillon est une loi normale de variance connue, (θ =
µ), alors I1 (θ) = σ12
63
2
∂lng(t;θ)
(iii) en notant IT (θ) = E ∂θ
l’information de Fisher apportée
par la statistique T, avec g(t; θ) la densité de T, on a IT (θ) ≤ In (θ). On a
égalité si T est exhaustive, et réciproquement si le domaine de définition de
la loi de l’échantillon est indépendant de θ .
Theorem 159 S’il existe une statistique exhaustive U, alors l’unique esti-
mateur T de θ sans biais de variance minimale ne dépend que de U.
64
Le résultat suivant nous indique une borne à laquelle ne peut être inférieure
la variance d’un estimateur.
Theorem 163 (Inégalité de Fréchet-Darmois-Cramer-Rao). Si le domaine
de définition de la loi de l’échantillon ne dépend pas de θ, tout estimateur T
vérifie
1
V (T ) >
In (θ)
et si T est un estimateur sans biais de h(θ)
[h0 (θ)]2
V (T ) >
In (θ)
Définition 164 Un estimateur qui atteint la borne de Cramer-Rao est dit
efficace. Autrement dit, un estimateur est efficace s’il n’est pas possible de
trouver un estimateur sans biais de variance plus faible.
Theorem 165 (efficacité). — la borne de Cramer-Rao ne peut être atteinte
que si la loi de l’échantillon est de la famille exponentielle :
f (x; θ) = exp [a(x)α(θ) + b(x) + β(θ)]
dans ce cas il n’existe qu’une seule fonction du paramètre (à une transforma-
tion linéaire près) qui
Theorem 166 puisse être estimée efficacement, c’est
β 0 (θ)
h(θ) = −
α0 (θ)
L’estimateur de h(θ) est alors
n
1X
T = a (Xi )
n i=1
65
2.6 Méthode du maximum de vraisemblance
La méthode du maximum de vraisemblance permet de trouver des esti-
mateurs dans toutes les situations, même les plus compliquées. C’est une des
méthodes d’estimation les plus utilisées.
Cette méthode consiste à recherche le paramètre θ qui maximise la fonc-
tion de vraisemblance L(x1 ,...,xn ; θ), c’est-à-dire pour lequel la densité de
l’échantillon est la plus grande. L’estimateur du maximum de vraisemblance
(EMV) est donc une solution de l’équation de vraisemblance
∂
ln L(x1 ,...,xn ; θ) = 0
∂θ
∂2
vérifiant ∂θ 2 ln L(x1 ,...,xn ; θ) < 0. Un certain nombre de propriété nous
b
prouve l’intérêt de cette estimateur.
Propriété
(i) S’il existe une statistique exhaustive U, alors l’EMV en dépend.
(ii) Si θb est l’EMV, f (θ) b est l’EMV de f (θ)
(iii) Il existe une suite θbn de racines de l’équation de vraisemblance
qui converge presque sûrement vers θ. de
plus, il existe un rang à partir duquel le maximum est atteint.
L 1
(iv) θbn ,→ N θ, In (θ)
La dernière propriété nous assure que l’EMV est asymptotiquement effi-
cace. Il est donc important d’avoir un
échantillon important pour utiliser cet estimateur.
Lorsque le modèle comporte plusieurs paramètres θ1 ,...,θp , il sera nécessaire
de résoudre le système d’équation
simultanées
∂
ln L(x1 ,...,xn ; θ) = 0,∀1 ≤ i ≤ p
∂θi
Remarque 168 — L’équation de vraisemblance n’a pas nécessairement une
unique racine.
— La solution de l’équation de vraisemblance n’est pas toujours calculable
analytiquement. Dans ce cas, des algorithmes de recherche de maximum (de
type Newton) peuvent être utilisés.
66
2.7 Estimation ponctuelle des paramètres usuels
2.7.1 Estimation de la moyenne
Soit X une v.a dont on veut estimer la moyenne (ou espérance) µ = E(X)
à partir d’un n-échantillon (X1 ,...,Xn ) de X. On ne suppose rien sur la loi de
X.
n
1
P
Theorem 169 X = n
Xi , la moyenne empirique, est un estimateur effi-
i=1
cace de µ
a) µ connue
n
Theorem 170 T 2 = 1
(Xi − µ)2 est un estimateur efficace de σ 2
P
n
i=1
Preuve.
n n n
1X 1X 2 1X
2
E(T ) = E( (Xi − µ)2 ) = E( Xi − 2 µXi + µ2 )
n i=1 n i=1 n i=1
n n n
1X 1X 1X
= E(Xi2 ) − 2µ E (Xi ) + µ2 = E(Xi2 ) − µ2
n i=1 n i=1 n i=1
n n
1X 1X 2
= E(Xi2 ) − µ = σ = σ2
n i=1 n i=1
67
n n
1X 2 1 X
2
(Xi − µ)2 )
V T = V( (Xi − µ) ) = 2 V (
n i=1 n i=1
n n
1 X 2 1 Xh 4 2 2
i
= V ((X i − µ) ) = E((X i − µ) ) − E((Xi − µ) ) = .... → 0
n2 i=1 n2 i=1
b) µ inconnue
n 2
1
Theorem 171 S 2 =
P
n
Xi − X c’est à dire la variance empirique est
i=1
2
un estimateur biaisé de σ , mais asymptotiquement sans biais.
n−1 2
Preuve. D’après le chapitre précedant E(S 2 ) = n
σ ;
B(S 2 ) = E(S 2 ) − σ 2 = n−1
n
σ 2 − σ 2 = − n1 σ 2
2
V (S ) → 0 quand n → +∞
n 2
Theorem 172 (S 0 )2 = n
S2 1
P
n−1
= n−1
Xi − X est un estimateur sans
i=1
biais de σ 2
Preuve. E((S 0 )2 ) = n
n−1
E(S 2 ) = n n−1 2
n−1 n
σ = σ 2 donc sans biais.
68
2.7.4 Exemples d’estimations ponctuelles
Exercice 1: (estimation d’une moyenne, d’un écart-type)
Lors d’un concours radiophonique, on note X: le nombre de réponses
reçues chaque jour. On suppose X N (µ,σ). Durant 10 jours on a obtenu:
xi — 200 240 190 150 220 180 170 230 210 210 . Donner une estimation
ponctuelle de µ, σ 2 .
solution
n = 10
1 1
X = 10 (X1 + ... + X10 ) est un estimateur de µ, sa réalisation x = 10 (x1 +
... + x10 ) = 2000
10
= 200 est une estimation ponctuelle efficace de µ. Dans le cas
2 1 2 2
2
de la variance, la moyenne µ est inconnue d’où S = 10 (X1 +...+X10 )− X
1
est un estimateur biaisé de σ 2 , sa réalisation s2 = 10 (x21 + ... + x210 ) − (x)2 =
40700−40000 = 700 est une estimation biaisé de σ 2 . (S 0 )2 = n−1 n
S 2 = 10 9
700 =
778 est une estimation ponctuelle sans biais de σ 2 .
solution
K 48 66 48+66
F= ,f
n 1
= 120
= 0.4; f2 = 150
= 0.44; f3 = 120+150
= 0.422;
69
est donc souhaitable de donner la précision de l’estimation en acceptant de
faire une erreur sur celle-ci.
Définition 175 Soit X une v.a. dont la loi dépend d’un paramètre inconnu
θ; on appelle INTERVALLE DE CONFIANCE pour de niveau 1 − α (ou de
seuil α), un intervalle qui a la probabilité 1 − α de contenir la vraie valeur
de θ.
[t1 ,t2 ] est un intervalle de confiance de niveau 1 − α pour signifie P (t1 <
θ < t2 ) = 1 − α
(plus le niveau de confiance est élevé, plus la certitude est grande que la
méthode d’estimation produira une estimation contenant la vraie valeur de
θ)
α
où u1− α2 est un fractile d’ordre 1 − 2
de la loi normale centrée réduite
70
X−µ
p −u1− α2 < √σ
< u1− α2 = 1−α ⇔ p X − u1− α2 √σn < µ < X + u1− α2 √σn =
n
X−µ
b-1) σ connu Le théorème de limite centrale montre que √σ
N (0,1)
n
71
b-2) σ inconnu On peut prendre comme intervalle de confiance celui de
X−µ
la section a-2). On peut également utiliser l’approximation suivante : S/ √
n
N (0,1) et on se fixe l’erreur α et on cherche dans la table de la loi normale
la valeur u1− α2 telle que
X −µ
p −u1− α2 < √ < u1− α2 = 1−α
S/ n
X −µ α
p √ < u1− α2 = 1−
S/ n 2
on a √ √
p X − u1− α2 S/ n < µ < X + u1− α2 S/ n = 1 − α d’où si x est une
réalisation de X et s une réalisation de S,
l’intervalle de confiance de µ de seuil α est
s s
I = x − u1− α2 √ ,x + u1− α2 √
n n
√ √
Remarque 179 Plus n est grand, plus I est petit (car 1/ n ou bien 1/ n − 1est
petit) et donc meilleure est la précision de l’estimation.
72
et l’intervalle de confiance de σ de seuil α est
s s
n n
I = t ,t
kn(1− α ) kn( α )
2 2
b) µ inconnue
nS 2
On montre que σ2
χ2n−1 .L’erreur α étant fixée,
on cherche dans la table
2
χ2n−1 les valeurs kn−1( α ) et kn−1(1− α ) telles que p kn−1( α ) < nS
σ2
< kn−1(1− α ) =
2 2 2 2
2 2
1 − α ⇔ p k nS α < σ 2 < k nS α = 1 − α. donc, si s2 est une réalisation
n−1(1− 2 ) n−1( 2 )
73
q
π(1−π)
N π, n
pour nπ > 5,n (1 − π) > 5, on cherche dans la table de
la loi normale la valeur u1− α2 telle que
F −π
p −u1− α2 < q < u1− α2 = 1 − α
π(1−π)
n
q q
π(1−π) π(1−π)
on a p F − u1− α2 n
< π < F + u1− α2 n
=1−α
Le problème est le terme π (1 − π) est inconnu. Deux options sont envi-
sageables
1−α
On cherche les racines π1 et π2 de l’équation (f − π)2 − u21− α π(1−π)
n
<0
2
connaissant u1− α2
I = [π1 ,π2 ]
74
Chapitre 3
Test d’hypothèse
3.1 Introduction
Les tests statistiques constituent une deuxième forme d’inférence sta-
tistique, de conclusion portée sur la population à partir d’un échantillon
unique tiré de celle ci. Alors que l’estimation avait pour but de cerner le plus
précisement possible la valeur inconnue d’un parametre de la population, les
tests statistiques cherchent plutot à confronter deux hypothèses exprimant
deux tendances générales au sujet d’un parametre et à determiner au regard
de l’échantillon observé, laquelle des deux semble la plus vraisemblable.
Définition 182 Un test statistique est une règle de décision concernant une
hypothèse nulle notée H0 et eventuellement une hypothèse alternative notée
H1 . Un test d’hypothèse est un procédé d’inférence permettant de contrôler
(accepter ou rejeter) à partir de l’étude d’un ou plusieurs échantillons aléatoires,
la validité d’hypothèses relatives à une ou plusieurs populations.
- les tests paramétriques ont pour objet de tester une certaine hypothèse
relative à un ou plusieurs paramètres d’une variable aléatoire de loi
75
spécifiée (généralement supposée normale). Lorsque le test est toujours
valide pour des variables non gaussiennes, on dit que le test est robuste
(à la loi).
- les tests non paramétriques qui portent généralement sur la fonction de
répartition de la variable aléatoire, sa densité...
- les tests libres (distributions free) qui ne supposent rien sur la loi de pro-
babilité de la variable aléatoire étudiée (et qui sont donc robuste). Ces
tests sont souvent non paramétriques, mais pas toujours.
Dans ce cours, nous classons les tests en fonction de leur fonctionnalité :
- Tests sur une population :
Les tests destinés à vérifier si un échantillon peut être considéré comme
extrait d’une population donnée, vis-à-vis d’un paramètre comme la moyenne
ou la fréquence observée (tests de conformité) ou par rapport à sa distribu-
tion observée (tests d’ajustement). Dans ce cas la loi théorique du paramètre
est connue au niveau de la population. Est-ce que le taux de glucose moyen
mesuré dans un échantillon d’individus traités est conforme au taux de glu-
cose moyen connu dans la population ? (test de conformité) Est ce que la
distribution des fréquences génotypiques observées pour un locus donné est
conforme à celle attendue sous l’hypothèse du modèle de Hardy-Weinberg ?
(test d’ajustement).
Dans ce cours on fera un :
1. test sur le caractère centrale d’une population,
2. test sur la variance,
3. test sur une proportion,
4. test de l’aléatoire d’un échantillon,
5. test d’ajustement à une loi spécifiée,
6. test de liaison entre variables (quantitatives, qualitatives, mixtes)
- Tests de comparaison de deux populations
Les tests destinés à comparer plusieurs populations à l’aide d’un nombre
équivalent d’échantillons (tests d’égalité ou d’homogénéité) sont les plus
couramment utilisés. Dans ce cas la loi théorique du paramètre est incon-
nue au niveau des populations. On peut ajouter à cette catégorie le test
d’indépendance qui cherche à tester l’indépendance entre deux caractères,
généralement qualitatifs. Y a-t-il une différence entre le taux de glucose
moyen mesuré pour deux échantillons d’individus ayant reçu des traitements
différents? (tests d’égalité ou d’homogénéité). Est-ce que la distribution des
fréquences génotypiques observées pour un locus donné est indépendante du
sexe des individus? (test d’indépendance).
76
3.2 Principes des tests
H0 : θ = θ0
où θ0 est une valeur donnée du paramètre. Le choix de cette hypothèse
est fait de manière conservative : si on teste un médicament, on prendra H0
l’hypothèse où le médicament n’a pas d’effet. C’est également souvent la plus
importante des deux hypothèses puisque c’est celle dont on contrôle le risque.
L’hypothèse alternative H1 est quant à elle généralement composite :
H1 : θ ∈ Θ1
où Θ1 est une partie de R non nécessairement réduite à un élément.
Cette hypothèse se ramène souvent à un des cas suivants : θ < θ0 ,θ > θ0 (test
unilatéraux) ou θ 6= θ0 (test bilatéral).
Suivant la justesse de la décision prise à l’issue du test, on est en présence
de 4 cas de figure
H0 vrai H1 vrai
On décide H0 Conclusion correcte (1 − α) Erreur de 2ème espèce (Risque β)
On ne décide pas H0 Erreur de 1ère espèce (Risque α) Conclusion correcte (1 − β)
Exemple (Importance du choix des hypothèses). Considérons le test des
hypothèses suivantes :
— hypothèse H0 : le patient doit être hospitalisé,
— hypothèse alternative H1 : le patient ne doit pas être hospitalisé.
77
L’erreur de première espèce consiste à ne pas hospitaliser un patient qui
en avait besoin. Cette erreur est très grave, puisqu’elle peut conduire au
décès du patient. Le risque de deuxième espèce, qui consiste à hospitaliser
un patient qui n’en avait pas besoin peut s’avérer moins grave.
Le role des hypothèses n’est pas symétrique, en effet, la plupart du temp,
on préfère se tromper en affirmant H0 alors que’lle est fausse plutot que de re-
jeter H0 alorqu’elle est vraie. De plus il est commun d’avoir une hypothèse H0
très simple par rapport à une hypothèse alternative H1 plus vaste, plus com-
plexe. Par conséquent, On se retrouve fréquemment à connaitre la loi de la
statistique de test sous hypothèse nulle H0 mais aussi sous l’hypothèse alter-
native. En générale, nous rencontrons deux types d’alternatives : La négation
de l’hypothèse nulle ou un sous ensemble de cette négation.
78
3.2.4 Synthèse
Différentes étapes doivent être suivies pour tester une hypothèse :
(1) définir l’hypothèse nulle (notée H0) à contrôler,
(2) choisir un test statistique ou une statistique pour contrôler H0,
(3) définir la distribution de la statistique sous l’hypothèse H0 est
réalisée ,
(4) définir le niveau de signification du test ou région critique notée 3b1,
(5) calculer, à partir des données fournies par l’échantillon, la valeur de
la statistique
(6) prendre une décision concernant l’hypothèse posée et faire une in-
terprétation
biologique
3.2.5 p-value
En pratique, plutôt que de calculer la région critique en fonction de α ,
on préfère donner un seuil critique α∗ , appelée p-value, qui est la plus grande
valeur de α conduisant à ne pas rejeter H0 . Cette information permet au
lecteur de conclure à l’acceptation de H0 pour tout risque de première espèce
α < α∗ , et à son rejet pour tout α > α∗
79
La statistique de test est
X − µ0
U= √
σ/ n
Sous H0 , cette statistique suit une loi normale centrée réduite. d’après
les conditions précédentes (via le théorème centrale limite si seule la seconde
condition est satisfaite).
La région critique, définie par |U | > k, se traduit par X − µ0 > −µ α2 √σn
est le quantile de la loi normale centrée réduite d’ordre α2 . Ainsi,
on rejette H0 si |x − µ0 | > −µ α2 √σn
Remarque 183 (Calcul de la p-value). Pour ce test, on rejette H0 dès que
|x−µ0 |
√σ
> −µ α2 . La p-value est la valeur critique α∗ de α telle que |x−µ
√σ
0|
= −µ α2
n n
d’où α∗ = 2Φ − |x−µ √σ
0|
avec Φ la fonction de répartition de la loi normale
n
centrée réduite. Ainsi, dès que l’on choisi un risque α plus grand que α∗ , on
a −µ α∗ > −µ α2 et donc on rejette H0 . Au contraire, si le risque α est plus
2
|x−µ0 |
petit, on aura cette fois √σ
= −µ α∗ > −µ α2 et on conserve H0 .
n 2
80
Test H0 : σ 2 = σ02 contre H1 : σ 2 6= σ02 , moyenne µ connue
Lorsque la moyenne est connue, la statistique Vµ2 = n1 ni=1 (Xi − µ)2 est
P
la meilleure estimation de la variance
Sous l’hypothèse H0 , comme l’échantillon est gaussien, σn2 Vµ2 suit une loi
0
du χ2n (en tant que somme de carrés de N(0; 1)). Ainsi,
σ02 2 σ2
on rejette H0 si Vµ2 < χn, α ou encore Vµ2 > 0 χ2n,1− α
n 2 n 2
α α
où χn, α et χn,1− α sont les quantiles d’ordre 2 et 1 − 2 de la loi de χ2 à
2 2
2 2
n degrés de liberté. Attention, contrairement
à la loi de Student et à la loi normale, la loi du χ2 n’est pas symétrique.
du test n−1
σ02
S 2 suit sous H0 une loi de χ2 à n − 1 degrés de liberté.
La conclusion du test est alors la suivante :
σ02 2 σ02 2
on rejette H0 si S 2 < χn−1, α ou encore S 2 > χ α
n−1 2 n − 1 n−1,1− 2
81
3.3.3 Test sur une proportion pour un grand échantillon
Dans la population étudiée, une proportion p des individus possèdent un
certain caractère C. On se propose de comparer cette proportion p à une
valeur de référence p0 .
On considère un échantillon d’individus de taille n de cette population.
La variable aléatoire Xi égale à 1 si l’individu ipossède
P le caractère C suit
une loi de Bernoulli B(p), et le nombre d’individus ni=1 Xi possédant ce
caractère suit une loi binomiale B(n,p).
Si n est suffisamment grand, de sorte que np > 5 et n(1 − p) ¿ 5, on peut
considérer
Pn(loi des grands nombres)
que i=1 Xi suit une loi normale N (np,np(1 − p)), d’où la fréquence
Pn
empirique F = n i=1 Xi suit une loi normale N (p, p(1−p)
1
n
). Si n est trop
petit, le test est construit sur la loi binomiale.
Test H0 : p = p0 contre H1 : p 6= p0
La statistique du test est donc la fréquence empirique F qui suit sous H0
une loi N (p0 , p0 (1−p
n
0)
)
r
p0 (1 − p0 )
on rejette H0 si |f − p0 | > µ1− α2
n
Test unilateraux sur une proportion
q
p0 (1−p0 )
Test H0 : p = p0 contre H1 : p > p0 On rejette H0 si f > µ1−α n
+
p0 q
p0 (1−p0 )
Test H0 : p = p0 contre H1 : p < p0 On rejette H0 si f < µ1−α n
+
p0
82
On formule le problème de la façon suivante : on observe deux échantillons
(X1,1 ,...,X1,n1 ) et (X2,1 ,...,X2,n2 ), indépendants et de fonctions de répartition
F1 (x) et F2 (x). Le test exact revient à tester l’égalité de ces fonctions de
répartitions :
H0 : F1 (x) = F2 (x) contre H1 : F1 (x) 6= F2 (x):
Nous verrons dans un premier temps des tests paramétriques qui, sous
l’hypothèse de normalité des échantillons (ou de grandes tailles), consistent à
tester l’égalité des variances et des espérances des deux populations. Dans un
second temps, lorsque les échantillons sont de petites tailles nous présenterons
des alternatives non paramétriques.
X 1 − X 2 − (µ1 − µ2 )
T = q 2
σ1 σ2
n1
+ n22
qui suit, sous H0 , une loi normale centrée réduite. Ainsi, on rejettera H0
si
s
σ12 σ22
|x1 − x2 | > −µ α2 +
n1 n2
Dans le cas le plus courant, les variances sont inconnues. On doit alors
tester dans un premier temps vérifier si elles sont égales ou non (test de
Fisher) avant de pouvoir effectuer le test de comparaison des moyennes (test
de Student).
n1 V12 n2 V22
χ2n1 −1 et χ2n2 −1
σ12 σ22
83
Ainsi, sous l’hypothèse H0 que σ12 = σ22 , la statistique du test F suivante
suit une loi de Fisher Fn1 −1,n2 −1 ;
n1 V12
n1 −1 S12
F = n2 V22
=
S22
n2 −1
fn1 −1,n2 −1,1−α est le quantile de la loi de ficher-Snedecor Fn1 −1,n2 −1 d’ordre
1−α
84
Pour de petits échantillons gaussiens, l’approximation d’Aspin-Welch consiste
à utiliser le test de Student avec un degré de liberté non plus égal à n1 +n2 −2
mais égal à l’entier le plus proche de :
v12
1 n1 −1
n= ou c =
c2 (1−c)2 v12 v22
n1 −1
+ n2 −1 n1 −1
+ n2 −1
où a est une fonction de {1,...,n1 + n2 } dans R. A noter que seuls les rangs
du premier échantillon sont utilisés
dans la statistique S puisque la somme s’arrête à n1.
Lorsque les tailles d’échantillons n1 et n2 sont petites (¡ 30), il existe des
tables suivant la fonction a choisie
(Wilcoxon, médiane, scores normaux). Lorsque les tailles sont plus grandes
(cas dans lequel les tests paramétriques
85
sont également utilisables), la statistique S est approximativement dis-
tribuée suivant une loi normale.
Les moments de S sont :
nX
1 +n2 nX
1 +n2
n1 n1 n2
E [S] = a (i) V [S] = (a (i) − a)2
n1 + n2 i=1 (n1 + n2 ) (n1 + n2 − 1) i=1
1
Pn1 +n2
où a = n1 +n2 i=1 a (i)
86