Vous êtes sur la page 1sur 86

MAT 206: INTRODUCTION A LA STATISTIQUE

Ce cours à pour objectifs de données les bases de la statistique au jeune


mathématicien.

son programme est le suivant :

1. Statistique descriptives
2. Variable aléatoire Continue
3. Introduction à la théorie de l’estimation
4. Introduction à la théorie des tests.
5. Introduction aux series chronologiques

1
Première partie

Statistique descriptives

2
Chapitre 1

Généralité de la statistique
descriptive

1.1 Définition
Selon la définition de l’encyclopédia Universalis, le mot statistique désigne
à la fois un ensemble d’observation et l’activité qui consiste dans leur recueil,
leur traitement et leur interpretation. Nous dirons que la statistique est une
méthode mathématique qui permet de décrire quantitativement et qualitati-
vement les données qui sont susceptibles d’être influencées par le hasard ou
plus simplement, on appelle statistique l’ensemble des techniques et méthodes
permettant d’analyser (traiter) des ensembles des données. Nous voyons bien
que cette definition permet de faire la différence avec les statistiques qui
peuvent signifier les résultats des recencements ou des calculs. Pour conclure
la statistique est outil d’aide à la prise des décisions. Tout travail statistique
n’a de sens que s’il conduit à la prise des décisions et à l’action.

1.2 Terminologie de base


Précisons le sens de certains termes fondamentaux pour une étude statis-
tique

1.2.1 Unites statistique


Définition 1 On appelle Population ou population statistique ou univers
statistique l’ensemble des personnes, d’objets ou des élements sur lesquels
porte l’étude. On parle parfois de champs de l’étude.

3
Définition 2 On appelle individu ou unité statistique tout élement de la
population.
Exemple 3 L’ensemble des livres de la bibliothèque de l’université de Yaoundé
I forme une population. L’individu est un livre de la bibliothèque.
Définition 4 On appelle échantillon, un ensemble d’élements tirés au ha-
sard de la population sur lequel on éffectue une étude exhaustive pour ensuite
porter certaines conclusions sur l’ensemble de la population. C’est simple-
ment un sous ensemble de la population.
Exemple 5 De l’exemple précedent, un échantillon c’est l’ensemble de 100
livres de statistiques.
Définition 6 La taille d’une population (resp d’un échantillon) est le car-
dinal (le nombre d’élement) de la population (resp de l’échantillon). Elle est
généralement notée N (resp n.)
Exemple 7 De l’exemple précedent, la taille de l’échantillon est 100

1.2.2 Caractères
Chaque individus de la population peut être considéré selon un ou plu-
sieurs caractères
Définition 8 Un caractère ou une variable statistique est un critère étudié
dans la population. c’est une caractèristique relative à chacun des individus
de la population et sur laquelle on veut faire porter l’étude. c’est une variable
aléatoire sur l’ensemble fondamental Ω = population.
Exemple 9 Les domaines abordés dans les livres, le poids du livre, le nombre
de page du livre, la lanque utilisée dans le livre.
Chacun des caractères étudiés peut présenter deux ou plusieurs modalités
Définition 10 Les modalités sont les différentes situations où les individus
peuvent se trouver à l’égard du caractère considéré. Le nombre de modalités
varie selon le niveau de détails de l’information disponible
Exemple 11 De l’exemple précedent, la langue du livre peut être le français,
l’anglais, l’allemand, l’espagnol etc., le français, l’anglais, l’espagnol sont des
modalités du caractère langue
Les modalités d’un caractère sont à la fois incompatibles et exhaustive
c’est à dire un individus de la population ne doit posséder qu’une et une seule
modalité.

4
1.2.3 Les types de caractères
On classe les caractères en deux catégories : le caractère qualitatif et le
caractère quantitatif. Parmi ces derniers, on distingue le caractère quatitatifs
discret et le caractère quantitatif continu
Définition 12 Un caractère est dit qualitatif si ses diverses modalités ne
sont pas mesurables. On parle également d’attributs ou de variables catégorielle.
Dans la littérature, on fait la différence entre les variables qualitatives
nominales et les variables qualitatives ordinales. Une variable qualitative or-
dinale est une variable sur lequel on peut y établir un ordre. ce qui n’est pas
le cas pour les variables qualitatives nominale.
Exemple 13 le diplome est une variable qualitative ordinale alors que le
sexe, la réligion, la nationalité, la langue parlée dans un pays sont des va-
riables qualitatives nominales.
Définition 14 Un caractère est dit quantitatif si ses différentes modalités
sont mésurables ou répérables. Chaque modalité correspond à un nombre. ce
nombre varie d’une modalité à une autre. Un caractère quanttatif est ausi
appélé variable statitique.
Exemple 15 Le poids, la taille, le nombre de page d’un livre.
Définition 16 Une variable statitique est dite discrete lorsque ses valeurs
possibles sont des nombres isolés. les cas les plus généralement rencontrés
sont ceux où les valeurs possibles sont les entiers.
Exemple 17 Le nombre d’enfants d’un couple, le nombre de page d’un livre.
Définition 18 Une variable statistique est dite continue lorsque ses valeurs
possibles sont à priori en nombre infini et quelconques dans un intervalle de
valeurs.
Exemple 19 La taille, le poids

1.2.4 Le caractère quantitatif continu


Les observations d’une variable statistique continue sont généralement
regroupées en intervalles disjoints successifs et contigues (deux à deux dis-
joints) appélés classes. Le regroupement en classe permet de condenser les
données et de les rendre plus commode à étudier.
Définition 20 On appelle extremités ou limites de la classe, les nombres
entre lesquels sont comprises les valeurs rangées dans une classe. On la

5
note souvent [ei−1 ,ei ]. ei−1 est l’extremité inferieure(ou initiale) de la classe
[ei−1 ,ei ]. ei est l’extremité supérieure (ou finale) de la classe [ei−1 ,ei ].

Remarque 21 Un individu de la population doit être dans une classe et une


seule.

On est souvent améné à recalculer les limites réelles des classes surtout
lorsque les extremités des classes ne sont pas contigus. Ces limites doivent
être calculées de manière à conserver les centres des classes, les effectifs des
classes et avoir des classes adjacentes.

Définition 22 La largeur de la classe ou la longueur de l’intervalleest l’am-


plitude de la classe ai = ei − ei−1

6
Chapitre 2

Analyse d’une serie statistique


à un caractère

2.1 Introduction
Le chapitre précedant nous a permis de définir les élements de base de
la statistique. Notre objectifs dans le présent chapitre est de résumer, les
données sttistiques en remplaçant à celle ci un petit nombre de paramètres
(résultats numériques) qui permettent de synthètiser l’ensemble des données.

2.2 Representation des caractères quantita-


tifs continus
2.2.1 Tableau de fréquences
Lorsque la variable statistique est continue, les modalités du caractère
sont les classes des valeurs possibles définies par les extremités des classes.
Sa representation est la suivante

X: Classes [e1 ,e2 [ [e2 ,e3 [ ... [ei ,ei+1 [ ... [ek ,ek+1 [ Total
Fréquence absolue: ni n1 n2 ... ni ... nk N

Exemple 23 Distribution de poids de 100 adultes.

X: Classes de poids [40,45[ [45,50[ [50,55[ [55,60[ [60,65[ [65,70[ Total


Effectifs : ni 5 12 31 31 16 5 100

7
2.2.2 Tableau de fréquences cumulées
La fréquence cumulée croissante (resp décroissante) correspondante à la
0
classe [ei−1 ,ei [ de la variable statistique Xnotée Fi (resp Fi ) se calcule de la
i−1 k
P 0 P 0
manière suivante : Fi = nj (resp Fi = nj ). Fi (resp Fi ) représente le
j=1 j=i
nombre d’individus dont les modalités du caractère sont inférieures ou égales
(resp. supérieures) à ei−1 . On la représente dans un tableau qui à la forme
suivante :

X: Classes [e1 ,e2 [ [e2 ,e3 [ ... [ei ,ei+1 [ ... [ek ,ek+1 [ Total
Effectifs: ni n1 n2 ... ni ... nk N
ECC 0 = F1 F2 = n1 ... Fi ... Fk = N − nk Fk+1 = N
0 0 0 0 0
ECD N = F1 F2 = N − n1 ... Fi ... Fk = nk Fk+1 = 0
0
où Fi = n1 + ... + ni−1 ; Fi = ni + ... + nk

Exemple 24 De l’exemple précedent on a :

X: Classes de poids [40,45[ [45,50[ [50,55[ [55,60[ [60,65[ [65,70[ Total


Effectifs : ni 5 12 31 31 16 5 100
ECC 0 5 17 48 79 95 100
ECD 100 95 83 52 21 5 0

2.2.3 Diagramme différentiel ou histogramme


L’histogramme est la généralisation du diagramme en batons à la notion
de classe. Chaque classe [ei−1 ,ei [ dont la base est égale à l’amplitude ai de la
classe et la hauteur hi = naii où ni est l’effectif de la classe. Il ne doit pas y avoir
d’espace entre deux espaces consecutives et il ne doivent pas se chevaucher.
Lorsqu’on joint les points dont les abcisses sont les centres des differentes
classes et dont les coordonnées sont les hauteurs, on obtient le polygone des
effectifs ou des frequences. lorsqu’on lisse ce polygone, on obtient la courbe
des effectifs ou des fréquences.

2.2.4 Diagramme intégral


Le calcul de la fonction F se fait de la manière suivante :

Définition 25 Pour x ≤ e1 ,F (x) = F1 = 0,e1 est la limite inferieur de la


première classe.

8
Pour ei−1 < x ≤ ei ,F (x) = Fi ,i = 2,3,...,k
Pour x > ek , F (x) = Fk+1 = N, où N est l’effectif total.

On voit bien que F est une fonction en escalier. Lorsqu’on joint les points
de coordonnées (xi ,Fi ), on obtient le polygone des effectifs ou des frequences
cumulées croissants. lorsqu’on lisse ce polygone, on obtient la courbe des
effectifs ou des fréquences cumulées croissants ou la courbe cumulative.

Exemple 26 De l’exemple sur les la distribution des poids on a les gra-


phiques suivant: (à faire)

Remarque 27 1. Si on utilise les fréquences relatives, on remplace N


par 1 et par 100 si ce sont les pourcentages.
2. On peut également tracer la courbe (et ou le polygone ) des effectifs ou
fréquences cumulées décroissants.

2.2.5 e) Boite à moustache ou box plot


Une boı̂te à moustaches résume la série de données à l’aide des ca-
ractéristiques suivantes :
— la médiane est le trait centré au milieu de la boı̂te,
— la boı̂te est formée par les 1er quartile q1 et 3ème quartile q3 ,
— les moustaches sont définies par les valeurs observées les plus extrêmes
dans l’intervalle [q1 − 1,5(q3 − q1 ); q3 + 1,5(q3 − q1 )],
— les ◦◦ représentent les valeurs extrêmes non contenues dans l’intervalle
précédent.
Cette représentation permet également de comparer facilement la distri-
bution de différentes variables, ou encore de
la même variable pour différentes modalités d’une variable qualitative

2.3 Les paramètres de position ou caractéristiques


de tendance centrale
2.3.1 Le mode ou la dominante
Définition 28 Le mode est la valeur de la modalité qui apparait le plus sou-
vent dans la distribution. C’est la valeur de la modalité qui présente la plus
grande fréquence.Il est le plus souvent noté M0 . Lorsqu’il y’a un seul (resp
2) (resp. 3) (resp plusieurs) mode (s), on parle d’une distribution unimodale
(resp bimodale) (resp. trimodale) (resp. multimodale ou trimodale).

9
Dans le cas d’un cactère statistique continue avec les données regroupées
en classes, on parlera plutot de classe dominante ou de classe modale. c’est
celle qui a la plus grande hauteur ou la plus grande densité de fréquence. Le
mode dans ce cas est le centre de la classe modale.

Exemple 29 Dans l’exemple 3-11, le mode est la réligion caltholique. Dans


l’exemple 3-12, le mode est la valeur 4. Dans l’exemple 3-15, l’échantillon est
bimodale et les classes modale sont [50,55[et [55,60[ et les mode sont 52,5 et
57,5.

2.3.2 La médiane
Définition 30 La médiane d’une variable statistique est la valeur de cette
variable qui partage les individus, supposés rangés par ordre de valeurs crois-
sant ou décroissante de la variable en deux effectifs égaux. Elle est notée Me .
D’une manière générale, la médiane Me d’une variable statistique est la va-
leur de cette variable qui correspond à l’ordonnée 1/2 de la courbe cumulative.
F (Me ) = 12

Détermination de la médiane dans le cas de serie statistique avec


des données non groupées.
On range les observations par ordre croissant ou décroissant. Me = x (n+1)
2
x( n ) +x( n )+1
si n est impair et Me = 2
2
2
si n est pair.

Exemple 31 Les notes de 5 étudiant en Mat 118 sont : 6,14,8,17,12. on


classe et on a : 6,8,12,14,17 et Me = x3 = 12
Les notes de 6 étudiant en Mat 118 sont : 6,14,8,17,12,5. on classe et on
a : 5,6,8,12,14,17 et Me = x3 +x
2
4
= 10

Détermination de la médiane dans le cas de serie statistique avec


des données groupées.
Plusieurs se cas peuvent se presenter.

a) Cas d’un caractère statistique discret. Si la moitié de l’effectif total


apparait en clair sur la colonne des effectifs cumulés Sa ligne sépare deux
modalités xG et xD , alors l’intervalle [xG ,xD ] est un intervalle médian. Toute

10
valeur dans cette intervalle peut être la médiane. Par convention, on prend
Me = xG +x
2
D

Exemple 32

Poids xi Effectif ni Effectif cumulé croissant : Fi


10 14 0
20 18 14
30 14 32
40 11 46
50 3 57
60 4 60
Total 64 64

32 sépare xG = 20 et xD = 30; l’intervalle médiant [20,30] et la médianne


est Me = 20+30
2
= 25

Si la moitié de l’effectif total n’apparait pas en clair sur la colonne des


effectifs cumulés elle est encadré par deux valeurs des effectifs cumulées et
ces deux valeurs encadrent une modalité. Cette modalité est la médiane.

Exemple 33

nombre d’enfants xi Effectif ni Effectif cumulé croissant : Fi


0 16 0
1 18 16
2 14 34
3 11 48
4 3 59
5 2 62
Total 64 64

32 est comprise entre 16 et 34. la seule valeur comprise entre les deux la
valeur 1. c’est donc notre médiane.

b) Cas d’un caractère statistique continu. Si la moitié de l’effectif


total apparait en clair sur la colonne des effectifs cumulés, sa ligne sépare

11
b+c
deux classes [a,b] et [c,d], alors la médiane est Me = 2

Exemple 34

Classe de poids xi Effectif ni Effectif cumulé croissant : Fi


[10,20[ 14 0
[20,30[ 18 14
[30,40[ 14 32
[40,50[ 11 46
[50,60[ 3 57
[60,70[ 4 60
Total 64 64
30+30
32 sépare [20,30[ et [30,40[ ; la médianne est Me = 2
= 30

Si la moitié de l’effectif total n’apparait pas en clair sur la colonne des


effectifs cumulés elle est encadré par deux valeurs des effectifs cumulées
Fi−1 et Fi et ces deux valeurs encadrent une classe [ei−1 ,ei [. La médiane est
N N
i−1 −F −Fi−1
obtenue par interpolation. Me = ei−1 + F2i −Fi−1 (ei − ei−1 ) = ei−1 + 2
ni
ai
où ai est l’amplitude de la classe et ni l’effectif de la classe [ei−1 ,ei [

Exemple 35

Classe d’age xi Effectif ni Effectif cumulé croissant : Fi


[15,20[ 16 0
[20,25[ 18 16
[25,30[ 14 34
[30,35[ 11 48
[35,40[ 3 59
[40,45[ 2 62
Total 64 64
32−16
Me = 20 + 34−16
× 4 = 23,55

Remarque 36 Si vous travaillez avec les frequences relatives, la moitié de


l’effectif total est égal 0,5.

2.3.3 Les autres quantiles et percentiles


Les quartiles
Définition 37 Les quartiles sont les modalités du caractère qui permettent
de répartir l’ensemble de la population en quatres groupes d’effectifs égaux.

12
Une distribustion statistique a 3 quartiles gnéralement notée Q1 ,Q2 ,Q3 .
Q2 est confondu avec la médiane. Le quartile Qk est celui dont la fréquence
cumulée croissante correspond à l’effectif N 4×k où N est l’effectif total de la
population. Leur détermnation algébrique obeit à la même démarche que le
calcul de la médiane et en utilisant u,iquement les effectifs cumulés croissants.

Les autres quantiles particuliers


Définition 38 Les deciles (resp. les centiles ) sont les modalités du ca-
ractère qui permettent de tépartir l’ensemble de la population en 10 (resp
100) groupes d’effectifs égaux.

Une distribution statistique a 9 déciles d1 ,d2 ,...,d9 (resp. 99 centiles, c1 ,c2 ,...,c99 ).
Le decile dk (resp. le centile ck ) est celui qui correspond à une fréquence cu-
×k ×k
muléecroissante Fk = N10 (resp. Fk = N100 ) où N est l’effectif total de la
population. Leur détermnation algébrique obeit à la même démarche que le
calcul de la médiane et en utilisant u,iquement les effectifs cumulés croissants.

2.3.4 La moyenne
La moyenne arithmétique
Définition 39 La moyenne arithmétique est le centre de gravité d’une dis-
tribution. On la note x où mx .

Elle se calcule comme suit : x = N1 ki=1 ni xi où x =


P Pk
i=1 fi xi où N
est l’effectif total de la population et fi la fréquence relative de la modalité.
Lorsque le caractère statistique est continu avec les données regroupées Pk en
1
classe, les xi sont remplacés par les centres de classes ci . Ainsi x = N i=1 ni ci
Pk
où x = i=1 fi ci Pour simplifier la calcul de la moyenne arithmétique,
on peut proceder à un changement Pkde variable en remplaçant les xi par
0 xi −b 1 0
xi = a (a 6= 0) . et on a : x = N i=1 ni xi on retrouve x par x = ax0 + b
0

Exemple 40 De l’exemple 4-4, on a :


1
x = (10 × 14 + 20 × 18 + 30 × 14 + 40 × 11 + 50 × 3 + 60 × 4)
64
= 27,34

13
De l’exemple 4-6, on a
0 0
Classe poids xi Effectif ni ci ci ni ci
[10,20[ 14 15 -6 -84
[20,30[ 18 25 -4 -72
[30,40[ 14 35 -2 -28
:
[40,50[ 11 45 0 0
[50,60[ 3 55 2 6
[60,70[ 4 65 4 16
Total 64 -162
0
c0i = ci −45 , x0 = N1 ki=1 ni ci = −162
d’où x = 5x0 + 45 = 32,3.
P
5 64
,

Généralisation de la notion de moyenne: la ϕ − moyenne


ϕ est une fonction.
Définition 41 la ϕ−moyenne est la généralisation de la notion P de moyenne.
elle est notée xϕ et se calcule de la manière suivante : ϕ (xϕ ) = N ki=1 ni ϕ (xi )
1

On distingue quelque cas suivant :


– Lorsque ϕ : x 7→ ϕ (x) = x,ϕ est la fonction identité, xϕ = N1 ki=1 ni xi =
P
x est la moyenne arithmétique q P
– Lorsque ϕ : x 7→ ϕ (x) = x2 ,xϕ = N1 ki=1 ni x2i = xQ est la moyenne
quadratique
– Lorsque ϕ : x 7→ ϕ (x) = x1 ,xϕ = 1 Pk1 n x = xH est la moyenne
N i=1 i i
harmonique
k 1
Q ni N
– Lorsque ϕ : x 7→ ϕ (x) = log (x) ,xϕ = (xi ) = xG est la
i=1
moyenne géometrique
Remarque 42 1. xH ≤ xG ≤ x ≤ xQ
2. La moyenne utilise les mêmes unité que les modalités du caractère.
3. La moyenne arithmétique n’est rien d’autre que l’espérance mathématique.

2.4 Les parametres de dispersion


Les caracteristiques de dispersion servent à preciser la variabilité de la
serie c’est à dire à resumer l’éloignement de l’ensemble des observations par
rapport à leur étendue centrale. En d’autres termes, il faut déterminer les
élement qui permettent de dire si les observations sont fortement concentrer
autour du parametre de tendance centrale ou fortement dispersé.

14
2.4.1 L’étendue
Définition 43 C’est la largeur totale de la distribution notée E.

Pour une variable discrete dont les valeurs x1 ,x2 ,...,xn . ne sont pas re-
groupés en classes, l’étendue correspond à la difference entre la plus grande
modalité et la plus petite modalité du caractère. Pour une variable statistique
continue ou discrete avec valeurs regroupé en classe [ei ,ei+1 [ ,i = 0,1,...,k − 1,
alors E = ek − e1

Exemple 44 Pour les distribution suivantes, on a :

xi ni
18 12
19 25
20 32
21 27
22 8
[ei ,ei+1 [ ni
[15,20[ 8
[20,25[ 18
[25,30[ 23
[30,35[ 16
[35,40[ 10
E = 22 − 18 = 4
E = 40 − 15 = 25

2.4.2 L’écart interquartile et semi interquartile


Définition 45 L’écart interquartile noté EQ , mésure la différence entre le
3ème quartile et le 1er quartile. EQ = Q3 − Q1 . L’intervalle [Q1 ,Q3 ] est appélé
intervalle interquartile. il contient 50% des observations.

Définition 46 le semi-interquartile est la moitié de l’écart interquartile. Il


mésure la déviation moyenne des données par rapport à la moyenne.

2.4.3 L’écart moyen d’une distribution et l’écart médiant


Définition 47 L’écart moyen d’une distribution notée E est la moyenne
aritmétique des valeurs absolues des écarts par rapports à la moyenne arithmétique

15
k k
1
P P
de toutes les valeurs de cette distribution. E = N
ni |xi − x| = fi |xi − x|
i=1 i=1
N
1
P
si les données sont groupées en classes et E = N
|xi − x| sinon
i=1

Exemple 48

Nbre enfants xi 0 1 2 3 4 5 Total


Effectif ni 25 35 11 2 1 1 75
|xi − x| 0,96 0,04 1,04 2,04 3,04 4,04
ni |xi − x| 24 1,4 11,44 4,08 3,04 4,04 48
48
x = 0,96 et E = = 0,64
75
Définition 49 L’écart median d’une distribution notée EM est la moyenne
aritmétique des valeurs absolues des écarts par rapports à la médiane de
k k
toutes les valeurs de cette distribution. E = N1
P P
ni |xi − Me | = fi |xi − Me |
i=1 i=1
N
1
P
si les données sont groupées en classes et E = N
|xi − Me | sinon
i=1

2.4.4 La Variance et l’Ecart-type


Définition 50 La variance notée V d’une série statistique est la moyenne
arithmétique des carrées des écarts des données par rapport à la moyenne.
k k
1
ni (xi − x)2 = fi (xi − x)2 pour
P P
Cas des données groupées: V = N
i=1 i=1
k
1
ni x2i − x2 = x2 − x2 pour la formule de
P
la formule générale et V = N
i=1
Koenig
N
1
(xi − x)2 pour la formule générale
P
Cas des données non groupés: V = N
i=1
N
1
x2i − x2 = x2 − x2 pour la formule de Koenig
P
et V = N
i=1
Dans le calcul de la variance V, on peut également procéder à un chan-
gement de variable x0i = xia−b (a 6= 0) alors V = a2 V 0 . Le tableau statistique
standard pour le calcul de la variance est le suivant :

16
X ni ni xi ni x2i xi − x (xi − x)2 ni (xi − x)2
x1
x2

xk
k
P
Total N = ni A B C D E
i=1
   2
A E B A
x = ;V = = −
N N N N

où

k
X
A = ni xi
i=1
Xk
B = ni x2i
i=1
Xk
C = xi − x
i=1
Xk
D = (xi − x)2
i=1
Xk
E = ni (xi − x)2
i=1

Définition 51 L’écart type encore appélée l’écart


√ quadratique moyen noté
σ est la racine carrée de la variance. σ = V . Si on fait changement de
variables alors σ = |a| σ 0 .

Il mésure la variabilité autour de la moyenne c’est à dire combien les ob-


servations sont réparties autour de la moyenne il est le paramtre de dispersion
le plus utilisé.

Remarque 52 Lorsque le caractère statistique est quantitatif continue avec


les données regroupées en classes, les modalités xi sont rempacées par les
centres des classes ci dans la formule.

17
Exemple 53

xi ni Ei = xi − x Ei2 ni Ei2
0 25 -0,96 0,9216 23,04
1 35 0,04 0,0016 0,056
2 11 1,04 1,0816 11,9
3 2 2,04 4,1616 8,3232
4 1 3,04 9,2416 9,2416
5 1 4,04 16,32 16,32
Total 75 68,88
68,88 p
V = = 0,92 enf ant2 ,σ = 0,92 = 0,95enf ant
75

Age ci ni c2i ni c2i


[18,19[ 18,5 16 342,25 5476
[19,20[ 19,5 27 380,25 10266,75
[20,21[ 20,5 38 420,25 15969,5
[21,22[ 21,5 37 462,25 17103,25
[22,23[ 22,5 19 506,25 9618,75
[23,24[ 23,5 10 552,25 5522,5
[24,25[ 24,5 3 600,25 1800,75
Total 150 65757,5

V = 65757,5
150
− (20,89)2 = 2,13 ans2 ,σ = 2,13 = 1,46ans

2.4.5 Le score et le coefficient de variation


Définition 54 Le score d’un individu de la population sera noté s. il mesure
à combien d’écart types l’observation d’un individus se trouve au dessus ou
au dessous de la moyenne. si = xiσ−x
Définition 55 Le coeffcient de variation notée Cv d’une distribution statis-
tique mesure la variation par unité de moyenne.Cv = σx
Le coefficient de variation permet de comparer deux series statistiques du
point de vue de la dispersion en éliminant les effets d’échelle ou d’unités. la
serie statistique qui a le plus grand Cv est le plus dispersée.

2.4.6 Les Moments


Définition 56 On appelle moment non centré d’odre r de la variable sta-
tistique X, la quantité notée mr qui désigne la moyenne arithméthique des

18
k
1
puissances rème des xi et calculée comme suit : mr = ni xri
P
N
i=1

Définition 57 On appelle moment centrée d’ordre r par rapport à x0 de la


variable statistique X, la quantité notée Mr,x0 qui est la moyenne arithméthique
des puissances rème des écarts des xi par rapport à x0 et calculée comme suit :
k
Mr,x0 = N1 ni (xi − x0 )r
P
i=1

Remarque 58 Lorsque

– r = 0,m0 = 1,M0,x0 = 1
– r = 1,m1 = x,M1,x = 0
– r = 2,M2,x = V

2.5 Les caracteristiques de formes


Ce sont les paramètres qui permettent d’évaluer l’asymétrie ou l’appla-
tissement de la courbe d’une serie statistique.

2.5.1 Le coéfficient d’asymetrie de Fischer.


Définition 59 Le coefficient d’asymétrie de Fischer permet d’évaluer l’asymétrie
ou le sens d’étalement de la courbe d’une serie statistique. Il est noté γ1 et se
M
calcule de la façon suivante : γ1 = σ3,x
3 où M3,x est le moment centré d’ordre
3 par rappport à x et σ l’écart type.
3 −2Me
Si on pose d = Q1 +Q 2Me
où Q1 ,Q3 sont les quartiles et Me la médiane.
Dans le cas d’une distribution unimodale,

– si γ1 = 0 = d alors la distribution est parfaitement symétrique.


– si γ1 > 0 (d > 0) l’étalement de la distribution est plus accentuée à
droite
– si γ1 < 0 (d < 0) l’étalement de la distribution est plus accentuée à
gauche

Graphique à faire

19
2.5.2 Le coefficient d’applatissement
Définition 60 Le coefficient d’applatissement de Yule ou de Fischer permet
d’évaluer l’applatissement de la courbe d’une serie statistique comparée à la
M
courbe de la loi normale. Notée γ2 , il se calcule comme suit: γ2 = σ4,x
4 −3

– si γ2 = 0 alors les deux courbes se confondent.


– si γ2 > 0 La courbe de la série est plus effilée que celle de Gauss
– si γ2 < 0 La courbe de la série est plus applatie que celle de Gauss

2.6 Les parametres de concentration


2.6.1 La médiale
Soit X la distribution d’une serie statistique à valeurs positives, on désigne
par xi les modalités de X et ni l’effectif de la modalité xi .

Définition 61 On appelle masse noté mi de la modalité xi le produit ni xi .


k
P
La masse globale de la série est M = mi où k est le nombre total des
i=1
i−1
P
modalités. Mi = mj est la masse cumulée croissante correspondante à la
j=1
modalité xi ou de la classe [ei−1 ,ei [ et represente la masse des individus dont
la modalité est inferieur à xi .

Définition 62 La médiale est la modalité qui sépare la masse globale en deux


parties égales c’est à dire celle qui correspond à M2 . Elle esst notée Md . Sa
détermination obéit à la même démarche que la détermination de la médiane
en utilisant les masses cumulées croissantes.

2.6.2 La courbe de concentration et indice de Gini


Définition 63 La courbe de concentration encore appélée la courbe de Lo-
rentz est la courbe qui permet d’évaluer les inégalités dans une distribution
statistique. C’est la courbe de representation des points FNi , M M
i
où Fi est la
fréquence absolue cumulée croissante de la modalité xi ,Mi est la masse cu-
mulée croissante de la modalité xi , N l’effectif total et M la masse globale de
la serie.
Fi Mi
Généralement on pose Pi = N
,Qi = M

20
Plus la courbe de Lorentz se rappoche de la diagonale, plus la distrinution
est égalitaire, plus elle s’éloigne, plus elle est inégalitaire.

Définition 64 Encore appélée indice de concentration; l’indice de Gini noté


g est un parametre statistique qui permet de mesurer l’inégalité d’une serie
statistique. Il se calcule comme suit: g = 2S où S est la surface comprise
entre la courbe de Lorents et la première bissectrice (diagonale). On montre
k−1
P k−1
P
que g = 1 − (Pi+1 − Pi ) (Qi+1 + Qi ) = 1 − fi (Qi+1 + Qi )
i=1 i=1

Plus g est grand plus la serie est inégalitaire. Elle est totalement inégalitaire
pour g = 1 et parfaitement égalitaire pour g = 0.

Exemple 65 Considérons une serie de salaire de 64 employés dans une


société de gardiennage

Salaire ni ci n i c i Pi Qi Ai Bi Ai Bi
[10,20[ 14 15 210 0/64 0 14/64 210/2070 14*210/64*2070
[20,30[ 18 25 450 14/64 210/2070 18/64 870/2070 18*870/64*2070
[30,40[ 14 35 490 32/64 660/2070 14/64 1810/2070 14*1810/64*2070
[40,50[ 11 45 495 46/64 1150/2070 11/64 2795/2070 11*2795/64*2070
[50,60[ 3 55 165 57/64 1645/2070 3/64 3455/2070 3*3455/64*2070
[60,70[ 4 65 260 60/64 1810/2070 4/64 5525/2070 4*5525/64*2070
Total 64 2070 64/64 2070/2070 D

où
k−1
X 107150
Ai = Pi+1 − Pi ,Bi = Qi+1 + Qi ,D = (Pi+1 − Pi ) (Qi+1 + Qi ) = = 0,808
i=1
132480
g = 1 − 0,808 = 0,191

Graphique à faire

2.7 Les melanges de population


Soit une population P formée de sous population P1 ,P2 ,...,Pm d’effectif
n.1 ,n.2 ,...,n.m . Les formules de mélanges des populations permettant d’établir
des relations entre les parametres statistiques calculés dans la population et
les sous populations. Considérons le tableau suivant :

21
xi ou [ei−1 ,ei [ Sous population Total
P1 P2 ... Pj Pj+1 ... Pm−1 Pm
x1 ou [e0 ,e1 [ n11 n12 ... n1j n1(j+1) ... n1(m−1) n1m n1·
x2 ou [e1 ,e2 [ n21 n22 ... n2j n2(j+1) ... n2(m−1) n2m n2·
.. .. .. . .. . .. ..
. . . ... .. . ... .. . .
xi ou [ei−1 ,ei [ ni1 ni2 ... nij ni(j+1) ... ni(m−1) nim ni·
.. .. .. . .. .. .. ..
. . . ... .. . ... . . .
xk ou [ek−1 ,ek [ nk1 nk2 ... nkj nk(j+1) ... nk(m−1) nkm nk·
Total n·1 n·2 ... n·j n·j+1 ... n·m−1 n·m n··

nij est l’effectif de la sous population Pj qui présente la modalité xi ou


k
P
qui sont dans la classe [ei−1 ,ei [ . n·j = nij est l’effectif total de la sous
i=1
m
P
population Pj toute modalité confondu. ni· = nij est l’effectif total de la
j=1
k P
P m k
P
population P qui presente la modalité xi N = n·· = nij = ni· =
i=1 j=1 i=1
m
P
n·j represente la taille de la population.
j=1
Désignons par x,V,σ (resp xj ,Vj ,σj ) la moyenne, la variance, l’écart-type
de la distribution du caractère X dans la population P (Resp. dans la sous
k k
population Pj ).On a : x = n1·· ni· xi ,V = σ 2 = n1·· ni· (xi − x)2 =
P P
i=1 i=1
1
k √
ni· x2i − x2 ,σ =
P
n··
V
i=1
k k k
1
nij xi ,Vj = σj2 = 1
nij (xi − x)2 = 1
nij x2i − x2 ,σj =
P P P
xj = n·j n·j n·j
p i=1 i=1 i=1
Vj
Les formules de mélanges de la population suivantes sont obtenues grace
aux formulesmci-dessus. m
n
x = n1··
P P
n·j xj = pj xj où pj = n·j·· . La moyenne x est la moyenne
j=1 j=1
arithmétique des moyennes des sous populations pondérées par leur poids.
m m m m
V = σ 2 = n1·· n·j σj2 + n1·· n·j (x − xj )2 = pj σj2 + pj (x − xj )2 =
P P P P
j=1 j=1 j=1 j=1
Vintra + Vinter La variance V de la population globale est égale à la moyenne
arithmétique des variances des sous populations pondérées par leur poids
auxquelles on ajoute la variance des moyennes des sous populations.

22
m
1
n·j σj2 est appélé variance intra sous population et est la
P
Vintra = n··
j=1
variance à l’interieur des sous populations. C’est la variance σ 2 qu’on obtien-
drait si les sous populations avaient toutes la même moyenne.
m
Vinter = n1·· n·j (x − xj )2 est appélé variance inter sous population et est
P
j=1
la variance entre les sous populations. C’est la variance σ 2 qu’on obtiendrait
si les sous populations étaient toutes homogènes (σj = 0).
Pour calculer xj ,Vj ,σj (resp. x,V,σ) on extrait du tableau statistique un
sous tableau formé de deux colones: la colone des modalités et la colonne des
effectifs nij de la sous population Pj (resp. la colonne des effectifs marginaux
n·j de la colonne totale) et on y applique les formules des moyennes, des
variances, et des écarts types.

Définition 66 On appelle fraction de la variance totale expliquée par l’hétérogénéité


m
pj (x−xj )2
P
j=1
des moyennes entre les sous populations, le rapport : R2 = σ2
=
m
n·j σj2
P
j=1
1− σ2

0 ≤ R2 ≤ 1 et R2 = 0 si toutes les sous populations ont une même


moyenne et R2 = 1 si toutes les sous populations sont homogènes.

Exemple 67 Considérons une distribution des notes de 100 étudiants réparti


en deux sous populations

N ote/100 P1 = garçon P2 = F ille Total


[10,20[ n11 = 5 n12 = 2 n1· = 7
[20,30[ n21 = 6 n22 = 6 n2· = 12
[30,40[ n31 = 14 n32 = 10 n3· = 24
[40,50[ n41 = 11 n42 = 9 n4· = 20
[50,60[ n51 = 10 n52 = 5 n5· = 15
[60,70[ n61 = 14 n62 = 8 n6· = 22
Total n·1 = 60 n·2 = 40 n·· = 100
de ce tableau on extrait les trois sous tableaux suivants :

23
N ote/100 P1 = garçon
[10,20[ n11 = 5
[20,30[ n21 = 6
[30,40[ n31 = 14
[40,50[ n41 = 11
[50,60[ n51 = 10
[60,70[ n61 = 14
Total n·1 = 60
x1 = 44,5; V1 = 248,08; σ1 = 15,75

N ote/100 P2 = F ille
[10,20[ n12 = 2
[20,30[ n22 = 6
[30,40[ n32 = 10
[40,50[ n42 = 9
[50,60[ n52 = 5
[60,70[ n62 = 8
Total n·2 = 40
x2 = 43,25; V2 = 219,43; σ2 = 14,91

N ote/100 Total
[10,20[ n1· = 7
[20,30[ n2· = 12
[30,40[ n3· = 24
[40,50[ n4· = 20
[50,60[ n5· = 15
[60,70[ n6· = 22
Total n·· = 100
x2 = 44; V2 = 237; σ1 = 15,391

24
Chapitre 3

Analyse d’une serie statistique


à deux caractères

3.1 Introduction
Dans ce chapitre, on s’interresse à l’étude de deux variables X et Y
étudiées sur la même population. L’objectif de l’étude est de mettre en
évidence, une eventuelle variation simultannée de deux variables que nous
appelons liaison ou dépendance. Dans certains cas, cette liaison peut à priori
être causale. c’est à dire une variable expliquant l’autre. Dans d’autres cas,
les deux variables jouants des roles symetriques. Lorsque l’on utilisera les
données regroupées en classes, les modalités xi seront remplacées par les
cebtres de classes dans les formules.

3.2 Les tableaux


3.2.1 Données non groupées
Il s’agit de la donnée de la serie statistique brute sous la forme (xi ,yi ) des
modalités des variables X et Y pour chaque individu. Ces données sont
généralement representé dans le tableau suivant :

i 1 2 ... i ... n
X x1 x2 ... xi ... xn
Y y1 y2 ... yi ... yn

Exemple 68 – la taille et le poids de 5 individus.

25
i 1 2 3 4 5
Taille: (X) 1,60 1,70 1,55 1,65 1,75
Poids : (Y) 70 75 80 80 80
– Le poids et la couleur des cheveux de 5 étudiants

i 1 2 3 4 5
Poids en kg: (X) 70 75 80 80 80
Couleur : (Y) Noire Rousse Chataine Blonde Noire

– La couleur des yeux et des cheveux de 5 étudiants

i 1 2 3 4 5
Yeux: (X) Noire Bleu marron Bleu Noire
Cheveux : (Y) Noire Rousse Chataine Blonde Noire

3.2.2 Données groupées


C’est le cas le plus rencontrée en pratique. Considérons X1 ,X2 ,...,XI et
Y1 ,Y2 ,...,YJ les modalités des variables X et Y . Soit nij l’effectif de la popula-
tion qui présente à la fois la modalité Xi de X et Yj de Y . Ces données sont
souvent representées dans un tableau à double entrées appélé tableau croisé
ou tableau de contingence. Ces tableaux ont la forme suivantes:

Y1 Y2 ... Yj ... YJ Total


X1 n11 n12 ... n1j ... n1J n1·
X2 n21 n22 ... n2j ... n2J n2·
.. .. .. .. .. .. .. ..
. . . . . . . .
Xi ni1 ni2 ... nij ... niJ ni·
.. .. .. .. .. .. .. ..
. . . . . . . .
XI nI1 nI2 ... nIj ... nIJ nI·
Total n·1 n·2 ... n·j ... n·J n··
I
P
Comme dans le cas des melanges des populations on a : n·j = nij ; ni· =
i=1
J
P I P
P J I
P J
P
nij ; n·· = nij = ni· = n·j
j=1 i=1 j=1 i=1 j=1

Exemple 69 la répartition des couleurs de yeux et des cheveux de 592 femmes.

26
Brun Chatain Roux Blond Total
Marron 68 119 26 7 220
Noisette 15 54 14 10 93
vert 5 29 14 16 64
bleu 20 84 17 94 215
Total 108 296 71 127 592
Remarque 70 En divisant toute les valeurs du tableau par l’effectif total,
on obtient le tableau de frequences.

3.3 Les representations graphiques


Dans cette partie, on s’interressera aux données quantitatives.

3.3.1 Données non groupées


On represente dans un répère orthonormé les points de coordonnées (xi ,yi ).
L’ensemble de ces points forme le nuage de points. Le nombre de ces points
est égale au nombre d’individus.
graphique à faire ici

3.3.2 Données groupées


On considère ici le tableau de contingence. On représente dans un répère
orthonormé les disques aux points de coordonnées (Xi ,Yj ) dont la surface
ou le rayon est proportionnelle aux effectifs. le nombre de disque est égale à
I ×J

graphique à faire ici

3.4 Statistique marginale


3.4.1 Données non groupées
Les données sont généralement regroupées dans le tableau suivant:

i 1 2 ... i ... n
X x1 x2 ... xi ... xn
Y y1 y2 ... yi ... yn

27
n n n
1 1 2 1
x2i −
P P P
. Les statistiques marginales sont x = n
xi ; y = n
yi ,σX = n
i=1 i=1 i=1
n
1
x2 ,σY2 = yi2 − y 2
P
n
i=1

3.4.2 Données groupées


Les données sont généralement regroupées dans le tableau suivant:

Y1 Y2 ... Yj ... YJ Total


X1 n11 n12 ... n1j ... n1J n1·
X2 n21 n22 ... n2j ... n2J n2·
.. .. .. .. .. .. .. ..
. . . . . . . .
Xi ni1 ni2 ... nij ... niJ ni·
.. .. .. .. .. .. .. ..
. . . . . . . .
XI nI1 nI2 ... nIj ... nIJ nI·
Total n·1 n·2 ... n·j ... n·J n··
Les couples (xi ,ni· ) ,1 ≤ i ≤ I définissent la distribution statistique mar-
ginale de X. .Les couples (Yj ,n·j ) ,1 ≤ j ≤ J définissent la distribution
statistique marginale de Y. Les statistiques marginales (moyennes, variances,
écart types...) de X (resp. Y) sont les statistiques obtenues sur les distri-
butions statistiques (xi ,ni· ) ,1 ≤ i ≤ I (resp. (Yj ,n·j ) ,1 ≤ j ≤ J) ainsi on
a:
I J
x = n1·· ni· xi ; y = n1··
P P
n·j yj ,
i=1 j=1
I I √
2 1
ni· (xi − x)2 = 1
ni· x2i − x2 ; σX =
P P
VX = σX = n·· n··
VX
i=1 i=1
J J √
VY = σY2 = 1
n·j (yj − y)2 = 1
n·j yj2 − y 2 ; σY =
P P
n·· n··
VY
j=1 j=1

3.5 Distribution et statistique conditionnelle


Dans cette partie, on s’interressera uniquement aux données groupées.
Considérons le tableau ci-dessous

28
Y1 Y2 ... Yj ... YJ Total
X1 n11 n12 ... n1j ... n1J n1·
X2 n21 n22 ... n2j ... n2J n2·
.. .. .. .. .. .. .. ..
. . . . . . . .
Xi ni1 ni2 ... nij ... niJ ni·
.. .. .. .. .. .. .. ..
. . . . . . . .
XI nI1 nI2 ... nIj ... nIJ nI·
Total n·1 n·2 ... n·j ... n·J n··

3.5.1 Distribution et statistique conditionnelle de X


La distribution conditionnelle de X sachant Y = Yj notée Xj ou X|Y =Yj
est la serie constituée des couples (Xi ,nij ) ,1 ≤ i ≤ I. C’est la distribu-
tion du caractère X dans la sous population des individus qui présentent la
modalité Yj du caractère Y . Les statistiques conditionnelles sont celles ob-
I
tenues sur la serie (Xi ,nij ) ,1 ≤ i ≤ I. Ainsi xj = n1·j nij xi ; Vj = σj2 =
P
i=1
I I
1 2 1
p
nij x2i − xj 2 ; σj =
P P
n·j
nij (xi − xj ) = n·j
Vj
i=1 i=1

3.5.2 Distribution et statistique conditionnelle de Y


La distribution conditionnelle de Y sachant X = Xi notée Yi ou Y |X=Xi
est la serie constituée des couples (Yj ,nij ) ,1 ≤ j ≤ J). C’est la distribu-
tion du caractère Y dans la sous population des individus qui présentent la
modalité Xi du caractère X. Les statistiques conditionnelles sont celles ob-
J
tenues sur la serie (Yj ,nij ) ,1 ≤ j ≤ J. Ainsi y i = n1i· nij yj ; Vj = σj2 =
P
j=1
J J √
1
nij (yj − y i )2 = 1
nij yj2 − y 2i ; σi =
P P
ni· ni·
Vi
j=1 j=1

3.5.3 Relation entre les statistique conditionnelles et


les statistiques marginales
n
Posons pj = n·j·· , qui est la part que represente la sous population Y = Yj
dans la population totale. La moyenne marginale (totale) de X est la moyenne
arithmétique des moyennes conditionnelles xj pondérées par les poids pj .
J J I I
x = n1·· pj xj ; y = n1··
P P P P
n·j xj = ni· y i = pi y i ,
j=1 j=1 i=1 i=1

29
J J J J
2 1
n·j σj2 + 1
n·j (xj − x)2 = pj σj2 + pj (xj − x)2
P P P P
VX = σX = n·· n··
j=1 j=1 j=1 j=1
La variance globale de X (resp. de Y) est égale à la moyenne arithmétique
des variances des moyennes conditionnelles de X (resp. de Y) pondérées par
les poids des sous populationsY = Yj (resp. X=xi ) auquel on ajoute la va-
riance des moyennes conditionnelles.
J I
pj σj2 (resp pi σi2 ) est appélé variance intra sous population
P P
Vintra =
j=1 i=1
ou variance résiduelle de X (resp. Y )
J I
pj (xj − x)2 (resp. pi (y i − y)2 ) est appélé variance inter
P P
Vinter =
j=1 i=1
sous population ou variance expliquée de X (resp. Y )

3.6 La covariance
Elle se calcule exactement de la même manière que pour les variables
aléatoires.

3.6.1 Données non groupées


n n
1 1
P P
Cov(X,Y ) = n
(xi − x) (yi − y) = n
xi yi − xy
i=1 i=1

3.6.2 Données groupées


I P
J I P
J
1 1
P P
Cov(X,Y ) = n··
nij (xi − x) (yj − y) = n··
nij xi yj − xy
i=1 j=1 i=1 j=1

Remarque 71 – Cov (aX + b,cY + d) = acCov (X,Y )


– Cov (X,X) = V ar (X)

La covariance peut donner une valeur négative mais la variance est tou-
jours positive. la covariance est une mesure de la relation linéaire entre deux
variables statistiques. Plus la variance est élévé plus la relation linéaire est
entre deux variables est forte.

30
3.7 La regression et la corrélation statistique
3.7.1 Le coefficient de corrélation linéaire.
Le coefficient de corrélation linéaire encore appélé le coefficient de détermination
entre deux variables X et Y est le réel noté ρ (X,Y ) = Cov(X,YσX σY
)

Propriétés:

1. |ρ (X,Y )| ≤ 1
ac
2. ρ (aX + b,cY + d) = |ac|
ρ (X,Y )

3.7.2 Courbe ou ligne de regression


On appelle courbe de regression ou ligne de regression de Y en X ( resp.
de X en Y ) la courbe representative des points (xi ,y i ) (resp. (xi ,yi )) où y i
(resp. xi ) est la moyenne conditionnelle de Y (resp X) sachant que X = xi
(resp Y = yi ). Cette courbe permet d’estimer Y (resp X) en fonction de X
(resp Y ). C’est la raison pour laquelle cette courbe est encore appélée courbe
d’estimation de Y en X ( resp. de X en Y ). Elle fournit la valeur la plus
probable que peux prendre Y en X ( resp. X en Y ) pour une valeur donnée
de X. les courbes de regression de Y en X et. de X en Y se coupent au point
(x,y) . Ces courbes sont en réalité des lignes brisées que l’on peut lisser pour
obtenir une véritable courbe.

3.7.3 Droite de regression ou des moindres carrées


La droite de regression ou d’estimation ou des moindres carrés  de Y en
X notée DY /X a pour équation DY /X : Y − Y = aX X − X où aX =
Cov(X,Y )
2
σX
= ρ (X,Y ) σσXY .
La droite de regression de Y en X notée DX/Y a pour équation DX/Y :
X − X = aY Y − Y où aY = Cov(X,Y )

2
σY
.
Si ρ (X,Y ) = ±1, on dit qu’il ya une corrélation parfaite et les droites
DY /X et DX/Y sont confondus. Si |ρ (X,Y )| tend vers 1, la corrélation linéaire
est meilleure. Elle est dite positive si X et Y varie dans le même sens. Elle
est négative si les deux varient en sens opposé.

3.7.4 Le rapport de corrélation


Le rapport de corrélation est une mesure de l’intensité de la liaison qui
existe entre les deux variables X et Y . On appelle Rapport de corrélation
de Y en X ( resp. de X en Y ) notée ηY2 /X (resp. ηX/Y
2
) la proportion de la

31
variance marginale VY de Y (resp VX de X) representé par la variance inter
groupe.
I I
1
ni· (y i −y)2 1
ni· σi2
P P
n·· n··
ηY2 /X = i=1
VY
=1− i=1
σY2
J J
1 1
n·j σj2
P P
n··
n·j (xj −x) n··
2 j=1 j=1
ηX/Y = VX
=1− 2
σX
Les rapports de corrélation sont compris entre 0 et 1 et sont invariant par
changement de variables. Ils donnent une mesure du pourcentage de variation
explicable par la variable indépendante.

3.7.5 Indépendance
Nous dirons que deux variables X et Y sont indépendantes si on a xj =
x,∀j ∈ {1,2,...,J} et y i = y,∀i ∈ {1,2,...,I}, ainsi les courbes de regression
n ×n
sont parallèles aux axes. Dans ce cas, on a nij = i·n·· ·j

3.8 Exemple
3.8.1 Enoncé
Soit X en milliers le salaire que gagne un personnel et Y en dizaines leur
age on a :

X\Y [2,3[ [3,4[ [4,5[ [5,6[


[4,8[ 15 10 5 5
[8,12[ 10 10 12 8
[12,16[ 5 5 8 7

3.8.2 Representation graphique

X\Y 2,5 3,5 4,5 5,5 T otal


6 15 10 5 5 35
10 10 10 12 8 40
14 5 5 8 7 25
T otal 30 25 25 20 100

Inserer le graphique ici

32
3.8.3 Moyenne et variance de X et Y
tableau en X

ci ni· ni· ci ci − c (ci − c)2 ni· (ci − c)2


6 35 210 −3,6 12,96 453,6
10 40 400 0,4 0,16 6,4
14 25 350 4,4 19,36 484
T otal 100 960 944
X = 9,6; VX = 9,44; σX = 3,1

tableau en Y

cj n·j n·j cj cj − c (cj − c)2 n·j (cj − c)2


2,5 30 75 −1,35 1,82 54,48
3,5 25 87,5 −0,35 0,12 3,06
4,5 25 112,5 0,65 0,42 10,56
5,5 20 110 1,65 2,72 54,45
T otal 100 385 122,75
Y = 3,85; VY = 9,44; σY = 1,11

3.8.4 Distribution et statistique conditionnelle de Y


Pour Y1

Y 2,5 3,5 4,5 5,5 T otal


n1j 15 10 5 5 35
n1j yj 37,5 35 22,5 27,5 122,5
yj − y 1 −1 0 1 2
2
(yj − y 1 ) 1 0 1 4
2
n1j (yj − y 1 ) 15 0 5 20 40
y1 = 3,5; V1 = 1,14; σ1 = 1,07

De la même manière vous obtenez


y 2 = 3,95 V2 = 1,14 σ2 = 1,07
y 3 = 4,18 V3 = 1,17 σ1 = 1,09

Variance intra et inter de Y


Vintra = 0,35 × 1,14 + 0,4 × 1,14 + 0,25 × 1,09 = 1,1534

33
Vinter = 0,35×(3,5 − 3,85)2 +0,4×(3,95 − 3,85)2 +0,25×(4,18 − 3,85)2 =
0,074

3.8.5 covariance et corrélation


3 P
4
1
P
Cov (X,Y ) = n··
nij xi yj − xy = 37,78 − 9,6 × 3,85 = 0,82
i=1 j=1
Cov(X,Y ) 0,82
ρ (X,Y ) = σ X σY
= 3,1×1,11 = 0,24

3.8.6 Rapport de corrélation


3
1
ni· (y i −y)2
P
n··
ηY2 /X
= VY
i=1
= 0,074
1,23
= 0,06
L’age explique 6% de la variation du salaire.

3.8.7 Courbe de regression de Y en X


Il suffit de rpresenter la courbe passant par les points (6; 3,5) , (10; 3,95) , (14; 4,18)

3.8.8 Droite de regression de Y en X


DY /X : Y − Y = aX X − X ie Y − 3,85 = 0,82

3,1
(X − 9,6) ,
DY /X : y = 0,26x + 6,35
Si x=20 ie c’est à dire x=20000 alors y=5,2+6,35=11,55 ie 115,5 ans

34
Deuxième partie

VARIABLES ALEATOIRES

35
Chapitre 1

Variables aléatoires continues

1.1 Introduction
Définition 72 Etant donné un espace probabilisé (Ω,A,p) et un espace prob-
bilisable (Ω0 ,B) avec Ω0 ⊂ R, on appelle variable aléatoire réel sur Ω, toute
application

X : Ω → Ω0
w 7→ X (w)

telle que : ∀B ∈ B,X −1 (B) ∈ A

Définition 73 Une variable aléatoire est dite discrète si elle ne prend que
des valeurs discontinues dans un intervalle donné (borné ou non borné).

L’ensemble des nombres entiers est discret. En règle générale, toutes les
variables qui résultent d’un dénombrement ou d’une numération sont de type
discrètes.

Exemple 74 Les variables aléatoires,

- le nombre de petits par porté pour une espèce animale donnée (chat,
marmotte, etc),
- le nombre de bactéries dans 100 ml de préparation,
sont des variables aléatoires discrètes.
Les variables aléatoires qui nous interessent lors d’une expérience aléatoire
ne sont pas toujours discretes. Par exemple la taille d’un individu, le temps de
fonctionnement d’un appareil peut prendre n’importe quelle valeur dans un
intervalle de R+ . Dans ce chapitre, nous sommes interéssés par des variables
prenant leur valeur dans un intervalle reel continu.

36
1.2 Densité de Probabilité
Définition 75 Une fonction f () de R dans R est une densité de probabilité
si :
1. f () est positive
2. f () est intégrable sur R
R
3. R f (x) dx = 1

Définition 76 On dit qu’une variable aléatoire X a pour densité la fonction


f () si f () est une densité de probabilité sur R qui est telle que ∀a,b ∈ R :
Rb
a < b on a : p {a < X < b} = p {X ⊂ ]a,b[} = a f (x) dx
Proposition 77 Soit X une variable aléatoire admettant une densité f () .
Pour tout a ∈ Ω0 ,p {X = a} = 0
Preuve. a − n1 < X < a + n1 n∈N∗ est une suite décroissante d’évenements


a − n1 < X < a + n1 = {X = a}. Il est clair que ∀n ∈ N∗ , {X = a} ⊂


T 
telle que
n∈N∗
a − n < X < a + n1 Donc {X = a} ⊂
1
a − n1 < X < a + n1 . Réciproquement
 T 
n∈N∗
a − n1 < X < a + n1 , alors ∀n ∈ N∗ , on a a − n1 < X (w) <
T 
si w ∈
n∈N∗
a + n1 En faisant tendre n vers +∞, on obtient a ≤ X (w) ≤ a. Ce qui
entraine X (w) = a. Donc p {X = a} = lim p a − n1 < X < a + n1 =
n→+∞
R a+ n1 Ra
lim a− 1 f {x} dx = a f {x} dx = 0
n→+∞ n
Pour une variable aléatoire admettant une densité, la probabilité d’at-
teindre un point donné est nulle ie p {X = x} = 0. Car il est impossible
d’observer exactement cette valeur.. On dit que la variable aléatoire est conti-
nue. Ceci constitue une différence fondamentale avec les variables aléatoires
discretes pour lequelles les probabilités d’atteindre differents points consti-
tue la loi de probabilité. Conséquence de cette proposition pour x admettant
une densité, ∀a,b ∈ R : a < b on a p {a < X < b} = p {a ≤ X < b} =
p {a < X ≤ b} = p {a ≤ X≤ b} . Si X est à valeus dans un intervalle O de
R, p {X ∈ O} = 1, alors p X ∈ O = 0. On déduit que la densité de X est
nulle dans le complémentaire.
Exemple 78 1. Densité uniforme sur [a,b] . C’est la densité d’une va-
riable aléatoire constante sur [a,b] et nulle en dehors de [a,b] . f (x) =

c si x ∈ [a,b] R Rb
On sait que : 1 = R f (x) dx = a cdx = c (b − a) donc
0 sinon
 1
b−a
si x ∈ [a,b] 1
f (x) = = b−a 1[a,b] (x) . Notation : X U[a,b]
0 sinon

37
2. Densité exponentielle : Soit λ un réel strictement positif. On dit qu’une
variable X suit une loi exponentielle  de −λx
parametre λ et on note X
λe si x > 0
ξ (λ) si X a pour densité. f (x) = = λe−λx 1R∗+ . On
0 sinon R
verifie facilement que f () est une densité sur R.En effet R f (x) dx =
R +∞ R +∞ +∞
f (x) dx = 0 d −e−λx = −e−λx 0 = 1
 
0
3. Lois normales
Soit m ∈ R et σ ∈ R∗+ On dit qu’une variable aléatoire suit une loi
2
normale de moyenne m et de variance  σ et on  note X N (m,σ 2 ) si
2
X a pour densité. f (x) = √2πσ 1
2
exp − (x−m)2σ 2
1
Si m = 0 et σ = 1 on a f (x) = √2π exp − x2 ,on dit X

N (0,1)
c’est à dire que X suit la loi normale centrée réduite.
Proposition 79 Soit X une variable aléatoire à valeurs dans un intervalle
ouvert U de R. Soit h : U → V une bijection de classe C 1 , telle que h
soit dérivable. Si X a pour densité f (), alors Y = h (X) a pour densité :
 0
f (h−1 (y)) (h−1 ) (y) si y ∈ V
g (y) =
0 sinon
Preuve. Supposons que h soit décroissante. ∀a,b ∈ V,p {a < Y < b} = p {a < h (X) < b} =
R h−1 (a)
p {h−1 (b) < X < h−1 (a)} = h−1 (b) f (x) dx. Posons y = h (x) , On a x =
0 R h−1 (a)
h−1 (y) et dx = (h−1 ) (y) dy on a alors : p {a < Y < b} = h−1 (b) f (x) dx =
Ra 0 Rb 0 Rb 0
b
f (h−1 (y)) (h−1 ) (y) dy = − f (h−1 (y)) (h−1 ) (y) dy = f (h−1 (y)) (h−1 ) (y) dy
a a

Exemple 80 Soit X N (0,1) ,m ∈ R et σ ∈ R∗+ Déterminons la densité


de la variable aléatoire Y = σX + m. Soit X une variable aléatoire de densité
f, posons

h : R→R
x 7→ σx + m

h est une bijection de classe C 1 telle que

h−1 R→R
:
y−m
y →
7
σ
0
on a (h−1 ) (y) = σ1 il résulte de la proposition précedente
 que 2la  variable
(x−m)
aléatoire Y a pour densité g (y) = σ1 f y−m 1

σ
= √2πσ 2
exp − 2σ2 .ie Y
N (m,σ 2 )

38
1.3 Fonction de répartition
Définition 81 Soit X une variable aléatoire de densité f (), On appelle fonc-
tion de répartition de X la fonction

FX : R → [0,1]
x 7→ FX (x) = p ({X ≤ x})

FX (x) = p {X ∈ ]−∞,x]} = p {X ∈ ]−∞,x[} = lim p {X ∈ ]−n,x[} =


n→+∞
Rx −n<x
lim = −∞ f (y) dy
n→+∞
−n<x
Soit X une variable aléatoire quelconque, Déterminons p {a < x ≤ b} ,a,b ∈
R,a < b
{X ≤ a} ⊂ {X ≤ b} ainsi on a {X ≤ b}\{X ≤ a} = {w ∈ Ω,X (w) ≤ b,X (w) > a} =
{w ∈ Ω,a < X (w) ≤ b} = {a < X ≤ b} Par conséquent p {a < x ≤ b} =
p ({X ≤ b} \ {X ≤ a}) = p {X ≤ b}−p {X ≤ a} car {X ≤ a} ⊂ {X ≤ b} ,d’où
p {a < x ≤ b} = FX (b) − FX (a)
Si X possède une densité alors p {a < x < b} = p {a < x ≤ b} = p {a ≤ x ≤ b} =
p {a ≤ x < b} = FX (b) − FX (a)
Proposition 82 Soit X une variable aléatoire de densité f () et de fonction
de répartition F , soit x0 ∈ R. si f () est continue en x0 on a F 0 (x0 ) = f (x0 ) .
Preuve. Par hypothèse ∀ > 0,∃η > 0 tq ∀x ∈ R, |x − x0 | < η ⇒ |f (x) − f (x0 )| <
. Soit h ∈ R telque |h| < η, R R
x0 +h x0 +h
|F (x0 + h) − F (x0 ) − hf (x0 )| = x0 f (x) dx − hf (x0 ) = x0 (f (x) − f (x0 )) dx ≤

R x0 +h
x0
|(f (x) − f (x0 ))| dx ≤  |h|

F (x0 +h)−F (x0 )
Donc ∀h 6= 0 telque |h| < η, on a − f (x0 ) ≤ . Par

h

conséquent, on en déduit que lim F (x0 +h)−F (x0 )
− f (x 0 = 0 ce qui montre
)

h→0 h

que : lim F (x0 +h)−F


h
(x0 )
= f (x0 )
h→0

Proposition 83 Soit X une variable aléatoire de fonction de répartition F ,


on suppose que F est continue sur R, F est dérivable sur R privé eventuel-
lement d’un nombe fini de point {a1 ,a2 ,...,an } ,a1 < a2 < ,..., < an . Si F’ est
continue sur chacun des ensembles ]−∞,a1 [ , ]a1 ,a2 [ ,..., ]an−1 ,an [ , ]an , + ∞[ ,
F 0 (x) si x ∈ R \ {a1 ,a2 ,...,an }

alors la variable aléatoire X a pour densité : g (x) =
0 si x ∈ {a1 ,a2 ,...,an }
Preuve. Posons a0 = −∞ et an+1 = +∞, il faut montrer que ∀a,b ∈ R telque
Rb
a < b, on a : p {a < X < b} = a g (x) dx. Si a,b ∈ ]ai ,ai+1 [ , F (b) − F (a) =

39
Rb 0
Rb
a
F (x) dx = a
g (x) dx. Si a ∈ ]ai ,ai+1 [ ,i ∈ {0,1,...,n − 1} ,∀b ∈ ]ai ,ai+1 [ ,
Rb Rb
on a F (b)−F (a) = a F 0 (x) dx = a g (x) dx. En faisant tendre bR vers a−
R ai+1 i+1 on
− 0 ai+1
obtient : F ai+1 −F (a) = F (ai+1 )−F (a) = a F (x) dx = a g (x) dx
Rb
intégrale généralisée. Si b ∈ ]ai ,b[ , on a F (b) − F (a) = a F 0 (x) dx =
Rb Rb
a
g (x) dx,En faisant tendre a vers a+ i on en déduit :F (b)−F (ai ) = ai g (x) dx
intégrale généralisée. ∀a,b ∈ ]ai ,ai+1 [ ,i ∈ {0,1,...,n − 1} , on a F (b) − F (a) =
Rb 0 Rb + −
a
F (x) dx = a
g (x) dx.En
 faisant tendre a vers ai et b vers ai+1 , on de-
− +
duit que RF ai+1 − F ai = F (ai+1 ) − F (ai ) Car F est continue.F (ai+1 ) −
a
F (ai ) = aii+1 g (x) dx intégrale généralisée. Si a et b n’appartient pas à un in-
tervalle du type ]ai ,ai+1 [ , Soit {ai0 ,ai1 ,...,ain } l’ensemble des ai qui appartient
à [a,b],p {a < X < b} = F (b)−F (a) = (F (b) − F (a11 ))+(F (a11 ) − F (a12 ))+
  Rb
.... + F a1n−1 − F (a1n ) + (F (a1n ) − F (b)) = a g (x) dx en utilisant la re-
lation de chasles pour l’intégration généralisée

1.4 Moment d’une variable aléatoire continue


ces nombres donnent des indications sur le comportement de la variable
aléatoire.

Définition 84 Soit X une variable


R aléatoire de densité f (), l’esperance de
RX existe si et seulement si R |x| f (x) dx < +∞. Et dans ce cas E (x) =
R
xf (x) dx

L’espérance de X correspond à la moyenne de la variable aléatoire.

Remarque 85 Soit X une variable aléatoire à valeurs dans un intervalle


[a,b] de densité f () alors E (x) existe. En effet f (x) = 0,∀x ∈ / [a,b] Donc
R Rb Rb
R
|x| f (x) dx = a |x| f (x) dx ≤ a max (|a| , |b|) f (x) dx ≤ max (|a| , |b|) <
+∞

Exemple 86 calcul d’expérance

- loi uniforme sur [a,b]


Rb x h 2 ib
b2 −a2
E (x) = R xf (x) dx = a b−a dx = b−a x2 = 2(b−a)
1
= b+a
R
2
a
- Loi exponentielle de parametre
R +∞ λ R +∞ +∞
E (x) = R xf (x) dx = 0 xλe−λx dx = 0 xd −e−λx = −xe−λx 0 +
R  
R +∞ −λx 1 +∞
λe−λx dx = λ1
R
0
e dx = λ 0
- Loi normale N(0,1)
 2
f (x) = √12π exp − x2 Montrons que ∀n ∈ N∗ , R |x|n f (x) dx < +∞
R

Etude de l’intégrale à +∞

40
 2

On sait que lim x2 [|x|n f (x)] = lim √1 xn+2 exp − x
2π 2
= 0. Par
x→+∞ x→+∞
R +∞
conséquent, ∃A > 0 tq ∀x > A, |x|n f (x) < x12 . Comme A x12 dx converge,
R +∞
alors A |x|n f (x) dx converge également.
Etude de l’intégrale à −∞  
2
On sait que lim x2 [|x|n f (x)] = lim √1 xn+2 exp − x
2
= 0.Par
x→−∞ x→−∞ 2π
RB
conséquent, ∃B > 0 tq ∀x < B, |x|n f (x) < x12 . Comme −∞ x12 dx converge,
RB RB
alors −∞ |x|n f (x) dx converge également. Donc R |x|n f (x) dx = −∞ |x|n f (x) dx+
R
RA n R +∞
|x| f (x) dx + A |x|n f (x)Rdx < +∞ On déduit que R |x| f (x) dx <
R
B
+∞. par conséquent E (x) = R
xf (x) dx = 0 car la fonction xf (x) est
impaire.

Proposition 87 Soient X et Y deux variables aléatoires continues qui possèdent


une espérance. Soit a ∈ R

1. E (X + Y ) existe et on a E (X + Y ) = E (X) + E (Y )
2. E (aX) existe et on a E (aX) = aE (X)
3. Si X ≥ 0, alors E (X) ≥ 0 et si X > Y alors E (X) > E (Y )

Preuve. 1) admise
2) si a = 0 alors le résultat
1 y
 est évident. Si a 6= 0, on sait que Y = aX a
pour densité g (y) = |a| f a .
1
f ay dy Posons x = ay , on a alors: R |y| g (y) dy =
R R  R
R
|y| g (y) dy = R |y| |a|
( R
+∞ R +∞
−∞
|x| f (x) adx = −a −∞ |x| f (x) dx < +∞ si a < 0
R +∞ R +∞
−∞
|x| f (x) adx = a −∞ |x| f (x) dx < +∞ si a > 0
R R +∞
On déduit que R |y| g (y) dy = |a| −∞ |x| f (x) dx < +∞ On a alors
1
f ay dy. Si a < 0, posons x = ay , On a alors E (aX) =
R 
E (aX) = R |y| |a|
R −∞ R +∞
+∞
−axf (x) dx = a −∞
xf (x) dx = aE (X) . Le cas a > 0 est évident.
R R +∞
3) Si X ≥ 0, Il est claire que = R xf (x) dx = 0 xf (x) dx ≥ 0
Si X ≥ Y,alors X −Y ≥ 0 par conséquent 0 ≤ E (X − Y ) = E (X)−E (Y )

Proposition 88 Soit X une variable aléatoire de densité fR (), et ϕ : R → R


R si et seulement si R |ϕ (x)| f (x) dx <
une fonction quelconque. E (ϕ (X)) existe
+∞. Dans ce cas on a : E (ϕ (X)) = R ϕ (x) f (x) dx.

Preuve. La variable aléatoire ϕ (X) n’admet pas forcément une densité.


La formule est cependant valide dans tous les cas. Nous allons faire cette
démonstration dans les deux cas particuliers.

41
Si X est à valeurs dans un intervalle ouvert U et ϕ une fonction bijective
de U dans V telque f et f−1 soit dérivable. Dans ce cas Y = ϕ (X) a pour
−1 0
 −1

f (ϕ (y)) (ϕ ) (y) si y ∈ V

densité g (y) =
R 0 si y ∈ VR
On a alors E (Y ) = R yg (y) dy = V yg (y) dy.
Supposons que ϕ soit décroissante. Posons x = ϕ−1 (y) , alors
Z Z
0
yf ϕ−1 (y) ϕ−1 (y) dy

yg (y) dy = −
V ZV
0
yf ϕ−1 (y) ϕ−1 (y) dy en supposant que U = ]a,b[

= −
]ϕ(b),ϕ(a)[
Z a Z b
= − ϕ (x) f (x) dx = ϕ (x) f (x) dx
b a
Z b Z
= ϕ (x) f (x) dx = ϕ (x) f (x) dx car f (x) = 0,∀x ∈
/U
a R
n
P
Si ϕ (x) = ai 1Ai (x) où est une partition de R, On peut dire que
i=1
Y = ϕ (X) est à valeurs dans {a1 ,...,an } c’est donc une variable aleatoire
Pn Pn
discrete. Par conséquent E (Y ) = ai p {Y = ai } = ai p {X ∈ Ai } =
i=1  i=1 
Pn R Pn R R P n
ai Ai f (x) dx = ai R 1Ai (x) f (x) dx = R ai 1Ai (x) f (x) dx =
Ri=1 i=1 i=1

R
ϕ (x) f (x) dx
Proposition 89 Inégalité de Markov.
Si X est une variable aléatoire positive telque E (X) existe. ∀a > 0, on a :
p {X ≥ a} ≤ E(X)
a

Preuve.
Z Z +∞
E (X) = xf (x) dx car ∀x < 0,f (x) = 0
xf (x) dx =
0
ZRa Z +∞ Z +∞
= xf (x) dx + xf (x) dx ≥ xf (x) dx
0 a a
Z +∞ Z +∞
≥ af (x) dx = a f (x) dx = ap {X ≥ a}
a a

Définition 90 Soit X une variable aléatoire telque E (X 2 ) < +∞. On ap- 


pelle variance de X et on note var (X) la quantité var (X) = E (E (X) − X)2 =
E (X 2 ) − E (X)2

42
Proposition 91 Inégalité de Tchébitchev
Soit X une variable aléatoire telque E (X 2 ) < +∞. ∀a > 0, on a : p {|X − E (X)| ≥ a} ≤
var(X)
a2

Preuve.
E (E (X) − X)2

 2 2
var (X)
p {|X − E (X)| ≥ a} = p (|X − E (X)|) ≥ a ≤ =
a2 a2

Propriété
∀a,b ∈ R var (aX + b) = a2 var (X)

1.5 Vecteurs aléatoires continus


L’orsqu’une variable aléatoire st valeurs dans Rd , d ∈ N\ {0,1}, on parle
de vecteur aléatoire. Un vecteur aléatoire X à valeurs dans Rd possède comme
composantes X1 ,...,Xd qui sont des variables aléatoires réelles. En général, il
n’est pas possible de déduire la loi de X = (X1 ,...Xd ) à partir de celle des
des variables Xi ,
Une fonction f (·,·) de R2 dans R est une densité de probabilité si :

1. f (·,·) est positive


2. f (·,·) est intégrable
RR
3. R2 f (x1 ,x2 ) dx1 dx2 = 1

La plupart du temps, f (·,·) est une fonction continue sur une partie D de
2
R et nulle en dehors de cette partie. Un vecteur aléatoire X de densité f (·,·)
est à valeurs dans une partie D de R2 et nulle en dehors de cette partie.

Définition 92 Soit f (·,·) une densité sur R2 , On dit que f (·,·) est la densité
de la variable aléatoire X = (X1 ,X2 ) si ∀a 1 ,b1 ,a2 ,b2 ∈ R,a1< b1 et a2 < b2
R b1 R b2
on a p (a1 < X1 < b1 ,a2 < X2 < b2 ) = a1 a2 f (x1 ,x2 ) dx2 dx1
Si X = (X1 ,X2 ) possède une densité, alors ∀x1 ,x2 ∈ R,p {X1 = x1 ,X2 = x2 } =
0

Proposition 93 Soit X = (X1 ,X2 ) un vecteur aléatoire à valeurs dans R2


de densitéR f (·,·) . alors la variable aléatoire
R X1 (resp.X2 )a pour densité
f1 (x1 ) = R f (x1 ,x2 ) dx2 resp. f2 (x2 ) = R f (x1 ,x2 ) dx1

Preuve. ∀a1 ,b1 ∈ R,a1 < b1 , on a : p (a1 < X1 < b1 ) = p (a1 < X1 < b1 ,X2 ∈ R) =
R b R +∞
p (a1 < X1 < b1 , − ∞ < X2 < +∞) = a11 −∞ f (x1 ,x2 ) dx2 dx1 . On en

43
R +∞
déduit que −∞ f (x1 ,x2 ) dx2 est la densité de la variable aléatoire X1 , Le
même raisonnement permet de retrouver la densité de la variable aléatoire X2 .
p (a2 < X2 < b2 ) = p (X
R +∞ R b2 1 ∈ R,aR2 <X 2 < b2 ) = p (−∞< X1 < +∞,a2 < X2 < b2 ) =
b2 R +∞
−∞ a2
f (x1 ,x2 ) dx2 dx1 = a2 −∞ f (x1 ,x2 ) dx1 dx2

Exemple 94 Si X = (X1 ,X2 ) est variable  aléatoire de densité constante sur


m si (x1 ,x2 ) ∈ [a,b] × [c,d]
[a,b] × [c,d] ,a < b,c < d,f (x1 ,x2 ) =
0 sinon
RR RR R b R d 
on a alors 1 = R2 f (x1 ,x2 ) dx1 dx2 = [a,b]×[c,d] f (x1 ,x2 ) dx1 dx2 = a c mdx2 dx1 =
1
m (d − c) (b − a), il résulte que m = donc f (x1 ,x2 ) = (d−c)(b−a) 1[a,b]×[c,d] (x1 ,x2 ) ,la
R
variable aléatoire X1 a pour densité f1 (x1 ) = R f (x1 ,x2 ) dx2 , Si x1 ∈/ [a,b] ,f1 (x1 ) =
Rd 1 1
0 sinon f1 (x1 ) = c mdx2 = m (d − c) = (b−a) donc f1 (x1 ) = (b−a) 1[a,b] (x1 )
1
de même f2 (x2 ) = (d−c) 1[c,d] (x2 )

Remarque 95 f (x1 ,x2 ) = f1 (x1 ) f2 (x2 )

Exemple 96 Si X = (X1 ,X2 ) est variable aléatoirede densité constante sur


m si (x1 ,x2 ) ∈ D
D = {(x1 ,x2 ) ∈ R2 /x21 + x22 ≤ 1} donc f (x1 ,x2 ) = On
RR RR 0 RRsinon
sait que 1 = R2 f (x1 ,x2 ) dx1 dx2 = D f (x1 ,x2 ) dx1 dx2 = D mdx1 dx2 =
m × aire de D=cπ il en résulte que m = π1 , donc Rf (x1 ,x2 ) = π1 1D (x1 ,x2 ) ,
la variable aléatoire X1 a pour densité f1 (x1 ) = R f (x1 ,x2 ) dx2 , Si x1 ∈ /
R √1−x21 p
[−1,1] ,f1 (x1 ) = 0 sinon f1 (x1 ) = √ 2 mdx2 = 2m 1 − x21 donc f1 (x1 ) =
− 1−x1
2
p 2
p
2
π
1 − x 1 1[−1,1] (x 1 ) de même f2 (x 2 ) = π
1 − x22 1[−1,1] (x2 )

Remarque 97 f (x1 ,x2 ) 6= f1 (x1 ) f2 (x2 )

Proposition 98 Si X = (X1 ,X2 ) est un vecteur aléatoire à valeurs dans


R2 de densité f (·,·) . Si RR
h est une fonction de R2 dans R,E (h (X1 ,X2 ))
RR si R2 |h (x1 ,x2 )| f (x1 ,x2 ) dx1 dx2 < +∞ et dans ce
existe si et seulement
cas E (h (X1 ,X2 )) = R2 h (x1 ,x2 ) f (x1 ,x2 ) dx1 dx2

Exemple 99 Soit X = (X1 ,X2 ) un couple de variables aléatoires de den-


sitéf (·,·) déterminer une condition nécessaire et suffisante pour que E (X12 X23 )
existe et donner sa valeur.
Soit h : R2 → R telque h (x1 ,x2 ) = x21 x32 . Il est clair que h (X1 ,X2 ) =
2 3 2 3
X1 X2 , Il en résulte
RRde la proposition précedente que E RR(X1 X22 )3 = E (h (X1 ,X2 ))
si et seulement si R2 |h (x1 ,xRR 2 )| f (x1 ,x2 ) dx1 dx2 = R2
|x1 x2 | f (x1 ,x2 ) dx1 dx2 <
2 3 2 3
+∞
RR dans ce cas E (X1 X2 ) = R2 x1 x2 f (x1 ,x2 ) dx1 dx2 .. De même E (X1 X2 ) =
x x f (x1 ,x2 ) dx1 dx2
R2 1 2

44
Définition 100 Si (U,V ) est un vecteur aléatoire à valeurs dans R2 de den-
sité f (·,·) telque E (U 2 ) < +∞ et E (V 2 ) < +∞, on appelle covariance
de U et de V , le réel noté cov (U,V ) défini par : cov (U,V ) = E (U V ) −
E (U ) E (V ) = E ((U − E (U )) (V − E (V ))) .
Définition 101 Soient X et Y deux variables aléatoires telles que E (X 2 ) <
+∞ et E (Y 2 ) < +∞,var (X) 6= 0 et var (Y ) 6= 0, on appelle coefficient
de corrélation du couple (X,Y ) le réel noté ρ (X,Y ) défini par ρ (X,Y ) =
√ cov(X,Y
√)
var(X) var(Y )

Proposition 102 1. −1 ≤ ρ (X,Y ) ≤ 1


2. ρ (X,Y ) = 1 ⇔ ∃a,b ∈ R p {Y = aX + b} = 1
Preuve. Soient U et V deux variables aléatoires réelles telles que E (U 2 ) <
+∞ et E (V 2 ) < +∞, ∀λ ∈ R, on a :E (λU + V )2 = λ2 E (U 2 ) + 2λE (U V ) +
E (V 2 ) ≥ 0pdonc ∆p 0
= (E (U V ))2 − E (U 2 ) E (V 2 ) ≤ 0 ce qui équivaut
|E (U V )| ≤ E (U 2 ) E (V 2 ) (1)
∆0 = 0 ⇔ le polynome admet une racine double λ0 = −E(U V)
E(U 2 )
⇒ E (λ0 U + V )2 =
n o
V)
0 ⇒ p {λ0 U + V = 0} = 1 ⇒ p V = E(U E(U 2 )
U = 1 (2)
p p
remarque : ∆0 = 0 ⇔ |E (U V )| = E (U 2 ) E (V 2 ) Posons U = X −
E (X) et V = Y − E (Y ) , D’après (1) on a |cov (X,Y )| ≤ σ (X) σ (Y ) d’où
|ρ (X,Y )| ≤ 1 p p
|ρ (X,Y )|n= 1 ⇔ |cov (X,Y )| = σ (X) σ (Y ) ⇔ |E (U V )| = E (U 2 ) E (V 2 ) ⇔
o
V)
∆0 = 0 ⇒ p V = E(U
E(U 2 )
U =1
n o
cov(X,Y )
⇒ p Y = var(X) (X − E (X)) + E (Y ) ⇒ p {Y = aX + b} = 1 avec
a = cov(X,Y
var(X)
)
et b = E (Y ) + aE (X)
Réciproquement si Y = aX + b alors cov(X,Y ) = cov(X,aX + b) =
acov(X,X) + cov(X,b) = avar (X) ; var(Y ) = var (aX + b) = a2 var (X)
(a 6= 0 car var (Y ) 6= 0) donc ρ (X,Y ) = √ cov(X,Y
√) = √ avar(X)

var(X) var(Y ) |a| var(X) var(X)
ceci montre que |ρ (X,Y )| = 1
Proposition 103 Si X = (X1 ,...,Xn ) est un vecteur aléatoire
Pn telle que
2
∀iP∈ {1,...,n} ,E (Xi ) < +∞ alors var (X1 + ... + Xn ) = i=1 var (Xi ) +
2 1≤i≤j≤n cov (Xi ,Xj )

1.6 Variables aléatoires indépendantes


Définition 104 Si X = (X1 ,X2 ) est un vecteur aléatoire à valeurs dans R2
de densité f (·,·) , on dit que les variables aléatoires X1 et X2 sont indépendantes

45
si et seulement si pour tous les intervalles ouverts réels I1 et I2 , on a p {X1 ∈ I1 ,X2 ∈ I2 } =
p {X1 ∈ I1 } p {X2 ∈ I2 }

Remarque 105 L’indépendance des variables aléatoires X1 et X2 équivaut


à celle des évenements {X1 ∈ I1 } et {X2 ∈ I2 }

Proposition 106 Soit X = (X1 ,X2 ) un vecteur aléatoire à valeurs dans R2


de densité f (·,·) , Soit f1 (resp. f2 ) la densité de la variable aléatoire X1 (resp.
X2 ), les variables aléatoires X1 et X2 sont indépendantes si et seulement si
∀ (x1 ,x2 ) ∈ R2 f (x1 ,x2 ) = f1 (x1 ) f2 (x2 )

Preuve. Si les variables aléatoires X1 et X2 sont indépendantes pour tous les


intervalles
R ouverts  a Rp {X
 Rréels I1 et I2 , on R1 ∈ I1 ,X2 ∈ I2 } = p {X  1 ∈ I1 } p {X2 ∈ I2 } =
f (x1 ) dx1
I1 1 I2 2
f (x2 ) dx2 = I1 I2 f1 (x1 ) f2 (x2 ) dx2 dx1 Ceci montre
que X = (X1 ,X2 ) a pour densité f (x1 ,x2 ) = f1 (x1 ) f2 (x2 )Réciproquement si
R R
f (x1 ,x2 ) = f1 (x1 ) f2 (x2 ) , on a p {X1 ∈ I1 ,X2 ∈ I2 } = I1 I2 f (x1 ,x2 ) dx2 dx1 =
R R  R  R 
I1 I2
f1 (x 1 ) f2 (x 2 ) dx 2 dx 1 = I1
f1 (x 1 ) dx 1 I2
f2 (x 2 ) dx 2
= p {X1 ∈ I1 } p {X2 ∈ I2 } ,Ce qui montre que les variables aléatoires X1
et X2 sont indépendantes

Proposition 107 Si X = (X1 ,X2 ) est un vecteur aléatoire à valeurs dans R2


de densité f (·,·) , telque E (|X1 |) < +∞ et E (|X2 |) < +∞, alors E (X1 X2 )
existe et E (X1 X2 ) = E (X1 ) E (X2 )
RR RR R  R
Preuve. |x1 x2 | f (x1 ,x2 ) dx1 dx2 = |x1 x2 | f1 (x1 ) f2 (x2 ) dx1 dx2 = R |x1 | f1 (x1 ) dx1 R
|x2
R2 R2
d’après le théorème de Fubini
= E (|X1 |) E (|X2 |) RR
< +∞ ce qui montre que RE (X1 X2 ) existe.,  R on en 
déduit que E (X1 X2 ) = x1 x2 f (x1 ,x2 ) dx1 dx2 = R x1 f1 (x1 ) dx1 x f (x2 ) dx2 =
R 2 2
R2
E (X1 ) E (X2 )

Corollaire 108 Si X = (X1 ,X2 ) est un vecteur aléatoire à valeurs dans R2


de densité f (·,·) , telque E (|X1 |) < +∞ et E (|X2 |) < +∞, alors cov (X1 ,X2 ) =
0 Lorsque les variables aléatoires sont indépendantes.

la réciproque est fausse.

Proposition 109 Si X et Y sont deux variables aléatoires indépendantes de


densité respectives
R f et g, la somme X+Y est une variable aléatoire de densité
h (v) = R f (u) g (v − u) du

46
Preuve. Soit A unRRintervalle de R, Soit B = {(x,y)
RR ∈ R2 ,x + y ∈ A} ,p {X + Y ∈ A} =
p {(X,Y ) ∈ B} = f (x) g (y) dxdy = f (x) g (y) dxdy
B {(x,y)∈R2 ,x+y∈A}

R Effectuons
R le changement de variables (u,v) = (x,x + y) , on a p {X + Y ∈ A} =
u∈A v∈A
f (u) g (v − u)
R dv du. Il en résulte que la variable aléatoire X+Y
a pour densité h (v) = R f (u) g (v − u) du

1.7 Convergences
Theorem 110 Loi faible des grands nombres
Soit (Xk )k≥1 une suite de variables aléatoires indépendantes deux à deux

de même loi, telles que E (X1 ) < +∞, alors ∀ > 0, lim p X n − E (X1 ) ≥  =
n→+∞
n
1
P
0 où X n = n Xi
i=1

n
 n

1 nE(Xi ) 1
 P  P
Preuve. E X n = n
E (Xi ) = n
= E (Xi ) ; var X n = var n
Xi =
i=1 i=1
n
1 var(Xi )
P 
n2
var (Xi ) = n
il résulte de l’inégalité de Tchébytchef que p X n − E (X1 ) ≥  ≤
i=1
var(X n )
2
= var(X
n2
i)
→ 0 quand n→ +∞
Cette loi faible des grands nombres, outre son importance en probabilité
sert beaucoup en statistique.

Theorem 111 Théorème limite centrale


Soit (Xk )k≥1 une suite de variables aléatoires indépendantes (iid) deux à
n
deux de même loi, on suppose que E (X12 ) existe. Posons Sn =
P
Xi alors
  i=1
Rb 1  2
Sn −nE(Xi )
2
∀ (a,b) ∈ R ,a < b, on a lim p a < √ < b = a 2π exp − x2 dx

n→+∞ nvar(Xi )

Sn −nE(Xi ) √
Remarque 112 √ = √n −E(Xi )
nX
nvar(Xi ) var(Xi )

Ce théorème sert de justification théoriques à la règle pratique suivante :


lorsque n est assez grand (n ≥ 30) dans la pratique, si (Xk )k≥1 est une suite
de variables aléatoires iid telque E (Xi2 ) < +∞, on peut approximer la loi de
√ n −E(Xi ) √ n −E(Xi )
la variable aléatoire n X √ par la loi N (0,1) ,∀n, n X √ N (0,1)
var(Xi ) var(Xi )

47
1.8 Famille exponentielle:
La famille de loi exponentielle joue un rôle important statistique car elle
possède un certain nombre de propriété intéressante. Il s’agit
P de loi dont la
k
densité peut s’écrire sous la forme :f (x,θ) = a (θ) b (x) exp j=1 αj (θ) Tj (x)

Exemple 113 X B (n,p) ,θ = p


f (x,p) = p {X = x} = Cnx px (1 − p)n−x = Cnx (1 − p)n px (1 − p)−x=
Cnx (1 − p)n exp (x ln (p)) exp (−x ln (1 − p)) = Cnx (1 − p)n exp x ln 1−p
p
 
a (p) = (1 − p)n ,b (x) = Cnx ,α1 (p) = ln 1−p
p
,T1 (x) = x
−θ θ x
X p (θ) ,f (x,θ) = e x!
= e−θ x!1 exp (x ln (θ)) ,a (θ) = e−θ ,b (x) =
1
,α (θ) = ln (θ) ,T1 (x) = x
x! 1

48
Troisième partie

Inférence statistique

49
Chapitre 1

L’échantillonnage

1.1 Introduction
Le problème de l’inférence statistique est le suivant : Disposant d’un
échantillon de taille n, on désire en déduire les propriétés de la population
dont il est issu. Ainsi on cherchera à estimer, par exemple, la moyenne de la
population m à partir de la moyenne x d’un échantillon. ceci n’est possible
que si l’échantillon a été choisi d’une certaine manière.
La théorie de l’échantillonage étudié les relations qui existent entre la
distribution d’un caractère dans une population mère ou d’origine et les dis-
tributions de ce caractères dans tous les différents échantillons prélévés dans
cette population mère.

1.2 Notion élementaire sur les sondages


Définition 114 Un sondage est le mode d’obtention ou de prélèvement d’un
échantillon issue d’une population mère.
Définition 115 Une base de sondage est une liste numérotée de 1 à N des
N individus d’une population dans laquelle on veut extraire un échantillon.
Définition 116 Le taux de sondage est la proportion (pourcentage) de la
population totale échantillonée lors d’un sondage sans remise.
Exemple 117 1000 étudiants de la filère Biochimies font la mat 118. On
choisit au hasard 100 étudiants. La base de sondage ce sont les 1000 étudiants,
le taux de sondage est de 10%.
Il existe plusieurs modes d’obtentions d’un échantillon. Les méthodes em-
piriques et les methodes aléatoires.

50
1.2.1 Les méthodes empiriques
Ce sont plus connu du grand public et les plus utilisées par les instituts
de sondage d’opinion.

a) les méthodes des quotas ou sondage raisonné


L’enqueteur prélève librement son échantillon à condition de respecter
une composition donnée à l’avance: sexe, âge, catégorie professionnelle.

b) Méthodes des unités types


On choisit des unités d’individus que l’on considère comme fortement
representatives de certaines catégories de la population.

1.2.2 Les méthodes aléatoires


elle repose sur le tirage au hasard des échantillons.

a) méthodes élementaires
Elle consiste à tirer au hasard n individus dans une population N. Chaque
individu ayant une probabilité de 1/N d’être tiré. On parle aussi d’échantillon
aléatoire simple. Si les probabilités d’être tiré varie d’un individu à un autre,
on parle d’échantillon biaisé et de sondage à probabilité inégale.

b) Sondage stratifié
L’idée consiste à composer un échantillon à l’aide des sous échantillons
prélévés généralement de façon proportionnelle dans les différentes sous-
populations appélées strates de la population globale. cette méthode permet
d’améliorer considérablement la précision des estimations.

c) sondage systématique
Il consiste à prendre non pas des individus au hasard sur une liste comme
au point a, mais des individus régulièrement espacés sur la liste.

Exemple 118 Pour un sondage au 10ème, on prendra le 1er, le 11ème,


21ème

51
d) sondage par grappe
On tire au hasard des familles d’individus appélée grappes qu’on introduit
dans l’échantillon.

Exemple 119 On tire d’abord les immeubles, on interroge tous les habitants
de l’immeuble.

e) Sondage à plusieurs dégrés


C’est un tirage en cascade.

Exemple 120 On tire au hasard les villes, puis dans les villes on tire au
hasard les quartiers, puis les immeubles, puis les habitants.

Définition 121 L’échantillon sera dit exhaustif si le tirage est sans remise
et il est dit non exhaustif dans le cas contraire.

1.3 L’échantillon aléatoire


Exemple 122 Considérons l’exemple suivant :
Un rélévé complet du nombre d’automobile par résidence, pour les 50
maisons unifamilliales au quartier Santa Babara à yaoundé, précise que pour
30 d’entre elle, on ne compte qu’une seule voiture alors que chez les 20 autres
on en compte que deux.
Notons qu’ici la variable aléatoire est le nombre de vehicules par résidence.
ici on a affaire à une population et non un échantillon. et cette situation peut
Xi Ni P (X = xi )
1 30 3/5
être résumé comme dans le tableau suivant: La
2 20 2/5
Total 50 1
moyenne du nombre d’automobile par résidence est égale à µ = N1
P
Ni Xi =
(30×1)+(20×2) (30×12 )+(20×22 )
= 1,4 et la variance est égale σ 2 = N1 Ni Xi2 −µ2 =
P
50 50

2
(1,4) = 0,24. Deplus nous considérons comme ”succès” le fait qu’une mai-
son ne compte qu’un seule vehicule. Nous pouvons définir p=la proportion de
succès à l’interieur de cette population ” et le tableau ci dessus montre que
30
p = 50 = 0.6
Proposons nous maintenant, de prelever un échantillon de 3 maisons
et de noter le nombre d’auto que l’on compte pour chacune d’elle. Nous
procédons au tirage par hasard et avec remise. Chaque résultat dévient une
variable aléatoire indépendante des autres. A chaque échantillon (x1 ,x2 ,x3 )

52
P3
xi
, une variance s2 = 13 x2i − x2 , et
P
correspond une moyenne x = i=1 3
un écart type s et une proportion de succès (1 seule vehicule/résidence)
p = nombre de résidences de l’échantillon
3
ne possédant qu’un seul auto
Nous retrouvons de-
vant l’ensemble des possibilité suivants: P3
xi
s2 = 13 x2i − x p
P
(x1 ,x2 ,x3 ) p (x1 ,x2 ,x3 ) x = i=1 3
(1,1,1) 27/125 1 0 3/3=1
(1,1,2) 18/125 4/3 2/9 2/3
(1,2,1) 18/125 4/3 2/9 2/3
(1,2,2) 12/125 5/3 2/9 1/3
(2,1,1) 18/125 4/3 2/9 2/3
(2,1,2) 12/125 5/3 2/9 1/3
(2,2,1) 12/125 5/3 2/9 1/3
(2,2,2) 8/125 2 0 0
Dans toute la suite et comme en statistique, La majuscule désigne la va-
riable aléatoire ou l’ensemble des possibilités et la miniscule pour identifier
une réalisation ou une possibilité. Plusieurs x; s2 ,p nous amènent à considérer
les variables aléatoires X,S 2 ,P et leur caracteristiques respectives.
La distribution de probabilité de la variable X, moyenne d’échantillon
4 5
x   127 354 336 28 avec pour espérance E X =

aléatoire est :
P X=x 125 125 125 125
27 4 54
+ 53 × 12536 8
= 1,4 et sa variance V X = (1)2 ×

1 × 125 + 3 × 125 + 2 × 125
4 2 5 2
27 54 36
+ (2)2 × 125 8
− (1,4)2 = 0,08
 
125
+ 3
× 125
+ 3
× 125
La distribution de probabilité de la variable S 2 , variance d’échantillon
2
s2 0
aléatoire est : 2 2 35
9
90 avec pour espérance E (S 2 ) = 0 ×
P ({S = s }) 125 125
2 2 2
35 2 90 35 90
− (0,16)2 =
2

125
+ 9
× 125
= 0,16 et sa variance V (S ) = (0) × 125
+ 9
× 125
0,01
La distribution de probabilité de la variable P , proportion de succès aléatoire,
1 2
p  0 3 3
1
à l’interieur de l’échantillon est :  8 36 54 27 avec
P P =p 125 125 125 125
27
+ 23 × 12554
+ 13 × 125
36 8

pour espérance E P = 1× 125 +0× 125 = 0,6 et sa variance
2 2 2 2
27
+ 23 × 125 54
+ 13 × 125 36 8
− (0,6)2 = 0,08
  
V P = (1) × 125 + (0) × 125

Commençons par déterminer les composantes de tout prélèvement d’un


échantillon à l’interieur d’une population donnée. L’hypothèse de travail est
qu’une population est unique. Quant à un caractère X, elle possède une dis-
tribution qui lui est propre, une moyenne µ, une variance σ 2 et une propotion
de succès p. Un échantillon, prélévé dans cette population peut apparaitre

53
de differentes façons. L’ensemble des différentes échantillons possibles est dit
”échantillons aléatoires” et noté (X1 ,X2 ,...,Xn )
Un ensemble d’échantillons possibles amène un ensemble de moyenne
d’échantillon possibles, un ensemble de variance possibles et un ensemble
de proportions de succès possibles à l’interieur de l’échantillon. L’ensemble
des différentes moyennes d’échantillon possibles sont les observations d’une
variable aléatoire appélée ”moyenne d’échantillon aléatoire” et noté X.
Cette variable possède une distribution de probabilité, une espérance E X

et une variance V X . L’ensemble des différentes variances d’échantillon
possibles sont les observations d’une variable aléatoire appélée ”variance
d’échantillon aléatoire” et noté S 2 . Cette variable possède une distribu-
tion de probabilité, une espérance E (S 2 ) et une variance V (S 2 ) . L’ensemble
des différentes proportions de succès possibles à d’échantillon possibles sont
les observations d’une variable aléatoire appélée ”variance d’échantillon
aléatoire” et noté S 2 . Cette variable possède une distribution de probabi-
lité, une espérance E (S 2 ) et une variance V (S 2 ) .L’ensemble des differentes
proportions de succès possibles à l’interieur de l’echantillon est dit ” propor-
tion de succes ALEATOIRE à l’interieur de l’echantillon” et note P . Cette
variable possède
 une distribution  de
 probabilité, une espe-
rance E P et une variance V P .Enfin une echantillon particulier tirer de
cette population est unique.il est noté(x1; x2 ....xn ) .et il possède une moyenne
unique:x, une variance unique :S 2 et une proportion de succès unique:P

1.4 CENTRE DE GRAVITE ET VARIANCE


DES VARIABLES X; S 2;ET P
1.4.1 ETUDE DE X
Theorem 123 Soit (X1 ,X2 ,...,Xn ) un echantillon aléatoire de X où les
Xi sont indépendantes les unes des autres et de même loi que X. Soit µ ,la
moyenne d’un caractère donné à l’interieur de la population, et σ 2 la variance
de ce caractère. SoitX , la moyenne d’echantillon aléatoire de ce caractère.
2
alors E X = µ et V X = σn où n est la taille de l’echantillon.


Preuve. E X = E n1 Xi = n1
 P  P  
E (Xi ) car E () est linéaire. E X =
1
µ = n1 nµ = µ et V X = V n1 Xi = n12
P  P  P
n
V (Xi ) d’après les
1 1 σ2
 P 2 2
propriétés des variances V X = n2 σ = n2 nσ = n
Remarque 124 la premiere partie de ce theorème nous indique que bien
qu’il ait plusieurs moyennes d’echantillon possibles x au moment de prelèvement

54
d’un echantillon,l’ensemble de ces differentes possibilite gravite autour de
µ,,la veritable moyenne de la population . comme exemple ;imaginons un
collège ou la moyenne d’age des etudiants serait µ = 18 ans.un echan-
tillon tiré de ce college pourrait presenter une moyenne d’age x1 de 17.75
ans;un second; une moyenne x2 de 18.25 ans;un troisieme; une moyenne x
3 de 17.85 ans, et ainsi de suite. Certains echantillons possèdent donc une
moyenne x inferieure à µ;d0 autre une moyenne supérieurne.mais
  la moyenne
probable de ces differentes possibilités de moyennes;E X ;correspond precise-
ment à µ = 18 ans;la moyenne d’age reèlle des etudiants de ce collège.
Quant à la deuxieme partie de ce théorème;elle precise que ces differentes
moyennes d’échantillon possible x tournent autour de la vraie moyenne µ de
la population avec une dispersion qui depend de n au denominateur.ainsi;plus
n est grand;plus V[x] est petit;plus la dispersion des differntes Xest faible,plus
la concentration des xatour de µ est resserrée.pour illustrer cette loi,reprenons
notre exemple de l’age des etudiants d’un collège. Si nous ne prelevons qu’un
echantillon de 2 etudiants,il est possible que celui ci soit composé de 2
etudiants plus jeunes (ou de 2 etudiants très vieux)par rapport à l0 ensemble,
ce qui nous donne une possibilité d’obtenir une moyenne d’echantillon très
faible(ou trè forte)par rappot à la moyenne reelle µ de ce collège.une petite
taille d’echantillon offre donc une possibilité de differences importantes entre
les diverses moyennes d’echantillon possible. Par contre, si nous prelevons
un echantillon de 500 etudiants, il devient trè peu probable.bien que ce soit
toujours possible; que la moyenne xd’un tel echantillon soit très faibleou très
forte par rappot à celle du collège. Ainsi, plus la taille de l’echantillon est
grande,plus les differentes moyennes d’echantillon possibles x ont de chance
d’être rapprochées de la moyenne µ de la population.

1.4.2 ETUDE DE S2
Theorem 125 Soit σ 2 la variance d’un caractère donné a l’intérieur de la
population et S 2 la variance d’échantillon aléatoire de ce caractère, alors
E [S 2 ] = (n−1)
n
σ 2 où n est la taille de l’échantillon

Preuve. en Exercice

Remarque 126 Alors que les différentes moyennes d’échantillon possibles x


gravitent autour de µ , ce théorème nous indique que les différentes variances
d’échantillon possibles S 2 ne gravitent pas tout à fait autour de σ 2 , la variance
de la population , Elles tournent autour d’une valeur légèrement inférieure à
σ 2 , c’est à dire autour de (n−1)
n
σ 2 A cause de cette particularité , on dit que

55
les différentes variances d’échantillon S 2 sont ( Biaisées ) par rapport à σ 2 .
Le biais provenant du coéfficient n−1 n
. Nous pouvons quand meme constater
que plus la valeur de n est grande moins le biais est prononcé , car alors n−1 n
→ 1. D’autre part , à cause du n dénominateur de V [S 2 ] nous pouvons encore
déduire que plus la taille de l’échantillon est importante , plus la concentration
des différents S 2 est resserée autour de (n−1)
1
σ2

1.4.3 ETUDE DE P
Theorem 127 Soit p la proportion de succès à l’intérieur de la population
et p la proportion de succès aléatoire à l’intérieur d’un échantillon de taille
n prélevé dans cette population , alors E[p] = p et V [p] = pq n

Preuve. en Exercice
Remarque 128 Le sens de ce théorème est très voisin de l’énoncé précédent
au sujet deX Les différentes proportions de succès possibles p à l’intérieur
d’un échantillon gravitent autour de la proportion de succès à l’intérieur de
la population p avec une concentration d’autant plus forte que la taille de
l’échantillon est importante.

1.5 LOIS DE PROBABILITE PARTICULIERES


POUR X ET P
Après nous etre intérrogés sur le centre de gravité et la dispersion des
variables x . S 2 et P , nous tenterons maintenant de découvrir à quelles
lois de probabilité sont soumises ces différentes variables , cependant , étant
donné nos connaissances actuelles, nous devrons nous limiter aux lois de
probabilité des variablesx etp , le dévéloppement de celle de la variable S 2
dépassant de niveau de notre étude.

1.5.1 LOIS DE PROBABILITE PARTICULIERES POUR


X
Theorem 129 Soit X , la variable étudiée pour l’ensemble de la population ,
et X , la moyenne
 d’échantillon
 aléatoire de cette variable , si X N (u; σ 2 )
2
alors X N u; σn où n = la taille de l’échantillon
Preuve. en Exercice
Exemple 130 On affirme que dans une région donnée , la taille ( en cm )
des bébés garçons , à la naissance est distribuée selon une loi N ( 49 ; 1,5 ),

56
Si l’on se rappelle que dans une distribution normale , la presque totalité des
valeurs du caractère se situent dans l’intervalle (u − 3σ; u + 3σ), une telle
donnée nous permet de conclure que dans cette région √ la presque totalité
√ dse
bébés garçons mesurent à la naissance entre 49 − 3 1,5 et 49 + 3 1,5cm,
c’est à dire entre 45,33 et 52,67 cm. De plus , avec cette donnée si nous
notons X la taille d’un bébé garçon , nous pouvons calculer entre autres que
le probabilité qu’un bébé choisi au hasard mesure entre 48,5 et 49,5 est égale
à P [48,5 ≤ X ≤ 49,5] = P [−0,41 ≤ Z ≤ 0,41] = 0,3182. Que se passe-
rait -il si l’on tirait un petit échantillon composé de 5 de ces bébés? D’après
l’énoncé de ce théorème , si l’on notex, la taille moyenne d’un tel échantillon
alors x : N (49 : 1,5 5
) = N (49; 0,3), Nous pouvons donc calculer que la
presque totalité des moyennes  possibles
√ , pour √ un échantillon
 de cette taille
se situent dans l’intervalle 49 − 3 0,3; 49 + 3 0,3 = [47,36; 50,64] cm et
que pour un tel échantillon p [48,5 ≤ x ≤ 49,5] = p [−0,91 ≤ Z ≤ 0,91] =
0,6372, Que se passerait -il , maintenant si l’on tirait un écantillon com-
posé de 50 de ces bébés ? Toujours d’après l’énoncé de notre théorème ,
si l’on notex la taille moyenne d’un tel échantillon , alorsX: N(49; 1,5 50
) =
N (49;0,03 ) Nous pouvons cdonc calculer la presque totalité des moyennes
possibles
 √ , pour un échantillon
√  de cette taille , se situent dans l’intervalle
49 − 3 0,03; 49 + 3 0,03 = [48,48; 49,52] cm, et que ,pour un tel échantillon
, P [48,5 ≤ x ≤ 49,5] = P [−2,89 ≤ z ≤ 2,89] = 0,9962, Ainsi, pour la va-
riable x distribuée dans l’ensemble de la population selon une loi N(49 ; 1,5
) , alors que ses différentes possibilités s’étalent normalement entre 45,33 et
52,67 cm ,les différentes possibilités de ses moyennes d’échantillon de taille
n s’étalent aussi normalement autour de u = 49 mais avec une concentration
d’autant plus forte que n est gand

Theorem 131 Soit X la variable étudiée pour l’ensmble de la population et


X la moyenne d’échantillon aléatoire de cette variable , si X suit la loi de
probabilité quelconque tel le que E [x] = µ , et V [x] = σ 2 et si n est
2
grand , alors X N (µ : σn ) , où n = la taille de l’échantillon

Preuve. en Exercice (utiliser le théorme de limite centrale)

Remarque 132 Plus n est grand ,plus cette approximation est juste dans la
pratique , on la cosidère généralement valable dès que n ≥ 30. Cependant,
si l’on soupçonne que la loi de probabilité de X est vraiment asymétrique ou
plurimodale , une étude minutieuse nous demanderait plutot de considérer
n ≥ 50

Exemple 133 Dans un certain hopital , le nombre de naissances par jour


varie de telle sorte qu’on en estime à 7 le nombre moyen et à 2 l’écart type

57
a ) quelle est la probabilité que le nombre moyen de naissances par jour ,
pour un échantillon de 10 jours se situe entre 6,5 et 7,5?
ici si l’on note X le nombre de naissances par jour, alors X suit une loi
quelconque, Comme n = 10 , la taille de l’échantillon est petite et le théorème
ne s’applique pas , nous ne pouvons pas donc connaitre la loi de probabilité
de X et delà , nous ne pouvons pas repondre à la question posée
b ) Si l’on revélait plutot un échantillon de 125 jours , quelle serait alors la
probabilité que le nombre moyen de naissance par jour , pour cette échantllon
se situe entre 6,5 et 7,5
2
Encore ici , X suit une loi2 aquelconque avec µ = 7 et σ = 4. comme n =
σ

125 est grand ,X N µ : n = N (7; 4/125) et ainsi P 6,5 ≤ X ≤ 7,5 =
P [−2,80 ≤ Z ≤ 2,80] = 0,9948

1.5.2 LOI DE PROBABILITE PARTICULIERE P


Theorem 134 Soit p , la proportion de succès à l’interieur de la population,
et P , la proportion de succès à l’interieur d’un échantillon aléatoire de
 en même temps, n ≥ 30,np ≥ 5,nq ≥
taille nprélévé dans cette population, si
pq
5 (où q = 1 − p), alors P N p; n

Preuve. en Exercice (Lorsque n ≥ 30,np ≥ 5,nq ≥ 5; alors d’après le


théorème de limite centrale, la loi binomiale B(n,p) est approximer par la loi
normale N (np,npq))

Exemple 135 Dans une compagnie, 35% du personnel est de sexe feminin
a) Entre quelles valeurs, environ devrait se situer la proportion de femme
dans un échantillon de 100 individu dans cette compagnie?
b) Quelle est la probabilité de retrouver entre 33% et 36,5% à l’interieur
d’un tel échantillon?
a) si l’on note P la proportion des femmes à l’interieur de l’échantillon
et comme n = 100 ≥  30,np = 100 × 0.35 = 35 ≥ 5,nq = 100 × 0.65 = 65 ≥ 5
pq
alors P ' N p; n = N (0.35; 0.002275) et ainsi
 √ √ 
p ∈ 0.35 − 3 0.002275; 0.35 + 3 0.002275 = [0.2069; 0.4931]
 
b)p 0.335 ≤ P ≤ 0.365 ' p [−0.31 ≤ Z ≤ +0.31] = 0.2434

58
Chapitre 2

ESTIMATION

2.1 Introduction
La distribution exacte d’une variable X modélisant le caractère qui inter-
esse le statisticien (taux de pollution d’une rivière, dépenses des ménages
pour le logement...) est généralement partiellement connue. La loi de X
dépend d’un parametre inconnu. On cherche à se faire une idée sur ce pa-
ramètre à partir des données observées sur l’échantillon. Ainsi attribuer
au paramètre une valeur numérique unique est une ESTIMATION PONC-
TUELLE. Pour ce faire, on choisit une statistique dont la valeur est, après
tirage aléatoire de l’échantillon, l’estimation du paramètre. Cette statistique
est l’ESTIMATEUR. Mais quelles sont les chances pour que cette estima-
tion ponctuelle soit exacte? Plutôt que d’estimer un paramètre à l’aide d’un
seul nombre, il arrive fréquemment que l’on fasse l’estimation en donnant
un INTERVALLE de valeurs. Un INTERVALLE D’ESTIMATION (ou de
CONFIANCE) est défini de telle sorte que l’on puisse affirmer avec un degré
de confiance fixé que le paramètre visé se trouve dans cet intervalle.
Nous nous intéresserons dans ce chapitre à l’estimation des principales
caractéristiques (ou paramètres) d’une v.a dans une population, à savoir la
moyenne, la variance et la fréquence.
Notations
• les paramètres à estimer seront notés par des lettres grecques minuscules
µ : moyenne
σ : écart-type
σ 2 : variance
π: proportion
• les réalisations d’échantillon seront notées par des lettres latines minus-
cules

59
x1 ,...,xn : valeur de l’échantillon
x : moyenne de l’échantillon
s : écart-type de l’échantillon
s2 : variance de l’échantillon
p : proportion dans l’échantillon
• les estimateurs ( v.a. ou statistiques) seront notés par des majuscules
X
S2
F

2.2 Généralités sur les estimateurs


Soit X une v.a. dont la loi dépend d’un paramètre inconnu θ .Soit (X1 ,...,Xn )
un n-échantillon de X et (x1 ,...,xn ) sa réalisation. Il
s’agit d’estimer le paramètre θ.

Définition 136 Un ESTIMATEUR de θ sera une statistique T = f (X1 ,...,Xn )


et sa réalisation sera notée t = f (x1 ,...,xn )

Pour un même paramètre, il peut y avoir plusieurs estimateurs possibles


(ex: Le paramètre d’une loi de Poisson admet comme estimateurs possibles
la moyenne empirique et la variance empirique). Pour pouvoir choisir, il faut
définir les qualités qui font qu’un estimateur sera meilleur.

Définition 137 On appelle erreur d’estimation: T − θ.

Celle-ci peut se décomposer de la façon suivante: T − θ = T − E(T ) +


E(T ) − θ
Le terme T − E(T ) traduit la fluctuation de T autour de son espérance
et le terme E(T ) − θ = B(T ) représente l’erreur systématique et s’appelle
BIAIS de l’ESTIMATEUR

Définition 138 (estimateur sans biais): Un estimateur T de θ est dit sans


biais si E(T ) = θ , (ou bien B(T ) = 0)

Exemple 139 : La moyenne empirique est un estimateur sans biais du


paramètre λ d’une loi de Poisson. La variance empirique est estimateur
biaisé du même paramètre .
n−1
En effet, E(X) = λ , E(S 2 ) = n
λ car E (X) = V (X) = λ

Définition 140 Un estimateur T de θ est dit asymptotiquement sans biais


si E(T ) → θ pour n → +∞

60
Définition 141 Un estimateur sans biais ou asymptotiquement sans biais
est dit convergent si V (T ) → 0 pour n → +∞

Définition 142 Soient T et T 0 deux estimateurs sans biais de θ. T est dit


plus efficace que T 0 si V (T ) ≤ V (T 0 )

Définition 143 L’estimateur sans biais et de variance minimale est appelé


estimateur efficace.

2.3 Les qualités d’un estimateur


La première qualité que l’on attend d’un estimateur est qu’il converge vers
le paramètre qu’il estime, lorsque la taille de l’échantillon tend vers l’infini.

Définition 144 Un estimateur Tn est faiblement consistant s’il converge en


probabilité vers θ quand n tend vers l’infini

∀ > 0,p (|Tn − θ| ≥ ) →n→+∞ 0

Un estimateur Tn est fortement consistant s’il converge en presque sur-


ement vers θ quand n tend vers l’infini
 
p lim Tn = θ = 1
n→+∞

Une seconde qualité est l’absence de biais d’un estimateur.Un bon esti-
mateur doit être sans biais. c’est à dire que l’estimation ne soit pas décalé
systèmatiquement de sa vraie valeur.

Définition 145 On appelle biais d’un estimateur la quantité E (T n) − θ

On parle alors d’estimateur sans biais, biaisé ou asymptotiquement sans


biais.

Exemple 146 Que dire des estimateurs X, V 2 et S 2 ?

La troisième valeur d’un estimateur est la précision c’est à dire que si


l’on répète l’estimation sur un autre échantillon, on souhaite une estimation
cohérente donc peu de variation d’un echantillon à un autre. On parle aussi
d’efficacité. On mesure également la précision d’un estimateur Tn par l’erreur
 2
quadratique moyenne E (Tn − θ) , qui se décompose sous la forme

E (Tn − θ)2 = V (Tn ) + (E (Tn ) − θ)2


 

61
Ainsi, de deux estimateurs sans biais, le plus performant sera celui de
variance minimale. Nous chercherons donc
généralement à utiliser des estimateurs sans biais de variance minimale.

Exemple 147 On peut montrer que lorsque µ est connue, l’estimateur Vµ2 =
1
Pn 2 2
n i=1 (Xi − µ) est meilleur que S .

Exercise 148 Proposer 2 estimateurs pour le paramètre d’une loi de Poisson


et déterminer le meilleur.

La robustesse: on souhaite que l’estimation ne soit pas sensible à la


présence des valeurs abérrantes. Tout estimation nécessite un temps de cal-
cul. On évalue de ce fait la complexité du calcul en fonction de la taille des
données n. En conclusion, un bon estimateur se doit d’être convergent, precis,
sans biais, robuste et peu complexe.

2.4 Estimateur exhaustif


Un échantillon X1 ,...,Xn contient une certaine information vis-à-vis d’un
paramètre inconnu de la population. Une statistique Tn résumant l’infor-
mation contenue dans l’échantillon, il sera très important de ne pas perdre
d’information : c’est cette qualité que l’on nomme l’exhaustivité.

Définition 149 Onappelle vraisemblance du paramètre θ la fonction


Qn

 f (xi ; θ) si les Xi sont continues
i=1
L(x1 ,...,xn ; θ) = n
Q

 p (Xi = xi ; θ) si les Xi sont discretes
i=1
où f (xi ; θ) est la densité de la variable aléatoire Xi et p (Xi = xi ; θ) est
la probabilité de l’événement {Xi = xi } paramétrée par θ .

Soit Tn une statistique fonction de X1 ,...,Xn de loi g(t; θ) (densité dans


le cas continu, P (T = t; θ) dans le cas discret).

Définition 150 La statistique T est exhaustive pour si

L(x1 ,...,xn ; θ) = g(t; θ)h(x1 ,...,xn )


En d’autre terme, elle est exhaustive si la loi de l’échantillon sachant T
= t ne dépend pas de θ

62
Ce qui signifie que si T est connue, l’échantillon n’apportera plus aucune
autre information supplémentaire sur θ

Exemple
Pn 151 Pour la loi normale de moyenne connue , la statistique T =
1 2 2
n i=1 (Xi − µ) est exhaustive pour σ .

Theorem 152 (de Darmois). Soit X1 ,...,Xn un échantillon dont le domaine


de définition de la loi ne dépend pas de θ. Une condition nécessaire et suf-
fisante pour que l’échantillon admette une statistique exhaustive est que la
densité soit de la forme :

f (xi ; θ) = exp [a(x)α(θ) + b(x) + β(θ)]

Une telle densité


Pn est dite de la famille exponentielle.PSi de plus l’appli-
1 n
cation x1 7→ i=1 a (xi ) est bijective et C alors T = i=1 a (Xi ) est une
statistique exhaustive particulière.
n
Q
Exemple 153 Montrer que T = ln Xi est une statistique exhaustive pour
i=1
xθ−1
une loi Gamma de paramètre θ inconnu, dont la densité est f (x) = Γ(θ)e−x

Exercise 154 Donner des statistiques exhaustives pour les lois de Bernoulli,
exponentielle et normale (avec soit la variance connue, soit la moyenne).

La notion d’exhaustivité renseigne sur le pouvoir d’une statistique à


véhiculer l’information contenue dans un échantillon vis-à-vis d’un paramètre
inconnu θ que l’on cherche à estimer. La quantité d’information sur le pa-
ramètre apportée par l’échantillon s’exprime elle par l’information de Fisher.

Définition 155 On appelle quantité d’information de Fisher In (θ) apportée


par un n-échantillon
h sur le paramètre θ la quantité suivante (si elle existe) :
i
∂ ln L 2
In (θ) = E ∂θ

Theorem 156 Si le domaine hde2 définition


i de la loi de l’échantillon ne dépend
∂ ln L
pas de θ, on a : In (θ) = −E ∂θ2

Propriété :
(i) Si le domaine de définition de la loi de l’échantillon ne dépend pas de
θ, In (θ) = nI1 (θ)
(ii) Si la loi de l’échantillon est une loi normale de variance connue, (θ =
µ), alors I1 (θ) = σ12

63
 2 
∂lng(t;θ)
(iii) en notant IT (θ) = E ∂θ
l’information de Fisher apportée
par la statistique T, avec g(t; θ) la densité de T, on a IT (θ) ≤ In (θ). On a
égalité si T est exhaustive, et réciproquement si le domaine de définition de
la loi de l’échantillon est indépendant de θ .

La propriété 1 dit que chaque observation a la même importance, ce qui


n’est pas le cas lorsque le domaine de définition dépend de θ, comme pour
une loi uniforme sur [0; θ], où la plus grande valeur de l’échantillon apporte
plus d’information que les autres sur θ.
La propriété 2 nous assure l’information apportée par une observation est
d’autant plus grande que la dispersion est petite.

2.5 Estimation sans biais de variance mini-


male
Nous avons vu précédemment que les deux qualités les plus importantes
pour un estimateur étaient d’être sans biais, et de variance minimale. Il existe
un certain nombre de théorèmes facilitant la recherche d’un tel estimateur.

Theorem 157 (Unicité). S’il existe un estimateur de sans biais de variance


minimale, il est unique presque sûrement.

Theorem 158 (Rao-Blackwell). Soit T un estimateur sans biais de θ et U


une statistique exhaustive pour θ . Alors T ∗ = E [T |U ] est un estimateur sans
biais de θ au moins aussi bon que T (d’un point de vue variance).

Theorem 159 S’il existe une statistique exhaustive U, alors l’unique esti-
mateur T de θ sans biais de variance minimale ne dépend que de U.

Définition 160 Une statistique U est complète si E [h(U ) = 0] ,∀θ =⇒ h =


0p.s.

Theorem 161 (Lehmann-Scheffé). Si T est un estimateur sans biais de θ


dépendant d’une statistique exhaustive complète U alors T ∗ est l’unique esti-
mateur sans biais de variance minimale. En particulier si l’on dispose d’un
estimateur T sans biais de θ, T ∗ = E [T |U ]

Exemple 162 Le nombre de bug informatique par semaine d’un logiciel


donné suit une loi de Poisson de paramètre λ . On cherche à évaluer la
probabilité de n’avoir aucune panne pendant une semaine P (X = 0) = e−λ .
Que proposez-vous?

64
Le résultat suivant nous indique une borne à laquelle ne peut être inférieure
la variance d’un estimateur.
Theorem 163 (Inégalité de Fréchet-Darmois-Cramer-Rao). Si le domaine
de définition de la loi de l’échantillon ne dépend pas de θ, tout estimateur T
vérifie
1
V (T ) >
In (θ)
et si T est un estimateur sans biais de h(θ)
[h0 (θ)]2
V (T ) >
In (θ)
Définition 164 Un estimateur qui atteint la borne de Cramer-Rao est dit
efficace. Autrement dit, un estimateur est efficace s’il n’est pas possible de
trouver un estimateur sans biais de variance plus faible.
Theorem 165 (efficacité). — la borne de Cramer-Rao ne peut être atteinte
que si la loi de l’échantillon est de la famille exponentielle :
f (x; θ) = exp [a(x)α(θ) + b(x) + β(θ)]
dans ce cas il n’existe qu’une seule fonction du paramètre (à une transforma-
tion linéaire près) qui
Theorem 166 puisse être estimée efficacement, c’est
β 0 (θ)
h(θ) = −
α0 (θ)
L’estimateur de h(θ) est alors
n
1X
T = a (Xi )
n i=1

et la variance minimale est


h0 (θ)
V (T ) =
nα0 (θ)
Exemple 167 Donner un estimateur de l’écart-type d’une loi normale de
moyenne connue.
La recherche d’estimateur sans biais de variance minimale passe donc par
la recherche d’estimateur exhaustif.Or cette recherche peut ne pas aboutir,
et elle est de plus assez lourde. La méthode du maximum de vraisemblance
est une méthode systématique permettant de trouver des estimateurs.

65
2.6 Méthode du maximum de vraisemblance
La méthode du maximum de vraisemblance permet de trouver des esti-
mateurs dans toutes les situations, même les plus compliquées. C’est une des
méthodes d’estimation les plus utilisées.
Cette méthode consiste à recherche le paramètre θ qui maximise la fonc-
tion de vraisemblance L(x1 ,...,xn ; θ), c’est-à-dire pour lequel la densité de
l’échantillon est la plus grande. L’estimateur du maximum de vraisemblance
(EMV) est donc une solution de l’équation de vraisemblance


ln L(x1 ,...,xn ; θ) = 0
∂θ
∂2
vérifiant ∂θ 2 ln L(x1 ,...,xn ; θ) < 0. Un certain nombre de propriété nous
b
prouve l’intérêt de cette estimateur.
Propriété
(i) S’il existe une statistique exhaustive U, alors l’EMV en dépend.
(ii) Si θb est l’EMV, f (θ) b est l’EMV de f (θ)
(iii) Il existe une suite θbn de racines de l’équation de vraisemblance
qui converge presque sûrement vers θ. de
plus, il existe un rang  à partir duquel le maximum est atteint.
L 1
(iv) θbn ,→ N θ, In (θ)
La dernière propriété nous assure que l’EMV est asymptotiquement effi-
cace. Il est donc important d’avoir un
échantillon important pour utiliser cet estimateur.
Lorsque le modèle comporte plusieurs paramètres θ1 ,...,θp , il sera nécessaire
de résoudre le système d’équation
simultanées

ln L(x1 ,...,xn ; θ) = 0,∀1 ≤ i ≤ p
∂θi
Remarque 168 — L’équation de vraisemblance n’a pas nécessairement une
unique racine.
— La solution de l’équation de vraisemblance n’est pas toujours calculable
analytiquement. Dans ce cas, des algorithmes de recherche de maximum (de
type Newton) peuvent être utilisés.

66
2.7 Estimation ponctuelle des paramètres usuels
2.7.1 Estimation de la moyenne
Soit X une v.a dont on veut estimer la moyenne (ou espérance) µ = E(X)
à partir d’un n-échantillon (X1 ,...,Xn ) de X. On ne suppose rien sur la loi de
X.
n
1
P
Theorem 169 X = n
Xi , la moyenne empirique, est un estimateur effi-
i=1
cace de µ

Preuve. D’après le chapitre précédent X est un estimateur sans biais de µ,


et de plus V (X) = V (X)n
→ 0 quand n → +∞ et ∀T, un autre estimateur de
µ,V (T ) > V (X)
x est la réalisation de X et donc une estimation efficace de µ

2.7.2 Estimation de la variance d’une population Gaus-


sienne
Soit X une v.a qui suit une loi normale N (µ,σ). On veut estimer la
variance σ 2 de X.

a) µ connue
n
Theorem 170 T 2 = 1
(Xi − µ)2 est un estimateur efficace de σ 2
P
n
i=1

Preuve.
n n n
1X 1X 2 1X
2
E(T ) = E( (Xi − µ)2 ) = E( Xi − 2 µXi + µ2 )
n i=1 n i=1 n i=1
n n n
1X 1X 1X
= E(Xi2 ) − 2µ E (Xi ) + µ2 = E(Xi2 ) − µ2
n i=1 n i=1 n i=1
n n
1X  1X 2
= E(Xi2 ) − µ = σ = σ2
n i=1 n i=1

Donc un estimateur sans biais

67
n n
1X 2 1 X
2
(Xi − µ)2 )

V T = V( (Xi − µ) ) = 2 V (
n i=1 n i=1
n n
1 X 2 1 Xh 4 2 2
i
= V ((X i − µ) ) = E((X i − µ) ) − E((Xi − µ) ) = .... → 0
n2 i=1 n2 i=1

b) µ inconnue
n 2
1
Theorem 171 S 2 =
P
n
Xi − X c’est à dire la variance empirique est
i=1
2
un estimateur biaisé de σ , mais asymptotiquement sans biais.
n−1 2
Preuve. D’après le chapitre précedant E(S 2 ) = n
σ ;
B(S 2 ) = E(S 2 ) − σ 2 = n−1
n
σ 2 − σ 2 = − n1 σ 2
2
V (S ) → 0 quand n → +∞
n 2
Theorem 172 (S 0 )2 = n
S2 1
P
n−1
= n−1
Xi − X est un estimateur sans
i=1
biais de σ 2

Preuve. E((S 0 )2 ) = n
n−1
E(S 2 ) = n n−1 2
n−1 n
σ = σ 2 donc sans biais.

Remarque 173 1. Pour n grand, E(S 2 ) ≈ E((S 0 )2 ) et on préfère S 2


2. Pour n petit, on préfère (S 0 )2

2.7.3 Estimation d’une proportion


Soit une population ayant des individus possédant une certaine caractéristique
A. On veut estimer à partir d’un échantillon de taille n la proportion d’indivi-
dus possédant cette caractéristique A. Soit K la v.a qui représente le nombre
d’individus dans l’échantillon possédant la caractéristique A.

Theorem 174 La fréquence empirique F = K/n est l’estimateur efficace de


π.

Preuve. D’après le chapitre précedent, E(F ) = π et V (F ) = π(1−π)


n
→ 0
lorsque n → +∞ donc F est un estimateur sans biais convergent de π

68
2.7.4 Exemples d’estimations ponctuelles
Exercice 1: (estimation d’une moyenne, d’un écart-type)
Lors d’un concours radiophonique, on note X: le nombre de réponses
reçues chaque jour. On suppose X N (µ,σ). Durant 10 jours on a obtenu:
xi — 200 240 190 150 220 180 170 230 210 210 . Donner une estimation
ponctuelle de µ, σ 2 .

solution
n = 10
1 1
X = 10 (X1 + ... + X10 ) est un estimateur de µ, sa réalisation x = 10 (x1 +
... + x10 ) = 2000
10
= 200 est une estimation ponctuelle efficace de µ. Dans le cas
2 1 2 2
2
de la variance, la moyenne µ est inconnue d’où S = 10 (X1 +...+X10 )− X
1
est un estimateur biaisé de σ 2 , sa réalisation s2 = 10 (x21 + ... + x210 ) − (x)2 =
40700−40000 = 700 est une estimation biaisé de σ 2 . (S 0 )2 = n−1 n
S 2 = 10 9
700 =
778 est une estimation ponctuelle sans biais de σ 2 .

Exercice 2: (estimation d’une proportion)


Dans une population d’étudiants AES, on a prélevé indépendamment 2
échantillons de taille n1 = 120, n2 = 150. On constate que 48 étudiants du 1-
er échantillon et 66 du 2-ème ont une formation scientifique secondaire. Soit
π la proportion d’étudiants ayant suivi une formation scientifique. Calculer
3
estimations ponctuelles de π.

solution
K 48 66 48+66
F= ,f
n 1
= 120
= 0.4; f2 = 150
= 0.44; f3 = 120+150
= 0.422;

2.8 Intervalle de confiance


2.8.1 Généralités
Il est plus réaliste et plus intéressant de fournir une estimation du type
t1 < θ < t2 plutôt que d’écrire sèchement θ = t, car on sait que la valeur
estimée t diffère toujours de la valeur exacte du paramètre recherché, θ. Il

69
est donc souhaitable de donner la précision de l’estimation en acceptant de
faire une erreur sur celle-ci.

Définition 175 Soit X une v.a. dont la loi dépend d’un paramètre inconnu
θ; on appelle INTERVALLE DE CONFIANCE pour de niveau 1 − α (ou de
seuil α), un intervalle qui a la probabilité 1 − α de contenir la vraie valeur
de θ.

[t1 ,t2 ] est un intervalle de confiance de niveau 1 − α pour signifie P (t1 <
θ < t2 ) = 1 − α
(plus le niveau de confiance est élevé, plus la certitude est grande que la
méthode d’estimation produira une estimation contenant la vraie valeur de
θ)

Remarque 176 1. les niveaux de confiance les plus fréquemment utilisés


sont 90%,95%,99%
2. α est appelé le seuil (le risque); on choisira dans la plupart des cas un
intervalle à risques symétriques, c-a-d t.q. P (θ < t1 ) = α2 ,P (θ > t2 ) =
α
2
3. Si on augmente le niveau de confiance 1 − α , on augmente la longueur
de l’intervalle.

2.8.2 Intervalle de confiance pour une moyenne


a) cas où n, la taille de l’échantillon, est petite n ¡ 30
On suppose que X N (µ,σ).
On distingue deux cas σ connu et σ inconnu.
 
X−µ
a-1) connu On sait que X N µ, √σn ou √σ
N (0,1)
n
On se fixe le risque et on cherche dans la table de la loi normale la valeur
u1− α2 telle que
!
X −µ
p −u1− α2 < < u1− α2 = 1−α
√σ
n
!
X −µ α
p < u1− α2 = 1−
√σ 2
n

α
où u1− α2 est un fractile d’ordre 1 − 2
de la loi normale centrée réduite

70
   
X−µ
p −u1− α2 < √σ
< u1− α2 = 1−α ⇔ p X − u1− α2 √σn < µ < X + u1− α2 √σn =
n

1 − α par conséquent si x est une réalisation de X et l’intervalle de confiance


de µ de seuil α est
 
σ σ
I = x − u1− α2 √ ,x + u1− α2 √
n n
P15
Exemple 177 n = 15,σ = 3.75,α = 5%, i=1 xi = 2400 alors x = 2400 15
=
160,u1− 2 = 1.96 car p (U < −1.96) = 0.025, on suppose X gaussienne et
α
h i
3.75 3.75
on obtient l’intervalle de confiance : I = 160 − 1.96 √ 15
,160 + 1.96 √
15
=
[158.10; 161.90]

a-2) inconnu Il est connu que S/X−µ √


n−1
tn−1 et on cherche dans la table
de la loi de Student, α étant fixé, la valeur tn−1 1 − α2 telle que

 
 α X −µ  α
p −tn−1 1 − < √ < tn−1 1 − = 1−α
2 S/ n − 1 2
 
X −µ  α α
p √ < tn−1 1 − = 1−
S/ n − 1 2 2
on a  √  √
p X − tn−1 1 − α2 S/ n − 1 < µ < X + tn−1 1 − α2 S/ n − 1 = 1 −


α d’où si x est une réalisation de X et s une réalisation de S,


l’intervalle de confiance de µ de seuil α est
 
 α s  α s
I = x − tn−1 1 − √ ,x + tn−1 1 − √
2 n−1 2 n−1
P30 P30 2
Exemple 178 n = 30, i=1 xi = 1673, i=1 xi = 98285,α = 10%, alors
2
x = 55.77,s
h = 165.87,s = 12.88,t29(10%) = 1.699i
I = 55.77 − 1.699 12.88
√ ,55.77 + 1.699 12.88
29

29
= [51.71; 59.83]

b) cas où n, la taille de l’échantillon, est grande n ¿ 30


Il n’est plus nécessaire de supposer que X est Gaussienne.

X−µ
b-1) σ connu Le théorème de limite centrale montre que √σ
N (0,1)
n

On utilise la même démarche qu’en a-1 et si x est une réalisation de X


et l’intervalle de confiance de µ de seuil α est
 
σ σ
I = x − u1− α2 √ ,x + u1− α2 √
n n

71
b-2) σ inconnu On peut prendre comme intervalle de confiance celui de
X−µ
la section a-2). On peut également utiliser l’approximation suivante : S/ √
n
N (0,1) et on se fixe l’erreur α et on cherche dans la table de la loi normale
la valeur u1− α2 telle que
 
X −µ
p −u1− α2 < √ < u1− α2 = 1−α
S/ n
 
X −µ α
p √ < u1− α2 = 1−
S/ n 2
on a √ √ 
p X − u1− α2 S/ n < µ < X + u1− α2 S/ n = 1 − α d’où si x est une
réalisation de X et s une réalisation de S,
l’intervalle de confiance de µ de seuil α est
 
s s
I = x − u1− α2 √ ,x + u1− α2 √
n n
√ √
Remarque 179 Plus n est grand, plus I est petit (car 1/ n ou bien 1/ n − 1est
petit) et donc meilleure est la précision de l’estimation.

2.8.3 Intervalle de confiance pour la variance d’une va-


riable gaussienne
 
On suppose que X N µ, √σn

a) µ connue (peu fréquent)


n
T2 = 1
(Xi − µ)2 est un estimateur efficace de σ 2 et sa réalisation
P
n
i=1
n n
2 Xi −µ 2
1
(xi − µ)2 . Comme Xi −µ
N (0,1) , nT
2
P P 
est t = n σ σ2
= σ
est une
i=1 i=1
somme de n variables aléatoires indépendantes qui suivent la loi normale
2
N (0,1) et donc nT
σ2
χ2n . L’erreur α étant 2
 fixée, on cherche dans la table χn
2
les valeurs kn( α ) et kn(1− α ) telles que p kn( α ) < nT
σ2
< kn(1− α ) = 1−α ⇔
 2 2 2 2
2 2
p k nT α < σ 2 < knTα = 1 − α. donc, si t2 est une réalisation de T 2 , alors
n(1− 2 ) n( 2 )

l’intervalle de confiance de σ 2 de seuil α est


" #
nt2 nt2
I= ,
kn(1− α ) kn( α )
2 2

72
et l’intervalle de confiance de σ de seuil α est
 
s s
n n 
I = t ,t
kn(1− α ) kn( α )
2 2

Exemple 180 n = 10,µ = 6, 10 2 2


P
i=1 xi = 402,α = 5% alors t = 40.2 − 36 =
4.2,k10(0.025) = 20.5,k10(0.975) = 3.25 ainsi l’intervalle de confiance de σ 2 de
seuil 5% est  
10 × 4.2 10 × 4.2
I= , = [2.05,12.92]
20.5 3.25

b) µ inconnue
nS 2
On montre que σ2
χ2n−1 .L’erreur α étant fixée,
 on cherche dans la table 
2
χ2n−1 les valeurs kn−1( α ) et kn−1(1− α ) telles que p kn−1( α ) < nS
σ2
< kn−1(1− α ) =
 2 2  2 2
2 2
1 − α ⇔ p k nS α < σ 2 < k nS α = 1 − α. donc, si s2 est une réalisation
n−1(1− 2 ) n−1( 2 )

de S 2 , alors l’intervalle de confiance de σ 2 de seuil α est


" #
ns2 ns2
I= ,
kn−1(1− α ) kn−1( α )
2 2

et l’intervalle de confiance de σ de seuil α est


 
s s
n n 
I = s ,s
kn−1(1− α ) kn−1( α )
2 2

Exemple 181 n = 30, 30


P P30 2
i=1 xi = 1683, i=1 xi = 98295,α = 10% alors
x = 55.77, s2 = 165.87,k29(0.025) = 42.6,k29(0.975) = 17.7 ainsi l’intervalle de
confiance de σ 2 de seuil 5% est
 
30 × 165.87 30 × 165.87
I= , = [116.81,281.14]
42.6 17.7

2.8.4 Intervalle de confiance pour une proportion


On sait que F = Kn est un estimateur de π où π est la proportion
de la population possédant le caractère considéré. On montre que F

73
 q 
π(1−π)
N π, n
pour nπ > 5,n (1 − π) > 5, on cherche dans la table de
la loi normale la valeur u1− α2 telle que
 
F −π
p −u1− α2 < q < u1− α2  = 1 − α
π(1−π)
n
 q q 
π(1−π) π(1−π)
on a p F − u1− α2 n
< π < F + u1− α2 n
=1−α
Le problème est le terme π (1 − π) est inconnu. Deux options sont envi-
sageables

Option 1:Méthode par estimation de l’écart type


q q
π(1−π)
On remplace n
par f (1−f
n
)
, f étant la valeur observée de F (esti-
mation de π) et on a
" r r #
f (1 − f ) f (1 − f )
I = f − u1− α2 ,f + u1− α2
n n

Option 2: méthode de l’ellypse (moins classique, mais plus rigou-


reuse)
 q q 
π(1−π) π(1−π)
p F − u1− α2 n
< π < F + u1− α2 n
=1−α
 q   
2
⇐⇒ p |F − π| < u1− α2 π(1−π)n
= 1−α ⇐⇒ p (F − π) − u 2
1− α
π(1−π)
n
< 0 =
2

1−α
On cherche les racines π1 et π2 de l’équation (f − π)2 − u21− α π(1−π)
n
<0
2
connaissant u1− α2
I = [π1 ,π2 ]

74
Chapitre 3

Test d’hypothèse

3.1 Introduction
Les tests statistiques constituent une deuxième forme d’inférence sta-
tistique, de conclusion portée sur la population à partir d’un échantillon
unique tiré de celle ci. Alors que l’estimation avait pour but de cerner le plus
précisement possible la valeur inconnue d’un parametre de la population, les
tests statistiques cherchent plutot à confronter deux hypothèses exprimant
deux tendances générales au sujet d’un parametre et à determiner au regard
de l’échantillon observé, laquelle des deux semble la plus vraisemblable.

Définition 182 Un test statistique est une règle de décision concernant une
hypothèse nulle notée H0 et eventuellement une hypothèse alternative notée
H1 . Un test d’hypothèse est un procédé d’inférence permettant de contrôler
(accepter ou rejeter) à partir de l’étude d’un ou plusieurs échantillons aléatoires,
la validité d’hypothèses relatives à une ou plusieurs populations.

Les méthodes de l’inférence statistique nous permettent de déterminer,


avec une probabilité donnée, si les différences constatées au niveau des échantillons
peuvent être imputables au hasard ou si elles sont suffisamment importantes
pour signifier que les échantillons proviennent de populations vraisemblable-
ment différentes.
Les tests d’hypothèses font appel à un certain nombre d’hypothèses concer-
nant la nature de la population dont provient l’échantillon étudié (normalité
de la variable, égalité des variances, etc).

On distingue différentes catégories de tests :

- les tests paramétriques ont pour objet de tester une certaine hypothèse
relative à un ou plusieurs paramètres d’une variable aléatoire de loi

75
spécifiée (généralement supposée normale). Lorsque le test est toujours
valide pour des variables non gaussiennes, on dit que le test est robuste
(à la loi).
- les tests non paramétriques qui portent généralement sur la fonction de
répartition de la variable aléatoire, sa densité...
- les tests libres (distributions free) qui ne supposent rien sur la loi de pro-
babilité de la variable aléatoire étudiée (et qui sont donc robuste). Ces
tests sont souvent non paramétriques, mais pas toujours.
Dans ce cours, nous classons les tests en fonction de leur fonctionnalité :
- Tests sur une population :
Les tests destinés à vérifier si un échantillon peut être considéré comme
extrait d’une population donnée, vis-à-vis d’un paramètre comme la moyenne
ou la fréquence observée (tests de conformité) ou par rapport à sa distribu-
tion observée (tests d’ajustement). Dans ce cas la loi théorique du paramètre
est connue au niveau de la population. Est-ce que le taux de glucose moyen
mesuré dans un échantillon d’individus traités est conforme au taux de glu-
cose moyen connu dans la population ? (test de conformité) Est ce que la
distribution des fréquences génotypiques observées pour un locus donné est
conforme à celle attendue sous l’hypothèse du modèle de Hardy-Weinberg ?
(test d’ajustement).
Dans ce cours on fera un :
1. test sur le caractère centrale d’une population,
2. test sur la variance,
3. test sur une proportion,
4. test de l’aléatoire d’un échantillon,
5. test d’ajustement à une loi spécifiée,
6. test de liaison entre variables (quantitatives, qualitatives, mixtes)
- Tests de comparaison de deux populations
Les tests destinés à comparer plusieurs populations à l’aide d’un nombre
équivalent d’échantillons (tests d’égalité ou d’homogénéité) sont les plus
couramment utilisés. Dans ce cas la loi théorique du paramètre est incon-
nue au niveau des populations. On peut ajouter à cette catégorie le test
d’indépendance qui cherche à tester l’indépendance entre deux caractères,
généralement qualitatifs. Y a-t-il une différence entre le taux de glucose
moyen mesuré pour deux échantillons d’individus ayant reçu des traitements
différents? (tests d’égalité ou d’homogénéité). Est-ce que la distribution des
fréquences génotypiques observées pour un locus donné est indépendante du
sexe des individus? (test d’indépendance).

76
3.2 Principes des tests

Le principe des tests d’hypothèse est de poser une hypothèse de tra-


vail et de prédire les conséquences de cette hypothèse pour la population
ou l’échantillon. On compare ces prédictions avec les observations et l’on
conclut en acceptant ou en rejetant l’hypothèse de travail à partir de règles
de décisions objectives. Définir les hypothèses de travail, constitue un élément
essentiel des tests d’hypothèses de même que vérifier les conditions d’appli-
cation de ces dernières (normalité de la variable, égalité des variances ou
homoscédasticité, etc).

3.2.1 Role des hypothèses et erreurs commises


Un test est un procédé qui permet de trancher entre deux hypothèses, au
vu des résultats d’un échantillon : on teste une hypothèse nulle contre une
hypothèse alternative. L’hypothèse nulle H0 est l’hypothèse que l’on veut
contrôler. Elle est toujours de forme simple

H0 : θ = θ0
où θ0 est une valeur donnée du paramètre. Le choix de cette hypothèse
est fait de manière conservative : si on teste un médicament, on prendra H0
l’hypothèse où le médicament n’a pas d’effet. C’est également souvent la plus
importante des deux hypothèses puisque c’est celle dont on contrôle le risque.
L’hypothèse alternative H1 est quant à elle généralement composite :

H1 : θ ∈ Θ1
où Θ1 est une partie de R non nécessairement réduite à un élément.
Cette hypothèse se ramène souvent à un des cas suivants : θ < θ0 ,θ > θ0 (test
unilatéraux) ou θ 6= θ0 (test bilatéral).
Suivant la justesse de la décision prise à l’issue du test, on est en présence
de 4 cas de figure

H0 vrai H1 vrai
On décide H0 Conclusion correcte (1 − α) Erreur de 2ème espèce (Risque β)
On ne décide pas H0 Erreur de 1ère espèce (Risque α) Conclusion correcte (1 − β)
Exemple (Importance du choix des hypothèses). Considérons le test des
hypothèses suivantes :
— hypothèse H0 : le patient doit être hospitalisé,
— hypothèse alternative H1 : le patient ne doit pas être hospitalisé.

77
L’erreur de première espèce consiste à ne pas hospitaliser un patient qui
en avait besoin. Cette erreur est très grave, puisqu’elle peut conduire au
décès du patient. Le risque de deuxième espèce, qui consiste à hospitaliser
un patient qui n’en avait pas besoin peut s’avérer moins grave.
Le role des hypothèses n’est pas symétrique, en effet, la plupart du temp,
on préfère se tromper en affirmant H0 alors que’lle est fausse plutot que de re-
jeter H0 alorqu’elle est vraie. De plus il est commun d’avoir une hypothèse H0
très simple par rapport à une hypothèse alternative H1 plus vaste, plus com-
plexe. Par conséquent, On se retrouve fréquemment à connaitre la loi de la
statistique de test sous hypothèse nulle H0 mais aussi sous l’hypothèse alter-
native. En générale, nous rencontrons deux types d’alternatives : La négation
de l’hypothèse nulle ou un sous ensemble de cette négation.

3.2.2 Probabilité d’erreur et risque, puissance de test


On associe aux erreurs de première et deuxième espèces les probabilités
(risques). Le niveau de confiance du test est la probabilité 1 − α de ne pas
rejeter à raison H0 . Le risque de première espèce est le risque de rejeter H0
à tort. Le risque de deuxième espèce est le risque de conserver H0 à tort. En
pratique, il est d’usage de fixer le risque : 5%, 1%, 10%. Ainsi, on contrôle le
risque associé à l’erreur de première espèce, qui nous l’avons vu est l’erreur
la plus grave. Choisir un risque α trop petit va conduire à ne rejeter que très
rarement H0 (si on ne la rejette pas on ne risque pas de la rejeter à tort !).
Au contraire, choisir un risque trop grand va conduire à n’accepter que très
rarement α.
Le risque β se déduit alors par le calcul, si la loi sous H1 est connue. Il
varie en sens contraire de α. Ainsi, en diminuant le risque α, on augmente le
risque β. On définit alors la puissance du test par 1 − β , qui correspond à
la probabilité de rejeter H0 à raison.
Le choix d’un test sera donc le résultat d’un compromis entre risque de
premier espèce et puissance du test.

3.2.3 Statistique de test


Une statistique de test est une variable aléatoire construit à partir d’un
échantillon aléatoire permettant de formuler une règle de décision pour le
test. Cette statistique n’est pas unique. On optera pour une statistique de
test contenant le maximum d’information sur l’échantillon observé de loi
differentes sous H0 et sous H1 . Il est impératif de connaitre sa loi lorsque
l’hypothèse nulle est vrai. sa loi sous l’hypothèse alternative est souvent in-
connue.

78
3.2.4 Synthèse
Différentes étapes doivent être suivies pour tester une hypothèse :
(1) définir l’hypothèse nulle (notée H0) à contrôler,
(2) choisir un test statistique ou une statistique pour contrôler H0,
(3) définir la distribution de la statistique sous l’hypothèse  H0 est
réalisée ,
(4) définir le niveau de signification du test ou région critique notée 3b1,
(5) calculer, à partir des données fournies par l’échantillon, la valeur de
la statistique
(6) prendre une décision concernant l’hypothèse posée et faire une in-
terprétation
biologique

3.2.5 p-value
En pratique, plutôt que de calculer la région critique en fonction de α ,
on préfère donner un seuil critique α∗ , appelée p-value, qui est la plus grande
valeur de α conduisant à ne pas rejeter H0 . Cette information permet au
lecteur de conclure à l’acceptation de H0 pour tout risque de première espèce
α < α∗ , et à son rejet pour tout α > α∗

3.3 Tests sur une population


Nous pouvons maintenant présenter les différents tests statistiques clas-
siques, obtenus par la méthode de Neyman-Pearson lorsque les échantillons
sont gaussiens (voir de grandes tailles). Dans le cas de petits échantillons non
gaussiens, des alternatives non paramétriques seront présentées.

3.3.1 Test sur le caractère central d’une population


Cas d’un échantillon grand ou gaussien
Soit un n-échantillon (X1 ,...Xn ) issu d’une population de moyenne µ et de
variance σ 2 . Nous supposons que au moins l’une des deux conditions suivantes
est satisfaite :
— la population est de loi normale,
— l’échantillon est de taille n suffisamment grande (n ≥ 30).
Test H0 : µ = µ0 contre H1 : µ 6= µ0
Premier cas : lorsque σ 2 est connue

79
La statistique de test est
X − µ0
U= √
σ/ n
Sous H0 , cette statistique suit une loi normale centrée réduite. d’après
les conditions précédentes (via le théorème centrale limite si seule la seconde
condition est satisfaite).
La région critique, définie par |U | > k, se traduit par X − µ0 > −µ α2 √σn
est le quantile de la loi normale centrée réduite d’ordre α2 . Ainsi,
on rejette H0 si |x − µ0 | > −µ α2 √σn
Remarque 183 (Calcul de la p-value). Pour ce test, on rejette H0 dès que
|x−µ0 |
√σ
> −µ α2 . La p-value est la valeur critique α∗ de α telle que |x−µ
√σ
0|
= −µ α2
n   n

d’où α∗ = 2Φ − |x−µ √σ
0|
avec Φ la fonction de répartition de la loi normale
n
centrée réduite. Ainsi, dès que l’on choisi un risque α plus grand que α∗ , on
a −µ α∗ > −µ α2 et donc on rejette H0 . Au contraire, si le risque α est plus
2
|x−µ0 |
petit, on aura cette fois √σ
= −µ α∗ > −µ α2 et on conserve H0 .
n 2

Remarque 184 (Tests unilatéraux). Si le test est unilatéral, H0 : µ = µ0


contre H1 : µ < µ0 , on rejette H0 si la vraie valeur de µ est trop éloignée
inférieurement de µ0 , ce qui se traduit par x > µ0 +µ α2 √σn
Si le test H0 : µ = µ0 contre H1 : µ > µ0 on rejette H0 si x > µ0 −µ α2 √σn
Deuxième cas : lorsque σ 2 est inconnue Ce test est généralement connu
sous le nom de test de Student.
Dans ce cas, la variance σ 2 est estimée par son estimateur S 2 . La statis-
tique de test est
X − µ0
T = √
S/ n
qui suit une loi de Student à n − 1 degré de liberté.
La conclusion du test devient alors on rejette H0 si |x − µ0 | > −t(n−1), α2 √sn
, où t(n−1), α2 est le quantile d’ordre α2 de la loi de Student à n − 1 degrés de
n
(xi −x)2
P
2 i=1
liberté, et s = n−1

3.3.2 Test sur la variance d’une population gaussienne


Soit un n-échantillon (X1 ,...Xn ) issu d’une population de loi normale, de
moyenne et de variance σ 2 . La normalité est indispensable pour ce test sur
la variance.

80
Test H0 : σ 2 = σ02 contre H1 : σ 2 6= σ02 , moyenne µ connue
Lorsque la moyenne est connue, la statistique Vµ2 = n1 ni=1 (Xi − µ)2 est
P
la meilleure estimation de la variance
Sous l’hypothèse H0 , comme l’échantillon est gaussien, σn2 Vµ2 suit une loi
0
du χ2n (en tant que somme de carrés de N(0; 1)). Ainsi,

σ02 2 σ2
on rejette H0 si Vµ2 < χn, α ou encore Vµ2 > 0 χ2n,1− α
n 2 n 2

α α
où χn, α et χn,1− α sont les quantiles d’ordre 2 et 1 − 2 de la loi de χ2 à
2 2
2 2
n degrés de liberté. Attention, contrairement
à la loi de Student et à la loi normale, la loi du χ2 n’est pas symétrique.

Test H0 : σ 2 = σ02 contre H1 : σ 2 6= σ02 , moyenne µ inconnue


Lorsque la moyenne est inconnue, on la remplace par son estimateur X,
La variance est alors estimée par S = n−1 i=1 (Xi − µ)2 et la statistique
2 1
Pn

du test n−1
σ02
S 2 suit sous H0 une loi de χ2 à n − 1 degrés de liberté.
La conclusion du test est alors la suivante :

σ02 2 σ02 2
on rejette H0 si S 2 < χn−1, α ou encore S 2 > χ α
n−1 2 n − 1 n−1,1− 2

Tests unilatéraux sur la variance


Test H0 : σ 2 = σ02 contre H1 : σ 2 > σ02
σ02 2
- Si la moyenne µ est connue, on rejette H0 si Vµ2 > χ
n n,1−α
σ02
- Si la moyenne µ est inconnue, on rejette H0 si S 2 > n−1 χ2n−1,1−α

Test H0 : σ 2 = σ02 contre H1 : σ 2 < σ02


σ02 2
- Si la moyenne µ est connue, on rejette H0 si Vµ2 < χ
n n,α
σ02
- Si la moyenne µ est inconnue, on rejette H0 si S 2 < n−1 χ2n−1,α

81
3.3.3 Test sur une proportion pour un grand échantillon
Dans la population étudiée, une proportion p des individus possèdent un
certain caractère C. On se propose de comparer cette proportion p à une
valeur de référence p0 .
On considère un échantillon d’individus de taille n de cette population.
La variable aléatoire Xi égale à 1 si l’individu ipossède
P le caractère C suit
une loi de Bernoulli B(p), et le nombre d’individus ni=1 Xi possédant ce
caractère suit une loi binomiale B(n,p).
Si n est suffisamment grand, de sorte que np > 5 et n(1 − p) ¿ 5, on peut
considérer
Pn(loi des grands nombres)
que i=1 Xi suit une loi normale N (np,np(1 − p)), d’où la fréquence
Pn
empirique F = n i=1 Xi suit une loi normale N (p, p(1−p)
1
n
). Si n est trop
petit, le test est construit sur la loi binomiale.

Test H0 : p = p0 contre H1 : p 6= p0
La statistique du test est donc la fréquence empirique F qui suit sous H0
une loi N (p0 , p0 (1−p
n
0)
)

r
p0 (1 − p0 )
on rejette H0 si |f − p0 | > µ1− α2
n
Test unilateraux sur une proportion
q
p0 (1−p0 )
Test H0 : p = p0 contre H1 : p > p0 On rejette H0 si f > µ1−α n
+
p0 q
p0 (1−p0 )
Test H0 : p = p0 contre H1 : p < p0 On rejette H0 si f < µ1−α n
+
p0

3.4 Tests de comparaison de deux popula-


tions indépendantes
L’objectif de cette section est de dire si deux échantillons indépendants
sont issus d’une même population ou non. Voici quelques exemples d’appli-
cation :
— les rendements journaliers de deux usines d’un même groupe sont-ils
semblables?
— les ventes par semaine de deux actions sont-elles similaires?

82
On formule le problème de la façon suivante : on observe deux échantillons
(X1,1 ,...,X1,n1 ) et (X2,1 ,...,X2,n2 ), indépendants et de fonctions de répartition
F1 (x) et F2 (x). Le test exact revient à tester l’égalité de ces fonctions de
répartitions :
H0 : F1 (x) = F2 (x) contre H1 : F1 (x) 6= F2 (x):
Nous verrons dans un premier temps des tests paramétriques qui, sous
l’hypothèse de normalité des échantillons (ou de grandes tailles), consistent à
tester l’égalité des variances et des espérances des deux populations. Dans un
second temps, lorsque les échantillons sont de petites tailles nous présenterons
des alternatives non paramétriques.

3.4.1 Cas de deux échantillons gaussiens ou de grandes


tailles
Supposons dans un premier temps que les deux échantillons sont gaus-
siens. Si les variances sont connues, ce qui n’arrive que rarement en pra-
tique, la statistique de test utilisée pour tester H0 : µ1 = µ2 contre H1 :
µ1 6= µ2 repose sur la différence entre les estimateurs des moyennes des deux
échantillons :

X 1 − X 2 − (µ1 − µ2 )
T = q 2
σ1 σ2
n1
+ n22
qui suit, sous H0 , une loi normale centrée réduite. Ainsi, on rejettera H0
si
s
σ12 σ22
|x1 − x2 | > −µ α2 +
n1 n2
Dans le cas le plus courant, les variances sont inconnues. On doit alors
tester dans un premier temps vérifier si elles sont égales ou non (test de
Fisher) avant de pouvoir effectuer le test de comparaison des moyennes (test
de Student).

Test de comparaison des variances de Fisher


Nous testons H0 : σ12 = σ22 contre H1 : σ12 6= σ22 . D’après les résultats de
la théorie de l’échantillonnage :

n1 V12 n2 V22
χ2n1 −1 et χ2n2 −1
σ12 σ22

83
Ainsi, sous l’hypothèse H0 que σ12 = σ22 , la statistique du test F suivante
suit une loi de Fisher Fn1 −1,n2 −1 ;
n1 V12
n1 −1 S12
F = n2 V22
=
S22
n2 −1

Cette variable de décision s’interprète comme le rapport des estimateurs


de σ12 et σ22 . Elle doit donc ne pas être trop différente de 1 si H0 est vérifiée. En
pratique, on met toujours au numérateur la plus grande des deux quantités,
ou autrement dit, on suppose que S12 > S22 (sinon on permute les indices).
La région de rejet sera donc de la forme F > k avec k plus grand que 1 :
n1 V12
n1 −1
On rejette H0 si n2 V22
> fn1 −1,n2 −1,1−α
n2 −1

fn1 −1,n2 −1,1−α est le quantile de la loi de ficher-Snedecor Fn1 −1,n2 −1 d’ordre
1−α

Test de comparaison des moyennes de Student avec variances égales

Nous testons H0 : µ1 = µ2 contre H1 : µ1 =6 µ2 en supposant les variances


2 2 2
égales σ1 = σ2 = σ  
n V2 2
On a pour i = 1; 2 : σi 2i χ2ni −1 et X i N µi , σni . Ainsi, la statistique
i
X 1 −X 2 −(µ1 −µ2 )
T = r
n1 V12 +n2 V22
  suit une loi de Student à n1 +n2 −2 degrés de liberté.
1
n +n −2 n
+ n1
1 2 1 2
D’où la conclusion :
s
n1 V12 + n2 V22
 
1 1
on rejette H0 si |x1 − x2 | > −tn1 +n2 −2, α2 +
n1 + n2 − 2 n1 n2

Remarque 185 (Tests unilatéraux de comparaison de moyennes). Le test


unilatéral H0 : µ1 =rµ2 contre H1 : µ1 < µ2 conduit au rejet de H0 si
 
n1 V12 +n2 V22 1 1
x1 − x2 < −tn1 +n2 −2,α n1 +n2 −2 n1
+ n2

Test de comparaison des moyennes avec variances différentes


Lorsque les échantillons sont de grandes tailles (n > 30), le test de Student
reste encore approximativement valable.

84
Pour de petits échantillons gaussiens, l’approximation d’Aspin-Welch consiste
à utiliser le test de Student avec un degré de liberté non plus égal à n1 +n2 −2
mais égal à l’entier le plus proche de :
v12
1 n1 −1
n= ou c =
c2 (1−c)2 v12 v22
n1 −1
+ n2 −1 n1 −1
+ n2 −1

Échantillons non gaussiens


Théoriquement, le test de la variance de Fisher n’est plus valable car la
2
statistique nV σ2
ne suit plus une loi du χ2 . Néanmoins, le test de comparai-
son de moyennes de Student étant relativement robuste à un changement
dans la loi des échantillons, il est possible de l’utiliser pour comparer les
moyennes des deux échantillons, que les variances soit égales ou non, si les
tailles d’échantillons sont suffisamment grandes (au minimum 30 observations
par échantillon).

3.4.2 Échantillons de petites tailles


Lorsque les échantillons ne sont pas suffisamment grands pour permettre
une utilisation du test de Student, on utilise des alternatives non paramétriques,
qui ont pour but de tester :
H0 : F1 (x) = F2 (x) contre H1 : F1 (x) 6= F2 (x)
où F1 (x) et F2 (x) sont les fonctions de répartition de deux échantillons
(X1,1 ,...,X1,n1 ) et (X2,1 ,...,X2,n2 ).
Dans cette section nous concaténons les deux échantillons en un seul
(X1 ,...,Xn1 ,Xn1 +1 ,...Xn1 +n2 ) et nous allons travailler avec les rangs (R1 ,...,Rn1 +n2 )
associés à cet échantillon global.
Les statistiques de test utilisées seront de la forme
n1
X
S= a (Ri )
i=1

où a est une fonction de {1,...,n1 + n2 } dans R. A noter que seuls les rangs
du premier échantillon sont utilisés
dans la statistique S puisque la somme s’arrête à n1.
Lorsque les tailles d’échantillons n1 et n2 sont petites (¡ 30), il existe des
tables suivant la fonction a choisie
(Wilcoxon, médiane, scores normaux). Lorsque les tailles sont plus grandes
(cas dans lequel les tests paramétriques

85
sont également utilisables), la statistique S est approximativement dis-
tribuée suivant une loi normale.
Les moments de S sont :
nX
1 +n2 nX
1 +n2
n1 n1 n2
E [S] = a (i) V [S] = (a (i) − a)2
n1 + n2 i=1 (n1 + n2 ) (n1 + n2 − 1) i=1

1
Pn1 +n2
où a = n1 +n2 i=1 a (i)

Exemple 186 Test de Wilcoxon


On supposeraP 1 ici que n1 < n2 . En choisissant a(i) = ila statistique de test
devient S = ni=1 Ri
et correspond à la somme des rangs du premier échantillon (le plus petit
en nombre d’observations).
EH0 (W ) = n1 (n1 +n2
2 +1)
,VH0 (W ) = n1 n2 (n12
1 +n2 +1)

La loi de cette statistique a été tabulée pour de petites tailles d’échantillons


(moins de 10), et sa table
donne les bornes critiques de W pour des risques de première espèce de
5% et 1%. Pour de plus grandes tailles d’échantillons, la loi de W peut être
approchée par une loi normale.
Cas des ex-æquo En présence d’ex-æquo, nous remplacions les rangs
des exæquo par le rang moyen des rangs qu’ils devraient occuper. Si les tailles
d’échantillons sont inférieures à 10, les tables sont toujours utilisable. Pour
de plus grandes tailles, l’approximation gaussienne est toujours valable mais
la variance de W n’est plus identique à celle donnée précédemment.
Soit e le nombre de valeurs distinctes dans l’échantillon (X1 ,...,Xn1 ,Xn1 +1 ,...Xn1 +n2 ),
et soit V1 ,...,Ve ces valeurs distinctes.
Soit Dj le nombre d’apparitions de la valeur Vj dans l’échantillon (1 ≤j
≤e). La statistique W a alors pour variance :
n1 n2 e (Dj3 −Dj )
P
VH0 (W ∗ ) = V (W ) − 12(n1 +nj=1 2 )(n1 +n2 −1)

86

Vous aimerez peut-être aussi