Vous êtes sur la page 1sur 104

PARTIE I

STATISTIQUE DESCRIPTIVE

1
Chapitre 1

La Statistique : son rôle, son intérêt


1.1 Qu’est-ce que la statistique ?
Dans le langage courant le mot « Statistiques », au pluriel, désigne un ensemble de
données souvent numériques sur un phénomène. Par exemple, on parle des statistiques liées à
la criminalité, des statistiques de l’emploi, des statistiques de l’accident de la route, etc. Ainsi,
les statistiques constituent un ensemble d’informations dont on devra analyser les
caractéristiques principales afin de traduire les réalités qu’elles représentent.
La « Statistique », au singulier, est constituée de l’ensemble des méthodes ayant pour
but d’analyser les statistiques. La statistique est donc l’étude mathématique des statistiques en
vue d’en tirer des conclusions.

La statistique est l’outil avec lequel on travaille une matière première constituée par
les statistiques.

1.2 Terminologie
Le rôle de la statistique est d’étudier des faits nombreux sur un même phénomène pour
permettre ensuite de prendre des décisions. Pour ce faire, le statisticien doit suivre les étapes
ci-dessous dans sa démarche :

- Définition précise des objectifs à atteindre


- La collecte des données
- Le dépouillement des observations
- Le traitement statistique des données
- L’interprétation et la prise de décision

1.2.1 La collecte des données

Puisque la statistique a pour but final d’aider les décideurs à prendre des décisions, les
données recueillies doivent être fiables. Ainsi dans la planification de la collecte des données,
le statisticien doit tenir compte des objectifs à atteindre, des moyens disponibles, des délais
imposés, des contraintes budgétaires, etc.

Le statisticien doit d’abord préciser l’ensemble sur lequel vont porter les observations.
Cet ensemble est appelé la population. Tout élément de cet ensemble est un individu ou une
unité statistique.

Le statisticien étudie les unités statistiques selon certains caractères que l’on désigne
généralement sous le nom de variable statistique.

2
Toute valeur possible d’une variable statistique est appelée une modalité. A chaque individu,
on fait correspondre, pour chaque variable statistique considérée, une modalité.

Il y a deux types de variables statistiques :

a) Les variables statistiques quantitatives

Les variables statistiques quantitatives sont des caractères des unités statistiques
qu’on peut mesurer (par exemple l’âge d’une voiture, la température d’un site un instant
donné, etc.). Elles ont donc des valeurs numériques. On distingue deux classes de
variables statistiques quantitatives.
- Les variables statistiques quantitatives discrètes (par exemple le nombre
d’accidents sur un site pendant une période donnée, le nombre de voitures dans un
pays, le nombre d’ordinateurs par ménage, etc).

Une variable statistique est dite discrète si les valeurs numériques qu’elle peut
prendre sont des nombres entiers.
- Les variables statistiques quantitatives continues ( par exemple la température d’un
site, l’âge d’un véhicule, le temps d’exécution par un programme d’une tâche fixée, etc.)

Une variable statistique est dite continue si elle peut prendre n’importe quelle valeur
numérique dans un intervalle de l’ensemble des réels.

b) Les variables statistiques qualitatives

Les variables statistiques qualitatives sont des caractères des unités statistiques qu’on
ne peut pas mesurer (par exemple la situation matrimoniale, le sexe, le secteur d’activités
d’une personne, la marque d’un véhicule, le type de route, l’état de la chaussée, les
conditions atmosphériques, la commune, etc.). On distingue deux types de variables
statistiques qualitatives.
- Les variables statistiques qualitatives nominales ( par exemple le sexe, la
nationalité, la commune, etc.)

Une variable statistique est dite nominale si elle permet de répartir les unités
statistiques en catégories non comparables. On parle aussi de variable dichotomique.
- Les variables statistiques qualitatives ordinales (par exemple le type de route,
l’état de la chaussée, les conditions atmosphériques, le niveau d’appréciation d’un
produit, etc.)

Une variable statistique est dite ordinale si elle permet de répartir les unités
statistiques en catégories comparables.

3
1.2.2 Recensement et échantillonnage

Lorsque les observations sont faites sur la population complète, on dit qu’on fait un
recensement. Par exemple, si on fait une enquête sur tout le parc automobile de la ville
d’Abidjan, on parlera de recensement de la population de voitures de la ville d’Abidjan.

Un recensement consiste en l’étude de toutes les unités statistiques de la population.

Souvent pour des raisons diverses ( contrainte budgétaire, durée limitée, destruction
des unités statistiques observées, etc.), il est préférable de faire les observations sur une partie
de la population. Dans ce cas on dit qu’on fait un sondage.

Un sondage consiste à n’observer qu’une partie de la population. L’ensemble des unités


statistiques observées est alors appelé un échantillon. La sélection de l’échantillon doit tenir
compte des objectifs de l’étude, des contraintes et des informations disponibles sur la
population. La sélection de l’échantillon s’appelle l’échantillonnage. Ils existent plusieurs
méthodes d’échantillonnage dans la littérature.

1.3 Traitements des données


L’analyse statistique des données peut se faire en trois phases qui ne sont cependant pas
obligatoires.

a) L’analyse exploratoire

Cette phase consiste à faire connaissance avec les données. Elle utilise des opérations
très simples(le rangement, la représentation graphique, etc.) pour donner une idée générale
sur la situation des données les unes par rapport aux autres.
b) L’analyse descriptive

Cette phase complète la première. Elle décrit l’ensemble des données au moyen de
tableaux divers, de représentations graphiques et de paramètres représentatifs des variables
statistiques étudiées.

Les mots clés des deux premières phases sont : classement, visualisation, synthèse,
etc.
c) L’analyse confirmatoire

Elle a pour but de tester la validité des hypothèses d’étude qu’on a faites avant la
réalisation des statistiques. Cette démarche peut se faire de façon empirique ou suivre une
démarche scientifique appelée l’inférence statistique. Dans tous les cas, cette phase
consiste à tirer des conclusions sur la base des données dont on dispose.

4
Chapitre 2

Organisation et transformation des données


Pour traiter des données statistiques, on commence par les regarder, les organiser,
regrouper celles qui se ressemblent, élaborer des moyens de rassembler l’information sous
une forme aisée à manipuler et à communiquer.

2.1 Tableaux individus × variables


Supposons qu’on a observé n individus selon p variables statistiques. Les données peuvent
se présenter sous forme d’un tableau individus × variables à n lignes et p colonnes dans
lequel les lignes correspondent aux individus et les colonnes aux variables. Ainsi, si les
individus et les variables sont respectivement identifiés par des numéros de 1 à n et de 1 à p ,
on a un tableau du type :

Tableau 2.1 Tableau individus × variables


Variables
1 K j K p

1 x11 K x 1j K x1p

M M M M M M
Individus

i x i1 K xij K xip

M M M M M M
n xn1 K K K xnp

Chaque ligne du tableau 2.1 correspond à un individu dont on dispose de p valeurs


observées.
Chaque colonne correspond à une variable statistique dont on a effectué n observations.
xij est la valeur observée de la variable statistique j pour l’individu i .

5
On peut utiliser un tableau individus × variables pour étudier la population totale ou un
échantillon.

n désigne la taille de la population ou de l’échantillon étudié.

Si toutes les variables statistiques sont quantitatives on peut présenter les données sous forme
d’une matrice n× p :

 x 11 x 12
x x
K x 1p 

 21 22
K x 2p 
 M M O M 
 x n1 x n 2 K x np 

Si p =1 , c’est à dire lorsqu’on est en présence d’une seule variable statistique, on peut utiliser
une notation simplifiée qui consiste à désigner la variable par X et les valeurs de cette
variable par x . Ainsi la valeur observée de la variable X par l’individu i est xi .
Le tableau individus × variables contient alors deux colonnes. La première permet
d’identifier les individus, l’autre contient les valeurs observées. Souvent, on présente le
tableau individus × variables univarié sous forme de deux lignes :

i 1 K i K n
xi x1 K xi K xn

Pour le cas de deux variables statistiques, on a un tableau individus × variables


bivarié qui est constitué de trois colonnes. On peut aussi le représenter par trois lignes.

Exemple 2.1. Le nombre d’accidents en 1983 dans la ville d’abidjan est donné par :

Mois Nonmbre
d’accidents
Janvier 125
Février 150
Mars 80
Avril 50
Mai 40
Juin 43
Juillet 80
Août 75
Septembre 80
Octobre 65
Novembre 50
décembre 95

6
2.2 Organisation, d’une série statistique univariée

2.2.1 Série observée et série ordonnée

Les données sont constituées d’une suite de valeurs observées x1, x2,K, xn de la
variable. Cette suite s’appelle la série statistique observée.

Si X est une variable quantitative ou ordinale on peut ordonner les valeurs observées de la
plus petite à la plus grande. La nouvelle série obtenue s’appelle la série statistique ordonnée.
On la note x(1), x(2),K, x(n) .

La série ordonnée est obtenue en permuttant les valeurs observées de façon telle que
x(i) ≤ x(j) si i ≤ j . L’indice dans la série ordonnée est placé entre parenthèses pour le distinguer
de celui de la série observée.
(i ) est appelé le rang de l’observation correspondante. La plus petite observation est donc
celle de rang 1 et la plus grande celle de rang n .

2.2.2 Distribution observée

Soit J , le nombre de valeurs observées distinctes de la variable. Chacune de celles-ci


est représenntée par x j , où j =1,K, J .
La distribution observée obtenue à l’aide de la série observée ou de la série ordonnée est
définie par la suite (x1 ,n1 ),K,(x J ,n J ) où n j est l’effectif associé à x j (nombre de fois que la
valeur x j a été observée).

Exemple 2.2. On considère le nombre d’accidents en 1983 dans la ville d’Abidjan dont les
observations se trouvent dans l’exemple 2.1. La distribution observée est :

Tableau 2.1. Tableau des effectifs du nombre d’accidents

xj 40 43 50 65 75 80 95 125 150
nj 1 1 2 1 1 3 1 1 1

Une distribution observée à une dimension est définie par les valeurs distinctes qui
apparaissent dans la série observée et le nombre de fois que chacune d’elles apparaît.

On a
J

∑n =n .
j =1
j

On peut représenter la distribution observée par des graphiques.

7
a) Diagramme en bâtons

Lorsque la variable étudiée est quantitative, on peut représenter la distribution observée


graphiquement par un diagramme en bâtons. Pour construire ce diagramme, on considère un
système d’axes orthogonaux dans lequel on dessine des segments de droites parallèles à l’axe
des ordonnées, élevés à partir des points de l’axe des abscisses définis par les valeurs x j et
dont la hauteur est égale à l’effectif correspondant n j (j =1,K, J).

Exemple 2.3. On a effectué une enquête auprès de 25 familles pour déterminer le nombre de
voitures possédées par les familles d’un quartier d’Abidjan. La distribution observée se trouve
dans le tableau 2.3.

Tableau 2.3. Nombre de voitures par famille

xj 0 1 2 4
nj 11 8 4 2

Figure 2.1 Diagramme en bâtons du nombre de voitures

nj

11

0 1 2 4 modalités

b) Diagrammes en barres et représentations en secteurs

Ces représentations graphiques sont valables pour les variables qualitatives. En effet,
pour des variables qualitatives la distance entre deux valeurs n’a pas de sens. Le diagramme
en bâtons n’est donc plus concevable. On construit plutôt un diagramme en barres ou en
secteurs.

Exemple 2.4. Dans une enquête réalisée auprès de 75 personnes, on demande leur niveau
d’appréciation sur une certaine marque de voiture. On dispose d’une échelle à cinq modalités :

8
Très défavorable (TD), défavorable (D), favorable (F), très favorable (TF) et moyen (M). La
distribution observée se trouve dans le tableau 2.4.

Tableau 2.4 Distribution des avis sur une marque de voiture

xj TD D F TF M
nj 15 6 20 30 4

Figure 2.2 Diagramme en barres associé à l’avis sur une marque de voiture

30
25
20
15
Avis
10
5
0
TD D F TF M

Figure 2.3 Diagramme en secteurs associé à l’avis sur une marque de voiture

TD
D
F
TF
M

2.2.3 Tableaux statistiques

Dans cette sous section on suppose qu’on a une distribution observée


(x1 ,n1 ),K,(x J ,n J ) d’une variable quantitative.

9
a) Fréquences
nj
A chaque valeurs x j , on associe la fréquence f j définie par f j = .
n
J
On a ∑f
j =1
j =1.

b) Effectifs cumulés croissants

A chaque valeur x j , on associe un effectif cumulé croissant N j représentant le nombre


d’observations inférieures ou égales à x j et défini par
j
N j = n1 + n2 +L+ n j = ∑ nk .
k =1

c) Fréquences cumulées croissantes

La fréquence cumulée croissante F j associée à la valeur x j est définie par


Nj
F j = = f1 +L+ f j.
n
Toutes ces quantités peuvent se résumer à travers un tableau appelé tableau statistique.

Tableau 2.5 Tableau statistique de la répartition du nombre de voitures

xj nj fj Nj Fj

0 11 0,44 11 0,44
1 8 0,32 19 0,76
2 4 0,16 23 0,92
4 2 0,08 25 1

Figure 2.4 Courbe cumulative croissante du nombre de voitures par famille

25
23
19

11

0 1 2 4

10
d) effectifs cumulés décroissants et fréquences cumulées décroissantes

A chaque valeur x j , on associe un effectif cumulé décroissant N *j représentant le


nombre d’observations supérieures ou égales à x j . Cette notion conduit à celle de
fréquence cumulée décroissante. On a

N *j = n j + n j +1 +L+ nJ et F *j = f j + f j +1 +L+ f J .

2.2.4 Distribution groupée

Lorsque la variable est réelle continue (durée de vie, la vitesse d’un véhicule, la
température, l’accélération d’un véhicule, le temps d ‘exécution par un ordinateur d’une tâche
fixée, etc.), il peut arriver que le nombre de valeurs distinctes observées soit relativement
élevé. Dans une telle situation, il est conseillé de regrouper les différentes valeurs par classe.

On peut résumer les informations contenues dans les données à l’aide d’un
histogramme des fréquences ou d’un histogramme des effectifs. En effet dans un système
d’axes, on construit des rectangles associés à chacune des classes j et dont la surface est
égale à n j . Si a j est l’amplitude de la classe j , la hauteur du rectangle est n j / a j . Cette
quantité représente un effectif par unité de longueur de la classe.

Exemple 2.5. La brigade de gendarmerie chargée du contrôle des vitesses des véhicules sur
l’autoroute du nord a relevé les informations suivantes sur des contrevenants qu’elle a
interceptés : la vitesse du véhicule, sa puissance fiscale, le sexe et l’âge du conducteur, le
nombre de passagers dans le véhicule. Ces informations sont contenues dans l’annexe 1.

Tableau 2.6. Tableau statistique de la répartition des vitesses des véhicules

Classes nj fj Nj Fj
]140,150] 17 0,34 17 0,34
]150,160] 12 0,24 29 0,58
]160,170] 10 0,20 39 0,78
]170,180] 6 0,12 45 0,90
]180,190] 3 0,06 48 0,96
]190,200] 2 0,04 50 1

11
Figure 2.5 Histogramme des effectifs et polygone des effectifs des vitesses des véhicules

VITESSE
20

18

16

14

12
Nb d'Obs

10

2
Théorique
0
130 140 150 160 170 180 190 200 Normal

Limites Sup. (x <= limite)

Faisons quelques remarques sur le groupement en classes :


Dans le choix de l’amplitude de la classe on peut suivre la règle :
1. On choisit un nombre de classes, désigné ici par J .
2. On détermine l’écart entre la plus grande et la plus petite observation :
x(n) − x(1) .
3. On retient pour longueur a des classes, la valeur la plus proche de
[x(n) − x(1) ]/ J par excès, c’est à dire telle que : a >[x(n) − x(1) ]/ J . La longueur
a est ainsi choisie de façon à ce que toutes les observations puissent être
affectées à une classe.
4. Il est possible de faire des regroupements avec des classes de longueurs
distinctes.

2.3 organisation d’une série bivariée


2.3.1 Nuage de points

Pour visualiser une série observée de deux variables statistiques quantitatives x et y , on


peut représenter chaque unité statistique i par un point de coordonnées (x i , yi ) . On obtient
de cette façon un graphique qu’on appelle le nuage de points.

Exemple 2.6. On considère l’exemple 2.5 et on s’intéresse aux variables vitesse du véhicule
et âge du conducteur.

12
Figure 2.5 Nuage de points

250

200

150
Vitesse

100

50

0
0 10 20 30 40 50 60 70
Âge

2.3.2 Tableau de contingence

Les valeurs distinctes de x et y sont représentées respectivement par x1 ,K, x J et y1 ,K, yk .


On désigne par n jk l’effectif associé à l’observation (x j , y k ) .

On définit une distribution observée à deux dimensions par l’ensemble des triplets
{(x j, yk ,n jk ); j =1,K, J; k =1,K, K } . Cette distribution observée peut se représenter à l’aide d’un
tableau de contingence.

Exemple 2.7. On considère l’exemple 2.5 et on s’intéresse aux variables vitesse du véhicule
et sexe du conducteur.

Tableau 2.7 Tableau de contingence de la vitesse et du sexe

Sexe Femme Homme Totaux

Puissance
5 7 (0,14) 7 (0,14) 14 (0,28)
7 4 (0,08) 9 (0,18) 13 (0,26)
9 1 (0,02) 9(0,018) 10 (0,20)
11 0 (0,00) 7 (0,14) 7 (0,14)
16 2 (0,04) 4 (0,08) 6 (0,12)
Totaux 14 (0,28) 36(0,72) 50 (1,00)

N. B. Les nombres entre parenthèse désignent les fréquences.

13
2.3.3 Séries et distributions marginales

Lorsqu’on a une série observée bivariée {(xi, yi ); i =1,K,n} , il est intéressant d’avoir des séries
marginales univariées.

Série marginale en x : {xi; i =1,K,n} ;


Série marginale en y : {yi; i =1,K,n}.
Si l’on dispose d’une distribution observée bivariée, on peut considérer les distributions
marginales.

a) Distribution marginale en x
La distribution marginale en x est définie par l’ensemble des couples
{(x j,n j •); j =1,K, J } où l’on associe à chaque valeur x j de la variable x l’effectif marginal
défini par
K
n j • =∑ n jk .
k =1
b) Distribution marginale en y

La distribution marginale en y est définie par l’ensemble des couples {(yk ,n⋅k ); k =1,K, K }
où l’on associe à chaque valeur yk de la variable y l’effectif marginal défini par

J
n• k = ∑n jk
j =1

On définit aussi les fréquences marginales

n j•
f j• = , j =1,K, J ; f • k = n• k , k =1,K, K
n n

Tableau 2.8 Tableau de contingence et distributions marginales de la puissance et du sexe

Sexe Femme Homme Distribution


marginale
Puissance (Puissance)
5 0,14 0,14 0,28
7 0,08 0,18 0,26
9 0,02 0,18 0,20
11 0,00 0,14 0,14
16 0,04 0,08 0,12
Distribution 0,28 0,72 1,00
marginale
(Sexe)

14
2.3.4 Distributions conditionnelles ou profils

Une distribution conditionnelle consiste à fixer à priori la valeur d’une des variables et
à examiner les variations de l’autre.

a) Distribution conditionnelle de y sachant x

On appelle distribution conditionnelle de y sachant x= x j , les couples observés


{(yk ,n jk ); j fixé; k =1,K, K } . Cette distribution comporte n j • observations. Les fréquences
conditionnelles sont donc définies par

n jk
f yk x j = fk j = , j fixé ; k =1,K, K.
n j•

Elles sont appelées les profils-lignes du tableau de contingence.

b) Distribution conditionnelle de x sachant y

On appelle distribution conditionnelle de x sachant y= yk , les couples observés


{(x j,n jk ); j =1,K, J; k fixé}. Cette distribution comporte n• k observations. Les fréquences
conditionnelles sont donc définies par

n jk
f x j yk = f j k = , j =1,K, J. ; k fixé.
n• k

Elles sont appelées les profils-colonnes du tableau de contingence.

Tableau 2.9 Profils-lignes du tableau de contingence de la vitesse et l’âge

Sexe Femme Homme Totaux

Puissance
5 7 (50%) 7 (50%) 14
7 4 (30,77%) 9 (69,23%) 13
9 1 (10%) 9 (90%) 10
11 0 (0,00%) 7 (100%) 7
16 2 (33,33%) 4 (66,67%) 6
Totaux 14 36 50

N.B. Les fréquences conditionnelles du sexe du conducteur sachant la puissance du véhicule


sont données en pourcentage et sont entre parenthèse.

15
Tableau 2.10 Profils-colonnes du tableau de contingence de la vitesse et l’âge

Sexe Femme Homme Totaux

Puissance
5 7 (50%) 7 (19,44%) 14
7 4 (28,57%) 9 (25,00%) 13
9 1 (7,14%) 9 (25,00%) 10
11 0 (0,00%) 7 (19,44 %) 7
16 2 (14,29%) 4 (11,11%) 6
Totaux 14 36 50

N.B. Les fréquences conditionnelles de la puissance du véhicule sachant le sexe du


conducteur sont données en pourcentage et sont entre parenthèse.

2.4 Transformation des données

Souvent avant d’analyser les données il est nécessaire et judicieux de transformer ces
données. On remplace alors la série observée {x1 ,K, xn } par une série transformée {y 1 ,K, ym }
ayant le même nombre ou non d’observations.

Le choix de la transformation est lié aux propriétés que peuvent cachées les données de
départ. Par exemple les propriétés de linéarité, symétrie, variabilité constante, etc.

2.4.1 Transformation linéaire

a) Changement d’origine

C’est le cas le plus simple de transformation linéaire.

Exemple 2.8. Considérons la série relative aux temps (en secondes) d’exécution par des
programmes d’une tâche fixée.

Programmes i 1 2 3 4 5 6 7 8
Temps 6,572 12,400 5,272 8,435 7,012 10,191 4,237 8,881
d’exécution

Supposons qu’un temps d’exécution type de 8 secondes est fixé. Dans ce cas, on est intéressé
par l’écart entre le temps d’exécution réellement observé xi et le temps d’exécution type. On
fait alors le changement de variable yi = xi −8 .

b) Changement d’unité

Une deuxième transformation linéaire consiste à faire un changement d’unité.

16
Par exemple, dans l’exemple 2.8, on peut vouloir exprimer le temps d’exécution en minutes.
Dans ce cas on doit diviser les valeurs observées par 60. On fait alors la transformation
linéaire yi = xi / 60 .

c) Changement d’origine et d’unité

On peut décider de prendre simultanément une nouvelle origine que nous appelons x0 et une
nouvelle unité que nous désignons par d ( c’est à dire égale d fois la première) Dans ce cas,
la transformation linéaire est

xi − x0
yi = ⋅
d

2.4.2 Transformation fonctionnelle

Très souvent on utilise les transformations logarithmiques qui permettent de diminuer


l’importance des grandes valeurs.

2.4.3 Rapports et indices

Un type de transformation très utilisé lorsqu’on observe une variable x à des époques
distinctes t 1 , t2, t3 ,K c’est à dire lorsqu’on a une série chronologique est le suivant :

On choisit une époque de base destinée à servir de référence ( par exemple la date t1 ).
On définit un indice qui permet de mesurer les modifications relatives de la variable x en des
instants quelconques par rapport à l’époque de référence, en comparant les valeurs de la
série observée {xt } à la valeur correspondante à la date t1
it t1 (x)= xt .
xt1

La notation it t1 (x) signifie que l’on considère l’indice pour la variable x de l’époque
courante t à l’époque de base t1⋅

17
Chapitre 3

Caractéristiques d’une variable statistique


3.1. Introduction
Les représentations graphiques et les tableaux statistiques étudiés dans le chapitre 1
sont nécessaires pour faire une mise en ordre des données afin de dégager certaines
informations qu’elles contiennent. Ces informations permettent d’avoir une idée globale du
problème étudié. Cependant, ces informations ne suffisent pas si l’on veut faire une analyse
statistique plus approfondie des données. Dans cet optique, il est souhaitable de déterminer un
certain nombre de valeurs caractéristiques, appelés paramètres qui ont pour but de résumer
dans une certaine mesure les informations contenues dans les données. Ces paramètres
peuvent conduire à de nouvelles représentations graphiques et faciliter la comparaison de
séries statistiques distinctes.

3.2 Paramètre de position d’une série univariée


L’objectif est de donner des valeurs centrales de la série étudiée ou plus généralement
des caractéristiques de localisation.

Nous commençons par rechercher une valeur centrale, un milieu.

3.2.1 La moyenne arithmétique

a) Moyenne arithmétique d’une série statistique univariée

La moyenne arithmétique d’une série statistique {xi;i =1,K,n} est égale à la somme des
observations divisée par l’effectif n de la série, et est notée x .

n n
x = 1 ∑ xi ou x = 1 ∑ x(i) .
n i =1 n i =1

.
1 Une moyenne arithmétique ne se conçoit que pour des variables statistiques
quantitatives.
2. La moyenne arithmétique d’une variable statistique est unique.
3. La moyenne arithmétique est rarement une valeur observée de la variable statistique.
4. La moyenne arithmétique est très sensible à la présence de valeurs aberrantes c’est à dire
de valeurs qui ne sont pas du même ordre de grandeurs que les autres.

On peut faire les remarques ci-dessous :

18
n n

∑ xi =nx ou
i =1
∑x
i =1
(i) = nx

∑(x − x) = 0.
i =1
i

Si on agrège deux séries statistiques de moyennes respectives x1 et x2 , d’effectifs


respectifs n1 et n2 , la nouvelle série obtenue d’effectif n = n1 + n2 a pour moyenne

x = n1 x1 + n2 x2 .
n

Il existe d’autres types de moyennes dans la littérature. On peut citer la moyenne géométrique
et la moyenne harmonique.

b) Moyenne arithmétique d’une distribution observée univariée

Lorsqu’on dispose d’une distribution observée obtenue en associant à chaque valeur


distincte recueillie x j un effectif n j représentant le nombre de fois qu’elle est apparue
(j =1,K, J) , la moyenne arithmétique est donnée par

J
x = 1 ∑n j x j .
n j =1
On a
J
1 n j ( x j − x )=0.
n∑
j =1

c) Moyenne arithmétique d’une distribution groupée

Lorsqu’on dispose d’une distribution groupée, sans posséder les données initiales, il
n’est plus possible de déterminer la moyenne arithmétique de la série observée. On peut
cependant calculer une valeur approchée q’on notera également x et qui est définie par

J
x = 1 ∑n j xc j ,
n j =1
où xc j et n j sont respectivement le centre et l’effectif de la classe j (j =1,K, J) .

3.2.2 La médiane

a) Médiane d’une série statistique

La médiane est un paramètre qui représente une valeur centrale d’une série {x1,K, xn }. Elle est
définie à partir de la série ordonnée {x(1),K, x(n) } où (i) est le rang de l’observation
correspondante.

19
En effet, c’est la valeur notée Me , telle que le nombre d’observations de la série
ordonnée qui la précèdent est égal au nombre d’observations qui la suivent.
Ce paramètre ne peut être défini que pour des variables statistiques quantitatives ou
qualitatives ordinales.

Nous distinguons deux cas .

1°) Si n est impair


on a
Me= x n +1  .
 2 

La médiane est donc l’observation de rang (n +1) / 2

2°) Si n est pair

On est confronté à une difficulté dans la définition de la médiane. En effet, toute


observation située entre l’observation de rang n / 2 et la suivante satisfait à la propriété ci-
dessus ayant servie à la définition de la médiane dans la cas général. On a alors un intervalle
médian au lieu d’une valeur médiane.

Généralement, lorsque la variable statistique est quantitative et n est pair on décide de


prendre comme médiane la moyenne arithmétique des deux observations qui délimitent
l’intervalle :

x n  + x n +1 
Me= 2 2 
.
2

b) Médiane d’une distribution observée

Lorsqu’on dispose d’une distribution observée, la médiane est définie grâce aux
distributions cumulées à savoir :
- la distribution cumulée croissante N(x) représentant le nombre d’observations
inférieures ou égales à x ;
- la distribution cumulée décroissante N *(x) correspondant au nombre
d’observations supérieures ou égales à x .

La médiane est la valeur Me des observations qui vérifie l’équation

N(Me)= N *(Me) (3.1)

La solution de l’équation (3.1) est soit unique, soit indéterminée (intervalle médian). Dans ce
dernier cas, on prend pour médiane la moyenne des valeurs qui définissent cet intervalle(si
ces valeurs sont quantitatives).

20
Du point de vue pratique, on a recours à la démarche ci-dessous basée sur l’histogramme des
effectifs cumulés pour rechercher la valeur médiane :
1. s’il existe une valeur x j telle que N j −1 < n / 2< N j , alors Me= x j (en posant N 0 =0, si
j =1);
2. s’il existe une valeur x j telle que N j = n / 2, alors

x j + x j +1
Me= .
2

Figure 3.1 Détermination de la médiane d’une distribution observée

d) Médiane d’une distribution groupée

Lorsqu’on dispose d’une distribution groupée et qu’on n’a pas la série ordonnée, on ne
peut plus déterminer la médiane avec précision mais il est possible de donner une valeur
approchée qu’on note aussi Me . On prend pour valeur approximative

(n / 2)− N m −1
Me=l −m + am
nm

où m désigne la classe contenant Me , l m sa limite inférieure, am sa longueur, nm son effectif
et N m −1 l’effectif cumulé de la classe précédente.

3.2.3 Autres valeurs centrales

En dehors de la moyenne arithmétique et de la médiane qui sont deux valeurs centrales


très utilisées, il existe d’autres paramètres de centralité.

a) La moyenne tronquée

La moyenne étant influencée par la présence de valeurs aberrantes, il est conseillé quelque
fois d’éliminer ces dernières ou, tout au moins de ne pas tenir compte des premières et

21
dernières valeurs de la série ordonnée. De cette façon, on obtient une moyenne tronquée qui
n −1
ne porte que sur les observations x(2),K, x(n −1) : xTR = 1 ∑ x(i). .
n−2 i = 2
On peut reprocher à cette démarche d’éliminer des informations.

b) La moyenne pondérée

Dans certaines situations les observations n’ont pas toutes la même importance. Dans
ce cas on attribue à chaque observation xi un coefficient de pondération ω i (i =1,K,n) ,
encore appelé poids.

Ces poids doivent satisfaire à l’équation

∑ω =1.
i =1
i

La moyenne pondérée est alors définie par

n
xP =∑ω i xi .
i =1

3.2.4 Les quantiles (fractiles)

La médiane peut être considérée comme un cas particulier d’une valeur plus générale,
appelée quantile (ou encore fractile).

a) Les quantiles d’une série observée

Supposons qu’on dispose d’une série ordonnée. Soit p un nombre réel compris entre 0 et 1.

On appelle quantile d’ordre p la valeur x p de la variable telle que

N(x p ) ≥ np et N * (x p ) ≥ n(1− p) . (3.2)

Il y a donc au moins une proportion p des observations qui sont inférieures ou égales à x p
et il y a au moins une proportion 1− p de valeurs supérieures ou égales à x p . Si une seule
observation satisfait à la double inégalité (3.2) , elle représente le quantile d’ordre p . Si
deux valeurs consécutives satisfont à (3.2), on prend la moyenne arithmétique lorsque ces
valeurs sont numériques.

Les quantiles les plus utilisés sont :

1. La médiane (p =1/ 2)
2. Les quartiles correspondant à p =1/ 4, p =1/ 2, p =3/ 4. Ils sont très souvent notés par
Q1, Q2, et Q3 .

22
Empiriquement, on peut dire que les quartiles partagent l’ensemble des
observations en quatre partie de « même effectif ».

3. Les déciles correspondant à p =1/10, p = 2 /10,K, p =9 /10.


4. Les percentiles correspondant à p =1/100, p = 2 /100,K, p =99 /100.

b) Les quantiles d’une distribution observée

Lorsqu’on dispose d’une distribution observée, les quantiles peuvent se déterminer gràce à
la courbe cumulative croissante en suivant la démarche suivante :

1. s’il existe une valeur x j telle que N j −1 < np< N j , alors x p = x j (en posant N 0 =0, si j =1);
2. s’il existe une valeur x j telle que N j = np, alors

x j + x j +1
xp = .
2

Figure 3.2 Détermination du quantile x p d’une distribution observée

c) Les quantiles d’une distribution groupée

Lorsqu’on dispose d’une distribution groupée, on ne peut qu’obtenir des valeurs approchées
des quantiles. On procède comme suit dans la détermination de ces valeurs :
1. On recherche la classe, notée (l −k ,l +k ) qui contient le quantile x p ; elle est telle que
N k −1 < np≤ N k .
2. On recherche ensuite la valeur x p qui satisfait l’équation : N(x p )= np. Cette valeur est
donnée par :

23
np − N k −1
x p =l k− + ak .
nk

3.2.5 Le mode

Le mode d’une distribution observée est la valeur observée qui apparaît le plus souvent
c’est à dire ayant l’effectif le plus grand. On le note par xM . Ce paramètre n’est pas
nécessairement unique et peut ne même pas exister.

Une distribution peut être unimodale (un seul mode), plurimodale (plusieurs modes).
Si on a une distribution groupée, on parlera de classe modale.

Figure 3.2 Le mode et quelques situations

Lorsqu’on a une distribution groupée, si les classes ne sont pas de même longueur, il
faut effectuer la comparaison des effectifs en les ramenant à des intervalles de valeurs
équivalentes. Pour obtenir cette équivalence, on peut faire l’histogramme des effectifs en
prenant comme hauteur du rectangle de base la classe (lk−,lk+ ) , la quantité nk où ak =lk+ −lk−
ak
(c’est à dire l’amplitude de la classe).

Les quantiles, la médiane et le mode s’expriment dans les mêmes unités et par rapport à
la même origine d’échelle que les valeurs observées.

3.3 Les paramètres de dispersion

Il est possible que deux variables statistiques aient la même valeur centrale mais
soient complètement différentes du point de vue de la concentration ou la dispersion des

24
valeurs observées autour de cette valeur centrale. Il est donc nécessaire de trouver des
mesures permettant d’apprécier la dispersion d’une série statistique ou d’une distribution
observée.

Nous ne considérerons que des variables quantitatives.

3.3.1 L’étendue

L’étendue est égal à la différence entre la plus grande et la plus petite valeur observée :
x(n) − x(1) .

Cette mesure présente deux inconvénients majeurs :


- elle ne tient pas compte de toutes les observations ;
- elle est particulièrement sensible aux valeurs extrêmes donc à la présence de
valeurs aberrantes.
Cette mesure de dispersion est seulement conseillé que pour des séries dont les observations
sont réparties de façon homogènes (sans valeurs aberrantes).

3.3.2 Les écarts interquartiles et interdéciles

On appelle intervalle interquantile tout intervalle d’extrémités x p (le quantile d’ordre


p ) et x p −1 (le quantile d’ordre p −1 ) avec 0< p <1/ 2.
Un tel intervalle contient un pourcentage d’observations égal ou à peu près égal à 1− 2p . On
désigne par écart interquantile la longueur de cet intervalle : x p − x p −1.
Les plus couramment utilisés sont dans le tableau 3.1

Tableau 3.1 Intervalle interquantile

Intervalle
Interquartile Interdécile
Définition de l’écart x3 / 4 − x1/ 4 x9 /10 − x1/10

% d’observations contenues 50% 80%

Ces intervalles ne contiennent pas les valeurs extrêmes. Si p n’est pas trop petit , ils ne
sont pas sensibles à leur présence éventuelle.

3.3.3 La boîte à moustaches

La boîte à moustaches ou diagramme en boîte est une représentation graphique des


informations fournies par les quartiles et les intervalles qui les séparent. Pour la construire, on
dessine une boite sur base de la position de x1/ 4 et x3 / 4 , coupée en deux parties( généralement

25
de longueur inégales) par la médiane Me , c’est à dire x1/ 2 . Cette boîte est ensuite prolongée à
sa gauche et à sa droite par deux moustaches jusqu’à x(1) et x(n) . On obtient la figure 3.3 :

Figure 3.3 La boîte à moustaches

x(1) x1/ 4 Me x3 / 4 x(n)

.
1 La médiane nous renseigne sur le milieu de la série.
2. Les largeurs des deux parties de la boîte nous informent sur la dispersion des valeurs
situées au centre de la série (la boîte contient 50% de l’ensemble des observations : 25% à
gauche de la médiane et 25% à droite).
3. La longueur des moustaches nous renseigne sur le comportement des valeurs situées au
début de la série ordonnée (les valeurs les plus petites correspondent à 25% des
observations) ou à la fin de celle-ci (les valeurs les plus grandes correspondent aussi à 25%
des observations).
4. La dispersion est d’autant plus grande que la boîte est étendue.
5. Une difficulté peut se présenter si la série contient des valeurs extrêmes (très petites ou très
grandes). En effet, dans ce cas, les moustaches risquent de devenir très longues, ce qui nuit à
leur interprétation.

Exemple 3.1. On considère l’exemple 2.5 et on s’intéresse à la variable statistique : vitesse


des véhicules.

Figure 3.4 Boîte à moustache des vitesse des véhicules

Boîtes à Moustaches (Annexe 1.STA 5v*50c)


205

195

185

175

165

155

Max = 200
145 Min = 141
75% = 169
25% = 147
135
VITESSE Médiane = 157,5

26
3.3.4 L’écart moyen absolu et l’écart médian absolu

L’écart moyen absolu, noté em , est égal à la moyenne des valeurs des différences
entre les observations et la valeur x :

n
em = 1 ∑ xi − x . .
n i =1

En prenant comme valeur centrale la médiane on obtient l’écart médian absolu, noté e*m :

n
e m = 1 ∑ xi − Me .
*
n i =1

L’écart moyen absolu et l’écart médian absolu sont des paramètres de dispersion qui
prennent en compte toutes les observations. Toute fois ces paramètres sont peu utilisés.

3.3.5 La variance

a) La variance d’une série statistique

La variance d’une série statistique est définie par :

n
s = ∑ ( xi − x ) .
21 2
n i =1
1. Si les valeurs observées d’une série statistique sont homogènes alors sa variance est
petite. Par contre plus les valeurs observées sont hétérogènes, plus la variance s’accroît.
2. La variance ne se conçoit que pour des variables quantitatives.
3. La variance d’une série statistique constituée de valeurs identiques est nulle.
4. La variance est sensible à la présence de valeurs aberrantes.

On a
n
s 2 = 1 ∑ xi2 − x 2 .
n i =1

Comparer les observations à la moyenne x par l’intermédiaire de la variance revient, à un


facteur près, à comparer toutes les observations entre elles. En effet, on a

n n
s 2 = 1 2 ∑∑(xi − x j ) 2 .
2n i =1 j =1
Lorsqu’on agrége deux séries statistiques d’effectifs n 1 et n2 , de moyennes x1 et x2 , de
variances s12 et s22 . La variance de la série globale obtenue est :

n1s12 + n2 s22 n1(x1 − x ) 2 + n2(x2 − x ) 2


s2 = + (3.3)
n1 + n2 n1 + n2

27
Le premier terme du membre de droite de la formule (3.3) porte le nom de variance
intragroupes c’est à dire à l’intérieur des groupes. Le second terme est appelé variance
intergroupes c’est à dire entre les groupes.

b) La variance d’une distribution observée

Si l’on dispose d’une distribution observée {(x j,n j ); j =1,K, J }, la variance peut se
calculer par :

J J
s 2 = 1 ∑n j ( x j − x ) = 1 ∑n j x 2j − x 2. .
2

n n j =1
j =1

c) La variance d’une distribution groupée

J J
s 2 = 1 ∑ n j ( xc j − x ) = 1 ∑ n j xc2j − x 2.
2
n j =1 n j =1

1. En pratique, très souvent on prend comme définition de la variance la quantité :


n

n −1∑
1 ( xi − x )2. On l’appelle quelque fois la variance corrigée.
i =1
2. La variance n’est pas un nombre sans dimension.
On appelle écart type la quantité

n
s = 1 ∑( xi − x )2 .
n i =1
L’écart type s’exprime dans les mêmes unités que les observations. Elle est donc plus facile à
interpréter que la variance.

Si sx2 est la variance d’une variable statistique X alors pout réel a , a 2 s x2 est la variance
de la variable aX .

On appelle valeurs centrées réduites d’une série statistique x1,K, xn les valeurs

xi − x , i =1,K,n.
s

Notons que la moyenne d’une série centrée réduite est nulle et que sa variance est égale à 1.

3.3.7 Le coefficient de variation

La comparaison des dispersions de deux séries statistiques peut se faire grâce aux
écarts types lorsque ces séries ont des moyennes du même ordre de grandeur et ne contiennent

28
pas de valeurs aberrantes. Dans le cas contraire, on peut utiliser le coefficient de variation
défini par

CV = s ⋅
x

Ce paramètre est une mesure relative de dispersion et permet une interprétation plus
appropriée. On l’exprime en général en pourcentage.

3.4 Les paramètres de forme


On distingue généralement deux types de paramètres de forme : les paramètres d’asymétrie et
les paramètres d’aplatissement.

Ces paramètres ne se déterminent que pour des variables quantitatives ou ordinales.

3.4.1 Etude de la symétrie d’une distribution

On distingue trois types de distributions :


- les distributions dissymétriques à gauche : mode < médiane < moyenne ;
-
les distributions symétriques : mode = médiane = moyenne ;
-
les distributions dissymétriques à droite : mode > médiane > moyenne.
On peut se rendre compte du caractère symétrique ou non d’une distribution en analysant
le diagramme en bâtons, l’histogramme des effectifs. L’examen de la boîte à moustaches
permet d’avoir une idée de la symétrie de la distribution selon que la boîte et les moustaches
sont symétriques ou, au contraire, de plus petite amplitude à gauche (asymétrie à gauche) ou
à droite (asymétrie à droite).

Figure 3.5 Symétrie d’une distribution

Asymétrique à gauche Symétrique Asymétrique à droite

29
a) Le coefficient de Fisher

Considérons une distribution observée {(x j ,n j ); j =1,K, J }. On appelle moment centrée d’ordre
3, la quantité

J
m3 = 1 ∑ n j (x j − x )3.
n j =1

1. m3 est positif pour une distribution dissymétrique à gauche ;


2. m3 est nul pour une distribution symétrique ;
3. m3 est négatif pour une distribution dissymétrique à droite.

Comme m3 dépend des unités utilisées dans la mesure des observations, Fisher a introduit le
coefficient :

g1 = m33 ⋅
s

b) Autres coefficients d’asymétrie

Il existe d’autres coefficients d’asymétrie qui sont rapides à calculer mais dont les propriétés
résultent de constatations empiriques :

- le coefficient empirique de Pearson

Sk = x − xM ⋅
s

- le coefficient empirique de Yule et Kendall

Yk = x1/ 4 + x3 / 4 − 2x1/ 2 ⋅
x3/ 4 − x1/ 4

Ces paramètres ont des propriétés semblables à celles du coefficient de Fisher.


Cependant ils doivent être interprétés avec prudence. Par exemple, une distribution discrète
presque symétrique peut fournir des coefficients S k et Yk de signe contraire.

3.4.2 Paramètres d’aplatissement

L’aplatissement d’une distribution peut être caractérisé par des paramètres basés sur le
moment centré d’ordre 4 :

J
m4 = 1 ∑ nJ (x j − x ) 4 ⋅
n j =1

30
Ces paramètres sont :

a) le coefficient d’aplatissement de Pearson

b2 = m44
s

b) le coefficient d’aplatissement de Fisher

g 2 = m44 − 3.
s

Plus la série est effilée, plus ces coefficients sont grands. Plus la série est aplatie, plus
ces coefficients sont petits.
L’utilisation de ces coefficients est parfois délicate.

Figure 3.6 Aplatissement d’une distribution

31
PARTIE II

CALCUL DES PROBABILITES

32
Chapitre 4

ANALYSE COMBINATOIRE
L’objectif de ce chapitre est d’introduire les techniques de base pour le dénombrement
des différents résultats possibles d’une expérience.

4.1 Principe fondamental


Commençons par deux exemples introductifs.

Exemple 4.1. Soit trois urnes U1,U 2 et U 3 telles quel’urne U1 contient une boule noire et une
boule rouge, il y a deux boules blanches dans l’urne U 2 et l’urne U 3 contient trois boules
bleues . On tire au hasard une boule del’urne U1 :
- Si la boule tirée est noire, on tire une seconde boule de l’urne U 2 ;
- Si la boule tirée est rouge, on tire une seconde boule l’urne U 3 .

Cherchons à déterminer le nombre de résultats possibles.

Avant toute chose, il faut préciser si les boules sont discernables c’est à dire
distinguables ou non. On dit que deux objets sont discernables ou distinguables s’il existe un
moyen de les différencier.

On suppose que les boules sont discernables et que les boules de l’urne U1 sont N et R , les
boules de l’urne U 2 sont B1 et B2 , et celles de l’ urne U 3 sont Bl1 , Bl2 et Bl3 . Pour
dénombrer les résultats on peut faire l’arbre suivant :

Figure 4.1 Arbre de dénombrement

B1 ( N , B1)

B2
N ( N, B2 )

R Bl1 ( R, Bl1)

Bl2
(R , Bl2)
Bl3
(R, Bl3)

33
Exemple 4.2. On dispose de r urnes telles que la i ème contient ni boules. On suppose que
toutes les boules sont discernables. On tire une boule au hasard de chaque urne. On désire
dénombrer les façons de choisir ces boules.

Pour résoudre ce problème, commençons par remarquer que l’expérience dont on cherche le
nombre de résultats peut être subdivisée en r sous expériences dont la i ème consiste à choisir
la boule provenant de l’urne i . On a n1 résultats possibles pour la sous-expérience 1. A
chaque résultat de la sous-expérience 1, on a n2 résultats possibles pour la sous-expérience 2.
D’où on n1 2 +L+ n2 = n1×n2 résultats possibles pour les sous-expériences 1 et 2 prises
424 3
n1 − fois

globalement. Plus généralement, à chaque résultat des sous-expériences 1,2, K , i prises


globalement, on a ni +1 résultats possibles pour l’expérience i +1 .

Ainsi le nombre de façons de choisir les boules est : n1×n2 ×L×nr .

Principe fondamental : Soit une expérience pouvant être subdivisée en r sous-


expériences. Si à chaque résultat des sous-expériences 1,2, K , i prises globalement, on a ni +1
résultats possibles pour l’expérience i +1 alors le nombre de résultats possibles pour
l’expérience est n1×n2 ×L×nr .

4.2 Nombre d’applications


Dans tout ce qui suit E et F sont des ensembles de cardinaux respectifs p et n.

Exemple 4.3. On veut choisir des programmes parmi un répertoire comportant 20


programmes pour exécuter trois tâches. Chacun des programmes peut exécuter n’importe
lequel des tâches. Il est possible de choisir un même programme pour deux tâches distinctes.

On peut considérer le choix des programmes comme une expérience qu’on peut
subdivisée en trois sous-expériences, la i ème sous expérience consistant à choisir le
programme devant servir à exécuter la i ème tâche. On a 20 choix de programme pour la
première tâche. A chaque choix de ce programme on a 20 choix possibles pour le programme
de la deuxième tâche. A chaque choix des programmes des tâches 1 et 2 on a 20 choix
possibles pour la tâche 3. Ainsi d’après le principe fondamental, on a 20 ×20×20= 203 choix
possibles.

Le choix des programmes peut s’identifier à la construction d’une application de


l’ensemble des trois tâches vers l’ensemble des 20 programmes. En effet à chaque tâche on
associe un programme et un seul.

Plus généralement on a :

34
Le nombre d’applications d’un ensemble E de cardinal p vers un ensemble de cardinal
n est n p .
Une application de E dans F s’appelle aussi un arrangement avec répétitions (possibles)
p à p des éléments de F.

4.3 Nombre d’injections


Exemple 4.4. On reprend l’exemple 4.3 mais on suppose maintenant qu’un même programme
ne peut servir à exécuter deux tâches distinctes.

On peut considérer le choix des programmes comme une expérience qu’on peut
subdivisée en trois sous-expériences, la i ème sous expérience consistant à choisir le
programme devant servir à exécuter la i ème tâche. On 20 choix de programme pour la
première tâche. A chaque choix de ce programme on a 19 choix possibles pour le programme
de la deuxième tâche. A chaque choix des programmes des tâches 1 et 2 on a 18 choix
possibles pour la tâche 3. Ainsi d’après le principe fondamental, on a 20 ×19×18 choix
possibles.

Le choix des programmes peut s’identifier à la construction d’une application injective


de l’ensemble des trois tâches vers l’ensemble des 20 programmes. En effet, à chaque tâche
on associe un programme et un seul. De plus, deux tâches ne peuvent être exécutées par le
même programme.

Plus généralement on a :

Le nombre d’applications injectives d’un ensemble E de cardinal p dans un ensemble


F de cardinal n est n×(n −1)×L×(n − p +1) . Ce nombre se note
p
A
n
et se lit a, n, p.
Une application injective de E dans F s’appelle aussi un arrangement sans répétition p à
p des éléments de F. Il est clair que si p > n alors le nombre d’applications injectives d’un
ensemble E de cardinal p dans un ensemble F de cardinal n est zéro.

Exercice. Montrer à l’aide d’un argument combinatoire que

p −1
a) A p
n =n A n −1

p −1
= p An −1 + An −1 ⋅
p p
b) A
n

4.4 Nombre de bijections


Exemple 4.5. On reprend l’exemple 4.3 mais on suppose maintenant qu’on a aussi 20 tâches
et qu’un même programme ne peut servir à exécuter deux tâches distinctes.

35
On peut considérer le choix des programmes comme une expérience qu’on peut
subdivisée en 20 sous-expériences, la i ème sous-expérience consistant à choisir le programme
devant servir à exécuter la i ème tâche. On a 20 choix de programme pour la première tâche.
A chaque choix de ce programme on a 19 choix possibles pour le programme de la deuxième
tâche. A chaque choix des programmes des tâches 1 et 2, on a 18 choix possibles pour la
tâche 3. Ainsi d’après le principe fondamental, on a 20 ×19×1 8 choix possibles pour les trois
premières tâches. A chaque choix des programmes pour les i premiers programmes on a
n −i +1 choix possibles du programme pour la i ème tâche. Finalement d’après le principe
fondamental on a n×(n −1)×L×2×1 façons de faire le choix des programmes.

Le choix des programmes peut s’identifier à la construction d’une application bijective


de l’ensemble des 20 tâches sur l’ensemble des 20 programmes. En effet, à chaque tâche on
associe un programme et un seul. De plus deux tâches distinctes ne peuvent pas être
associées au même programme.

Plus généralement on a :

Le nombre d’applications injectives d’un ensemble E de cardinal p vers un ensemble


F de cardinal n est n×(n −1)×L×2×1 . Ce nombre se note n! et se lit factoriel n .
Une application bijective de E dans F s’appelle aussi une permutation des éléments de F.

4.5 Nombre de sous-ensembles


Exemple 4.6. On désire choisir dans la commune de Cocody , trois intersections de route
sans signalisation sur 25 intersections de ce type pour mettre en pratique une mesure de
sécurité routière.

Commençons par dénombrer les façons de faire le choix des intersections si elles sont prises
successivement. Dans ce cas, tout résultat peut s’identifier à une injection de l’ensemble des
trois choix dans l’ensemble de toutes les intersections. Pour construire cette injection, on peut
commencer par choisir l’ensemble des images. Désignons par N (à déterminer) le nombre de
façons de le faire. A chaque ensemble image obtenu on a 3! façons de faire une permutation
=N ×3!. Il s’en
3
des éléments de cet ensemble. Ainsi d’après le principe fondamental, on a A 25
3

suit que N = A 25

3!

Le nombre de sous ensembles à p éléments d’un ensemble à n éléments est

p
A n×(n −1)×L×(n − p +1)
n
= ⋅
p! p!
On peut prouver que ce nombre est égal à

n! ⋅
p! (n− p)!

36
p
On le note C n
et on lit c, n, p . Il est clair que si p> n alors le nombre de sous ensembles à
p éléments d’un ensemble à n éléments est zéro.
Un sous ensemble à p éléments d’un ensemble F à n éléments est appelé aussi une
combinaison p à p des éléments de F.

Exercice. Montrer à l’aide d’un argument combinatoire que

n− p
C =C
p
a) n n

C =C +C
p p −1 p
b) n n −1 n −1
(Triangle de Pascal)

c) n!= (n − p)! An
p

d) Le nombre de sous ensembles d’un ensemble à n éléments est 2 n .

4.6 Répartitions d’objets dans des cases discernables


Dans tout ce qui suit on dispose de n objets et r cases discernables. On désire
dénombrer la répartition des objets dans les cases. On suppose que les cases sont discernables.

a) Les n objets sont tous discernables et la répartition des objets se fait sans
aucune contrainte

Sous cette hypothèse une répartition des objets est identifiable à une application de
l’ensemble des n objets vers l’ensemble des r cases. Le nombre de répartitions possibles est
donc r n .

Le nombre de répartitions possibles de n objets discernables dans r cases discernables


sans aucune contrainte est r n .

37
c) Les n objets sont tous discernables et la répartition des objets se fait de telle
sorte que la case i contienne ni objets.

La répartition des objets est identifiable à une expérience qu’on peut subdiviser en r sous-
expériences. La i ème sous-expérience est le choix des objets à mettre dans la case i . A chaque
choix des objets des cases 1,K,k −1 , on a
nk
C n−
k −1
∑ ni
choix possibles des objets à mettre dans la
i =1

case k . D’après le principe fondamental, le nombre de répartitions des objets est

C ×C ×L×C
n r −1
×C ⋅
n1 n2 nr
r −2 r −1
n n − n1
n− ∑
i =1
ni n− ∑
i =1
ni

r
En remarquant que ∑n =n , on tire que :
i =1
i

Le nombre de répartitions de n objets discernables dans r cases discernables de telle


sorte que la case i contienne ni objets est
n! ⋅
n1!×n2!×L×nr!

d) Les n objets sont tous indiscernables et la répartition des objets se fait sans
qu’aucune case ne reste vide

Puisque les objets sont indicsernables, ce qui différencie les répartitions possibles est la suite
n1,K,nr où ni désigne le nombre d’objets dans la case i . On doit avoir ni ≥1.

Supposons qu’on a n objets indiscernables alignés et qu’on veut les diviser en r groupes
non vides. Ces objets peuvent être représentés comme suit :

0 • 0 • 0 • 0 •L • 0 • 0 • 0

où les 0 représentent les n objets indiscernables, les points • de séparation symbolisant les
n −1 espaces entre ces objets. Pour avoir une répartition des objets, il suffit de choisir r −1 des
n −1 espaces comme points de division. Si par exemple, n=6 , r=3 et qu’on choisit les deux
séparations comme suit :

000 • 00 •0 ,

on obtient la répartition où il y a trois objets dans la première case, deux objets dans la
deuxième case et un objet dans la troisième case.

Ainsi,

Le nombre de répartitions de n objets indiscernables dans r cases sans qu’aucune case


r −1
ne reste vide est C n −1
.

38
Notons que le nombre de répartitions de n objets indiscernables dans r cases
discernables est identique au nombre de vecteurs (n1,K,nr ) à composantes entières
supérieures ou égales à 1 tels que

n1 +L+ nr = n .
.

e) Les n objets sont tous indiscernables et la répartition des objets se fait sans aucune
contrainte

Puisque les objets sont indicsernables, ce qui différencie les répartitions possibles est
la suite n1,K,nr où ni désigne le nombre d’objets dans la case i .

Première méthode

Comme précédemment, le nombre de répartitions de n objets indiscernables dans r


cases discernables est identique au nombre de vecteurs (n1,K,nr ) à composantes entières
supérieures ou égales à 0 tels que

n1 +L+ nr = n . (4.1)

Pour déterminer ce nombre, faisons le changement de variable mi = ni +1 , i =1,K,r , on obtient


l’équation suivante qui est équivalente à (4.1) :

m1 +L+ mr =n + r , mi ≥1,i =1,K,r. (4.2)

r −1
=C n + r −1 ⋅
n
Le nombre de vecteurs solution de l’équation (4.2) est C n + r −1

Le nombre de répartitions de n objets indiscernables dans r cases sans contrainte est


r −1
=C n + r −1 ⋅
n
C n + r −1

Deuxième méthode

Affectons à chaque case une lettre : a pour la première case, b pour la seconde, K , s pour
la dernière. Une répartition des objets correspond à une combinaison avec répétition de n
lettres choisies parmi (a,b,K, s) , par exemple (n =6, r = 4) :

(a,a,b, d,d,d)

signifie qu’on a la répartition :

- 2 objets sont placés dans la première case ;

39
- 1 objet est palcé dans la deuxième case ;
- aucun objet dans la troisième case ;
- 3 objets dans la quatrième case :

a b c d
00 • 0 • • 000

Par conséquent il y a autant de façons de répartir les objets dans les cases qu’il y a de
combinaisons avec répétition de n symboles choisis parmi r.
Dépalçons provisoirement les r −1 points intermédiaires et rassemblons-les en tête :

•1
••42
••••43
•••• 0000000000
144244 000
3
r −1 points intermédia ires n objets indiscerna bles

Par permutation des r −1 points (indiscernables) et des n objets indiscernables, on obtient une
et une seule répartition des objets. Ainsi

Le nombre de répartitions de n objets indiscernables dans r cases sans contrainte est

(r −1+ n)! r −1
= C n + r −1 =C n + r −1 ⋅
n

(r −1)!n!

40
Chapitre 5

NOTIONS DE PROBABILITES
Le but de ce chapitre est d’introduire les bases mathématiques utiles à la modélisation
des phénomènes aléatoires. Ainsi l’objectif visé est de donner un sens mathématique à la
notion de « hasard ».

5.1 Expérience aléatoire


Une expérience ou un phénomène est dit aléatoire si les deux propriétés suivantes sont
satisfaites :

(i) l’ensemble des résultats possibles de l’expérience est bien déterminé avant sa
réalisation ;
(ii) des répétitions dans des conditions identiques de cette expérience ne conduisent
pas nécessairement au même résultat.

Exemples

Le lancer ou les lancers d’une pièce de monnaie


Le tirage d’un numéro parmi n numéros
Le nombre d’accidents à un carrefour dans une journée
La nature de la réception d’un signal non déterministe

L’ensemble des résultats d’une expérience aléatoire est appelé l’espace fondamental ou
l’univers de l’expérience. On le note en général Ω .

Exemples

Pour le lancer d’une pièce de monnaie, Ω ={0,1} où 0 et 1 désignent respectivement pile


et face.

Pour le tirage d’un numéro parmi n numéros 1,K,n , Ω ={1,K,n}

Pour le nombre d’accidents dans un carrefour dans une journée, on peut prendre
Ω ={0,K,k } où k est le nombre maximal d’accidents pouvant se produire dans ce
carrefour dans une journée. On peut aussi prendre l’ensemble des entiers positifs si l’on
suppose que le nombre d’accidents dans ce carrefour dans une journée n’est pas limité.

Pour la nature de la réception d’un signal non déterministe, on peut prendre Ω ={0,1}
avec 0 signifiant que le signal n’a pas été correctement reçu et 1 désigne la situation
contraire.

41
Tout résultat d’une expérience aléatoire s’appelle aussi une éventualité.

Tout sous ensemble de l’univers est appelé un événement. En particulier tout singleton
c’est à dire un sous ensemble de l’univers réduit à un seul élément s’appelle un événement
élémentaire.

On dit qu’un événement A s’est réalisé si le résultat observé de l’expérience est un


élément de A.
L’événement Ω c’est à dire l’univers est un événement qui est toujours réalisé. On l’appelle
l’événement certain.
L’événement ∅ c’est à dire l’ensemble vide est un événement qui ne se réalise jamais. On
l’appelle l’événement impossible. Pour tout couple d’événements (A, B) , on dit que
l’événement A∩ B s’est réalisé si le résultat observé de l’expérience est un élément de A et
de B .
L’événement A =Ω \ A est appelé l’événement contraire de A .
Deux événements A et B sont dits incompatibles si A∩ B est vide c’est à dire l’événement
impossible. Autrement dit les deux événements ne peuvent pas se produire simultanément.
Le couple ( Ω ,℘( Ω )) où ℘( Ω ) désigne l’ensemble des sous ensembles de Ω c’est à dire
l’ensemble des événements, est appelé un espace probabilisable.

Maintenant que nous avons défini la notion d’événement, il est souhaitable d’être
capable d’associer à chaque événement une quantité permettant de quantifier la chance de
réalisation de cet événement.

5.2 Notions de probabilités


Exemple 5.1. On dispose d’un dé à six faces. On désire connaître la chance d’obtenir un
chiffre pair en lançant le dé. Si on n’a pas en notre possession d’informations supplémentaires
sur le dé, par exemple qu’il est équilibré c’est à dire non pipé, il est impossible de répondre
affirmativement à notre préoccupation. Néanmoins, il est possible d’avoir une approximation
de cette chance. En effet, après avoir lancé n fois le dé avec n « suffisamment grand », on
peut prendre comme valeur approchée de la chance d’obtenir un chiffre pair, la fréquence
d’apparition d’un chiffre pair. Cette fréquence est définie comme étant le nombre de fois où
l’événement A= « obtenir un chiffre pair » s’est réalisé divisé par le nombre n de jets du dé.
Désignons cette fréquence par kn (A) . Donc

N n (A)
kn (A) = ,
n
où N n(A) est le nombre de fois où l’événement A s’est réalisé.

On a
kn (Ω) =1 ;
Si A et B sont deux événements incompatibles alors kn (A∪ B) =kn (A)+ kn (B) .

42
Pour ce faire, on adopte l’axiomatisation ci-dessous pour quantifier les chances de réalisation
des événements.

On appelle probabilité sur l’espace probabilisable ( Ω ,℘( Ω )), toute application P


définie sur ℘( Ω ) à valeurs dans l’intervalle [0,1] telle que

P(Ω) =1
Pour toute suite (An) n ≥ 0 d’événements deux à deux disjoints, on a

 +∞  +∞
P U An  = ∑ P(An) ⋅
 n =0  n =0
La quantité P(A) s’appelle la probabilité de l’événement A et le triplet ( Ω ,℘( Ω ), P )
espace probabilisé.

Exemple 5.2. (Probabilité uniforme) Soit ( Ω ,℘( Ω )) un espace probabilisable fini c’est à
dire tel que Ω est fini. On suppose que tous les événements élémentaires ont la même
probabilité ce qui s’énonce en disant qu’on a l’hypothèse d’équiprobabilité. Sous cette
hypothèse, la probabilité d’un événement A est alors donnée par

card (A) nombre de cas favorables à A


P(A) = = ⋅
card (Ω) nombre de cas possibles
Cette probabilité est dite uniforme sur Ω . Notons qu’il est impossible d’avoir
l’hypothèse d’équiprobabilité sur un espace probabilisable non fini.

Propriétés d’une probabilité. Toute probabilité sur un espace probabilisable


( Ω ,℘( Ω )) vérifie les propriétés suivantes pour tout couple (A, B) d’événements :

P(∅)= 0
P(A) =1− P(A)
P(A \B ) = P(A) − P(A∩ B)
Si A⊂ B alors P(A)≤ P(B)
P(A∪ B) = P(A)+ P(B)− P(A∩ B)
Pour toute suite croissante ( An )n ≥ 0 d’événements, on a

 +∞ 
P U An  = lim n → +∞ P(An ) .
 n=0 

Pour toute suite décroissante ( An )n ≥ 0 d’événements, on a

 +∞ 
P I An  =lim n → +∞ P(An ) .
 n=0 

43
Preuve. On a Ω =Ω∪∅ et Ω∩∅ =∅ , donc 1= P(Ω) = P(Ω)+ P(∅). On en déduit que
P(∅) =0.

On a A ∪A=Ω et A ∩A=∅ donc P(A )+ P(A)=1 . D’où P(A )=1− P(A).

On a (A \ B)∪(A∩ B) = A et (A \ B)∩(A∩ B)=∅ . Par conséquent, P(A \ B) + P(A∩ B) = P(A). Il


s’en suit que P(A \ B) = P(A)− P(A∩ B).

Supposons que A⊂ B . On a alors P(B \ A)= P(B) − P(A). Comme la probabilité est une
application positive, on déduit que P(A)≤ P(B).

On a A∪ B =(A \ B)∪(B \ A)∪(A∩ B). Les ensembles dans cette réunion sont deux à deux
disjoints. Par conséquent, on a

P(A∪ B) = P(A \ B) + P(B \ A)+ P(A∩ B).

En utilisant la troisième propriété, on déduit que

P(A∪ B)= P(A) − P(A∩ B) + P(B)− P(B ∩ A) + P(A∩ B) ,

ce qui donne
P(A∪ B)= P(A) + P(B)− P(A∩ B) .

Soit une suite croissante ( An )n ≥ 0 d’événements. Posons B0 = A0 et Bn = An − An −1 , n≥1⋅ On a


n +∞ +∞
pour tout n≥0 , An = U B j , U A = UB
n n et les événements Bn sont deux à deux
j =0 n =0 n=0

incompatibles. Il s’en suit que

n
 +∞   +∞  +∞
P(An) = ∑ P(B j ) et P U An  = P U Bn  = ∑ P(Bn ) .
j =0  n=0   n=0  n=0

On en déduit que

+∞
 +∞ 
lim n → +∞ P(An ) = ∑
j =0
P (B j ) = P U An  .
 n =0 

Soit une suite décroissante ( An )n ≥ 0 d’événements. En posant Bn = An , n≥0 on obtient une


suite croissante d’événements. D’après la propriété précédente, on a

 +∞ 
lim n → +∞ P(Bn) = P U Bn  .
 n =0 
+∞ +∞
 +∞ 
Puisque P(Bn ) =1− P(An ) et U Bn = I An , on déduit que lim n → +∞ P (An ) = PIA  .
n =0 n=0  n=0 

44
5.3 Probabilités conditionnelles
Dans cette section, notre objectif est de quantifier les chances de réalisation d’un
événement lorsqu’on dispose d’informations sur le résultat de l’expérience sans le connaître.

Exemple 5.3. On considère l’exemple 5.1 du lancer simultané de deux dés non pipés. Les
deux dés sont supposés distincts. On suppose qu’on a l’information suivante : « la somme
des chiffres obtenus est 8 ».
On cherche sous cette information à évaluer la chance que le premier chiffre du résultat
obtenu soit pair.

Commençons par modéliser ce phénomène aléatoire. L’ensemble des résultats est

Ω ={1,2,3,4,5,6}×{1,2,3,4,5,6}.,

Avec le résultat (i, j) signifiant : le premier dé a donné le chiffre i et le deuxième le chiffre j .


Puisque les dés sont non pipés on a l’hypothèse d’équiprobabilité d’où la probabilité
gouvernant le phénomène est uniforme. Désignons par A l’événement « Le premier dé donne
un chiffre pair » et par B l’événement « la somme des chiffres obtenus est 8 ». On a
A ={2,4,6}×{1,2,3,4,5,6} et B ={(2,6), (3,5), (4,4), (5,3), (6,2)}. L’information sur le résultat
signifie que l’événement B s’est réalisé. Dans ce cas les résultats favorables à A sont
(2,6), (4,4), et (6,2). On a donc 3 chances sur 5 pour que le premier dé ait donné un chiffre
pair si on sait que la somme des chiffres obtenus est 8. Faisons les remarques suivantes :

P(A) = 18 = 1 ;
36 2
3
P(A∩B) = = 1 car A∩B = {(2,6), (4,4), (6,2)};
36 12

P(B) = 5 ;
36

3 = P(A∩ B) ⋅
5 P(B)

Soient A et B deux événements tels que P(B)>0 . On appelle probabilité conditionnelle


P(A∩ B)
de A sachant B , la quantité .
P(B)

Pour tout événement B tel que P(B)>0 , on appelle probabilité conditionnelle sachant
B l’application notée P(• | B) définie sur ℘( Ω ) et qui à tout élément de ℘( Ω ) associe
P(A∩ B)
qu’on note P(A | B) .
P(B)

On appelle système complet d’événements d’un espace probabilisé toute suite (An) n ≥ 0
d’événements deux à deux incompatibles tels que :

45
(i) P(An)>0 pour tout n≥0;

(ii) U A = Ω.
n≥0
n

Théorème des probabilités totales. Soit (An) n ≥ 0 un système complet d’événements d’un
espace probabilisé ( Ω ,℘( Ω ), P ). Pour tout événement A , on a

P(A) =∑ P(A | An) P(An ).


n≥0

Preuve. Notons que A= A∩Ω = U(A∩ An) ⋅ Les événements (A∩ An ) sont deux à deux
n≥0

incompatibles. Par conséquent, P(A)= ∑ P(A∩ An ) , or P(A∩ An ) = P(A | An) P(An ).


n≥0

Théorème de Bayes ou probabilités des causes. Soit (An) n ≥ 0 un système complet


d’événements d’un espace probabilisé ( Ω ,℘( Ω ), P ). Soit A un événement tel que P(A)>0.
Alors pour tout n0 fixé, on a

P( A An0 ) P(An0 )
P(An0 | A)= ⋅
∑ P(A An) P(An)
n ≥0

P(An0 ∩ A)
Preuve. On a P(An0 A) = ⋅ En utilisant le théorème des probabilités totales et la
P(A)
formule P(A∩ An0 ) = P(A | An0 ) P(An0 ) , on tire la conclusion.

Exemple 5.4. Une compagnie d’assurances répartit les gens en trois classes : personnes à bas
risque, risque moyen et haut risque. Ses statistiques indiquent que la probabilité que des gens
soient impliqués dans un accident sur une période d’un an est respectivement 0,05, 0,15 et
0,30. On estime que 20% de la population est à bas risque, 50% est à risque moyen et 30% à
haut risque. Quelle proportion des gens ont un accident ou plus au cours d’une année
donnée ? Koffi a pris une assurance en 1972 et n’a pas eu d’accident durant cette année.
Quelle est la probabilité qu’il fasse partie de la classe à bas risque.

Modélisation du phénomène aléatoire

L’expérience aléatoire consiste à observer la classe à laquelle appartient une personne prise au
hasard et à noter son implication dans un accident pendant une période d’une année.
Désignons par 1,2 et 3 les différentes classes dans l’ordre donné dans l’énoncé. L’implication
dans un accident durant la période d’un an considéré est représentée par 0 pour signifier que
la personne a fait un accident et 1 pour la situation contraire. On peut donc prendre pour
univers Ω = {1,2,3}×{0,1}. Pour toute éventualité (i, j ) dans l’univers on pose :

46
Ci = « être dans la classe i » et A j = « être dans la situation j pour l’implication dans
un accident » . La probabilité qui gouverne le phénomène aléatoire est donnée par la
connaissance des probabilités des événements élémentaires. On a {(i, j)}= Ci ∩ Aj , par
conséquent

P({(i, j)})= P(Aj Ci ) P(Ci ) .


D’après l’énoncé on a

P(C1) = 0,2 ; P(C2) = 0,5 et P(C3) = 0,3

P( A1 C1 )= 0,05 ; P( A1 C2 )=0,15 et P( A1 C3 )= 0,30.

On a P( A0 Ci )=1− P( A1 Ci ).

Détermination de la proportion des gens qui ont un accident ou plus au cours


d’une année donnée

On cherche P(A1) . Puisque le système d’événements {C1 ,C2 ,C3 } est complet on a d’après
la formule des probabilités totales :

P(A1) = ∑ P( A1 Ci ) P(Ci )
3

i =1

=0,05×0,2+ 0,15×0,5+ 0,30×0,3

= 0,175.

Ainsi , 17,5% des gens sont impliquées dans un accident ou plus.

Détermination de la probabilité que Koffi fasse partie de la classe à bas risque C1


si on sait qu’il n’a pas eu d’accident au cours de l’année 1972

On cherche P(C1 A0 ). D’après la formule de Bayes on a

P( A0 C1 ) P(C1)
P(C1 A0 )=
∑ P(A Ci ) P(Ci )
3
0
i =1

0,95×0,2
=
0,95×0,2 + 0,85×0,5+ 0,70×0,3

0,19
=
0,825

≅ 0,23 .

47
5.4 Indépendance d’événements
Exemple 5.5. On reprend l’exemple 5.1 du lancer de deux dés non pipés. Désignons
par A et B respectivement les événements « obtenir un chiffre pair sur le premier dé » et
« obtenir un chiffre pair sur le deuxième dé ».
P(A∩ B) 9 / 36 1
On a P(A) = 18 = 1 et P(A B) = = = ⋅ Par conséquent la réalisation de
36 2 P(B) 18/ 36 2
l’événement B n’a pas d’influence sur la chance de réalisation de l’événement A. On dit que
ces deux événements sont indépendants.

1. On dit que deux événements A et B sont indépendants si P(A∩ B)= P(A) P(B). Ainsi
si P(B)>0 alors A est indépendant de B si P(A B) = P(A).
2. Les événements A et B sont indépendants si et seulement si les événements A et B sont
indépendants.
3. Les événements A et B sont indépendants si et seulement si les événements A et B sont
indépendants.
4. L’événement certain est indépendant de tout événement.
5. L’événement impossible est indépendant de tout événement.

Deux événements incompatibles en dehors de l’univers et de l’événement impossible ne


sont pas indépendants.

On dit que les événements A1,K, An sont indépendants si pour tout 1≤ k≤ n et pour tout
1≤i1 <i2 <L<ik ≤ n , on a

 k  k
P I Ai j  = ∏ P(Ai j ) ⋅
 j =1  j =1

48
Chapitre 6

VARIABLES ALEATOIRES
UNIDIMENSIONNELLES

L’objectif dece chapitre est d’étudier les applications dites aléatoires et qui sont
définies sur l’univers d’une expérience aléatoire. En effet, souvent ce n’est pas le résultat
obtenu de l’expérience aléatoire qui est intéressant mais une valeur associée à ce résultat. Par
exemple, dans un jeu de loterie, ce n’est pas le numéro gagnant qui importe mais le gain
associé à ce numéro. Dans l’étude des accidents de la route ce ne sont pas les personnes
impliquées dans un accident qui sont importantes mais leurs caractéristiques.

Dans tout ce qui suit ( Ω ,℘( Ω ), P ) est un espace probabilisé fixé.

6.1 Variable aléatoire réelle


On appelle variable aléatoire réelle, toute application X définie sur Ω et à valeurs
dans l’ensemble R des nombres réels .
Lorsque l’ensemble image de Ω par X , noté X(Ω) , est fini ou dénombrable, on dit que la
variable aléatoire X est discrète. Dans le cas contraire on dit que la variable aléatoire X est
continue.

Exemple 6.1. On considère une loterie qui consiste à lancer une pièce de monnaie et à
octroyer 10.000F CFA au joueur si le côté est pile. Dans le cas contraire on perd sa mise qui
est de 5000F CFA. L’univers de ce phénomène aléatoire est Ω ={0,1} avec 0 et 1 désignant
respectivement face et pile. Faisons l’hypothèse que la probabilité d’obtenir pile à un lancer
est p . La variable aléatoire donnant le gain du joueur est notée X et est définie par :
X(1)=5000 et X(0)= −5000 .

Notations. Pour tout sous ensemble A de l’ensemble des réels, on désigne par X −1(A) ou
{X∈A} l’ensemble des éventualités ω de Ω telles que X(ω) ∈A , c’est à dire la valeur
associée à l’éventualité ω est dans A. En particulier pour tout réel x , {X < x} est l’ensemble
des éventualités ω de Ω telles que X(ω) < x .

6.2 Loi d’une variable aléatoire réelle


Soit X : Ω → R une variable aléatoire. On appelle loi de X , la probabilité P X sur
R telle que pour tout sous-ensemble A de R on a P X (A) = P(X ∈A). Pour tout sous-ensemble

49
A de R , cette application permet d’évaluer la chance pour que la variable aléatoire prenne
sa valeur dans A.

En pratique, il est difficile de pouvoir déterminer l’application P X de façon explicite.


Néanmoins, il est possible de considérer des fonctions qui caractérisent la loi d’une variable
aléatoire.

Fonction de répartition. Soit X : Ω → R une variable aléatoire réelle. On appelle


fonction de répartitions de X la fonction notée FX définie sur R à valeurs dans [0,1] et qui à
tout réel x associe P(X < x) . Ainsi, FX (x) est la probabilité pour que la variable aléatoire
X prenne une valeur strictement inférieure à x.

Exemple 6.2. On considère une variable aléatoire discrète telle que

P(X =1)= 1 , P(X = 2)= 1 , et P(X =3)= P(X = 4)= 1 ⋅


4 2 8

La fonction de répartition de X est

0 si x≤1

1 si 1< x≤ 2
4

3 si 2< x≤3
FX (x)=  4

7 si 3< x ≤ 4
8


1 si x >4

Figure 6.1 Fonction de répartition

Propriétés d’une fonction de répartition. Soit FX la fonction de répartition d’une


variable aléatoire réelle X . Alors les propriétés suivantes sont satisfaites :

50
FX prend ses valeurs dans l’intervalle [0,1];
FX est une fonction croissante ;
FX est une fonction continue à gauche ;
lim FX (x)=0 et lim FX (x) =1.
x → −∞ x → +∞

Preuve. La première propriété fait partie de la définition de la fonction de répartition.

Pour la croissance de la fonction de répartition, il suffit de remarquer que si x< y alors


{X < x}⊂ X <y .

Montrons maintenant la continuité à gauche de la fonction de répartition. Pour ce faire, soit


x0 un réel quelconque et soit ( xn )n ≥1 une suite croissante de réels convergeant vers x0 telle
que xn < x0 pour tout n≥1. On a

+∞
]−∞, x0 [= U( ]−∞, xn [ )⋅
n =1

On en déduit que
 +∞ 
FX (x0)= P X  U( ]−∞, xn [ )= lim P X ( ]−∞, xn [)= lim FX (xn)
 n =1  n → +∞ n → +∞

car la suite ( ]−∞, xn [ )n ≥1 est croissante.

+∞
Soit (xn ) n ≥ 0 une suite croissante vers + ∞ . On a ]− ∞ , +∞ [ = U ( ]− ∞ , x n [ )⋅ Comme
n=0

la suite ( ]−∞, xn [ )n ≥1 est croissante, on déduit que 1= P ( ]−∞,+∞[ ) =limn → +∞ FX (xn) ⋅


X

+∞
Soit (xn ) n ≥ 0 une suite décroissante vers −∞ . On a ∅ = I ( ]−∞, xn [ )⋅ Comme la suite
n =0

( ]−∞, xn [ )n ≥1 est décroissante, on déduit que 0 = P X (∅ )=limn → +∞ FX (xn) ⋅

Fonction de densité. Soit X : Ω → R une variable aléatoire réelle discrète. On appelle


fonction de densité de X la fonction définie sur R à valeurs dans l’ensemble des réels positifs
telle qu’à tout réel x on associe P(X = x). On la note f X ⋅

Exemple 6.3. D’une urne contenant 20 boules numérotées de 1 à 20, on tire sans
remplacement 3 boules. Quelle est la fonction de densité de la variable aléatoire représentant
le plus grand nombre tiré.

L’univers de ce phénomène aléatoire est l’ensemble des sous-ensembles à trois éléments de


l’ensemble des 20 boules. On le note Ω. On suppose que toutes les éventualités ont la même
chance d’apparaître. Autrement dit, on fait l’hypothèse d’équiprobabilité. L’ensemble image
de la variable aléatoire X est
X(Ω) ={3,4,K,20} .

51
L’événement {X =i} correspond au tirage de la boule i et de deux autres boules portant des
numéros inférieur strictement à i . Par conséquent le cardinal de cet événement est Ci2−1 . On
en déduit que

Ci2−1
f X (i) = P (X =i) = pour tout i∈X(Ω).
C20
3

La fonction de répartition et la fonction de densité d’une variable aléatoire réelle discrète


sont liées par les formules ci-dessous :

FX (x)= ∑ P(X = k) ;
k<x

f X (x)= lim+ FX (u) − FX (x) .


u→x

Variable aléatoire absolument continue. On dit qu’une variable aléatoire X : Ω → R est


absolument continue s’il existe une fonction f X définie sur R à valeurs dans l’ensemble des
réels positifs telle qu’à tout réel x , on a

x
FX (x) = ∫ f X (t) dt .
−∞

Cette fonction f X s’appelle la fonction de densité de la variable aléatoire absolument


continue X .

La fonction de répartition de toute variable aléatoire absolument continue est dérivable


et sa dérivée est la fonction de densité.

Exercice Montrer que pour tout réel x , on a

P(X = a) = lim x → a + FX (x) − FX (a) , c’est à dire le saut de la fonction de répartition au


point a est égal à la probabilité pour que la variable aléatoire prenne la valeur a . En
particulier P(X =a) = 0 si la fonction de répartition est continue en a .

P(a < X ≤b) = FX (b + ) − FX (a + )

P(a ≤ X ≤b) = FX (b + )− FX (a)

P(a < X <b) = FX (b)− FX (a + )

P(a ≤ X <b) = F X (b)− FX (a)

52
6.3 Moments d’une variable aléatoire réelle

Si X est une variable aléatoire réelle discrète, on appelle moment d’ordre 1,


espérance mathématique ou moyenne de X la somme

∑ x P(X = x) ,
x∈ X(Ω)

si elle est finie.

Si X est une variable aléatoire réelle absolument continue, on appelle moment d’ordre 1,
espérance mathématique ou moyenne de X l’intégrale

+∞
∫−∞
x f X (x) dx ,

si elle existe.

Notation. L’espérance mathématique de la variable aléatoire X se note E(X) .

Exemple 6.4 Soit une variable aléatoire réelle de fonction de densité

f X (0) = 1 et f X (1)= 2 ⋅
3 3

On a E(X)=0× 1 +1× 2 = 2 ⋅
3 3 3
Si X est une variable aléatoire réelle discrète, on appelle moment d’ordre k de X
la somme

∑x
x∈ X(Ω)
k
P(X = x) ,

si elle est finie.

Si X est une variable aléatoire réelle absolument continue, on appelle moment d’ordre k
de X l’intégrale

+∞
∫−∞
x k f X (x) dx ,

si elle existe.

Soit X une variable aléatoire. Considérons la variable aléatoire Y = g(X) où g est une
application définie sur R et à valeurs dans R.

53
- Si X est discrète alors l’espérance de Y est donnée par

E(Y) =∑ g(x) P(X = x),

si cette somme est finie.

- Si X est absolument continue alors l’espérance de Y est donnée par

+∞
E(Y) = ∫ g(x) f X (x) dx ,
−∞

si cette intégrale existe.

On appelle variance de la variable aléatoire réelle X l’espérance mathématique de la


variable aléatoire X − E(X) , si elle existe. On la note V(X) ou σ 2(X) . Ainsi,

V(X) = E(X − E(X)) 2 .

La racine carrée de la variance de la variable aléatoire X s’appelle l’écart type de X et se


note σ(X) .

Propriétés de la variance. Pour tout réel a et toute variable aléatoire réelle X , on a

V(X) = E(X 2) −(E(X)) 2 , cette propriété est très souvent utilisée pour calculer la variance
d’une variable aléatoire.

V(X + a) =V(X) ;

V(aX) = a 2V(X) .

6.4 Lois usuelles unidimensionnelles discrètes


6.4.1 Loi de Bernoulli

On dit qu’une variable aléatoire X suit une loi de Bernoulli de paramètre 0≤ p ≤1 si :

P(X =1)= p =1− P(X =0).

Exemple 6.5. On lance une pièce de monnaie. On note X la variable aléatoire prenant la
valeur 0 si le côté obtenu est face et 1 dans le cas contraire.
On peut prendre Ω = {pile, face} . X est la variable aléatoire définie par :

54
X(pile) =1 et X(face)=0 .
Si on désigne par p la probabilité d’obtenir pile, la loi de X est donnée à travers sa densité
qui est :

P(X =1) = p =1− P(X =0).

6.4.2 Loi binomiale

On dit qu’une variable aléatoire réelle X suit une loi binomiale de paramètre (n, p) où
n est un entier naturel et p ∈[0,1] , si elle admet pour fonction de densité

 x p x (1− p) n − x si x∈{0,1,K,n}
C n
P(X = x)= 
 0 ailleurs.

Exemple 6.6. On sait que les appareils informatiques fabriqués par une certaine société sont
affectés d’un défaut avec probabilité 0,01 ; l’état d’un appareil est indépendant de celui des
précédents ou suivants. Or, la société accepte de rembourser les lots de 10 appareils qu’elle
vend si plus d’un des appareils présente un défaut. Quelle proportion des lots vendus la
société s’expose-t-elle à devoir rembourser ?

On peut prendre comme ensemble des résultats possibles Ω ={0,1} , où pour toute éventualité
10

ω =(ω1,K,ω n ) , la i ème composante donne l’état du i ème appareil du lot de 10 ; 1 signifie que le
i ème appareil du lot présente un défaut et 0 représente le cas contraire. Puisque les états des
appareils sont indépendants, on a pour toute éventualité ω ,
10 10
∑ ωi n− ∑ ωi
P({ω })= p i =1
(1− p ) i =1

Soit X la variable aléatoire donnant le nombre d’appareils défectueux dans un lot de 10


appareils. X suit une loi binomiale de paramètre (10, 0,01). En effet pour tout x∈{0,1,K,n}
on a

P(X = x)= ∑ P({ω }) =C (0,01) (0,99)


x x 10 − x
n
,
n
ω: ∑ω i = x
i =1

n
éventualités ω telles que ∑ω = x.
x
car il y a C n
i =1
i

Maintenant, on cherche P(X ≥ 2) . On a P(X ≥ 2) =1− P(X =0)− P(X =1) . Ainsi

P(X ≥ 2)=1−C 10(0,01)0(0,99) 10 −C 10(0,01)1 (0,99)9 ≈0,007.


0 1

Par conséquent, la société devra remplacer environ 0,7 pour cent des lots.

55
6.4.3 Loi uniforme

On dit qu’une variable aléatoire réelle X suit une loi uniforme sur l’ensemble {x1,K, xn } si
sa fonction de densité est

1 si x∈{x1,K, xn }
n
P(X = x) = 
0 ailleurs.

6.4.4 Loi géométrique

On dit qu’une variable aléatoire réelle X suit une loi géométrique de paramètre 0≤ p ≤1 si sa
fonction de densité est

(1− p) x −1 p si x =1,2,K
P(X = x)= 
 0 ailleurs.

Exemple 6.7. Une urne contient N boules blanches et M boules noires. On tire les boules
une par une avec remise jusqu’à l’apparition d’une noire. Quelle est la probabilité qu’il faille
exactement x tirages ?

 
On peut prendre comme univers Ω =  0{ L0 1 : n≥1 . L’éventualité 0{ L0 1 signifie que
 (n −1) − fois  (i −1) − fois

jusqu'au (i −1)ème tirage on a eu une boule blanche et qu’au i ème on a tiré une boule noire.
L01 , on a
Comme les tirages se font avec remise, pour toute éventualité 0{
n −1 fois

 
P  0{
L01 =(1− p) n −1 p ,
 n −1 fois 
 
où p = M ⋅
M +N

Soit X la variable aléatoire donnant le nombre de tirages nécessaires jusqu’à l’apparition de


la première boule noire. X suit une loi géométrique de paramètre p.

La loi géométrique de paramètre p est celle de l’instant du premier succès dans des
répétitions indépendantes d’épreuves de Bernoulli de paramètre p.

6.4.5 Loi binomiale négative ou loi de Pascal

On dit qu’une variable aléatoire suit une loi binomiale négative de paramètre (r , p) avec
r∈{1,2,K} et 0≤ p ≤1 si sa fonction de densité est

56
 r −1 p r (1− p) x − r si x∈{r,r +1,K}
C x −1
P(X = x)= 
 0 ailleurs.

Exemple 6.8. On utilise un programme pour exécuter une tâche quotidienne. On admet que
la probabilité de succès du programme est 0,7. On décide d’essayer le programme jusqu’à ce
que trois succès soient enregistrés. Calculer la probabilité que cela nécessite moins de dix
essais.

Soit X la variable aléatoire donnant le nombre d’essais nécessaire. Cette variable suit une loi
binomiale négative de paramètre 3 et 0,7. On cherche P(X ≤10) . On a

10
P(X ≤10) =∑C x −1(0,7)3(0,3) x − 3 .
2

x =1

6.4.6 Loi de Poisson

Supposons que l’on ait affaire à des événements tels qu’il existe une constante positive
λ pour laquelle les conditions suivantes soient vérifiées :

Condition 1 : la probabilité qu’il advienne exactement 1 événement dans un intervalle de


temps de durée h est la même pour tous les intervalles de ce genre et vaut λ h + o(h) où o(h)
désigne toute fonction f(h) telle que lim h → 0 f(h) / h=0.

Condition 2 : la probabilité qu’il survienne deux événements ou plus dans un laps de


temps de durée h est la même pour tous les laps de temps de même durée et est o(h).

Condition 3 : soit des entiers quelconques n, j1,K, jn et un ensemble quelconque de n


intervalles sans intersection. Soient Ei les événements « il survient exactement ji
événements durant l’intervalle i » . Les événements E1, E2,K, En seront toujours
indépendants.

En termes approximatifs, les conditions 1 et 2 établissent que lorsque h est petit, la


probabilité d’observer exactement 1 événement durant un intervalle de longueur h est λh
plus quelque chose de petit comparé à h , tandis que celle d’observer deux événements ou
plus est petite comparée à h . La condition 3 garantit que ce qui se passe au cours d’un
intervalle n’a pas d’influence sur ce qui arrive durant tout autre intervalle disjoint du
premier.

Comme exemple de phénomènes satisfaisant au conditions 1,2 et 3 , on peut citer :


- Nombre de véhicules franchissant un poste de péage pendant une période de
durée T.
- Nombre d’appels reçus par un standard téléphonique pendant une période de
durée T.
- Nombre de défauts dont est affecté un objet qui est fabriqué en série.
- Nombre de clients d’un service pendant une période de durée T

57
- Nombre de tremblements de terre dans une région pendant une période de durée
T
- Nombre de clients dans une station d’essence pendant une période de durée T

On peut montrer que sous les conditions 1,2 et 3 , le nombre d’événements survenant
dans un laps de temps d’origine quelconque et de durée t est une variable aléatoire de
fonction de densité :

 (λt) x − λt
 x! e si x =0,1,2,K

P(N(t) = x) = 
 0 ailleurs.

En effet, partitionnons l’intervalle [0 , t ] en n intervalles disjoints de longueur t / n chacun .

On a

P(N(t)= x)= P(x des n sous intervalles contiennent exactement 1 événement et les n-x autres zéro)

+ P(N(t) = x et au moins un sous intervalle contient 2 événements ou plus) .

Désignons par A et B les deux événements du membre de droite. On a

P(B)≤ P(au moins l'un des sous-intervalles contient 2 occurences ou plus de l'événement)

= P U{le i ème sous-intervalle contient 2 occurences ou plus}


 n 
 i =1 

n
≤∑ P(le i ème sous-intervalle contient 2 occurences ou plus)
i =1

n
= ∑o t
i =1 n
()
= no t
n
()
 o(t / n) 
= t .
 t / n 

On en déduit que P(B) tend vers 0 quand n tend vers l’infini. D’autre part, du fait des
conditions 1 et 2, on a

P(il ne survient aucun événement dans un intervalle de durée h)

= 1−[λh + o(h) + o(h)]=1−λh + o(h) .

58
Par conséquent, en utilisant la condition 3 d’indépendance, on tire

P(A) = P(x des sous -intervalles contiennent exactement 1 occurence et les (x − k) autres aucune)

C [λnt +o(t / n)] [1−(λnt )−o(t / n)]


x
x n− x
= n

Puisque

[n
]
n λt + o(t / n) =λt +t
 o(t / n) 
 t / n 
→λt quand n tend vers l'infini,

on déduit que

(λt) x − (λt)
P(A) tend vers e .
x!

6.4.7 Loi hypergéométrique

On dit qu’une variable aléatoire suit une loi hypergéométrique de paramètre (N,n,t) , avec
N,n,,t des entiers positifs, si sa fonction de densité est :

 x t−x
 C n Ct N − n si x est un entier naturel compris entre max(0,t − N + n) et min(t,n)
 CN

P(X = x)= 
 0 ailleurs.



Exemple 6.9. On tire sans remise un échantillon de n boules d’une urne en contenant N ,
desquelles Np sont blanches et N − Np noires. Désignons par X le nombre de boules
blanches tirées. La loi de X est hypergéométrique de paramètre (N, Np,n).

6.5 Lois usuelles unidimensionnelles continues


Dans tout ce qui suit X est une variable aléatoire réelle et absolument continue.

6.5.1 Loi uniforme

On dit que X suit une loi uniforme sur l’intervalle [a,b] , si sa fonction de densité est :

59
 1 si x∈[a,b]
 b−a
f X (x)= 
 0 ailleurs.

6.5.2 Loi exponentielle

On dit que X suit une loi exponentielle de paramètre λ >0 si sa fonction de densité est :

λe −λx si x≥0


f X (x)= 
 0 ailleurs.

6.5.3 Loi normale ou de Laplace-Gauss

On dit que X suit une loi normale de paramètre (m,σ 2) , (avec m un nombre réel et σ 2 un
réel positif), si sa fonction de densité est :

1 exp − (x − m)  , pour tout réel x.


2
f X (x)=  2σ 2 
σ 2π  

On peut montrer que X suit une loi de paramètre (m,σ 2) si et seulement si la


variable aléatoire X − m suit une loi normale de paramètre (0,1).
σ
De même, X suit une loi normale de paramètre (0,1) , (on dit que X est de loi normale
centrée réduite) si et seulement si pour tout réel m et tout réel positif σ 2 , m +σX suit une
loi normale de paramètre (m, σ 2).

Si X suit une loi normale centrée réduite et Φ désigne la fonction de répartition de


X alors
- pour tout réel x , P(X ≤ −x)= P(X ≥ x)=1− P(X < x), c’est à dire Φ(−x) =1−Φ(x).
- pour tout réel x , P( X ≤ x )= 2Φ(x)−1 et P( X ≥ x )= 2(1− Φ(x)).

La loi normale centrée réduite est tabulée (voir annexe 2 : Table 3) c’est à dire sa fonction
de répartition est donnée dans une table. Soit X une variable aléatoire de loi normale de
paramètre (3,9) . On veut caluler P(9,72≤ X ≤6,36) .

On a

9,72−3 6,36−3  X −3
P((9,72≤ X ≤6,36)= P ≤Z ≤  , où Z = 3 ⋅
 3 3 

= P(−2,24≤ Z ≤1,12)

60
=Φ(1,12)−Φ(−2,24)

=Φ(1,12)+ Φ(2,24) −1

=0,8686+ 0,9875−1

= 0,8561

6.5.4 Loi Gamma

On dit que X suit une loi gamma de paramètres α >0 et β >0 si sa fonction de densité est

β α xα −1e −βx
f X (x)= si x≥0 et f X (x)=0 pour x<0 ,
Γ(α)

+∞
Γ(α)= ∫ e − y yα −1 dy .
0

La loi exponentielle de paramètre β est une loi Gamma de paramètres β et 1.

6.5. 5 Loi du Khi-deux ou du Khi-carré

Soit X une variable aléatoire de loi normale centrée réduite. Alors la variable X 2 a pour
densité

− y1
f X (y)= 1 e 2 si y >0 et f X (y)=0 pour y ≤0.
2 πy
2
On dit alors que X suit une loi du Khi-deux à un degré de liberté.

( )
La loi du Khi-deux à un degré de liberté est une loi Gamma de pramètre 1 , 1 .
2 2

61
Chapitre 7

VARIABLES ALEATOIRES
MULTIDIMENSIONNELLES
Ce chapitre est une extension du chapitre précédent aux variables aléatoires à valeurs dans
Rn .

On appelle variable aléatoire n − dimensionnelle définie sur un espace probabilisé


(Ω,℘(Ω), P) , toute application X : Ω→ R n .

7.1 Loi d’une variable aléatoire multidimensionnelle

Soit X : Ω → R n une variable aléatoire n − dimensionnelle. On appelle loi de X , la


probabilité P X sur R n telle que pour tout sous-ensemble A de R n , on a P X (A) = P(X ∈A).
Cette application permet d’évaluer pour tout sous-ensemble A de R n , la chance pour que la
variable aléatoire prenne sa valeur dans A.
On désigne par X i la i ème composante de X .

Comme dans le cas unidimensionnel, En pratique, il est difficile de pouvoir déterminer


l’application P X de façon explicite. Néanmoins, il est possible de considérer des fonctions
qui caractérisent la loi d’une variable aléatoire.

Fonction de répartition. Soit X : Ω → R n une variable aléatoire. On appelle fonction de


répartitions de X , la fonction notée FX , définie sur R n à valeurs dans [0,1] et qui à tout
élément x de R n associe P(X < x) où l’événement {X < x} désigne l’ensemble de toutes les
éventualités ω telles que X i (ω)< xi , pour tout i =1,K,n.

Propriétés de la fonction de répartition. Soit FX la fonction de répartition d’une


variable aléatoire X. Alors les propriétés suivantes sont satisfaites :

FX prend ses valeurs dans l’intervalle [0,1];


FX est une fonction à accroissements positifs sur tout rectangle ;
FX est une fonction continue à gauche ;
lim FX (x)=0 et lim FX (x) =1.
x → −∞ x → +∞

62
Preuve. La première propriété fait partie de la définition de la fonction de répartition.

Pour des raisons de simplicité d’écriture, nous faisons la preuve pour n = 2 . Soit
[a,b[=[a1,b1[×[a2,b2 [ un rectangle avec a =(a1,a2) et b=(b1,b2). On définit l’accroissement de FX
sur ce rectangle par

∆ [a,b [FX = FX (b)− FX (a1,b2)+ FX (a)− FX (b1,a2).

On a FX (b) − FX (a1,b2) = P X ( [a1,b1[×]−∞,b2 [ ) et FX (a) − FX (b1,a2)= −P X ( [a1,b1 [×]−∞,a2 [ ) .


On en déduit que

∆ [a, b[ FX = P X ( [a1,b1 [×]−∞,b2 [ ) −P X ([a1,b1 [×]−∞,a2 [)


= P X ( [a1,b1 [×[a2,b2 [ ) ≥ 0 .

Ainsi, l’accroissement de FX sur [a,b[ est positif.

Montrons maintenant la continuité à gauche de la fonction de répartition. Pour ce faire, on


fait la notation suivante : pour tous x =(x1,K, xn ) et (y1,K, yn ) éléments de R n , on pose
x< y si et seulement si pour tout 1≤i ≤n on a x i < yi. Soit x 0 un élément quelconque de R n et
soit (x n )n ≥1 une suite croissante d’éléments de R n convergeant vers x 0 tels que x n < x 0 pour
tout n≥1 , c’est à dire pour tout 1≤i≤ n , xin +1 ≤ xin et lim n → +∞ xin = xi0 . On a

]−∞, x [= U ( ]−∞, x [ )⋅
+∞
0 n

n =1

On en déduit que
] [
FX (x 0) = P U ( −∞, x n )= lim FX (x n )
 +∞ 
 n =1  n → +∞

car la suite ( ]−∞, x [ )


n
n ≥1
est croissante. Ainsi, on a la continuité à gauche de la fonction de
répartition.

]
Soit (x n ) n ≥ 0 une suite croissante vers + ∞ . On a R n = U ( −∞, x n )⋅ Comme la suite [
+∞

n=0

( ]−∞, x [ )
n
n ≥1
est croissante, on déduit que 1 = P X (R n )=lim n → +∞ FX (xn) ⋅

Soit (x n ) n ≥ 0 une suite décroissante vers −∞ . On a ∅ = I ( −∞, x n )⋅ Comme la suite] [


+∞

n =0

( ]−∞, x [ )
n
n ≥1
est décroissante, on déduit que 0 = P X (∅ ) =lim n → +∞ FX (x n ) ⋅

63
Fonction de densité. Soit X : Ω → R n une variable aléatoire discrète. On appelle
fonction de densité de X , la fonction définie sur R n , à valeurs dans l’ensemble des réels
positifs, telle qu’à tout élément x de R n , on associe P(X = x). On la note f X ⋅

Exemple 7.1. On tire au hasard 3 boules d’une urne en contenant 3 rouges, 4 blanches et 5
bleues. X et Y sont des variables aléatoires désignant respectivement le nombre de boules
rouges et celui de boules blanches tirées. On cherche la loi du vecteur (X,Y).

L’univers Ω de ce phénomène aléatoire est l’ensemble des sous-ensembles à trois éléments


de l’ensemble des boules de l’urne. L’ensemble image de Ω par (X,Y) est

(X,Y)(Ω) ={(0,0),(0,1),(0,2),(0,3),(1,0),(1,1),(1,2),(2,0),(2,1),(3,0)}

La fonction de densité est : pour tout (i, j)∈ (X,Y)(Ω)

3−i − j j i

P(X =i,Y = j) = C 5 CC
3
4 3

C 12

Variable aléatoire multidimensionnelle absolument continue. On dit qu’une variable


aléatoire X : Ω → R n est absolument continue s’il existe une fonction f X définie sur R n , à
valeurs dans l’ensemble des réels positifs telle qu’à tout élément x de R n , on a

xn x1
FX (x) = ∫ L∫ f X (t1,K,tn ) dt1Ldtn ⋅
−∞ −∞

Cette fonction f X s’appelle la fonction de densité de la variable aléatoire absolument


continue X .

La fonction de répartition de toute variable aléatoire multidimensionnelle absolument


continue admet des dérivées partielles et la fonction de densité f X vérifie :
pour tout élément t de R n

∂ n FX
(x)= f X (x) .
∂x1L∂xn

7.2 Moments d’une variable aléatoire multidimensionnelle


On appelle espérance mathématique ou moyenne d’une variable aléatoire
n − dimensionnelle X , le vecteur E(X) dont la i ème composante est la moyenne de la i ème
composante de X .

64
1. Désormais pour tout k , les éléments de R k sont considérés comme des matrices à
une seule colonne. Ainsi,

 E(X 1) 
 
E(X) = M 
 
 E(X n) 
 

2. Pour toute matrice non aléatoire A d’ordre k ×n , la variable aléatoire k − dimensionnelle


AX admet pour moyenne AE(X).
3. Pour toute fonction g:R n → R , la moyenne de la variable aléatoire réelle g(X) est

E(g(X))= ∑ g(x)P(X = x) , si
x∈ X(Ω)
X est discrète ;

+∞ +∞
E(g(X))= ∫ L∫ g(x1,K, xn )dx1Ldxn , si X est absolument continue.
−∞ −∞

Soit X : Ω→ R n une variable aléatoire n − dimensionnelle telle que E( X )< +∞. On


2

appelle matrice de dispersion de X , la matrice notée D(X) dont l’élément sur la i èmè ligne et
la j èmè colonne est E[(X i − E(X i ))(X j − E(X j ))] .
La quantité E[(X i − E(X i ))(X j − E(X j ))] s’appelle la covariance des variables aléatoires
réelles X i et X j , elle se note cov(X i, X j ) . En pratique, elle se calcule par la formule

cov(X i, X j )= E(X i X j ) − E(X i )E(X j ) ⋅

La quantité E(X i X j ) se calcule de la façon suivante :

cas où la variable aléatoire X est discrète

E(X i X j )= ∑x x
x∈ X(Ω)
i j P(X = x)

= ∑ xi x j P(X i = xi, X j = x j ) .
xi , x j

cas où la variable aléatoire X est absolument continue

+∞ +∞
E(X i X j ) = ∫ L∫ xi x j f X (x1,K, xn) dx1Ldxn
−∞ −∞
+∞ +∞
=∫ ∫ xi x j f (X i , X j ) (xi, x j ) dxi dx j ⋅
−∞ −∞

La matrice de dispersion et la covariance vérifient les propriétés suivantes :

65
[ ]
D(X)=E (X − E(X)(X − E(X))t où pour toute matrice A , At désigne sa transposée .
D(X)= E(XX t )− E(X)E(X)t ⋅
La fonction covariance est bilinéaire symétrique
D(X) est une matrice symétrique et positive.
Soit une matrice A d’ordre k×n non aléatoire. La matrice de dispersion de AX est
D(AX)= AD(X)At ⋅

Preuve des propriétés.

Pour la première propriété, il suffit de faire le produit matriciel


[(X − E(X)(X − E(X)) ].
t

On a
[(X − E(X)(X − E(X)) ]= XX
t t
− XE(X)t − E(X)X t + E(X)E(X)t
= XX t − E(X)E(X)t .
Cette égalité donne la deuxième proposition.

La symétrie est une conséquence évidente de la définition. La bilinéarité provient de la


linéarité de l’espérance.

La symétrie de D(X) provient immédiatement de sa définition. Pour la positivité, soit


u∈R n . On a
[
u t D(X)u = E u t (X − E(X))(X − E(X))t u ]
Comme u t (X − E(X))(X − E(X))t u = (u t (X − E(X)) ) , on déduit que u t D(X)u ≥0 .
2

Soit une matrice A d’ordre k ×n non aléatoire. On a

E(AX)= AE(X) et (E(AX) ) =(E(X) ) At .


t t

On en déduit que

D(AX)= E((AX)(AX)t )−(E(AX)(E(AX))t )


= AE(XX t )At − AE(X)(E(X))t At
[ ]
= A E(XX t )− E(X)(E(X))t At
= AD(X)At .

7.3 Lois marginales


Soit X :Ω→ R n un vecteur aléatoire. On appelle densité marginale de X i , la densité de la
variable X i ⋅ Elle se calcule à l’aide de la densité de la variable aléatoire X . En effet,

66
cas discrèt

f X i (xi )= ∑ P(X = x ,K, X


x j : j ≠i
1 1 n = xn ) .

cas absolument continue

+∞ +∞
f X i (xi )= ∫ L∫ f X (x1,K, xi −1, xi, xi +1,K, xn) dx1Ldxi −1dxi +1Ldxn ⋅
−∞ −∞

7.4 Indépendance de variables aléatoires


Exemple 7.2. On lance deux dés équilibrés simultanément. Si le premier dé donne un chiffre
pair, on gagne 25 F CFA , dans le cas contraire on perd 10 F CFA. Si le deuxième dé donne
un chiffre impair on reçoit 50 F CFA, dans le cas contraire on perd 5 F CFA. Désignons par
 X1 
X =  , la variable aléatoire représentant le gain associé au résultat obtenu. X i est le gain
 X2 
 
obtenu avec le dé numéro i .
On a vu que l’univers est Ω={0,1,2,3,4,5,6} et que la probabilité est uniforme. La variable
2

aléatoire X : Ω→ R 2 est dicrète et est définie par : pour tout , (ω1,ω 2)∈Ω

(25,−5) si ω1 et ω 2 sont pairs



(25,50) si ω1 est pair et ω 2 est impair
X(ω1,ω 2)= 
(-10,-5) si ω1 est impair et ω 2 est pair

(-10,50) si ω1 est impair et ω 2 est impair

La loi conjointe de (X 1, X 2) est donnée par : pour tout (x1, x2)∈X(Ω)

card {X 1 = x1, X 2 = x2 } 9 1
P(X 1 = x1, X 2 = x2) = = = .
card Ω 36 4

On constate que pour tout (x1, x2)∈X(Ω)

P(X 1 = x1, X 2 = x2) = P(X 1 = x1) P(X 2 = x2) .

Soit X 1,K, X n , n variables aléatoires discrètes. On dit que ces variables aléatoires sont
indépendantes si

n
P(X 1 = x1,K, X n = xn) =∏ P(X i = xi ) ⋅
i =1

67
Soit X 1,K, X n , n variables aléatoires absolument continues. On dit que ces variables
aléatoires sont indépendantes si
n
f X (x1,K, xn )=∏ f X i (xi ) ,
i =1

où f X est la densité conjointe du vecteur aléatoire X =(X 1,K, X n) et f X i est la densité


marginale de la variable aléatoire X i .

On a les caractérisations suivantes des variables aléatoires indépendantes :

Les variables aléatoires X 1,KX n sont indépendantes si et seuleument si pour tout


(x1,K, xn )∈R n , on a

n
FX (x1,K, xn )=∏ FX i (xi ) ,
i =1

où FX est la fonction de répartition conjointe du vecteur aléatoire X =(X 1,K, X n) et FX i est la


fonction de répartition marginale de la variable aléatoire X i .

Les variables aléatoires X 1,KX n sont indépendantes si et seuleument si il existe des


fonctions à valeurs réelles f i , i =1,K,n telles que pour tout (x1,K, xn )∈R n , on a

n
f X (x1,K, xn )=∏ f i (xi ) .
i =1

Exemple 7.3 Soit (X,Y) un couple aléatoire de densité f ( X,Y )(x, y) = 11[0,2 ]2 (x, y). Cherchons les
4
densités marginales de X et Y. On a

 21 dy si x∈[0,2]
+∞  ∫0 4
f X (x)= ∫ f (X,Y)(x, y) dy = 
−∞
0 ailleurs.

On en déduit que f X (x)= 11[0,2 ] (x) , c’est à dire X suit une loi uniforme sur [0,2] . On montre
2
de même que la variable aléatoire Y suit une loi uniforme sur [0,2] . Ainsi, on a
f (X,Y) (x, y) = f X (x) fY (y). Les variables alétoires X et Y sont donc indépendantes. On aurait pu
remarquer que

f (X,Y)(x, y) = h(x)g(y) avec h(x)= 11[0,2] (x) et g(y) = 11[0,2] (y) .


2 2

7.5 Transformation de variables


Soient X une variable aléatoire et g une fonction. On cherche à déterminer la loi de la
variable aléatoire Y = g(X) à l’aide de celle de X. Plus précisement :

68
Soit X : Ω→ R n une variable aléatoire absolument continue et g: R n → R n une fonction. Si
la loi de X est concentrée sur un ouvert U de R n , c’est à dire la fonction de densité de X
s’annule en dehors de U , et si g est un difféomorphisme de U sur un ouvert V de R n
alors la variable aléatoire Y = g(X) est absolument continue de densité

 f X (g −1(y)) J g −1 (y) si y∈V



fY (y) = 
0 ailleurs,

où J g −1 (y) désigne le Jacobien de la fonction g −1 au point y.


Le Jacobien d’une fonction h =(h1,K,hn ) est définie par

 ∂h1 L ∂hn 
 ∂x1 ∂x1 
 

J h(x)= M M 
 
 ∂h1 
 L ∂hn 
 ∂xn ∂xn 

Le Jacobien de g −1 au point y est l’inverse du Jacobien de g au point g −1(y).

Exemple 7.4. Soit X et Y deux variables aléatoires de lois uniformes sur ]0,1[ . On pose
U = X +Y et V = X −Y . Considérons la fonction g=(g1, g 2) définie par g1(x1, x2) = x1 + x2 et
g 2(x1, x2) = x1 − x2 . g est un difféomorphisme de ]0,1[×]0,1[ sur

∆ ={(u,v)∈R× R : 0<u +v< 2 et 0≤u −v< 2} .

( )
La fonction inverse est g −1(u,v)= u + v , u −v de Jacobien
2 2

1 1
2 2
J g −1 (u,v)= =− 1
1 2
−1
2 2

1 si (u,v)∈∆
2
On a alors f (U,V )(u,v)= 
0 ailleurs.

69
Pour calculer la loi d’une variable aléatoire absolument commune, on peut utiler le
résultat suivant :
Soit X : Ω→ R n une variable aléatoire absolument continue. Alors la fonction f : R n →R +
est la densité de X si et seulement si pour toute fonction continue bornée h : R n → R , on a

+∞ +∞
E(h(X))= ∫ L∫ h(x1,K, xn) f(x1,K, xn)dx1Ldxn ⋅
−∞ −∞

Preuve (admise)

Exemple 7.5. Soit X une variable réelle de loi normale centrée réduite. On pose Y = X 2 .
Déterminons la loi de Y. Soit h : R → R une fonction continue bornée. On a

+∞ +∞ −x 2 / 2
E(h(Y))= ∫ h(x ) f X (x) dx = ∫ h(x ) 1 e
2 dx . 2
−∞ −∞

En remarquant que la fonction à intégrer est paire et en faisant le changement de variable
y = x 2 , il s’en suit que

+∞ −x 2 / 2 +∞ −y / 2
E(h(Y))= 2 ∫ h(x 2)e dx = 2 ∫ h(y)e 1 dy .
2π 0
2π 0
2 y

Par conséquent

+∞ −y / 2
E(h(Y))= 1 ∫ h(y)e 1 dy ,
2π 0
y

d’où la densité de Y est

 1 −
y

 e 2 si y >0
 2πy
fY (y) = 
0 ailleurs.

7.6 Sommes de variables aléatoires indépendantes

Soient X et Y deux variables aléatoires indépendantes absolument continues de fonction


de densité respective f X et fY . Les fonctions de répartition sont respectivement FX et FY .
On peut montrer que la fonction de répartition et la fonction de densité de Z = X +Y sont
respectivement

70
+∞
FX +Y (z)= ∫ FX (z − y)fY (y) dy
−∞

+∞
f X +Y (z)= ∫ f X (z − y) fY (y)dy . (7.1)
−∞

Additivité de la loi binomiale

Soient X et Y deux variables aléatoires indépendantes, respectivement de loi binomiale de


paramètre (n, p) et (m, p) . On cherche la loi de la somme X +Y. Il est clair que X +Y est une
variable aléatoire à valeurs dans {0,1,2,K,n+ m}.
On a pour tout entier naturel k ≤ n + m,

n k
P(X +Y = k)= ∑ P(X +Y = k , X = j)= ∑ P(X = j , Y = k − j)
j =0 j =0

car P(X +Y = k , X = j) =0 si j ≥k +1. En utilisant l’indépendance des variables X et Y , on


déduit que

k k
j k− j
P(X +Y = k)= ∑ P(X = j) P( Y = k − j)= ∑Cn p j (1− p) n − j Cm p k − j (1− p) m − k + j
j =0 j =0

k
j k− j
= p k (1− p) n + m − k ∑Cn Cm =Cnk+ m p k (1− p) n + m − k ,
j =0

car

∑Cnj Cmk − j =Cnk+ m ⋅


k

j =0

Il s’en suit que la loi de X +Y est binomiale de paramètre (n+ m, p).

Additivité de la loi de Poisson

Soient X et Y deux variables aléatoires indépendantes de loi de Poisson de paramètre


respectif λ et µ. On veut déterminer la loi de la variable aléatoire X +Y .

L’événement {X +Y = n} est l’union disjointe des événements {X = k, y = n− k } pour


k =0,1,K,n. Donc

n
P(X +Y = n) =∑ P(X = k, Y = n − k)
k =0

n
= ∑ P(X = k) P(Y = n − k)
k =0

71
n λk µ n−k
=∑ e−λ e− µ
k = 0 k! (n − k)!

n λk µ n − k
= e − (λ + µ) ∑
k =0 k!(n − k)!

e −(λ + µ) n
= ∑ n! λk µ n − k
n! k = 0 k!(n− k)!

e −(λ + µ)
= (λ + µ) n .
n!

Par conséquent X +Y suit une loi de Poisson de paramètre λ + µ .

Additivité de la loi Gamma

Soient X et Y deux variables aléatoires indépendantes suivant des lois Gamma de paramètres
respectifs (s,λ) et (t,λ) . Cherchons la loi de X +Y .

En utilisant la formule (7.1), on obtient

z
f X +Y (z)= 1
∫ λe − λ(z − y) [λ(z − y)]s −1 λe − λy (λy)t −1 dy
Γ(s)Γ(t) 0

z
= Ke − λz ∫ (z − y) s −1 y t −1 dy
0

En effectuant le changement de variable x = y / z , on tire que

1
f X + Y (z)= Ke − λz z s + t −1 ∫ (1− x) s −1 x t −1 dx
0

=Ce −λz z s + t −1 ,

où la valeur de la constante C ne dépend pas de z . Cette dernière expression étant une


densité, il s’en suit que X +Y suit une loi Gamma de paramètre (s +t,λ) .

Sommes de variables exponentielles

Soient X 1,K, X n des variables aléatoires indépendantes de même loi exponentielle de


paramètre λ . Puisque la loi exponentielle de paramètre λ est une loi Gamma de paramètre
(1,λ) , on déduit que X 1 +L+ X n suit une loi Gamma de paramètre (n,λ) .

Loi du Khi-deux ou du Khi-carré à n degrés de liberté

On appelle loi du Khi-deux à n degrés de liberté la loi gamma de paramètres n et 1 ⋅


2 2

72
On peut montrer que pour toute suite X 1,K, X n de variables aléatoires indépendantes de
n
même loi normale centrée réduite, la variable aléatoire ∑X
i =1
i
2 suit une loi du Khi-deux à n
degrés de liberté.

Additivité de la loi normale

Soient X 1,K, X n des variables aléatoires indépendantes de loi normales de paramètres


n
(µi,σ i2), i =1,K,n. La variable aléatoire ∑X
i =1
i suit une loi normale de paramètre

 n n

 ∑ µi , ∑σ i2  .
 i =1 i =1 

7.7 Loi de Student et Loi de Fisher


7.7.1 Loi de Student

Soient X et Y deux variables aléatoires suivant respectivement une loi normale centrée
réduite et une loi du Khi-deux à n degrés de liberté. Si de plus ces variables aléatoires sont
indépendantes, la loi de la variable aléatoire X est appelée loi de Student à n degrés de
Y /n
liberté.

7.7.2 Loi de Fisher

Soient X et Y deux variables aléatoires indépendantes suivant respectivement une loi du Khi-
deux à n degrés de liberté et une loi du Khi-deux à m degrés de liberté. La loi de la variable
aléatoire X / n est appelée loi de Fisher à (n,m) degré de liberté.
Y /m

Les lois du Khi-deux, de Student , et de Fisher sont tabulées.

73
PARTIE III

STATISTIQUE INFERENTIELLE

74
Chapitre 8

ESTIMATION d’UN PARAMETRE

8.1 Introduction
Très souvent, on ignore les paramètres de la variable statistique selon laquelle on fait
l’étude de la population considérée. Par exemple, dans l’étude de l’âge des véhicules du parc
automobile de la Côte d’Ivoire, on peut vouloir connaître l’âge moyen θ . Comme il est serait
coûteux de faire un recensement de tous les véhicules, on peut prélever un échantillon dans la
population de véhicules et prendre comme valeur approchée de l’age moyen des véhicules,
l’age moyen des véhicules constituant l’échantillon. On dit alors qu’on fait de l’estimation.
Ainsi, on a un problème d’estimation lorsqu’on n’a pas la possibilité de connaître de façon
exacte la valeur d’un paramètre inconnu.

Dans tout ce qui suit on suppose qu’on a une variable statistique X dépendant d’un
paramètre θ pouvant prendre n’importe quelle valeur dans un ensemble Θ appelé espace de
paramètre. On suppose aussi qu’on a un modèle d’échantillonnage décrivant la façon dont les
observations ont été recueillies. On considère le cas où les n observations constituent un
échantillon aléatoire simple (EAS) composé de n variables aléatoires {X 1,K, X n }
indépendantes et de même distribution que celle de X .
Le problème d’estimation peut donc s’énoncer comme suit : Comment peut-on estimer
un paramètre inconnu θ à partir de n observations {X 1,K, X n } formant un AES, dont les
valeurs sont notées {x1,K, xn } ?
Il existe deux façons d’estimer θ : l’estimation ponctuelle, qui permet d’obtenir une
valeur numérique spécifique pour estimer θ , et l’estimation par intervalle, qui permet de
construire un intervalle de confiance à l’intérieur duquel la vraie valeur de θ a de grandes
chances de se trouver.

8.2 Estimation ponctuelle


8.2.1 Définition

On appelle estimateur de θ toute fonction des observations qu’on note θˆ :

θˆ = h(X 1,K, X n).


Evidemment, on ne considère que des valeurs de θˆ qui sont dans Θ . Une fois l’échantillon
prélevé, on dispose de n valeurs observées x1,K, xn de la variable statistique étudiée, ce qui
fournit une valeur h(x1,K, xn) de θˆ , qu’on appelle un estimé ou une estimation.

75
Un problème essentiel se pose : comment choisir un bon estimateur d’un paramètre ? Pour ce
faire il est souhaitable de pouvoir comparer les estimateurs sous la base de critères bien
définis. Nous allons considérer les estimateurs sans biais et les estimateurs convergents.

8.2.2 Estimateur sans biais

Un estimateur θˆ d’un paramètre inconnu θ est dit sans biais si


)
E(θ ) =θ . (8.1)

Si la relation (8.1) n’est pas satisfaite, le biais de θˆ est


)
B(θˆ) = E(θ ) −θ.

a) Estimation de la moyenne µ d’une population


Un estimateur sans biais de la moyenne µ d’une population est la moyenne X d’un
échantillon aléatoire simple tiré dans cette population :

n
X =1∑Xi .
n i =1

Une valeur de X c’est à dire un estimé est :


n
x = 1 ∑ xi .
n i =1

b) Estimation de la variance σ 2 d’une population


Soit une population de variance inconnue σ 2 . Un estimateur sans biais de σ 2 est la variance
corrigée :

n
S 2 = 1 ∑(X i − X) 2 .
n −1 i =1
Une valeur de S c’est à dire un estimé de σ 2 est :
2

n
s 2 = 1 ∑(xi − x ) 2 .
n −1 i =1

c) Estimation d’une proportion


Soit p A la proportion d’individus possédant une certaine propriété particulière A dans une
population .

Un estimateur sans biais du paramètre inconnu p A est la proportion observée d’individus


dans un échantillon aléatoire de taille n qui possèdent la propriété A :

pˆ A = nA
n
où n A est le nombre d’individus de l’échantillon ayant la propriété A .

76
8.2.3 Précision d’un estimateur
)
La précision d’un estimateur θ de θ peut être mesurer par son écart quadratique moyen

[ 2
EQM(θˆ )=V(θˆ) + B(θˆ ) . ]
)
En particulier, si θ est un estimateur sans biais sa précision est égale à sa variance.
Un estimateur θˆ1 de θ est dit plus efficace qu’un autre estimateur θˆ2 de θ s’il est plus précis
que le second.

8.2.4 Estimateur convergent


Un estimateur θˆ de θ est dit convergent s’il tend vers θ lorsque la taille de l’échantillon
tend vers l’infini. Il existe plusieurs modes de convergence : la convergence en probabilité, la
convergence presque sûre, etc.

8.2.5 Méthodes d’estimation

a) Méthode des moments


Supposons qu’on est amené à estimer K paramètres θ1,K,θ K . La méthode des moments
consiste à choisir des estimateurs θˆ1,K,θˆK issus de la résolution d’un système de K équations
en les K paramètres, obtenu en égalant les K premiers moments µ k = E(X k ) ,k =1,K, K et les
moments correspondants de l’échantillon

n
mk = 1 ∑ X ik ,k =1,K, K.
n i =1
Exemple 8.1. Supposons qu’on veut estimer la moyenne µ et la variance σ 2 d’une loi. Pour
ce faire, on considère un échantillon X 1,K, X n de cette loi. On résoud le sytème d’équations

 n

 µ = ∑
1 Xi
n i =1


 2 2 1 n 2
σ + µ = n ∑
i =1
Xi

On trouve comme solution

n n
µ̂ = 1 ∑ X i = X et σˆ 2 = 1 ∑ X i2 − X 2 = S 2
n i =1 n i =1

b) Méthode du maximum de vraisemblance

Soit une population étudiée selon un caractère X de densité f(x) . Evidemment f(x) dépend
du paramètre θ à estimer. On la note alors f(x;θ) .

77
On appelle fonction de vraisemblance , la fonction de densité de l’échantillon, elle est donnée
par :

L(x1,K, xn;θ) = f(x1,K, xn;θ) = f(x1;θ) L f(xn;θ) .

On appelle estimateur du maximum de vraisemblance de θ la valeur du paramètre θ qui


maximise L(x1,K, xn;θ) .

Si θˆ1,K,θˆK sont les estimateurs du maximum de vraisemblance de K paramètres θ1,K,θ K


alors l’estimateur du maximum de vraisemblance d’une fonction g(θ1,K,θ K ) est donné par
g(θˆ1,K,θˆK ) .

8.3 Intervalles de confiance


L’estimation ponctuelle ne donne pas les chances pour que l’estimateur soit proche du
paramètre estimé. Ce problème est résolu en faisant une estimation par intervalle .

Soit X une variable aléatoire réelle. On appelle quantile d’ordre α∈]0,1[ , tout
nombre réel x tel que FX (x)= P(X < x)=α.

L’estimation par intervalle consiste à déterminer un intervalle (l1,l2 ) dont les limites l1 et
l2 dépendent des observations de l’échantillon et sont tels que l’intervalle contient θ avec
une probabilité que l’on se fixe à priori et qui est habituellement choisie grande. Cette
probabilité est appelée un niveau de confiance et est désigné en général par 1−α :

P(l1 ≤θ ≤l2)=1−α.

8.3.1 Intervalle de confiance pour la moyenne µ d’une population normale N (µ,σ 2)


a) La variance σ 2 de la population est connue
 
L’intervalle de confiance de niveau 1−α de la moyenne µ est  x − z1−α / 2 σ , x + z1−α / 2 σ 
 n n
où z1−α / 2 est le quantile d’ordre (1−α / 2) d’une variable aléatoire Z de loi normale N (0,1) :

 
P x − z1−α / 2 σ ≤ µ ≤ x + z1−α / 2 σ =1−α.
 n n

b) La variance σ 2 de la population est inconnue

L’intervalle de confiance de niveau 1−α de la moyenne µ


 
est  x −t n −1;1−α / 2 s , x +tn −1;1−α / 2 s  où tn −1;1−α / 2 est le quantile d’ordre 1−α / 2 d’une loi
 n −1 n −1 
de Student de degré de liberté n −1 :

78
 
P x −tn −1;1−α / 2 s ≤ µ ≤ x +tn −1;1−α / 2 s  =1−α.
 n −1 n −1 

8.3.2 Intervalle de confiance pour la moyenne µ d’une population quelconque


Maintenant, nous ne supposons plus qu’on a une population normale. Pour construire
un intervalle de confiance il faut alors faire d’autres hypothèses.

Si l’échantillon est suffisamment grand c’est à dire la taille n est supérieure à 30, pour
des populations pas trop dissymétriques, on peut prendre comme intervalle de confiance de
niveau 1−α :

 
 x − z1−α / 2 s ; x + z1−α / 2 s  .
 n −1 n −1 

Cet intervalle est évidemment approximatif car on utilise la loi asymptotique de l’estimateur
X pour le construire.

8.3.3 Intervalle de confiance pour une proportion


Soit p A la proportion d’individus possédant une certaine propriété particulière A dans
une population .

On a vu qu’un estimateur sans biais du paramètre inconnu p A est la proportion observée


d’individus dans un échantillon aléatoire simple de taille n qui possèdent la propriété A :

pˆ A = nA
n
où n A est le nombre d’individus de l’échantillon ayant la propriété A .

On peut prendre comme intervalle de confiance de niveau 1−α de la proportion p A


l’intervalle :

 
 pˆ A − z1−α / 2 pˆ A(1− pˆ A) ; pˆ A − z1−α / 2 pˆ A(1− pˆ A)  .
 n n 
 
Cet intervalle est approximatif car on utilise la loi asymptotique de p̂ A dans sa construction.

8.3.4 Intervalle de confiance pour la variance σ 2 d’une population normale

a) La moyenne µ est connue


Considérons l’estimateur de σ 2 donné par :

n
σˆ 2 = 1 ∑(xi − µ) 2 .
n i =1

79
On peut prendre comme intervalle de confiance de niveau 1−α pour la variance σ 2
l’intervalle :

 nσˆ 2 nσˆ 2 
χ2 , .
 n;1−α / 2 χ n;α / 2 
2

On a
 nσˆ 2 nσˆ 2 
P 2 ≤σ 2 ≤ 2  =1−α et χ n2, β est le quantile d’ordre β d’une loi du Khi-deux à n
 χ n;1−α / 2 χ n;α / 2 
degrés de liberté.

b) La moyenne µ est inconnue


Dans ce cas on estime σ 2 par la variance corrigée s 2 . On prend comme intervalle de
confiance de niveau 1−α l’intervalle :

 ns 2 ns 2 
χ2 , 2 ,
 n;1−α / 2 χ n;α / 2 

 ns 2 ns 2 
P 2 ≤σ 2 ≤ 2 =1−α .
 χ n;1−α / 2 χ n;α / 2 

80
Annexe 1 Données sur le contrôle de vitesse

Vitesse Puissance Sexe Age Passagers


145 5 F 21 0
162 9 H 48 3
143 5 F 23 2
157 7 H 37 0
180 16 H 55 4
164 9 F 32 1
158 7 H 31 1
154 7 F 41 2
195 16 H 57 0
175 11 H 47 2
172 11 H 45 2
146 5 F 34 0
144 5 F 31 1
183 16 H 61 1
178 11 H 51 0
167 9 H 50 0
159 7 H 42 1
150 7 H 38 1
149 5 F 34 1
190 16 F 45 0
182 16 H 45 1
164 9 H 47 3
167 9 H 37 3
169 9 H 39 4
151 7 H 29 2
200 16 F 19 1
144 5 H 24 1
147 5 H 19 1
151 7 H 24 1
142 7 H 25 1
162 9 H 28 0
172 11 H 34 0
147 5 H 19 1
141 5 H 20 1
143 5 H 22 1
158 7 F 28 0
154 7 F 26 1
167 9 H 33 2
175 11 H 46 3
148 5 H 23 1
153 7 F 32 1
157 7 H 35 1
160 9 H 40 2

81
143 11 H 20 1
142 5 H 21 1
145 5 F 22 0
155 7 H 24 0
161 9 H 24 1
170 11 H 42 2
148 5 F 21 1

82
Annexe 2

Lois de probabilités

83
84
85
86
87
Annexe 3

Tables statistiques

88
Table 1 : Distribution binomiale (fonction de répartition)

89
Table 1 (suite) : Distribution binomiale (fonction de répartition)

90
Table 1 (suite) : Distribution binomiale (fonction de répartition)

91
Table 1 (suite) : Distribution binomiale (fonction de répartition)

92
Table 1 (suite) : Distribution binomiale (fonction de répartition)

93
Table 2 : Distribution de Poisson (fonction de répartition)

94
Table 3 : Valeurs de la fonction de répartition d’une variable aléatoire Z de loi normale
centrée réduite
z −u 2 / 2
Φ(z)= P(Z ≤ z)= 1 ∫ e du
2π − ∞

95
Table 4 : Quantiles z p d’une variable aléatoire Z de loi normale
centrée réduite

Φ(z p ) = P(Z ≤ z p )= p (0< p <1)

96
Table 5 : Quantiles χν2, p d’une variable aléatoire χν2 de loi du Khi-deux à ν degrés de
liberté

P(χν2 ≤ χν2, p ) = p

97
Table 5 (suite) : Quantiles χν2, p d’une variable aléatoire χν2 de loi du Khi-deux à ν degrés
de liberté
P(χν2 ≤ χν2, p ) = p

98
Table 6 : Quantile de la variable de Student Tν à à ν degrés de liberté

F(tν, p ) = P(Tν ≤tν, p ) = p

99
Table 6 (suite) : Quantile de la variable de Student Tν à à ν degrés de liberté

F(tν, p ) = P(Tν ≤tν, p ) = p

100
Table 7 : Distribution de Fisher Snédecor
Quantiles d’ordre 0,95

101
Table 7 (suite) : Distribution de Fisher Snédecor
Quantiles d’ordre 0,975

102
Table 7 : Distribution de Fisher Snédecor
Quantiles d’ordre 0,99

103
Bibliographie conseillée

1. J.L. Boursin et G. Duru(1995) Statistique : Cours, Méthodes, Exercices. Vuibert.

2. Ross, S.M. (1984) Initiation aux probabilités. 2ème édition, McMillan, New York.

3. Masiéri, W. (1996) Statistique et calcul des probabilités. 7ème édition, Dalloz Paris.

4. Boursin J.L. et Duru G. (1995) Statistique : Cours , Méthodes, Exercices. Vuibert,


Paris.

5. C. Leboeuf, J.L. Roque et J. Guegand (1987) Cours de probabilités et de statistique.


2ème édition. Collection Ellipse.

104

Vous aimerez peut-être aussi