Vous êtes sur la page 1sur 73

Université de Fianarantsoa

L1 Ec0-Ge (2013)

Statistique et Probabilité
• Cours
• Exercices

Support de cours de Elysé Razafimahatolotra

(Cours original de Sophie Donnet et Katia Meziani)

Support de cours
www.apr-mg.org voir Support de Cours puis Stat Proba et économétrie
3.1.4 Statistique du Chi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Cas particulier des couples de variables quantitatives . . . . . . . . . . . . . . . . . . 39
3.2.1 Représentation des données, indicateurs . . . . . . . . . . . . . . . . . . . . . 39
3.2.2 Covariance et coefficient de corrélation linéaire empiriques . . . . . . . . . . . 39
3.2.3 Ajustement linéaire d’un nuage de points . . . . . . . . . . . . . . . . . . . . 41
3.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Table des matières
4 Indices statistiques 51
4.1 Indices élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.2 Exemple et interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 1 Introduction aux statistiques descriptives 4
4.1.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 1.1 Introduction générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4.1.4 Des indices élémentaires aux indices synthétiques . . . . . . . . . . . . . . . . 52 1.2 A propos des exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4.2 Indices de Laspeyres et de Paasche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 1.3 Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.2.1 Indice de Laspeyres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 1.4 Variable qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.2.2 Indice de Paasche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 1.5 Variable quantitative discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.2.3 Remarques sur les indices de Laspeyres et Paasche . . . . . . . . . . . . . . . 54 1.6 Variable quantitative continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.2.4 Un compromis : l’indice de Fisher . . . . . . . . . . . . . . . . . . . . . . . . 56 1.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.3 Les indices-chaı̂nes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.4 Indice des prix de l’INSEE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2 Distributions statistiques univariées : principaux indicateurs 16
4.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 2.1 Caractéristiques de tendance centrale et de position . . . . . . . . . . . . . . . . . . 16
2.1.1 Le mode empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5 Séries chronologiques 59 2.1.2 Moyenne empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.1 Combinaison de la tendance et de la saisonnalité : modèle additif ou multiplicatif ? . 61 2.1.3 Moyennes géométriques et arithmétiques . . . . . . . . . . . . . . . . . . . . . 17
5.2 En l’absence de saisonnalité : estimation de la tendance . . . . . . . . . . . . . . . . 61 2.1.4 La médiane empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.2.1 Estimation paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.1.5 Les quantiles empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2.2 Estimation non paramétrique : méthode par moyenne mobile . . . . . . . . . 64 2.2 Caractéristiques de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.3 Elimination de la saisonnalité dans un modèle additif . . . . . . . . . . . . . . . . . . 66 2.2.1 L’étendue (empirique) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.4 Cas pratique : étude du nombre de passagers dans un aéroport sur une durée de 12 2.2.2 Distance inter-quartiles (empirique) . . . . . . . . . . . . . . . . . . . . . . . 21
ans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 2.2.3 L’écart absolu moyen (empirique) . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 2.2.4 La variance empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.5 L’écart type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Représentation graphique : boı̂te de distribution . . . . . . . . . . . . . . . . . . . . 22
2.4 Caractéristiques de concentration : Courbe de Lorenz et indice de Gini . . . . . . . . 23
2.5 QQ-plot (graphiques quantile-quantile) . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.1 Moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.2 Indicateurs et box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6.3 Indices et courbes d’inégalités . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.4 Diagrammes quantile quantile . . . . . . . . . . . . . . . . . . . . . . . 33

3 Description des distributions statistiques bivariées 36


3.1 Distributions conjointe, marginale et conditionnelle . . . . . . . . . . . . . . . . . . 36
3.1.1 Distribution conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.2 Distributions marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.3 Distribution conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3 2
4.5 Loi conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3 Variables aléatoires continues 34


1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.1 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.2 Densité de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Table des matières
1.3 Probabilité d’un intervalle . . . . . . . . . . . . . . . . . . . . . . . . 36
1.4 Indépendance de deux variables aléatoires continues . . . . . . . . . 36
1.5 Moments d’une v.a. continue . . . . . . . . . . . . . . . . . . . . . . 37
2 Quelques lois continues usuelles . . . . . . . . . . . . . . . . . . . . . . . . . 38 1 Introduction au calcul des probabilités 4
3 Transformation d’une v.a. continue . . . . . . . . . . . . . . . . . . . . . . . 39 1 Espaces Probabilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4 Somme de variables aléatoires continues . . . . . . . . . . . . . . . . . . . . 41 1.1 Espace des possibles . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
5 Approximation d’une loi par une autre loi . . . . . . . . . . . . . . . . . . . 41 1.2 Rappels sur les ensembles . . . . . . . . . . . . . . . . . . . . . . . . 5
5.1 Approximation de la loi Hypergéométrique par une loi binomiale . . 41 1.3 Espace probabilisable . . . . . . . . . . . . . . . . . . . . . . . . . . 6
5.2 Approximation de la loi Binomiale par une loi de Poisson . . . . . . 42 1.4 Mesure de probabilité, espace probabilisé . . . . . . . . . . . . . . . 7
5.3 Approximation de lois discrètes par une loi continue . . . . . . . . . 42 2 Loi de probabilité sur un ensemble Ω fini. Analyse combinatoire . . . . . . . 8
5.4 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.1 Exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.2 Loi de probabilité uniforme sur un ensemble Ω fini . . . . . . . . . . 9
2.3 Analyse combinatoire . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1 Formule des probabilités totales . . . . . . . . . . . . . . . . . . . . . 12
3.2 Formule de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2 Variables aléatoires. Cas discret 17


1 Exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 Définition d’une variable aléatoire discrète . . . . . . . . . . . . . . . . . . . 18
2.1 Fonction de répartition d’une variable aléatoire discrète . . . . . . . 18
2.2 Moyenne et variance d’une variable aléatoire discrète . . . . . . . . . 19
2.3 Propriétés de la moyenne et de la variance d’une variable aléatoire
discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Exemples classiques de loi de probabilité sur N . . . . . . . . . . . . . . . . 21
3.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3 Loi Binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.5 Loi Géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.6 Loi Hypergéométrique . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4 Vecteurs aléatoires discrets . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1 Loi jointe et lois marginales . . . . . . . . . . . . . . . . . . . . . . . 25
4.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3 Covariance et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.4 Coefficient de correlation . . . . . . . . . . . . . . . . . . . . . . . . 27

3 2
Chapitre 1

Introduction aux statistiques


descriptives

1.1 Introduction générale


Supposons que nous disposions d’un ensemble relativement important de données que nous sou-
haitons étudier. En raison du volume important des données, une lecture seule (ligne à ligne) ne
permettrait pas d’en tirer de l’information. Le but de la statistique descriptive (autrement ap-
pelée ”analyse de données”) est de résumer l’information contenue dans ce gros volume de données
en un petit nombre de quantités (moyenne, écart-type, médiane...) ou de représenter de façon
concise les données (sous forme de tableaux ou de graphiques). L’analyse des données en tant que
telle ne nécessite pas d’outils probabilistes mais utilise plutôt des concepts d’algèbre.

Remarque 1.1 :
Un autre point de vue peut-être adopté si on considère les données recueillies comme l’observation
partielle d’une population plus importante généralement supposée de taille infinie. Afin d’induire
des informations sur la population infinie à partir de l’échantillon de données recueillies, il faut in-
troduire la notion de loi de probabilité. Ce deuxième point de vue, appelée inférence statistique
ou statistique mathématique constitue le programme de 2ème année.

Dans le programme de 1ère année, nous nous intéressons à la statistique descriptive. Dans le
chapitre 1, nous introduisons d’abord quelques concepts généraux puis nous proposons (chapitre
2) un catalogue de diverses quantités permettant de résumer l’information contenue dans un jeu
de données. Le chapitre 3 est dédié à l’étude des relations entre deux variables. Dans le chapitre 4,
nous introduisons la notion d’indice. Enfin, les séries temporelles sont abordées dans le chapitre 5.

1.2 A propos des exercices


Chaque chapitre est complété par des exercices. Certains reposent sur des jeux de données réelles.
Les jeux de données traités dans les exercices sont disponibles sur le site intercours sous un format
.xls ou .csv.
• Les jeux de données dont le nom de fichier contient le mot INSEE ont été trouvés sur le site

4
de l’Institut National de la Statistique et des Etudes Economiques (INSEE). 1 . Pour certaines
questions, on vous demande de trouver vous-même les informations sur ce site.
• Les données concernant les USA ont été trouvées sur le site de l’US Census Bureau 2 . Celles
concernant les meurtres aux USA proviennent du FBI 3 . Enfin, les informations concernant la
peine de mort ont été collectées sur Wikipédia.
• Les données dont le nom de fichier contient le mot OCDE proviennent des bases de données de
l’Organisation de Coopération et de Développement Economiques (OCDE).
• Les données dont le nom de fichier contient le mot ONU proviennent des bases de données de
l’Organisation des Nations Unies.
Notez que depuis très peu de temps, dans un soucis de transparence, la France a ouvert le site
http://www.data.gouv.fr/. Ce site met à disposition un grand nombre (toutes ?) de données
officielles. Pour votre culture générale, nous vous invitons à le parcourir.

Dans les exercices, vous devez calculer des indicateurs, tracer des histogrammes, des boı̂tes de
distribution. Vous pouvez utiliser Excel ou un logiciel de statistiques. Excel n’étant pas un logiciel
de statistiques à proprement parler, les outils statistiques graphiques ne sont pas disponibles par
défaut.
• Les histogrammes peuvent être tracés en installant la macro complémentaire “Utilitaire d’analy-
se”.
• Les box-plot peuvent être faites “à la main” mais il semble plus raisonnable d’utiliser les macro
existantes sur le “marché”. En particulier nous vous proposons d’utiliser la macro complémentaire
Boxplot.xla de Olivier Martin (Modulad, Numéro 32, janvier 2005). Nous avons mis cette macro
sur MyCourse ainsi que sa notice d’utilisation particulièrement pédagogique.
Plus généralement, d’autres macro peuvent être téléchargées sur le site https://www.rocq.inria.
fr/axis/modulad/excel_macros.htm. Nous vous invitons à parcourir le web pour trouver des
outils pratiques, tout en restant vigilants quant à leur qualité.

Remarque 1.2 :
Notez que la dernière version d’Excel, la macro “Utilitaire d’analyse” a été remplacée par le logiciel
StatPlus avec une version libre pour l’instant.

1.3 Vocabulaire
En statistique, on appelle population un ensemble fini P. Les éléments de P seront appelés indi-
vidus. Cette population peut être de nature très variée : population humaine, agents économiques,
pièces détachées d’un certain type, logements dans une ville donnée, etc.
Dans la population considérée on s’intéresse à un (ou plusieurs) caractère(s) statistique(s) X
concernant les individus ; à chaque individu de P est attachée une modalité du caractère X i.e.
une valeur prise par le caractère.

Exemple 1.1
Si on observe le caractère X = ”Genre”, les modalités sont ”homme” ou ”femme”.
1. http://www.insee.fr/fr/themes/
2. http://www.census.gov/compendia/statab/cats/population.html
3. http://www2.fbi.gov/ucr/cius2009/offenses/expanded_information/homicide.html

5
Le caractère X est dit
• quantitatif si il est mesurable. Dans ce cas, il peut être
• continu si il peut prendre n’importe quelle valeur d’un intervalle de R ; par exemple, le poids
et la taille d’un individu sont quantitatifs continus ;
• discret si il prend un nombre fini de valeurs ; par exemple, le nombre d’enfants par femme est
discret ;
• qualitatif si il ne peut être mesuré ; par exemple, le département de naissance d’un individu,
son sexe, son origine sociale.

Remarque 1.3 :
Il faut prendre ces définitions avec précaution. En effet, la distinction continu / discret est parfois
peu claire. Par exemple, en théorie, l’âge est une caractéristique continue mais en pratique elle est
au mieux mesurée avec une précision d’une journée.

Dans la suite, on appellera série statistique la suite des valeurs prises par une variable X sur les
unités d’observations. On note n le nombre d’unités d’observation et x1 , . . . , xn les valeurs prises.
Une première étape consiste à classer les données par modalité (ou intervalle de valeurs) et fournir
le tableau des effectifs et fréquences. Dans une deuxième étape, on représente graphiquement la
répartition des données au moyen d’un diagramme circulaire ou d’un histogramme. La méthodologie
est propre au type de caractéristique observée.

1.4 Variable qualitative


Supposons que la variable X est qualitative et soit J le nombre de modalités de la variable (c’est
à dire le nombre de valeurs différentes que peut prendre la variable)

Exemple 1.2
Si on observe le caractère X = ”Genre” alors J = 2.

On note m1 , . . . mJ ces modalités. Soit nj le nombre de fois où on observe la modalité mj dans la
population. fj est la fréquence de la modalité :
nj
fj =
n
On remarque que
n1 + . . . + nJ = n et f1 + . . . fJ = 1
• Tableau des effectifs et fréquences
Une première façon de résumer les données brutes est de remplir le tableau des effectifs et
fréquences :
Modalités Effectifs Fréquences
m1 n1 f1
.. .. ..
. . .
mJ nJ fJ
Total n 1

6
2nd
800

1st
3rd
600
400
200

Crew
0

1st 2nd 3rd Crew

Figure 1.1 – Voyageurs du Titanic : diagrammes en barre (à g.) et en secteurs (à dr.) des effectifs

• Représentation graphique
Dans le cas d’une variable qualitative, on peut représenter les données graphiquement par
– un diagramme en barre dans lequel la hauteur de chaque barre est proportionnelle à
l’effectif. La largeur de chaque barre est arbitrairement choisie.
– un diagramme en secteur, dans lequel chaque secteur angulaire est proportionnel à l’effectif.

Exemple 1.3 (Titanic)


On s’intéresse aux voyageurs du Titanic. La variable observée est leur classe qui prend 4 modalités :
1ère classe, 2ème classe, 3ème classe, équipage

Modalités Effectifs Fréquences


1ère Classe 325 0.148
2ème Classe 285 0.129
3ème Classe 706 0.321
Equipage 885 0.402
Total 2201 1
Le diagramme en barre et le diagramme circulaire sont représentés sur la figure 1.1.

1.5 Variable quantitative discrète


Si la variable observée X est discrète, le nombre de modalités est un entier naturel. Ordonnons les
modalités. Notons mj la j-ème modalité :

m1 < m2 < · · · < mJ

nj le nombre de fois où la modalité j a été atteinte et fj sa fréquence d’apparition. Puisque les
modalités sont ordonnées, on peut définir les effectifs et fréquences cumulés, respectivement notés

7
Nj et Fj :
j
X j
X
N j = n1 + . . . + nj = nj et Fj = f1 + . . . + fj = fj
k=1 k=1
Nj est alors le nombre d’unités statistiques sur lesquelles la variable prend des valeurs inférieures
ou égales à mj .
• Tableau des effectifs et fréquences cumulés

Modalités Effectifs Eff. cumulés Fréquences Fréq. cumulées


m1 n1 N1 = n1 f1 F1
m1 n1 N2 = n1 + n2 f2 F2 = f1 + f2
.. .. .. .. ..
. . . . .
mJ nJ n fJ 1
Total n 1
• Représentation graphique
– Il est standard de représenter les effectifs d’une variable discrète par un diagramme en
batônnets dont les batônnets (traits) ont pour abcisse la modalité et sont de hauteur propor-
tionnelle à l’effectif (voir figure 1.2 à gauche).
– Par ailleurs, les fréquences cumulées sont représentées par la fonction de répartition em-
pirique définie de la façon suivante :


 0 si x < m1
Fn (x) = Fj si mj ≤ x < mj+1

 1 si x ≥ mJ

C’est une fonction en escaliers (voir figure 1.2 à droite pour un exemple).

Exemple 1.4 (Insectes)


On s’intéresse aux effets d’un insecticide (McNeil, D. (1977)). Pour cela, on compte le nombre
d’insectes présents sur n = 12 petites surfaces expérimentales. La série statistique est la suivante

0 1 7 2 3 1 2 1 3 0 1 4

Les modalités ordonnées sont m1 = 0 , m2 = 1, m3 = 2, m4 = 3, m5 = 4, m6 = 7. Le tableau des


effectifs et fréquences est le suivant :

Modalités Effectifs Eff. cumulés Fréquences Fréq. cumulées


0 2 2 2/12 2/12
1 4 6 4/12 6/12
2 2 8 2/12 8/12
3 2 10 2/12 10/12
4 1 11 1/12 11/12
7 1 12 1/12 12/12
Total 12 1

Le diagramme en batônnets et la fonction de répartition empirique sont représentés sur la figure


1.2.

8
1.0
4

0.8
3

0.6
2

0.4
1

0.2
0.0
0

0 1 2 3 4 7 0 2 4 6 8

Figure 1.2 – Insectes : diagrammes en batonnets des effectifs (à g.) et fonction de répartition
empirique (à dr.)

Remarque 1.4 :
Si la variable observée est qualitative ordinale (i.e. on peut ordonner naturellement les modalités)
alors les effectifs et fréquences cumulés ainsi que la fonction de répartition empirique ont un sens.

1.6 Variable quantitative continue


Si la variable observée est quantitative continue, alors chaque valeur observée sera atteinte très
probablement une seule fois. Par conséquent, il y aura autant de modalités que d’unités statistiques.
Ainsi la méthodologie utilisée pour les variables qualitatives ou quantitatives discrètes ne permet
pas de résumer les données brutes. Dans ce cas, il faut regrouper les données en classes (ou plages de
valeurs). Le tableau des effectifs obtenus à partir de ces classes est appelé distribution groupée.
Supposons que l’on découpe les données en J classes. On note alors
· cj le centre de la j-ème classe
· bj−1 la borne inférieure de la j-ème classe
· bj la borne supérieure de la j-ème classe et la borne inférieure de la j + 1-ème classe (les classes
se ”touchent”)
· nj l’effectif de la j-ème classe
· Nj son effectif cumulé
• Le tableau des effectifs est alors le suivant :

Classe Effectifs Eff. cumulés Fréquences Fréq. cumulées


[b0 , b1 [ n1 N1 f1 F1
[b1 , b2 [ n2 N2 = N1 + n2 f2 F2 = F1 + f2
[b2 , b3 [ n3 N3 = N2 + n3 f3 F3 = F2 + f3
.. .. .. .. ..
. . . . .
[bJ−1 , bJ [ nJ n fJ 1
• Représentation graphique

9
– Les données d’une variable continue sont représentées graphiquement par un histogramme
dont les rectangles ont pour bornes bj−1 et bj et sont d’une surface proportionnelle à l’effectif
(ou à la fréquence) : la j-ème classe de bornes bj−1 et bj est représentée par un rectangle de
hauteur hj telle que
fj
hj × (bj − bj−1 ) = fj ⇔ hj =
bj − bj−1
– La distribution des données peut aussi être représentée par la fonction de répartition em-
pirique. Sous l’hypothèse d’équirépartition au sein de chaque classe, la fonction de répartition
Fn est linéaire par morceaux d’équation :


 0 si x < b0
Fj −Fj−1
Fn (x) = Fj−1 + bj −bj−1 (x − bj−1 ) si x ∈ [bj−1 , bj [


1 si x ≥ bJ

Remarque 1.5 :
Puisque les classes sont contiguës, la fonction de répartition est continue de R dans ]0, 1[. De
plus si il n’y a pas de classe vide, elle est strictement croissante donc elle réalise une bijection
de [b0 , bJ ] dans ]0, 1[.

En pratique, pour tracer la fonction de répartition empirique, on relie alors par des segments
les points de coordonnées (bj , Fj ).

Exemple 1.5 (Etats-Unis)


Nous considérons le revenu national brut par habitant de chacun des 50 états des Etats Unis
d’Amérique en 1974 (colonne ’Income’ de la table 1.1). Nous regroupons les données en classes de
largeur 500 :
[bj−1 , bj [ nj Nj fj Fj
[3000; 3500 [ 2 2 0.04 0.04
[3500; 4000 [ 11 13 0.22 0.26
[4000; 4500 [ 11 24 0.22 0.48
[4500; 5000 [ 18 42 0.36 0.84
[5000; 5500 [ 7 49 0.14 0.98
[5500; 6000 [ 0 49 0.00 0.98
[6000; 6500 [ 1 50 0.02 1

L’histogramme des effectifs correspondant aux classes définies précédemment est représenté sur la
figure 1.3 à gauche. Sur la même figure à droite, on a représenté l’histogramme des effectifs dans le
cas où on regroupe les 3 dernières classes. La fonction de répartition empirique correspondant à 7
classes est représentée sur la figure 1.4

Remarque 1.6 :
Le regroupement des données par classes peut aussi être appliqué aux variables quantitatives discrètes
quand le nombre de modalités J est trop grand.

10
6e-04

6e-04
4e-04

4e-04
2e-04

2e-04
0e+00

0e+00
3000 3500 4000 4500 5000 5500 6000 6500 3000 3500 4000 4500 5000 5500 6000 6500

Figure 1.3 – USA : histogrammes des revenus pour 7 classes (à g.) et après avoir regroupé les 3
dernières classes (à dr.)
1.0
0.8
0.6
0.4
0.2
0.0

2000 3000 4000 5000 6000 7500

Figure 1.4 – USA : fonction de répartition pour 7 classes

11
Chapitre 2

Distributions statistiques univariées :


principaux indicateurs

Dans le chapitre précédent nous avons présenté les données sous forme de tableau et de graphes
(histogramme, diagrammes et fonctions des répartitions). Nous cherchons maintenant à fournir des
indicateurs permettant de décrire synthétiquement la distribution des données x1 , . . . , xn . Dans une
première partie, nous nous intéressons aux paramètres de position et de tendance centrale. Dans
un second temps, nous considérerons les indicateurs de dispersion puis de concentration.
Nous insistons sur le fait qu’un indicateur ne peut être pris seul comme description de la distribution
mais doit être comparé aux autres. En outre, les paramètres de position et de dispersion doivent
être mis en regard pour avoir une idée plus complète de la distribution.

Remarque 2.1 :
Dans la suite, les indicateurs seront tous qualifiés d’ empiriques car issus de l’étude d’une série
statistique donc d’une expérience, par opposition aux espérances et variances théoriques étudiées
dans la première partie du cours (probabilité).

2.1 Caractéristiques de tendance centrale et de position


2.1.1 Le mode empirique
Le mode empirique est la modalité qui apparaı̂t le plus fréquemment.
Le mode (empirique) peut être défini pour toutes les variables qualitatives ou quantitatives discrètes.
Il n’est pas nécessairement unique. Dans le cas d’une variable continue dont les valeurs sont re-
groupées en classe, on parlera de classe modale.

Exemple 2.1
Dans l’exemple Titanic, le mode est la modalité ”Equipage”. Dans l’exemple Insectes, le mode est
la modalité m2 = 1. Dans l’exemple USA, la classe modale est [4500, 5000[.

16
2.1.2 Moyenne empirique
La moyenne empirique n’a de sens que pour une variable quantitative. Elle est égale à la somme
des valeurs observées divisée par le nombre d’observations n :
n
1X x1 + . . . + xn
mX =x= xi =
n n
i=1

Remarque 2.2 :
Dans le cas d’une variable discrète, la moyenne empirique peut aussi s’écrire à partir des effectifs
et modalités :
J
1X
mX = nj mj
n
j=1

Exemple 2.2
Dans l’exemple Insectes, la moyenne empirique du nombre d’insectes vaut 2.08 . Dans l’exemple
USA (tableau 1.1), la moyenne empirique des revenus vaut 4435.8 US dollars par an.

Remarque 2.3 :
La moyenne empirique est très sensible aux valeurs extrêmes (très grandes ou très petites). Dans
l’exemple Insectes si on ajoute une observation qui vaut 15 la moyenne arithmétique est considérablement
modifiée : elle passe de 2.08 à 3.08.

La moyenne présentée si dessus est la moyenne arithmétique. Celle-ci n’a pas forcément le sens
voulu. Dans certains contextes, nous avons naturellement recours à d’autres types de moyennes.

2.1.3 Digression : moyennes géométriques et arithmétiques


Moyenne géométrique
La moyenne géométrique de la série statistique x1 , . . . , xn est définie par :

n
!1/n
Y
xG = xi
i=1

Remarque 2.4 :
1 Pn
Si tous les xi sont strictement positifs alors log(xG ) = n i=1 log(xi ).

Exemple 2.3
Supposons que l’on place 100 e durant 4 années aux taux de 1% la 1ère année, 2% la deuxième
année, 3% la 3ème année, et 4% la 4ème année. Quel est le taux moyen par an de ce placement ?
On entend pas ”taux moyen” le taux τm tel que si on l’applique 4 années de suite, on obtient le
même rendement.
– Au bout de 4 ans, j’ai sur mon compte 100 × 1.01 × 1.02 × 1.03 × 1.04 = 110.3550 e.
– Le taux moyen τm est tel que si j’applique τm 4 années de suite j’obtiens la même somme :

100 × 1.01 × 1.02 × 1.03 × 1.04 = 100 × (1 + τm )4

17
1 + τm = (1.01 × 1.02 × 1.03 × 1.04)1/4
τm = (1.01 × 1.02 × 1.03 × 1.04)1/4 − 1 = 0.0249

d’où dans notre cas


τm = 2.49%
1+2+3+4
ce qui est différent de la moyenne arithmétique des taux qui vaut 4 = 2.50%.

Moyenne harmonique :
La moyenne harmonique vaut :
n
xH = Pn 1
i=1 xi

Exemple 2.4
Considérons un avion faisant un aller-retour sur la même trajectoire (de longueur d) à 600 km/h à
l’aller et 700 km/h au retour. Quelle est sa vitesse moyenne ?
Pour faire son aller retour, l’avion met un temps T égal à :
1 1
T =d× +d×
600 700
heures où d est la distance de son trajet aller. Sa vitesse moyenne vm est telle que si on applique la
vitesse moyenne à tout le parcours on met le même temps T pour faire l’aller-retour :
1 1 1
T =d× +d× =2×d×
600 700 vm
d’où
2
vm = 1 1 = 646.1538
600 + 700
Cette vitesse moyenne n’est par celle obtenue par la moyenne arithmétique qui vaut 650 km/h.

Comparaison des moyennes arithmétiques, géométriques et harmoniques


Théorème 2.1.1. Soient x1 , . . . , xn , n valeurs strictement positives. Alors on a :

min{x1 , . . . , xn } ≤ xH ≤ xG ≤ x ≤ max{x1 , . . . , xn }

2.1.4 La médiane empirique


La médiane empirique me est la valeur de la série séparant les unités statistiques en deux groupes,
de telle façon que la moitié des xi sont plus petites que me . Elle n’a de sens que dans le cas d’une
variable quantitative. La médiane empirique se lit sur la fonction de répartition empirique Fn : c’est
l’abscisse me pour laquelle
Fn (me ) = 50% (2.1)

En pratique, nous distinguons les variables discrètes des variables continues :


• Variable continue :
Dans ce cas, on a vu que si il n’y a pas de classe vide, la fonction de répartition est continue
strictement croissante donc elle réalise une bijection de R sur ]0, 1[. Par conséquent, l’équation
(2.1) admet une unique solution. On trouve cette solution de la façon suivante :

18
1. On repère la classe médiane telle que Fj−1 < 0.5 et Fj ≥ 0.5
2. me vérifie l’équation
Fj − Fj−1
Fj−1 + (me − bj−1 ) = 0.5
bj − bj−1
d’où
bj − bj−1 bj − bj−1
me = bj−1 + (0.5 − Fj−1 ) = bj−1 + (0.5 − Fj−1 )
Fj − Fj−1 fj

Exemple 2.5 (USA)


D’après le tableau des effectifs cumulés associé à cet exemple, la classe médiane est [4500; 5000[
car pour cette classe Fj = 0.84 ≥ 0.5 et pour la précédente Fj−1 = 0.48 < 0.5. Par interpolation
linéaire, on obtient :
5000 − 4500
me = 4500 + (0.5 − 0.48) = 4527.8
0.84 − 0.48

• Variable discrète :
Dans ce cas, la fonction de répartition est en escalier donc n’est pas bijective : le raisonnement
précédent n’est plus valable. On peut travailler directement sur la série statistique x1 , . . . xn que
nous commençons par ordonner de la plus petite à la plus grande valeur. Nous notons x(1) , . . . , x(n)
la série ordonnée.
– Si n est un nombre impair alors la médiane est la valeur centrale :

me = x( n+1 )
2

– Si n est pair, la médiane est la moyenne entre les 2 valeurs centrales :


x( n ) + x( n +1)
2 2
me =
2

Exemple 2.6 (Insectes)


D’après le tableau des effectifs cumulés associé à cet exemple, on a un nombre pair d’observations
qui sont dans l’ordre
0 0 1 1 1 1 2 2 3 3 4 7

Les 6 premières valeurs sont 0, 0, 1, 1, 1, 1 et les 6 suivantes sont 2, 2, 3, 3, 4, 7. La médiane est donc
1+2
2 = 1.5

Remarquons que dans les deux cas, on peut lire la médiane sur le graphique de la fonction de
répartition empirique (voir figures 2.1).

2.1.5 Les quantiles empiriques


Les quantiles empiriques sont la généralisation du concept de médiane. Soit α une proportion ∈]0, 1[
que l’on se fixe. Le quantile d’ordre α est tel qu’une proportion α des xi est plus petite que qα .
Formellement, qα est tel que
Fn (qα ) = α

19
1.0
1.0

0.8
0.8

0.6
0.6

0.4
0.4
0.2

0.2
0.0

0.0
2000 3000 4000 5000 6000 7500 0 2 4 6 8

Figure 2.1 – Lecture de la médiane sur les fonctions de répartition empiriques (exemple USA à
gauche et Insectes à droite

• Variable continue :
Comme précédemment, si la fonction de répartition Fn est continue et strictement croissante, alors
elle réalise une bijection de R sur ]0, 1[ donc qα est parfaitement bien défini. Dans le cas d’une
variable continue dont les valeurs ont été regroupées en classe,
1. On repère la classe telle que Fj−1 < α et Fj ≥ α
2. qα vérifie l’équation
fj
Fj−1 + (qα − bj ) = α
bj − bj−1
d’où
bj+1 − bj
qα = bj + (α − Fj−1 )
Fj
• Variable discrète : Si Fn n’est pas bijective (par exemple constante par morceaux dans le cas
d’une variable discrète), on adopte le même principe que pour la médiane :
– Si nα est un nombre entier alors
x(nα) + x(nα+1)
qα =
2
– Si nα n’est pas un nombre entier alors considérons dnαe le plus petit entier supérieur ou égal à

qα = x(dnαe)

Exemple 2.7
Dans l’exemple USA, le premier quartile est q0.25 = 3500 + (0.25 − 0.04) 4000−3500
0.22 = 3977.273. Le
troisième quartile est q0.75 = 4500 + (0.75 − 0.48) 5000−4500
0.36 = 4875

Remarque 2.5 :
Cette définition est une parmi tant d’autres que l’on peut trouver dans la littérature. En effet, en
raison de la non-bijectivité de Fn , cette définition est une approximation de la solution de l’équation

20
(2.1). D’autres définitions peuvent être utilisées dans les ouvrages et logiciels de statistique descrip-
tive.

2.2 Caractéristiques de dispersion


2.2.1 L’étendue (empirique)
L’étendue est la différence entre la plus petite valeur et la plus grande valeur de la série :

e = x(n) − x(1)

Exemple 2.8
Dans l’exemple USA, l’étendue est e = 6315 − 3098 = 3217

2.2.2 Distance inter-quartiles (empirique)


Les quartiles sont les quantiles d’ordre 25% et 75%. La distance inter-quartile est la différence
entre ces deux valeurs :
IQ = q0.75 − q0.25

Exemple 2.9
Dans l’exemple USA, l’étendue est IQ = 897.727

2.2.3 L’écart absolu moyen (empirique)


L’écart absolu moyen est la moyenne des valeurs absolues des différences entre xi et la moyenne
arithmétique x :
n
1X
emoy = |xi − x|
n
i=1

2.2.4 La variance empirique


La variance empirique est la moyenne des carrés des différences entre xi et la moyenne arithmétique
x:
n
2 1X
sX = (xi − mX )2
n
i=1

Théorème 2.2.1. (Formule de Koenig) La variance empirique peut aussi s’écrire de la façon
suivante :
n
1X 2
s2X = xi − m2X
n
i=1

Dans le cas discret, la variance peut aussi s’écrire à partir des effectifs et des modalités :

J J
1X 1X
s2X = nj (mj − mX )2 = nj m2j − m2X
n n
j=1 j=1

21
Remarque 2.6 :
On voit en 2ème année de DEGEAD (UE 44) que si on veut estimer correctement la variance
théorique d’une distribution à partir d’un échantillon x1 , . . . , xn , on utilise la variance corrigée :
n
1 X
(s0X )2 = (xi − mX )2
n−1
i=1

En général, les logiciels de statistiques fournissent la variance corrigée.

Exemple 2.10
Dans l’exemple USA, la variance s2X vaut 370021.8 et la variance corrigée (s0X )2 = 377573.3

2.2.5 L’écart type


L’écart type est une mesure de la distance moyenne à la moyenne. C’est la racine carrée de la
variance : q
sX = s2X
De même on définit l’écart type corrigé :
q
s0X = (s0X )2

Remarque 2.7 :
L’écart-type s’exprime dans la même unité que les données.

2.3 Représentation graphique : boı̂te de distribution


La boı̂te de distribution (ou boxplot) est une représentation graphique synthétique de la distribution
des données. Elle résume quelques caractéristiques de position et de dispersion du caractère étudié
(médiane, quartiles, minimum, maximum ou déciles). Ce diagramme est utilisé principalement pour
comparer un même caractère dans deux populations de tailles différentes.
Il se construit de la façon suivante :

1. Tracer un rectangle qui s’étend de q0.25 à q0.75 , de largeur quelconque.


2. Séparer le rectangle en deux à la hauteur de la médiane me . On obtient alors une
boı̂te.
3. On complète ce rectangle par deux segments. Pour cela, calculer

a = q0.25 − 1.5IQ et b = q0.75 + 1.5IQ

Identifier les valeurs de la série telle que

xa = min{xi |xi ≥ a} et xb = max{xi |xi ≤ b}

Ces valeurs sont appelées valeurs adjacentes. On relie ces valeurs au rectangle par
un segment
4. Les valeurs qui ne sont pas comprises entre les valeurs adjacentes sont représentées
par des points et appelées valeurs extrêmes

22
6000
5500
5000
4500
4000
3500
3000

Figure 2.2 – Boı̂te de distribution pour l’exemple USA

Exemple 2.11
Dans l’exemple USA on trouve a = 2630.682 et b = 6221.591. Les valeurs adjacentes sont xa = 3098
et xb = 5348. La boı̂te de distribution est représentée sur la figure 2.2.

2.4 Caractéristiques de concentration : Courbe de Lorenz et indice


de Gini
Des indicateurs particuliers ont été développés pour mesurer les inégalités de revenus ou de pa-
trimoine. Une société sera parfaitement égalitaire si tous les individus reçoivent le même revenu.
Au contraire, elle est considérée comme parfaitement inégalitaire si un seul individu reçoit tous les
revenus.

On représente ces inégalités par la courbe de Lorenz.

Soient x1 , . . . , xn les revenus des n individus de la société considérée. Comme précédemment, on


note x(1) , . . . , x(n) les revenus ordonnés par ordre croissant. Le revenu total est la somme des revenus
x1 + . . . + xn = x(1) + . . . + x(n) . Pour tout i entre 1 et n, qi est la proportion de revenus (par
rapport au revenu total) perçus par les i individus ayant les i plus petits revenus :
Pi
x(k)
qi = Pk=1
n
k=1 xk

De plus, on pose q0 = 0 et on a qn = 1.

La courbe de Lorenz relie les points ni , qi . Ainsi à chaque proportion i
n d’individus les moins
riches, on attribue la fraction des revenus totaux dont ils disposent.

Remarque 2.8 :

23
1.0
0.8
0.6
q_i

0.4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0

i/n

Figure 2.3 – Calcul de l’indice de Gini

C
Dans le cas particulier où chaque individu perçoit le même revenu alors xi = n d’où x1 +. . .+xn = C
et qi = ni . La courbe de Lorenz est la droite d’équation y = x

Pour une série statistique fixée, on représente la courbe de Lorenz et la diagonale du carré de côté
1. Plus l’écart entre la courbe de Lorenz et la diagonale est grand et plus la société considérée est
inégalitaire.

L’indice de Gini permet de quantifier cet écart. Il est égal à 2 fois la surface comprise entre la
courbe de Lorenz et la diagonale :
n−1
X qi + qi+1
G=1−
n
i=0
Démonstration
Tout d’abord remarquons que G est égal à 2 fois la surface entre les 2 courbes.
– La surface entre les 2 courbes vaut
la surface sous la diagonale − la surface sous la courbe de Gini
– La surface sous la diagonale est égale à la moitié de la surface du carré soit 12 .
Pn−1
– La surface sous la courbe de Gini est une somme de trapèzes = i=0 Ti où Ti est la surface d’un
trapèze (représenté en gris hachuré sur la figure 2.3)
La largeur de chaque trapèze est ni − i+1 1
n = n Le trapèze est de hauteur qi à gauche et qi+1 à
droite. D’où une surface de
1 11
Ti = qi + (qi+1 − qi )
n 2n
1
= [2qi + qi+1 − qi ]
2n
1
= [qi + qi+1 ]
2n

24
1.0
0.8
0.6
0.4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0

Figure 2.4 – Courbe de Lorenz pour l’exemple USA

Finalement l’indice de Gini vaut


" n−1
#
1 X qi + qi−1
G = 2 −
2 2n
i=0
n−1
X qi + qi−1
= 1−
n
i=0

Il est facile de vérifier que :

" n
#
1 X
G = 1+ 1−2 qi
n
i=0

L’indice de Gini est compris en 0 et 1. Il est proche de 0 si tous les revenus sont égaux.

Exemple 2.12
Dans l’exemple USA, la courbe de Lorenz des revenus des 50 états est donnée sur le graphe 2.4.
L’indice de Gini vaut 0.078. Donc il semble que les revenus soient équitablement répartis entre les
états.

2.5 QQ-plot (graphiques quantile-quantile)


Soit x1 , . . . , xn une série statistique. On peut chercher à savoir si le distribution des données est
gaussienne ou Poisson etc. . . Notons F0 la fonction de répartition de cette loi de probabilité d’intérêt.
Le QQ-plot est un outil graphique permettant de visualiser rapidement l’adéquation de la distri-
bution d’une série numérique à une distribution de référence. Dans ce graphe, on reporte sur l’axe

25
Pays PIB par habitant Consommation d’énergie par habitant
(en $ US, en 2004) (en Tonnes d’équivalent pétrole, en 2002)
Afrique du sud 5700 2.502
Algérie 2575 0.985
Bénin 512 0.340
Egypte 976 0.789
Maroc 1505 0.363
Nigeria 541 0.718
Sénégal 637 0.319
Allemagne 33422 4.198
Espagne 25777 3.215
France 33614 4.470
Grèce 19226 2.637
Italie 28909 2.994
Luxembourg 66808 9.112
Norvège 54894 5.843
Portugal 15835 2.546
Royaume-Uni 35193 3.824
Suède 38746 5.718
Suisse 47577 3.723
Arabie Saoudite 9285 5.775
Chine 1258 0.960
Corée du Sud 13929 4.272
Inde 631 0.513
Iran 2350 2.044
Israel 18404 3.191
Japon 36647 4.058
Koweit 21420 9.503
Philippines 948 0.525
Russie 4071 4.288
Turquie 4296 1.083
Vietnam 520 0.530
Argentine 3808 1.543
Brésil 3210 1.093
Canada 30014 7.973
Colombie 2234 0.625
Etats-Unis 39114 7.943
Paraguay 1032 0.709
Venezuela 4203 2.141
Australie 30498 5.732

Table 2.1 – Ces données sont obtenues du 26


site http ://www.statistiques-mondiales.com/
des ordonnées les fractiles correspondant à la distribution observée et sur l’axe des abscisses ceux
correspondant à la distribution théorique.

En pratique

1. Tableau des quantiles et nuage de points


• Dans le cas d’une variable quantitative dont les valeurs sont regroupées par modalités :
Soient m1 , . . . , mJ les modalités de la série x1 , . . . , xn . On remplit le tableau des fréquences
cumulées. Pour chaque fréquence cumulée, on calcule le quantile théorique i.e. qj tel que

F0 (qj ) = Fj ⇔ qi = F0−1 (Fj )

En général ce calcul se fait par l’utilisation des tables statistiques ou par un logiciel.
On reporte dans un graphique le nuage de points (mj , qj )j=1...J .

Modalités ordonnées m1 ··· mJ


Fréquences cumulées F1 ··· FJ
Quantiles théoriques q1 = F0 (F1 ) · · · qJ = F0−1 (FJ )
−1

• Dans le cas d’une variable quantitative dont les valeurs sont regroupées en classes de mo-
dalité :
On remplit le tableau des fréquence cumulées. Pour chaque fréquence cumulée (bj+1 ) on
calcule le quantile théorique i.e. qj tel que

F0 (qj ) = Fj ⇔ qi = F0−1 (Fj )

 − +
Classe [c− +
1 , c1 [ ... cJ , cJ
Fréq. cumulées F1 ... FJ
Quantiles théoriques q1 = F0 (F1 ) . . . qJ = F0−1 (FJ )
−1

On reporte dans un graphique le nuage de points (bj+1 , qj )j=1...J .


2. Interprétation
• Si les points sont alignées sur la diagonale du carré de côté 1 (1ère bissectrice), alors la loi
théorique proposée (de fonction de répartition F0 ) est adaptée aux observations.
• Si les points sont alignés sur une droite parallèle à la diagonale du carré de côté 1 on
soupçonnera une erreur sur les paramètres de position de la loi théorique.
• Si les points sont alignés sur une droite passant par l’origine mais inclinée par rapport à la
diagonale du carré de côté 1 on soupçonnera une erreur sur les paramètres de dispersion
de la loi théorique.
• Si les points sont alignés sur une droite ne passant pas par l’origine et inclinée par rapport à
la diagonale du carré de côté 1 on soupçonnera une erreur sur les paramètres de dispersion
et de position de la loi théorique.
• Si les points ne sont pas alignés sur une droite la loi théorique n’est pas adaptée aux
observations.

27
Remarque 2.9 :
Si l’on dispose des données individuelles d’une variable aléatoire continue, les modalités sont toutes
les valeurs prises par la série (ordonnées) et les fréquences cumulées sont du type ni .

Remarque 2.10 :
Les QQ-plot peuvent servir aussi à comparer les distributions de deux séries.

Exemple 2.13
On s’intéresse à la distribution du PIB pour les pays du tableau 2.1. On veut comparer leur
distribution avec une gaussienne centrée réduite. Le QQ-plot correspondant est représenté sur la
figure 2.5. Ce graphe indique que la réparition du PIB est significativement différente d’une loi
normale.
4
x 10
8

6
Quantiles of Input Sample

−2

−4
−3 −2 −1 0 1 2 3
Standard Normal Quantiles

Figure 2.5 – QQ-plots pour les données de la Table 2.1

2.6 Exercices
2.6.1 Moyennes
Exercice 2.1
La banque A. propose un placement au taux de 3% la première année et 2.5% les années suivantes.
La banque B. propose quant à elle un placement au taux constant de 2.75% par an. Quel est le
taux moyen pour chaque banque, sur une période de 2 ans ? Pour un placement de 2 ans, quelle
banque devez-vous choisir ?

Exercice 2.2 1. On parcourt un carré de côté 20 km aux vitesses respectives de 80 km/h, 85


km/h, 90 km/h et 95 km/h. Quelle est la vitesse moyenne ?
2. On parcourt un rectangle de côtés respectifs 20 km et 30 km. Le grand côté est parcouru à
110 km/h tandis que le petit coté est parcouru à 130 km/h. Quelle est la vitesse moyenne ?
3. Dans le rectangle précédent, on décide de prendre un raccourci au retour en passant par la
diagonale à 60 km/h. Quel est le temps de parcours final ? Quelle est la vitesse moyenne ?

28
Chapitre 3

Description des distributions


statistiques bivariées

Dans ce chapitre, on s’intéresse aux relations entre deux variables notées X et Y . Supposons que l’on
observe ces deux variables sur n unités statistiques. A chaque individu i, on peut associer un couple
d’observations (xi , yi ). Chaque variable peut être quantitative ou qualitative. Dans une première
partie, on s’intéresse à la présentation des données et nous proposons un indicateur d’indépendance.
Dans une seconde partie nous nous intéressons à la modélisation d’une relation linéaire entre les
deux caractères étudiés.

3.1 Distributions conjointe, marginale et conditionnelle


Notons mX X Y Y
1 , . . . mJ les J modalités de X et m1 , . . . mK les modalités de Y . Si l’une des deux
variables (ou les deux) est quantitative continue, les mX Y
j ou mk sont des classes modales.
Introduisons les quantités suivantes :
• njk est le nombre de fois où le couple (X, Y ) prend la modalité (mX Y
j , mk )
• n•k est le nombre de fois où la variable Y prend la valeur mYk .
• nj• est le nombre de fois où la variable X prend la valeur mX j .
On a
X J XK
njk = n•k et njk = nj•
j=1 k=1

De plus
K X
X J J
X K
X
njk = nj• = n•k = n
k=1 j=1 j=1 k=1

36
3.1.1 Distribution conjointe
Les données peuvent être représentées dans un tableau à double entrée appelé tableau de contin-
gence.
mY1 . . . mYk . . . mYK total
mX 1 n11 . . . n1k . . . n1K n1•
.. .. .. .. ..
. . ... . ... . .
mX j nj1 . . . njk . . . njK nj•
.. .. .. .. ..
. . ... . ... . .
mX
J nJ1 . . . nJk . . . nJK nJ•
n•1 . . . n•k . . . n•K n

Le tableau des fréquences s’obtient en divisant les effectifs par le nombre d’unités statistiques
n. Comme précédemment on définit :
njk n•k nj•
fjk = , f•k = fj• =
n n n

mY1 . . . mYk . . . mYK total


mX
1 f11 . . . f1k . . . f1K f1•
.. .. .. .. ..
. . ... . ... . .
mX j fj1 ... fjk . . . fjK fj•
.. .. .. .. ..
. . ... . ... . .
mX
J fJ1 . . . fJk . . . fJK fJ•
f•1 . . . f•k . . . f•K 1

Remarque 3.1 :
Dans de nombreuses situations, les données individuelles ne sont pas disponibles, on a seulement
accès aux tableaux de contingence.

3.1.2 Distributions marginales


A partir du tableau de contingence, on peut retrouver la distribution de chacune des variables
séparément :
Modalité de Y mY1 . . . mYk . . . mYK total
Fréquence empirique f•1 . . . f•k . . . f•K 1

Modalité de X mX1 . . . mXj . . . mXJ total


Fréquence empirique f1• . . . fj• . . . fJ• 1
Les distributions de X et de Y sont appelées distribution marginales. Sur chaque variable, on
peut calculer les indicateurs habituels (moyenne, variance, écart type si la variable est quantita-
tive. . .). Ces paramètres sont qualifiés d’indicateurs marginaux.

37
3.1.3 Distribution conditionnelle
La ligne j du tableau de contingence représente la répartition sur les modalités (ou classes modales)
(mY1 , . . . , mYK ) des individus pour lesquels le caractère X vaut mXj .
Si on divise les lignes ou les colonnes par leur somme, on obtient les distributions empiriques
constituées des fréquences conditionnelles. Pour j = 1, . . . , J et k = 1, . . . , K, notons :

njk fjk
fk|j = =
nj• fj•
fk|j peut se lire “fréquence de la modalité mYk sachant que X prend la modalité mX
j ”.
On peut alors construire le tableau des profils lignes :

mY1 . . . mYk . . . mYK total


mX
1 f1|1 . . . fk|1 . . . fK|1 1
.. .. .. .. ..
. . ... . ... . .
mX j f1|j . . . fk|j . . . fK|j 1
.. .. .. .. ..
. . ... . ... . .
mX
J f1|J . . . fk|J . . . fK|J 1

Les profils colonnes sont les fréquences en colonne i.e. :


njk fjk
fj|k = =
n•k f•k
Si la variable X est quantitative, on peut calculer les moyennes et variances empiriques condi-
tionnelles : pour tout k = 1 . . . K
J
X J
X
mX|Y =k = fj|k mX
j s2X|Y =k = fj|k (mX
j − mX|Y =k )
2

j=1 j=1

Il s’agit de la moyenne ou de la variance des xi calculées pour les couples dont la variable Y a pour
valeur la k-ième modalité. On peut bien sûr faire de même en échangeant le rôle de X et Y pour
obtenir des moyennes et variances conditionnelles de Y .

3.1.4 Statistique du Chi-deux


En présence de deux variables, l’un des enjeux principaux est d’étudier (c’est à dire quantifier voire
expliquer) la dépendance entre les deux caractères.
Intuitivement, deux caractères sont indépendants si la valeur de l’un n’a aucune influence sur la
distribution de l’autre. Si tel était le cas, alors les distributions conditionnelles seraient toutes
semblables à la distribution marginale : pour tout (j, k), on devrait avoir

fj|k = fj• et fk|j = f•k

Ainsi, on aurait :
fij = fj|k f•k = fj• f•k
D’où, si les 2 variables étaient indépendantes, on aurait
n•j ni•
nij =
n

38
On peut “quantifier la distance à l’indépendance” par la statistique du chi-deux :

J X
X K
(fjk − f•j fi• )2
D χ2 = n
f•j fi•
j=1 k=1
 
XJ X K 2
njk
= n − 1
nj• n•k
j=1 k=1

Ou de façon équivalente :
J X
X K n•j ni• 2
(njk − n )
D χ2 = n•j ni•
j=1 k=1 n

auseuil 5 pourcent, il faut comparer comparer Dχ2 au quantile q0,95 d’orde 95% d’une loi du χ2 à
(J − 1)(K − 1) degré de liberté c’est à dire
– si Dχ2 ≤ q0,95 , on conclue que les deux variables sont dépendantes,
– indépendantes sinon.
Interprétation : La statistique du chi-deux est proche de 0 si les deux caractères sont indépendants.
Elle est maximale s’il existe une dépendance systématique.

3.2 Cas particulier des couples de variables quantitatives


Dans ce cas, les xi et yi sont des nombres

3.2.1 Représentation des données, indicateurs


Dans le cas de variables quantitatives, la première chose à faire est de représenter ces données dans
le plan par un nuage de points de coordonnées (xi , yi ).

Exemple 3.1
Dans l’exemple USA, on considère la variable x = ”Illiteracy” et la variable Y =”Life Expectation”.
Le nuage de points est représenté sur la figure 3.1.

Comme vu précédemment, chaque variable peut être analysée séparément. Ainsi on peut calculer
les moyennes (mX , mY ) , variances (s2X et s2Y ) et écart-types (sX et sY ) pour X et pour Y . Ces
paramètres sont appelés paramètres marginaux.

3.2.2 Covariance et coefficient de corrélation linéaire empiriques


La covariance empirique est définie par
n
1X
sXY = (xi − x)(yi − y)
n
i=1
= xy − x y,
P
où xy = n1 ni=1 xi yi . La covariance permet d’évaluer le sens de variation de deux variables et, ainsi,
de qualifier l’indépendance de ces variables :

39
73
72
Life Expectation

71
70
69
68

0.5 1.0 1.5 2.0 2.5

Illiteracy

Figure 3.1 – Nuage de points du jeu de données USA

Propriétés de la covariance empirique


1. sXY = sY X
2. Si xi = yi pour tout i, alors la covariance est en fait la variance de X.
3. s2X+Y = s2X + s2Y + 2 sXY
4. La covariance peut prendre des valeurs positives ou négatives
Le coefficient de corrélation linéaire est :
sXY
rXY =
sX sY
Propriétés de rXY
1. rXY est toujours compris dans l’intervalle [−1, 1]. C’est une quantité sans dimension.
2. Si xi = yi pour tout i = 1 . . . n, ce coefficient prend la valeur 1.
3. Si rXY est ”assez grand en valeur absolue” et négatif, les points sont globalement alignés sur
une droite décroissante.
4. Si rXY est ”assez grand en valeur absolue” et positif, les points sont globalement alignés sur
une droite croissante.
5. Si rXY est proche de zéro alors il n’y a pas de dépendance linéaire. Cependant, il peut y avoir
une dépendance autre que linéaire (Y = X 2 par exemple).

Exemple 3.2
Sur la figure 3.2 on a représenté des nuages de points et calculé le coefficient de corrélation pour
chacun.
– En haut à gauche, les points sont alignés sur une droite croissante, rXY = 1.
– En haut au milieu, les points sont alignés sur une droite décroissante, rXY = −1.

40
1 -1 0.194

0.739 -0.774 0.404

Figure 3.2 – Exemple 3.2 : Coefficients de corrélation pour chaque nuage de points.

– En bas à gauche, les points semblent suivre une droite croissante sans pour autant être alignés,
rXY = 0.739.
– En bas au milieu, les points semblent suivre une droite décroissante sans pour autant être alignés,
rXY = 0. − 774.
– En haut à droite, aucun motif ne se dessine, rXY est petit et vaut 0.194.
– En bas à droite, les points sont parfaitement répartis selon une courbe qui n’est pas une droite,
rXY est petit.

Exemple 3.3
Dans l’exemple USA, on obtient

x̄ = 1.17 ȳ = 70.8786 s2X = 0.3641 s2Y = 1.76598 sXY = −0.471882 rXY = −0.5884779

3.2.3 Ajustement linéaire d’un nuage de points


On peut chercher à expliquer la relation entre X et Y par une transformation linéaire : Y = aX + b.

41
A partir d’un nuage de points (yi , xi ), i = 1, . . . , n qui semblent alignés, on va chercher la droite
d’équation y = ax + b qui passe au plus près des points du graphe. Passer au plus près, selon la
méthode des moindres carrés, c’est rendre minimale la somme suivante :
n
X
M (a, b) = (yi − axi − b)2
i=1

où (yi − axi − b)2 représente le carré de la distance verticale du point expérimental (yi , xi ) à la
droite considérée comme la meilleure. Cela revient donc à déterminer les valeurs des paramètres a
et b (respectivement le coefficient directeur de la droite et son ordonnée à l’origine) qui minimisent
la somme M (a, b).

Théorème 3.2.1. Soit (xi , yi ) un nuage de points. Le couple (a, b) minimisant le critère des
moindres carrés est
sXY
b
a= 2 et bb = y − b
ax.
sX
a et bb sont appelés estimateurs des moindres carrés de a et b.
b

Démonstration. Le minimum de M (a, b) en (a, b) s’obtient en dérivant M (a, b) par rapport à a et


à b et en annulant ces dérivées partielles.
( P
∂M (a,b)
∂a = −2 ni=1 xi (yi − axi − b) = 0
∂M (a,b) P
∂b = −2 ni=1 (yi − axi − b) = 0

On obtient donc un système à 2 équations et 2 inconnus. En divisant les deux lignes par −2n on
obtient : ( P P P
n
1
n i=1 xi yi − a n1 ni=1 x2i − n1 ni=1 xi b = 0
1 Pn 1 Pn 1 Pn
n i=1 yi − a n i=1 xi − n i=1 b = 0
Ce qui est équivalent à
( Pn P Pn
1
n i=1 xi yi − a n1 ni=1 x2i − 1
n i=1 xi b = 0
y − ax − b = 0

D’où
b = y − ax (3.1)
Donc
n n
1X 1X 2
x i yi − a xi − x(y − ax) = 0
n n
i=1 i=1
Ainsi Pn
1
n i=1 xi yi − x y
a= 1 Pn 2 2
(3.2)
n i=1 xi − x

On reconnaı̂t au numérateur la covariance sXY et au dénominateur la variance s2X Ainsi les


équations (3.1) et (3.2) nous donnent les expressions de ba et bb.
Il faut maintenant vérifier qu’il s’agit bien d’un minimum en calculant le déterminant de la matrice
hessienne  ∂ 2 M (a,b) P

 2∂ 2 a = 2 ni=1 x2i
P
r∂ M (a,b)
∂2b
= 2 ni=1 1 = 2n

 ∂ 2 M (a,b) P
∂a∂b = 2 ni=1 xi = 2nx

42
n
!
X
det HessM = 2 x2i × (2n) − (2nx)2
i=1
n
!
2 1X 2
= 4n xi − x2
n
i=1
= 4n2 s2x >0

Remarque 3.2 :
ax + bb =
Le point moyen de coordonnées (x, y) appartient à la droite des moindres carrés. En effet, b
ax + y − b
b ax = y.
| {z }
b
b

• Prédictions
La droite des moindres carrés permet d’expliquer la relation entre X et Y mais elle permet aussi
de prédire de nouvelles valeurs. Supposons qu’on nous fournisse une nouvelle valeur x? , on pourra
prédire la valeur de Y correspondante par :

ax? + bb
y? = b

• Résidus et valeurs ajustées ou prédites


Maintenant que les a et b optimum ont été trouvés on peut considérer les valeurs ajustées qui
sont obtenues par :
axi + bb, ∀i = 1 . . . n
yi∗ = b
Ce sont les valeurs prédites par la droite de régression pour la valeur xi .
Les résidus sont les différences entre les valeurs observées yi et les valeurs ajustées yi∗ :

ei = yi − yi∗

Ils représentent la partie non-expliquée des yi par la droite des moindres carrés.

Remarque 3.3 :
P P P
axi + bb = b
On a n1 ni=1 yi∗ = n1 ni=1 b ax + bb = y = n1 ni=1 yi car le point (x, y) appartient à la droite
P
des moindres carrés. Par conséquent, la somme des résidus ni=1 ei est nulle.

• Reformulation du coefficient de corrélation linéaire


– On appelle somme des carrés des résidus la quantité
n
X n
X
SCRES = e2i = (yi − yi∗ )2
i=1 i=1

La variance résiduelle est alors


SCRES
s2e =
n

43
– On appelle somme des carrés totale
n
X
SCT OT = (yi − y)2
i=1

Ainsi la variance marginale des yi s’exprime par s2y = SCTnOT .


– On appelle somme des carrés de la regression ou somme des carrés expliquée la quantité
n
X
SCREG = (yi∗ − y)2
i=1

2
Ré-interprétation : rXY est en fait la proportion de la variation de la variable Y expliquée par la
droite des moindres carrés.
2 SCREG
rXY =
SCT OT
Démonstration.
n
SCREG 1X ∗
= (yi − y)2
n n
i=1
n
1X
= (axi + b − ax − b)2
n
i=1
n
X
21 sXY
= a (xi − x)2 or a = s2x
donc
n
i=1
s2XY 2 s2XY 2
= s x = s
s4x s2x s2y y
2 2 SCT OT
= rXY s2y = rXY
n
Par conséquent
2 SCREG
rXY =
SCT OT

Finalement, le carré du coefficient de corrélation linéaire mesure le degré de dépendance


linéaire entre X et Y .

Exemple 3.4
Dans l’exemple USA, on a tracé la droite des moindres carrés sur la figure 3.3.

• Et si on expliquait X par Y ? Le raisonnement précédent ne donne pas le même rôle à X et à


Y . On peut chercher à expliquer X par Y : X = a0 Y + b0 . Comme précédemment la minimisation
du critère des moindres carrés donne :

sXY
a0 = et b0 = x − a0 y
s2y
Si on veut tracer les deux droites sur le même graphe, il faut re-exprimer Y en fonction de X. Les
positions relatives de ces deux droites sont étudiées dans l’exercice 3.10.

44
73
72
Life Expectation

71
70
69
68

0.5 1.0 1.5 2.0 2.5

Illiteracy

Figure 3.3 – Nuage de points du jeu de données USA

3.3 Exercices
Exercice 3.1 (Yeux - Cheveux)
On a étudié la couleur des yeux et des cheveux de 592 étudiants en statistiques de l’Université du
Delaware (Snee 1974). La table de contingence est la suivante :
PP
P PP Yeux Marron Bleu Hazel 1 Vert
Cheveux PPPP
Brun 68 20 15 5
Chatain 119 84 54 29
Roux 26 17 14 14
Blond 7 94 10 16

1. Donner les modalités prises par les 2 variables


2. Donner les distributions empiriques marginales.
3. Donner la distribution conditionnelle de la couleur des cheveux sachant que les yeux sont
bleus.
4. Les deux variables sont-elles indépendantes ?

Exercice 3.2 (Logement-Situation Maritale)


A partir de 200 dossiers d’une agence immobilière, on recense les réponses positives et négatives selon
la situation maritale du demandeur (célibataire ou en couple). On obtient les résultats suivants :
Célibataire En couple
Dossier accepté 34 58
Dossier réfusé 66 42
1. Hazel est un mélange de marron et vert

45
Chapitre 4

Indices statistiques

Les indices permettent de mesurer l’évolution d’un phénomène au cours du temps. Dans ce chapitre
nous donnons les propriétés principales des indices et nous introduisons les indices de Laspeyres et
de Paasches.

4.1 Indices élémentaires


4.1.1 Définition
Soit x(t) une quantité observée au cours du temps. On appelle indice élémentaire le rapport des
valeurs prises par la série à deux dates différentes :

x(t)
It/t0 =
x(t0 )

Remarque 4.1 :

– De la même façon, on peut construire des indices pour des séries dont les valeurs sont mesurées
en différents lieux (dans ce cas là, t représente un lieu).
– Il suffit de multiplier l’indice par 100 pour l’exprimer en pourcentage.

4.1.2 Exemple et interprétation


A l’occasion d’Halloween, le CENSUS Bureau publie les chiffres de la production de citrouilles.
Pour les années 2008, 2009 et 2010 on relève les chiffres suivants :

année Production en Cwt 1 (q(t)) Prix à l’unité ($/Cwt) 2 (p(t)) Valeur totale (v(t))
2008 1 484 000 12.50 18 550
2009 1 479 000 13.90 20 558
2010 1 860 000 10.10 18 786

2. prix moyen payé aux producteurs au premier point de vente


2. 1 Cwt = 45 kg

51
On peut calculer les indices élémentaires pour la production, le prix à l’unité et la valeur totale.
On constate que la production de citrouilles a rapporté 10.77% de plus en 2009 qu’en 2008
20558
I2009/2008 (v) · 100 = 100 ≈ 110.77
18550

alors que la production pour ces mêmes années avait baissé de 0.34%
1479000
I2009/2008 (q) · 100 = 100 ≈ 99.66
1484000

4.1.3 Propriétés
Les indices élémentaires vérifient les propriétés de circularité et de réversibilité définies ci-dessous.
• Circularité : considérons trois dates (t1 , t2 , t3 ). On a :

It1 /t3 = It1 /t2 It2 /t3

En effet,

x(t1 ) x(t1 ) x(t2 )


It1 /t3 = = = It1 /t2 It2 /t3
x(t3 ) x(t2 ) x(t3 )

Conséquences
– A partir d’une série d’indices calculés en des temps intermédiaires, on peut calculer un indice
global sur la période.
– En outre, si on dispose d’indices calculés par rapport à une date de référence –l’année 0– It/0
et It0 /0 , alors on peut calculer l’indice It/t0 par la formule :

It/0
It/t0 =
It0 /0

En effet, It/0 = It/t0 It0 /0 par la propriété de circularité. D’où la formule précédente.

• Réversibilité : soient deux dates t et t0 , on a


1
It/t0 =
It0 /t

Remarque 4.2 :
Attention, si on considère des indices exprimés en pourcentage les formules précédentes sont légèrement
modifiées.

4.1.4 Des indices élémentaires aux indices synthétiques


Les indices élémentaires présentés précédemment permettent de suivre l’évolution d’une unique
quantité au cours du temps. Cependant, afin de rendre compte d’une situation ou d’un contexte
économique complexe, on peut être amené à combiner des grandeurs non homogènes (non som-
mables) pour proposer un indice dit synthétique.

52
Exemple 4.1
Un fabricant de linge de maison cherche à connaı̂tre l’évolution de sa situation économique entre
deux années. Chaque année, il produit d’une part des torchons dont on note q1 (t) la quantité
produite et p1 (t) le prix à l’unité. D’autre part, il produit des serviettes dont on note q2 (t) la quantité
produite et p2 (t) le prix à l’unité. Pour chaque produit i, on peut observer l’indice des revenus
apportés I1 (t/0) = ppii(0)q
(t)qi (t)
i (0)
. Cependant, les torchons et les serviettes ne sont pas sommables.
Comment peut-on combiner ces deux indices élémentaires ?

Il existe un infinité de façon de combiner les grandeurs d’intéret. Les indices synthétiques les plus
connus sont les indices de Laspeyres et de Paasche : ces deux indices sont des moyennes pondérées
des indices élémentaires.

4.2 Indices de Laspeyres et de Paasche


Considérons un ‘panier” composé de n produits. Notons pi (t) le prix du produit i l’année t et qi (t)
la quantité consommée de produit i l’année t. Les quantités et les prix varient entre la date 0 et la
date t.

4.2.1 Indice de Laspeyres


L’indice de Laspeyres des prix est
Pn
pi (t)qi (0)
Lt/0 (p) = Pni=1
i=1 pi (0)qi (0)

Ainsi, partant d’un ‘panier de référence” caractérisé par les quantités qi (0), l’indice de Lapeyres des
prix mesure l’évolution du prix à payer pour ce panier de référence. Cet indice ne tient pas compte
de l’évolution de la composition du panier donc des habitudes de consommation.

L’indice de Laspeyres vu comme somme pondérée des indices élémentaires :


En effet, on peut réécrire l’indice de Laspeyres de la façon suivante :

Pn
p (t)qi (0)
Lt/0 (p) = Pni=1 i
j=1 pj (0)qj (0)
n
X q (0)pi (0) pi (t)
= Pn i
i=1 j=1 pj (0)qj (0) pi (0)
n
X
= wi (0)Ii,t/0
i=1

où Ii,t/0 est l’indice élémentaire pour les prix. wi (0) = Pnqi (0)p i (0)
est un poids représentant la
j=1 pj (0)qj (0)
part du produit i dans la consommation globale à l’instant de référence. Ces poids sont appelés
P
coefficients budgétaires pour la période de référence. On peut remarquer que ni=1 wi (0) = 1.
Finalement, l’indice de Laspeyres s’écrit comme une moyenne arithmétique des indices élémentaires
de chaque produit.

53
De la même façon, on définit l’indice Lapeyres des quantités :
Pn
pi (0)qi (t)
Lt/0 (q) = Pni=1
i=1 pi (0)qi (0)

Cet indice ne tient pas compte de la variation de prix mais seulement de la variation des quantités.

4.2.2 Indice de Paasche


L’indice de Paasche s’écrit de la façon suivante :
Pn
pi (t)qi (t)
Πt/0 (p) = Pni=1
i=1 i (0)qi (t)
p
Ainsi, partant d’un panier dont les consommations sont définies à l’instant t, on calcule rétrospectivement
P
son coût à l’instant de référence ni=1 pi (0)qi (t) et on le compare au coût du panier à l’instant t.

Remarque 4.3 :
De la même façon, on peut définir l’indice de Paasche des quantités :
Pn
pi (t)qi (t)
Πt/0 (q) = Pni=1
i=1 pi (t)qi (0)

L’indice de Paasche vu comme moyenne harmonique des indices élémentaires :

On peut réécrire l’inverse de l’indice de Paasche de la façon suivante :


Pn Pn
1 i=1 pi (0)qi (t) Pnpi (t)qi (t) pi (0)
Πt/0 (p) = Pn = i=1
j=1 pj (t)qj (t) j=1 pj (t)qj (t) pi (t)
Pn 1
= i=1 wi (t) Ii,t/0

où wi (t) = Pnpi (t)q i (t)


quantifie la part du produit i dans le coût de la consommation globale à
j=1 pj (t)qj (t)
l’instant t. Ces poids sont les coefficients budgétaires à l’instant t. Finalement :
1
Πt/0 (p) = Pn 1
i=1 wi (t) Ii,t/0

L’indice de Paasche est une moyenne pondérée harmonique des indices élémentaires de chaque
produit.

Remarque 4.4 :
L’indice de Paasche nécéssite la mise à jour des coefficients budgétaires et est donc moins aisé à
utiliser que l’indice de Laspeyres

4.2.3 Remarques sur les indices de Laspeyres et Paasche


• Propriétés de réversibilité et de circularité
En combinant diverses séries statistiques, les indices synthétiques perdent généralement leurs
propriétés de circularité et de réversibilité.

54
• Evolution du coût total du panier
Considérons le panier composé des n produits précédents. On s’intéresse alors à l’évolution
conjointe des quantités consommées et des prix des produits. Pour cela, on étudie l’indice
P
élémentaire de la série ni=1 qi (t)pi (t).
On remarque que :
Pn
qi (t)pi (t)
It/0 = Pni=1
q i (0)pi (0)
Pi=1
n P
i=1 qi (t)pi (t) ni=1 qi (t)pi (0)
= Pn Pn
i=1 qi (t)pi (0) i=1 qi (0)pi (0)
= Πt/0 (p)Lt/0 (q)
Lt/0 (q) permet de mesurer l’effet de la variation des quantités tandis que Πt/0 (p) permet de
quantifier l’effet de la variation des prix : les indices de Laspeyres des quantités et de Paasche
permettent de dissocier les variations des quantités de celle des prix. De la même façon on montre
que :

Pn
qi (t)pi (t)
It/0 = Pni=1
qi (0)pi (0)
Pi=1
n P
qi (t)pi (t) ni=1 qi (0)pi (t)
= Pni=1 Pn
i=1 qi (0)pi (t) i=1 qi (0)pi (0)
= Πt/0 (q)Lt/0 (p)
• Comparaison des indices de Laspeyres et de Paasche
On sait que la moyenne harmonique est plus petite que la moyenne arithmétique donc si les poids
wi (t) ne variaient pas au cours du temps (wi (0) = wi (t)), on aurait que l’indice de Paasche est
inférieur à l’indice de Laspeyres.
L’hypothèse des poids constants n’est pas réaliste et donc cette comparaison n’est pas valable
théoriquement mais on remarque que, en pratique, l’indice de Paasche est souvent plus petit que
l’indice de Laspeyres.
• Théorie du consommateur et indice des prix
L’indice de Laspeyres est connu pour sous-estimer une hausse des prix. En effet, faisons l’hy-
pothèse réaliste qu’un consommateur quelconque aura tendance à consommer plus un produit
dont le produit diminue et inversement. Autrement dit :
pi (0) ≤ pi (t) implique qi (t) ≤ qi (0)
pi (t) ≤ pi (0) implique qi (0) ≤ qi (t)

En reprenant la formule de l’indice de Laspeyres des prix,


Pn
pi (t)qi (0)
Lt/0 (p) = ni=1
P
i=1 i (0)qi (0)
p
on remarque que au numérateur en prenant qi (0) au lieu de qi (t) on surestime les quantités
consommées des produits dont les prix ont augmenté et on sous-estime les quantités des produits
dont les prix ont diminué. Donc l’indice de Laspeyres a tendance à sur-estimer la hausse.

Inversement (en échangeant le rôle de q et q), on peut intuiter que l’indice de Paasche aura
tendance à sous-estimer la hausse.

55
4.2.4 Un compromis : l’indice de Fisher
Afin de faire un compromis entre l’indice de Laspeyres (qui surestime la hausse) et de Paasche (qui
sous-estime la hausse), on peut proposer l’indice de Fisher :
q
Ft/0 = Πt/0 (p)Lt/0 (p)

qui est la moyenne géométrique entre l’indice de Laspeyres et l’indice de Paasche. En tant que
moyenne géométrique, l’indice de Fisher est compris entre les indices de Laspeyres et de Paasche.

4.3 Les indices-chaı̂nes


L’indice de Laspeyres précédemment décrit souffre du fait que la pondération wi (0) vieillit. En
effet, plus on s’éloigne de l’année de référence, plus les pondérations wi (0) sont vieilles donc po-
tentiellement loin des coefficients budgétaires au temps t : au cours du temps, les habitudes de
consommation, les préférences sont modifiées et les poids devraient évoluer.
Une solution serait donc de modifier la date de référence mais dans ce cas, il devient difficile de
comparer des indices ayant des bases différentes.
La solution proposée est de définir les indices chaı̂nes : considérons les dates t0 , . . . , tK . Pour
chaque date on calcule l’indice de Laspeyres en prenant pour base l’année précédente : Ltk /tk−1 .
L’indice chaine de Laspeyres est le produit de ces indices :

K
Y
CLtK /t0 = Ltk /tk−1
k=1

De la même façon on peut définir l’indice chaı̂ne de Paasche.

Remarque 4.5 :
On peut utiliser ce principe de chaı̂nage quand la façon de calculer l’indice a été modifiée au cours
du temps.

4.4 Indice des prix de l’INSEE


D’après l’INSEE, l’indice des prix à la consommation est l’instrument de mesure de l’inflation. Il
permet d’estimer, entre deux périodes données, la variation du niveau général des prix des biens
et des services consommés par les ménages sur le territoire français. C’est une mesure synthétique
des évolutions de prix à qualité constante. Les prix sont relevés dans 106 agglomérations de plus
de 2000 habitants dispersées sur tout le territoire et de toute taille ; un échantillon d’un peu plus
de 1000 familles de produits, appelées ‘variétés” est défini pour tenir compte de l’hétérogénéité des
produits au sein de 161 groupes de produits. On aboutit ainsi à 21000 indices élémentaires. L’Indice
de Laspeyres chaı̂né annuellement est alors utilisé pour combiner ces 21000 indices élémentaires.

Remarque 4.6 :
A noter que l’INSEE fournit un simulateur d’indice des prix personnalisés http: // www. insee.
fr/ fr/ indicateurs/ indic_ cons/ sip/ sip. htm . Il est possible de régler ses propres pondérations

56
Chapitre 1

Introduction au calcul des


probabilités

1 Espaces Probabilisés
Un des buts du calcul des probabilités est de fournir un formalisme permettant de trai-
ter mathématiquement des phénomènes aléatoires. On appelle phénomène aléatoire une
procédure ou expérience (de la vie quotidienne, scientifique ...), qui produit un résultat
(ou issue) dont on ne peut dire à l’avance ce qu’il sera. Par exemple : lancer une pièce de
monnaie, lancer un dé 6 faces, le déplacement d’une particule physique...
La théorie des probabilités propose de modéliser ces phénomènes par un triplet d’objets
mathématiques :
– un ensemble Ω,
– une certaine classe de parties de Ω,
– et une fonction sur les parties de Ω.
Nous allons tout d’abord définir plus précisement chacun des éléments de ce triplet.

1.1 Espace des possibles


Définition 1.1 :
On appelle espace des possibles ou univers, l’ensemble des résultats possibles d’une
expérience dont le résultat n’est pas prévisible. On notera cet espace Ω. Chaque élément de
Ω est noté ω.

Notons que Ω n’est pas imposé par l’expérience mais qu’il résulte d’un choix. Ce choix
dépend du phénomène que l’on veut étudier. Ainsi pour un lancer de 2 pièces de monnaie,
on peut faire le choix de distinguer ou non ces pièces.

Exemple 1
On lance 2 pièces ,
– on peut prendre Ω = {(P, P ), (F, F ), (P, F ), (F, P )}.
– Cependant si les 2 pièces sont indiscernables, on peut réduire Ω à Ω = {(P, P ), (F, F ), (P, F )}
si les 2 pièces sont indiscernables.

4
Exemple 2
L’ensemble des possibles Ω peut être un ensemble aussi ”grand” que nécessaire. Par exemple
en physique, si l’on considère le déplacement d’une particule comme un phénomène aléatoire
et que l’on s’intéresse à sa position au temps t, Ω = R3 .

1.2 Rappels sur les ensembles


L’espace Ω peut donc être très grand. Le plus intéressant n’est pas nécessairement le résultat
précis de l’expérience mais un aspect particulier de l’expérience : une partie de Ω.

Exemple 3
Si on lance un dé, on peut vouloir regarder ”le nombre qui sort est impair”. Dans ce cas
l’événement ”le nombre qui sort est impair” est réalisé si le résultat de l’expérience aléatoire
appartient à l’ensemble {1, 3, 5}.
Notons que l’on identifie un événement à une partie de Ω généralement notée par une lettre
majuscule (A, B,...). Ici, l’événement ”le nombre qui sort est impair” sera noté A = {1, 3, 5}.

Avant de définir plus rigoureusement la notion d’événement, rappelons quelques corres-


pondances entre le language ensembliste et le language probabiliste, ainsi que quelques
notations et autres propriétés utiles.
Soient A, B deux parties de l’espace Ω et ω un point (résultat possible) de Ω.
– On dit que A est réalisé → on note ω ∈ A.
– On dit A ou B → on note A ∪ B (A union B).
– On dit A et B → on note A ∩ B (A inter B)

Définition 1.2 :
Soient l’ensemble des possibles Ω et une partie A ⊂ Ω, on appelle complémentaire de A
et on note Ac , l’ensemble tel que

A ∩ Ac = ∅ et A ∪ Ac = Ω.

Notons que le complémentaire de Ω est l’ensemble vide ∅, Ωc = ∅ (réciproquement, ∅c = Ω).

Définition 1.3 :
Soient l’ensemble des possibles Ω, A ⊂ Ω et B ⊂ Ω , on dit que A et B sont incompatibles
si A ∩ B = ∅.

Exemple 4
Reprenons l’exemple du lancer d’un dé :
– Ω = {1, 2, 3, 4, 5, 6}.
– Soit A l’événement ”le nombre qui sort est impair” : A = {1, 3, 5}, Alors l’événement
contraire de A est ”le nombre qui sort est pair” : Ac = {2, 4, 6}.
– Soit B l’événement défini comme B = {2, 4}, alors A et B sont incompatibles car A∩B =
∅.

5
Propriétés 1.1 :
Soient A, B et C trois parties de Ω :

(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C).

Lemme 1.1. Soient A et B deux parties de Ω :

A = (A ∩ B) ∪ (A ∩ B c ).

Notons que le Lemme 1.1 est très utile pour le calcul de probabilité.
Preuve : Si B ⊂ Ω, on a par la Définition 1.2, Ω = B ∪ B c . De plus, pour A ⊂ Ω, A = A ∩ Ω.
Ainsi par la propriété 1.1

A = A ∩ Ω = A ∩ (B ∪ B c ) = (A ∩ B) ∪ (A ∩ B c ).

Propriétés 1.2 (Loi de Morgan) :


Soient (Ai )i=1,·,n n parties de Ω, alors

n
!c n
[ \
Ai = Aci , (1.1)
i=1 i=1
n
!c n
\ [
Ai = Aci . (1.2)
i=1 i=1

Une notion importante pour le calcul de probabilité est la notion de partition.

Définition 1.4 :
On appelle partition dénombrable de Ω, toute suite (Ai )i∈I de parties de Ω, avec I ⊂ N
telle que
[
Ai = Ω,
i∈I
Ai ∩ Aj = ∅, ∀i ∈ I, j ∈ I, i 6= j.

Remarquons que pour A ∈ Ω, le couple (A, Ac ) forme une partition de Ω.

1.3 Espace probabilisable


Nous avons vu que les événements sont représentées par des parties de Ω, notées par des
lettres majuscules (A, B,...). Nous noterons par une lettre calligraphique A, la classe des
événements de Ω. On peut se demander si A = P(Ω), où P(Ω) est la classe de toutes les
parties de Ω. Dans l’exemple du lancer d’un dé, il est simple de voir que A = P(Ω). En
revanche, pour un ensemble Ω plus gros tel que R2 , il ne devient plus possible de considerer
P(Ω) comme l’ensemble des événements.
De plus, pour une expérience donnée, la classe A choisie pour la modélisation est liée à
la connaissance que l’observateur a de la réalisation de l’expérience aléatoire. Prenons un
exemple.

6
Exemple 5
On lance 2 dés, prenons Ω = {1, 2, 3, 4, 5, 6}2 et P(Ω) = {(i, j), 1 ≤ i ≤ 6, 1 ≤ j ≤ 6}.
Intéressons nous aux événements observables, à la classe des événements A,
– A = P(Ω) si l’on distingue les 2 dés.
– En revanche, si les 2 dés sont indicernables A = {(i, j), 1 ≤ i ≤ j ≤ 6} =6 P(Ω).

On comprend donc qu’il existe différents choix possibles pour la classe A. Il convient ce-
pendant d’imposer certaines propriétés à cette classe. On demandera à la classe A d’être
une tribu (ou σ−algèbre).

Définition 1.5 :
Un ensemble A de parties de Ω est appelé tribu (ou σ−algèbre) s’il vérifie les propriétés
suivantes :
1. Ω ∈ A
2. Stabilité par passage au complémentaire : si A ∈ A alors Ac ∈ A.
3. Stabilité par union dénombrable : si (Ai )i∈N est une suite d’éléments de A alors
S
i∈N Ai ∈ A.

Notons que les points 1. et 2. impliquent que ∅ ∈ Ω.

Définition 1.6 :
Le couple (Ω, A) constitué par un ensemble Ω et une tribu A de parties de Ω est appelé
espace probabilisable. Les éléments de A sont appelés événements.

Quelques événements importants :


– L’élément (point) ω de Ω est appelé événement élémentaire.
– L’espace Ω est appelé événement certain.
– L’ensemble vide ∅ est appelé événement impossible.

1.4 Mesure de probabilité, espace probabilisé


Précédemment, nous avons vu une description qualitative de l’expérience. On se doute bien
qu’il existe des événements ”plus probables” que d’autres. Dans l’exemple du lancer de
dé, l’événement ”le résultat est pair” a plus de chance de se réaliser que l’événement ”le
résultat est 5”. En fait, nous voulons associer à chaque événement A ∈ A une mesure P (A)
qui représente le nombre de chances qu’il a de se réaliser et tel que pour tout événement
A ∈ A,
0 ≤ P (A) ≤ 1.
L’événement certain Ω doit bien entendu avoir 100% de chance de se réaliser, on doit donc
imposer
P (Ω) = 1,
l’événement impossible ∅ doit avoir 0 chance de se réaliser donc

P (∅) = 0.

7
De plus, pour deux événements incompatibles A ∈ A et B ∈ A (qui ne peuvent se réaliser
en même temps A ∩ B = ∅), il est naturel d’avoir

P (A ∪ B) = P (A) + P (B). (1.3)

La propriété (1.3) se généralise de manière suivante : pour toute suite (Ai )i∈N de Ω telle
que ∀i 6= j, Ai ∩ Aj = ∅, [ X
P ( Ai ) = P (Ai ). (1.4)
i∈N i∈N

Cette propriété est la propriété de σ−additivité.

Définition 1.7 :
On appelle loi de probabilité (ou mesure de probabilité, ou probabilité, ou loi) sur (Ω, A)
toute application P définie de A à valeurs dans [0, 1] qui satisfait :
– 0 ≤ P (A) ≤ 1, pour tout A ∈ A et P (Ω) = 1,
– pour toute suite (Ai )i∈N de parties de Ω telles que ∀i 6= j, Ai ∩ Aj = ∅,
[ X
P( Ai ) = P (Ai ).
i∈N i∈N

On appelle espace probabilisé (ou modèle probabiliste), le triplet (Ω, A, P ).

On peut déduire de la Définition 1.7 les propriétés suivantes :

Propriétés 1.3 :
Soit (Ω, A, P ) un modèle probabiliste,
– Pour tout A ∈ A, son complémentaire Ac ∈ A vérifie

P (Ac ) = 1 − P (A). (1.5)

– Pour tout A ∈ A et B ∈ A

P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (1.6)

– Pour tout A ∈ A et B ∈ A,
A ⊆ B ⇒ P (A) ≤ P (B) (1.7)

2 Loi de probabilité sur un ensemble Ω fini. Analyse combi-


natoire
2.1 Exemple introductif
On s’intéresse au lancer d’un dé. Nous avons vu que Ω = {1, 2, 3, 4, 5, 6}, et A = P(Ω). Ici
les événements élémentaires sont

{i} := ωi , i = 1, · · · , 6

8
et ont la même probabilité pi de se réaliser
1
pi = P ({i}) = P (ωi ) = , i = 1, · · · , n,
6
X6 6
X1
P (ωi ) = = 1.
6
i=1 i=1

Alors si A est l’événement ”le résultat est pair”, A = {2, 4, 6} = {2} ∪ {4} ∪ {6} et

card(A) 3
P (A) = = ,
card(Ω) 6

où card(A) dénote le cardinal de A, c’est à dire le nombre d’événements élémentaires


réalisant A. Cette probabilité est appelée équiprobabilité (ou probabilité uniforme sur Ω)
et est résumée par la fameuse phrase ”nombre de cas favorables sur nombre de cas possibles”.

Remarquons que l’ensemble des éveènements élémentaires {ω1 , · · · , ω6 } = {{1}, · · · , {6}}


forme une partion de Ω = {1, 2, 3, 4, 5, 6} :
6
[ 6
[
{i} = ωi = Ω,
i=1 i=1
{i} ∩ {j} = ωi ∩ ωj = ∅, ∀i 6= j, 1 ≤ i ≤ 6, 1 ≤ j ≤ 6.

et on a donc :
6
[ 6
X 6
X 1
1 = P (Ω) = P ( ωi ) = P (ωi ) = = 1.
6
i=1 i=1 i=1

2.2 Loi de probabilité uniforme sur un ensemble Ω fini


Lorsque tous les résultats possibles d’une expérience aléatoire ont la même chance de se
réaliser, on fait l’hypothèse d’équiprobabilité. Soit Ω = {ω1 , · · · , ωN } un ensemble de car-
dinal fini N ,
– s’il existe une probabilité unique, appelée probabilité uniforme sur Ω, telle que tous les
(ωi )i=1,··· ,N aient la même probabilité,
– si pour tout i ∈ {1, · · · , N }, on note pi = P (ωi ), on a alors pour tout i ∈ {1, · · · , N }
1
pi = .
card(Ω)

Pour tout A ∈ A,
card(A) card(A)
P (A) = = .
card(Ω) N
Le calcul de telles probabilités fait appel à l’analyse combinatoire.

2.3 Analyse combinatoire


Avant d’entrer plus en détails dans ce que nous appellerons l’analyse combinatoire (ou
dénombrement), rappelons un principe important : le principe multiplicatif. Imaginons deux

9
expériences dont les nombres de résultats possibles sont respectivement n1 et n2 . Alors à
l’issue des 2 expériences il y a n1 × n2 résultats possibles. Prenons un exemple pour bien
comprendre le principe multiplicatif. Soit 10 femmes qui possèdent chacune 3 filles, alors il
existe 10 × 3 = 30 couples ”mère-fille” différents.
Il est possible de généraliser ce principe à r ≥ 2 expériences.

Théorème 2.1. Soient r ≥ 2 expériences avec respectivement n1 résultats possibles pour la


première, n2 résultats possibles pour la seconde,...,et nr résultats possibles pour la dernière
(soit la rième) alors il y a au total n1 ×n2 ×· · ·×nr résultats possibles pour les r expériences
prises ensemble.

Théorème 2.2.
– Le nombre de permutations (c’est à dire le nombre de façons d’arranger, de plaçer, de
choisir) de n objets distinguables est

n! = n × (n − 1) × ... × 1.

C’est le nombre de bijections d’ensemble à n éléments. L’écriture n! se lit ”factorielle n”.


NB : Par convention 0! = 1.
– Le nombre de permutations de n objets parmi lesquels n1 sont indistinguables entre
eux, n2 entre eux, ... , nr entre eux est
n!
,
n1 !n2 !...nr !
Pr
tel que i=1 ni = n.

Théorème 2.3.
– Le nombre d’arrangements de r éléments choisis parmi n sans répétitions est noté Arn : il
y a n choix à la première étape, n−1 choix à la deuxième étape, n−2 choix à la troisième
étape,... , n − (r + 1) choix à la r−ième étape. Le résultat est donc n(n − 1)...(n − r + 1),
c’est le nombre d’injections d’un ensemble à r éléments dans un ensemble à n éléments
n!
Arn = n(n − 1) · · · (n − r + 1) =
(n − r)!

– Le nombre de combinaisons de r objets pris parmi n, ou encore le nombre de groupes de


taille r si, dans ce choix, l’ordre n’est pas considéré comme significatif est
n!
Cnk = (nk ) = .
(n − k)!k!

Théorème 2.4. Pour tout 1 ≤ r ≤ n, avec r et n entiers


r−1
Cnr = Cn−1 r
+ Cn−1

Théorème 2.5. (Binôme de Newton) Pour tout n ∈ N


n
X
n
(a + b) = Cnk ak bn−k .
k=0

10
3 Probabilité conditionnelle
Exemple introductif
On choisit au hasard (c’est à dire selon une probabilité uniforme) un(e) étudiant(e) dans
une classe de 30 élèves (card(Ω) = 30). On considère les événements A =”la personne est
une fille” et B =”la personne a eu la moyenne au dernier partiel”. On a vu précédemment
que
card(A) card(B) card(A∩B)
P (A) = 30 , P (B) = 30 et P (A ∩ B) = 30 .

On sait que l’on a choisi une fille (événement A), quelle est alors la probabilité qu’elle ait
la moyenne au dernier partiel (événement B). Pour que B ait lieu, il faut que l’issue ω
appartienne à l’événement A ∩ B. Donc la probabilité que ”la personne a eu la moyenne
au dernier partiel” sachant que ”la personne est une fille” est égale au nombre de cas
favorables sur le nombre de cas possibles

card(A ∩ B)
,
card(A)

soit si P (A) 6= 0

card(A ∩ B) card(A ∩ B) 30 P (A ∩ B)
= × = .
card(A) 30 card(A) P (A)

On appelle cette probabilité, probabilité conditionnelle de B sachant A et on la note

P (A ∩ B)
P (B|A) = PA (B) = .
P (A)

Définition 3.1 :
Soit (Ω, A, P ) un espace de probabilité et A un événement de probabilité non nulle (P (A) 6=
0). On appelle probabilité conditionnelle d’un événement B ∈ A sachant A et l’on note
P (B|A) (ou PA (B)) le nombre défini par

P (A ∩ B)
P (B|A) = PA (B) = .
P (A)

Notons que l’application B 7→ P (B|A) définie sur A est une probabilité sur (Ω, A) portée
par A. Autrement dit, on peut énoncer le théorème suivant :

Théorème 3.1. Pour tout A ∈ A tel que P (A) 6= 0 on a :


1. Pour tout événement B, 0 ≤ P (B|A) ≤ 1.
2. P (Ω|A) = 1.
3. Soient (Bi )i∈N une suite d’événements tels que ∀i 6= j, Bi ∩ Bj = ∅, alors
[ X
P ( Bi |A) = P (Bi |A).
i∈N i∈N

Preuve : Pour P (A) 6= 0

11
1. P (A ∩ B) ≥ 0 et (A ∩ B) ⊂ A donc par (1.7),

P (A ∩ B)
P (B|A) = ≥ 0,
P (A)
P (A ∩ B) P (A)
P (B|A) = ≤ = 1.
P (A) P (A)

2. Comme (A ∩ Ω) = A,

P (A ∩ Ω) P (A)
P (Ω|A) = = = 1.
P (A) P (A)

3. Soient (Bi )i∈N des événements tels que ∀i 6= j, Bi ∩ Bj = ∅, on a par la Propriété 1.1
S S
que A ∩ ( i∈N Bi ) = i∈N (A ∩ Bi )
S S
[ P (A ∩ ( i∈N Bi )) P ( i∈N (A ∩ Bi )
P ( Bi |A) = =
P (A) P (A)
i∈N
X P (A ∩ Bi ) X
= = P (Bi |A).
P (A)
i∈N i∈N

3.1 Formule des probabilités totales


Nous avons vu la notion de partition dénombrable (Définition 1.4). Introduisons une nou-
velle définition en vue d’introduire la formule des probabilités totales.

Définition 3.2 :
Soit un espace de probabilité (Ω, A, P ), on appelle système complet d’événements (s.c.e.)
de A, toute partition dénombrable de Ω formée d’événements non impossibles, c’est à dire
tel que pour tout I ⊂ N
– ∀i ∈ I, P (Ai ) 6= 0.
S
– i∈I Ai = Ω.
– Ai ∩ Aj = ∅, ∀(i, j) ∈ I 2 et i 6= j, on dit que les événements Ai s’excluent mutuel-
lement.

Exemple 6
Soit A ∈ A un événement tel que P (A) 6= 0, alors (A, Ac ) forme un s.e.c. et tout événement
B ∈ A peut s’écrire
B = (B ∩ A) ∪ (B ∩ Ac ),
où (B ∩ A) et (B ∩ Ac ) sont deux événements incompatibles. Ainsi par la propriété de
σ−additivité (1.4) et par définition de la probabilité conditionnelle (Définition 3.1) on a

P (B) = P ((B ∩ A) ∪ (B ∩ Ac )) = P (B ∩ A) + P (B ∩ Ac )
= P (B|A)P (A) + P (B|Ac )P (Ac ).

C’est la formule des probabilité totales

12
Théorème 3.2 (Formule des probabilité totales généralisée). Soient un espace de
probabilité (Ω, A, P ), et (Ai )i∈I un système complet d’événements (s.c.e.) de A, alors pour
tout B ∈ A
X
P (B) = P (B|Ai )P (Ai ). (1.8)
i∈I

3.2 Formule de Bayes


Théorème 3.3 (Formule de Bayes). Soient un espace de probabilité (Ω, A, P ), et (Ai )i∈I
un système complet d’événements (s.e.c) de A, alors pour tout B ∈ A tel que P (B) 6= 0 et
pour tout i ∈ I
P (B ∩ Ai )
P (Ai |B) = P . (1.9)
i∈I P (B|Ai )P (Ai )

P
Preuve : Comme (Ai )i∈I un s.e.c, P (B) = i∈I P (B|Ai )P (Ai ) et
P (B ∩ Ai )
P (Ai |B) = .
P (B)

3.3 Indépendance
Dans la plupart des cas, la probabilité P (B|A) est différente de la probabilité P (B), c’est
à dire P (B|A) 6= P (B). En d’autres termes, la réalisation ou non de l’événement A influe
sur la réalisation de B. Prenons l’exemple du lancer de deux dés et notons A =”la somme
des deux dés est paire” et B =”la somme des deux dés est supérieure ou égale à 4”. Il
est trivial de voir que si A s’est réalisé, la probabilité de B sachant que A s’est réalisé est
différente (ici plus petite) de la probabilité de B. On dira que les événements A et B sont
dépendants. Que sont alors deux événements indépendants ? Intuitivement ceux sont des
événements tels que la réalisation de l’un n’influe pas sur la réalisation de l’autre, c’est à
dire :
P (B ∩ A)
P (B|A) = P (B) ⇔ = P (B) ⇔ P (B ∩ A) = P (A)P (B).
P (A)

Définition 3.3 :
Deux événements A et B sont indépendants ssi P (B ∩ A) = P (A)P (B).

Proposition 3.1. Si A et B sont deux événements indépendants, alors A et B c sont


indépendants de même que Ac et B et que Ac et B c .
Preuve : Remarquons tout d’abord que l’événement A = (A ∩ B) ∪ (A ∩ B c ), avec (A ∩ B)
et (A ∩ B c ) deux événements incompatibles, ainsi

P (A) = P (A ∩ B) + P (A ∩ B c ) ⇔ P (A ∩ B c ) = P (A) − P (A ∩ B).

De plus A et B sont deux événements indépendants alors P (B ∩ A) = P (A)P (B) et

P (A ∩ B c ) = P (A) − P (A)P (B) = P (A)(1 − P (B)) = P (A)P (B c ).

13
De même pour les autres cas.

Définition 3.4 :
Des événements A1 , · · · , An sont mutuellement indépendants ssi, pour tout ensemble
d’indices J ⊂ {1, 2, · · · , n},
 
\ Y
P Aj  = P (Aj ).
j∈J j∈J

4 Exercices

Exercice 1.1.
Une petite communauté se compose de 10 hommes et de leurs fils, chaque homme ayant
3 fils. Si on veut désigner un couple ”père-fils” pour une randonnée, combien y a t il de
couples possibles ?

Exercice 1.2.
1) Combien de plaques minéralogiques à sept caractères peut on former si les 3 premiers
caractères sont des lettres et les 4 derniers des chiffres ?
2) Si on ne veut pas que les caractères soient en double ?

Exercice 1.3.
1) Combien existe t-il d’arrangements ordonnés des lettres A, B, C sans répétition ?
2) Combien peut on former d’arrangements différents avec les lettres PEPPER ?
3) Dans un tournois d’échec, il y a 10 participants : 4 russes, 3 américains, 2 anglais, et 1
brésilien. Dans le classement on ne peut lire que la nationalité des joueurs, à combien de
classements une liste de nationalités correspond t-elle ?
4) Combien de groupes de 3 objets peut-on construire en tirant parmi les 5 lettres A,B,C,D,E.
5) De combien de façon peut-on asseoir en rang 3 garçons et 3 filles ? Considérer les cas où
les filles (resp. les garçons) sont ou non distinguables entres elles (resp. eux).

Exercice 1.4.
Parmi 1000 billets de loterie, 10 sont gagnants, les autres sont perdants. J’en achète 5.
Quelle est la probabilité qu’il y ait deux billets gagnants ?

Exercice 1.5.
Quel est l’événement le plus probable : avoir un six au moins une fois quand on lance quatre
fois un dé ou obtenir au moins une fois un double six en lançant 24 fois une paire de dés ?

Exercice 1.6.
Soit une urne U contenant 24 boules de trois couleurs différentes : 12 boules rouges, 7 boules
vertes et 5 boules bleues.

14
Chapitre 2

Variables aléatoires. Cas discret

1 Exemple introductif
Considérons une pièce de monnaie non truquée, c’est à dire que la probabilité d’avoir pile
est la même que la probabilité d’avoir face et vaut 1/2. On effectue n lancers de cette pièce
et on s’intéresse au nombre de fois où face est apparu. On modélise l’expérience comme
suit :
– L’espace des possibles est Ω = {P, F }n , le cardinal de Ω vaut 2n .
– Un résultat possible est une suite ω = (P, P, F, P, F, · · · , P ) = (ωi )i=1,··· ,n de longueur n.
– La pièce n’étant pas truquée, chacune de ces suites à la même probabilité p = 21n de se
réaliser, on a équiprobabilité.
Ainsi si l’on s’intéresse à la probabilité de l’événement ”avoir 1 fois face sur n = 4 lancers”,
cette probabilité vaut par équiprobabilité :
1 1 1 1 4
P (F, P, P, P ) + P (P, F, P, P ) + P (P, P, F, P ) + P (P, P, P, F ) =
4
+ 4 + 4 + 4 = 4.
2 2 2 2 2
On imagine assez bien que si le nombre n de lancers est plus grand et/ou que l’on s’intéresse
à des événements comme ”avoir k > 1 fois face sur n lancers”, il serait trop long d’écrire
tous les événements élémentaires. Introduisons alors la notion de variable aléatoire.

Intéressons nous à la probabilité d’obtenir k faces au cours de n lancers. Notons X(ω), le


nombre de fois où face est apparu au cours des n lancers. Si ω = (ωi )i=1,··· ,n ∈ Ω, on a
n
X
X(ω) = card{i, ωi = F } = Iωi =F ,
i=1

où I dénote la fonction indicatrice, c’est à dire Iωi =F = 1 si ωi = F et Iωi =F = 0 si ωi 6= F .


Ainsi X est une application de Ω dans {0, · · · , n}, le nombre de fois où face est apparu
au cours de n lancers étant compris entre 0 et n. On note l’événement ”avoir k fois face
sur n lancers”, comme suit
{ω ∈ Ω, X(ω) = k} = X −1 ({k}) = {X = k}.
Ainsi la probabilité de l’événement ”avoir k fois face sur n lancers”, vaut par équiprobabilité :
Cnk
P (ω, X(ω) = k) = P (X = k) = .
2n

17
2 Définition d’une variable aléatoire discrète
Définition 2.1 :
Soit (Ω, A, P ) un espace de probabilité et soit (E, F) un espace de probabilisable, on ap-
pelle variable aléatoire (v.a.) définie sur (Ω, A, P ) à valeurs dans (E, F) toute application
X mesurable de (Ω, A) sur (E, F), c’est à dire telle que ∀B ∈ E, son image réciproque
X −1 (B) = {X ∈ B} ∈ A, de sorte que X −1 (B) est donc un événement.

Exemple 7
Prenons l’exemple du lancer de deux dés, l’ensemble Ω = {1, · · · , 6}2 , A = P(Ω). Soit
ω = (ω1 , ω2 ) le résultat de l’expérience, où ω1 et ω2 sont respectivement les résultats du
lancer du dé 1 et du dé 2. Soit X la somme des deux dés, c’est à dire X(ω) = ω1 + ω2 .
L’événement ”la somme des deux dés est 3 ” peut être écrit :

{X = 3} = {ω ∈ Ω, X(ω) = 3} = X −1 {3}.

Remarques :
- Dans le cadre des v.a. discrètes, on considère toujours Ω dénombrable, ainsi X(Ω) =
{xi , i ∈ I}, avec I ⊂ N
- Pour P une probabilité, on a
X
P (X = xi ) = 1.
xi ,i∈I

- Si Ω ⊆ N, c’est à dire que X est à valeurs entières, xi = i et



X
P (X = i) = 1.
i=0

2.1 Fonction de répartition d’une variable aléatoire discrète


Soit (Ω, A, P ) un espace de probabilité et soit (E, F) un espace probabilisable, la va-
riable aléatoire (v.a.) définie sur (Ω, A, P ) à valeurs dans (E, F) avec Ω dénombrable
(X(Ω) = {xi , i ∈ I}, avec I ⊆ N) est dite v.a. discrète.

Définition 2.2 :
On appelle fonction de répartition (f.d.r.) d’une v.a X la fonction F définie sur R par

F (x) = P (X ≤ x).

Lorsque X est une v.a. discrète, c’est à dire qu’elle ne prend qu’un nombre dénombrable de
valeurs {xi , i ∈ I}, avec I ⊆ N, la f.d.r. F de X s’écrit :
X
F (x) = P (X ≤ x) = P (X = xi )Ixi ≤x .
i∈I

Par définition, F vérifie les propriétés suivantes :

18
1. F est une application définie sur R à valeurs dans l’intervalle [0, 1].
2. F est continue à droite.
3. F est une fonction croissante et pour une v.a. discrète F est une fonction en escalier.
4. lim F (x) = 1 (on note F (+∞) = 1).
x→+∞
5. lim F (x) = 0 (on note F (−∞) = 0).
x→−∞

2.2 Moyenne et variance d’une variable aléatoire discrète


Dans ce chapitre, on considère que X est une application mesurable de (Ω, A, P ) sur (E, F),
où E est un espace dénombrable. On parle alors de v.a. discrète (par exemple (E, F) =
(N, P(N)).

Définition 2.3 :
Soit X une v.a. discrète, on appelle espérance mathématique (ou moyenne) de X la quantité
X
E(X) = xi P (X = xi ).
i∈I

De plus, si Ω ⊆ N
+∞
X
E(X) = iP (X = i),
i=0

à condition que cette quantité E(X) existe .

Exemple 8
On lance un dé non truqué, l’ensemble Ω = {1, · · · , 6}, A = P(Ω). Soit X le chiffre apparu
lors du lancer (ici E = Ω), c’est à dire X peut prendre les valeurs 1, · · · , 6 et P la probabilité
uniforme sur Ω alors
+∞
X 6
X 1 1 1 7
E(X) = iP (X = i) = iP (X = i) = 1. + 2. + · · · + 6. = .
6 6 6 2
i=0 i=1

Proposition 1
Pour toute application h de E sur R, h(X) est une v.a. discrète et
X
E(h(X)) = h(xi )P (X = xi ).
i∈I

De plus, si Ω ⊆ N
+∞
X
E(h(X)) = h(i)P (X = i),
i=0

à condition que cette quantité E(h(X)) existe, pour h mesurable bornée par exemple.

19
Exemple 9
Prenons l’exemple d’un lancer d’une pièce non truquée, l’ensemble Ω = {pile, f ace} . Soit
X la v.a. :

X(ω) = 1 si ω = f ace,
X(ω) = 0 si ω = pile.
1
Ainsi pour P la probabilité uniforme P (X = 1) = P (X = 0) = 2 et h(t) = t2
1
E(h(X)) = E(X 2 ) = 02 .P (X = 0) + 12 .P (X = 1) = ,
2
1
E(X) = E(X) = 0.P (X = 0) + 1.P (X = 1) = .
2

Définition 2.4 :
Soit X une v.a. dicrète de moyenne E(X) = m < ∞ et telle que E(X 2 ) < ∞, on appelle
variance de X la quantité notée
X
V ar(X) = E((X − E(X))2 ) = E((X − m)2 ) = (xi − m)2 P (X = xi )
i∈I
X
2 2 2 2
= E(X ) − (E(X)) = E(X ) − m = x2i P (X = xi ) − m2 .
i∈I

De plus, si Ω ⊆ N
+∞
X
V ar(X) = E((X − E(X))2 ) = E((X − m)2 ) = (i − m)2 P (X = i)
i=0
+∞
X
= E(X 2 ) − (E(X))2 = E(X 2 ) − m2 = i2 P (X = i) − m2 .
i=0

Exemple 10
Reprenons l’exemple précédent du lancer d’une pièce non truquée, la variance de X vaut
1 1 1
V ar(X) = E(X 2 ) − (E(X))2 = − ( )2 = .
2 2 4
1 2 1 1
2
V ar(X) = E((X − E(X)) ) = (0 − ) .P (X = 0) + (1 − )2 .P (X = 1) = .
2 2 4

2.3 Propriétés de la moyenne et de la variance d’une variable aléatoire


discrète
Propriétés 2.1 :
- Linéarité de l’espérance : Si X et Y sont deux variables aléatoires dont l’espérance est
bien définie et si a et b sont deux constantes réelles alors

E(aX + bY ) = aE(X) + bE(Y ).

- Soit X une variable aléatoire dont la variance est bien définie alors

V ar(aX + b) = a2 V ar(X).

20
3 Exemples classiques de loi de probabilité sur N
3.1 Loi uniforme
Définition 3.1 :
On dit que X suit une loi Uniforme sur {1, · · · , n} et on note X ∼ U({1, · · · , n}) si pour
tout k ∈ {1, · · · , n},
1
P (X = k) = .
n
(n+1) (n+1)(n−1)
Alors E(X) = 2 et V ar(X) = 12 .

On peut calculer E(X), E(X 2 ) et V ar(X) comme suit :


n
X n
1X 1 (n + 1)n (n + 1)
E(X) = kP (X = k) = k= = ,
n n 2 2
k=1 k=1
n
X Xn
1 1 (2n + 1)(n + 1)n (2n + 1)(n + 1)
E(X 2 ) = k 2 P (X = k) = k2 = = ,
n n 6 6
k=1 k=1
(2n + 1)(n + 1) (n + 1)2 (n + 1)(n − 1)
V ar(X) = E(X 2 ) − (E(X))2 = − = .
6 4 12

3.2 Loi de Bernoulli


Une loi très simple et utile en probabilité est la loi de Bernoulli. Prenons A un événement
(il pleut, tirer un roi,...) de probabilité P (A) = p, p ∈]0, 1[. Si l’on s’intéresse à la réalisation
de A, on peut retranscrire ce problème en terme de variable aléatoire. Pour cela, il suffit de
prendre X = IA :
- Si A est réalisé (ω ∈ A), X(ω) = 1 et P (X = 1) = p.
- Si Ac est réalisé (ω ∈ Ac ), X(ω) = 0 et P (X = 0) = 1 − p.

Définition 3.2 :
On dit que X suit une loi de Bernoulli de paramètre p ∈]0, 1[ et on note X ∼ B(p), la v.a.
X qui ne prend que deux valeurs 1 ou 0, et telle que :
P (X = 1) = p et P (X = 0) = 1 − p.
Alors E(X) = p et V ar(X) = p(1 − p).

On peut calculer E(X), E(X 2 ) et V ar(X) comme suit :


1
X
E(X) = kP (X = k) = 0.(1 − p) + 1.p = p,
k=0
X1
E(X 2 ) = k 2 P (X = k) = 02 .(1 − p) + 12 .p = p,
k=0
V ar(X) = E(X 2 ) − (E(X))2 = p − p2 = p(1 − p).

Remarquons que pour un événement A tel que P (A) = p 6= 0, X = IA ∼ B(p).

21
3.3 Loi Binomiale
Imaginons que l’on s’intéresse au nombre de fois où un événement A de probabilité P (A) =
p 6= 0 s’est réalisé au cours de n expériences indépendantes et identiques (ex : lancer une
pièce truquée n fois et A = {pile}). Posons X la v.a. égale au nombre de fois où A s’est
réalisé au cours des n expériences, alors X est une v.a. discrète à valeurs dans {0, 1, · · · , n}.

Définition 3.3 :
On dit que X suit une loi Binomiale de paramètres n ∈ N et p ∈]0, 1[ et on note X ∼ B(n, p),
la v.a. X qui prend ses valeurs dans {0, 1, · · · , n}, et telle que ∀k ∈ {0, 1, · · · , n}

P (X = k) = Cnk pk (1 − p)n−k .

Alors E(X) = np et V ar(X) = np(1 − p).

Remarquons que la v.a. X peut être vue comme la somme de n v.a. (Z1 , · · · , Zn ) indépendantes
de Bernoulli de paramètre p, c’est à dire pour n v.a. i.i.d. telles que Zi ∼ B(p), ∀i = 1, · · · , n :
n
X
X= Zi .
i=1

On peut calculer E(X) comme suit


n
X n
X n
X
E(X) = E( Zi ) = E(Zi ) = p = np
i=1 i=1 i=1

Le calcul de la variance de X (V ar(X)) sera traitée dans l’exemple 13

Théorème 3.1. Si X est une v.a. discrète de loi Binomiale B(n, p) alors Z = n − X est
également une v.a. discrète de loi Binomiale mais de paramètre (n, 1 − p) :

Z ∼ B(n, 1 − p)

3.4 Loi de Poisson


Définition 3.4 :
On dit que X suit une loi de Poisson de paramètre λ > 0 et on note X ∼ P(λ), la v.a. X
qui prend ses valeurs dans N, et telle que ∀k ∈ N

λk e−λ
P (X = k) = .
k!
Alors E(X) = λ et V ar(X) = λ.

22
On peut calculer E(X), E(X 2 ) et V ar(X) comme suit :

X ∞
X ∞
X
λk e−λ λk−1
E(X) = kP (X = k) = k = e−λ λ = e−λ λeλ = λ,
k! (k − 1)!
k=0 k=0 k=0

X X∞ ∞
X X ∞
λk e−λ −λ λk λ`+1
E(X 2 ) = k 2 P (X = k) = k2 =e k = e−λ (` + 1)
k! (k − 1)! `!
k=0 k=0 k=1 `=0

X ∞
X ∞
X ∞
X
−λ λ`+1 −λ λ`+1 −λ 2 λ`−1 −λ λ`
= e ` +e =e λ +e λ = e−λ λ2 eλ + e−λ λeλ
`! `! ` − 1! `!
`=1 `=0 `=1 `=0
2
= λ + λ,
V ar(X) = E(X 2 ) − (E(X))2 = λ2 + λ − λ2 = λ.

3.5 Loi Géométrique


Lançons une pièce de monnaie truquée telle que la probabilité d’avoir face soit p. Intéressons
nous au nombre de fois où il faut jeter cette pièce pour obtenir face. Soit X le nombre de
jets nécessaires pour avoir face, alors X est une v.a. discrète à valeurs dans N∗ .

Définition 3.5 :
On dit que X suit une loi Géométrique de paramètre p ∈]0, 1[ et on note X ∼ G(p), la v.a.
X qui prend ses valeurs dans N∗ , et telle que ∀k ∈ N∗
P (X = k) = p(1 − p)k−1 .
1 1−p
Alors E(X) = p et V ar(X) = p2
.

P
En remarquant que ∞ k 1 2
k=0 p = 1−p pour p ∈]0, 1[, on peut calculer E(X), E(X ) et V ar(X)
comme suit :

X ∞
X X∞
k−1
E(X) = kP (X = k) = kp(1 − p) =p k(1 − p)k−1
k=1 k=1 k=1

!  
∂ X ∂ 1 p 1
= p − (1 − p)k =p − = 2 = ,
∂p ∂p p p p
k=0

X ∞
X ∞
X ∞
X
E(X 2 ) = k 2 P (X = k) = k 2 p(1 − p)k−1 = p k(k − 1)(1 − p)k−1 + p k(1 − p)k−1
k=1 k=1 k=1 k=1
∞ ∞
!
X ∂2 X 1
= p(1 − p) k(k − 1)(1 − p)k−2 + E(X) = p(1 − p) (1 − p)k +
∂p2 p
k=2 k=0
     
1 ∂2
1 ∂ 1 1 2 1 2 1
= p(1 − p) 2 + = p(1 − p) − 2 + = p(1 − p) + = 2− ,
∂p p p ∂p p p p3 p p p
2 1 1 1−p
V ar(X) = E(X 2 ) − (E(X))2 = 2 − − 2 = .
p p p p2

3.6 Loi Hypergéométrique


Considérons que l’on ait une urne contenant N boules, dont N1 ≤ N sont blanches et
N − N1 sont noires. On effectue un tirage de n ≤ N boules simultanément et sans remise

23
et l’on s’intéresse à X le nombre de boules blanches tirées au cours de ces n tirages, alors
X est une v.a. discrète à valeurs dans {0, 1, · · · , n}. Notons p = NN1 et q = 1 − p = N −N
N
1

alors N1 = pN et N − N1 = qN .

Définition 3.6 :
On dit que X suit une loi Hypergéométrique de paramètres (n, p, N ) où p ∈]0, 1[ et on note
X ∼ H(n, p, N ), la v.a. X qui prend ses valeurs dans {max (0, n − qA), · · · , min (pA, n)},
avec pN et qN des entiers et telle que ∀k ∈ {0, 1, · · · , n}
k C n−k
CpN qN
P (X = k) = n .
CN
−n
Alors E(X) = np et V ar(X) = npq N
N −1 .

4 Vecteurs aléatoires discrets


Soit (Ω, A, P ) un espace de probabilité et soit (E, F) un espace probabilisable, les variables
aléatoires (v.a.) définies sur (Ω, A, P ) à valeurs dans (E, F) avec Ω dénombrable (ex :
X(Ω) = {xi , i ∈ I}, avec I ⊆ N) sont dites v.a. discrètes.

Définition 4.1 :
Soit (Ω, A, P ) et soient deux v.a. discrètes X et Y à valeurs dans (E, F), l’application
V = (X(ω), Y (ω)) = (X, Y ) définie sur Ω est appelée couple aléatoire discret ou vecteur
aléatoire discret à valeurs dans E 2 et est de dimension 2.

Exemple 11
On lance 2 dés non truqué,
– Soit Y = le nombre de chiffres impairs apparus lors du lancer des 2 dés. Clairement, on
peut avoir 0 chiffre impair ou 1 chiffre impair ou 2 chiffres impairs. Ainsi, le support de
Y , c’est à dire les valeurs possibles de Y sont

Supp(Y ) = {0, 1, 2}.

.
– Soit X= la somme des 2 chiffres apparus sur les dés. Ainsi, le support de X est

Supp(X) = {2, · · · , 12}.

– Alors V = (X, Y ) admet comme support

Supp(V ) = Supp(X) × Supp(Y ).

Définition 4.2 :
Soit V un vecteur aléatoire discret, on appelle loi de probabilité ou distribution de probabilité
du vecteur aléatoire discret V la donnée de l’ensemble {(vk , P (V = vk )), k ∈ K}, d’éléments
de E 2 × [0, 1] telle que

24
P
P (V = vk ) ∈ [0, 1] et k∈K P (V = vk ) = 1.

Exemple 12
Reprennons l’exemple précédent P (V = (2, 0)) = P (X = 2, Y = 0), il faut comprendre
cette probabilité comme la probabilité que X = 2 et Y = 2. On remarque que X = 2 si et
seulement si le chiffre 1 apparait sur les 2 dés. De plus, Y = 0 si sur chacun des 2 dés apparait
un chiffre pair, il existe 9 possibilités. En revanche il n’existe aucune possibilité pour que
ces 2 événements se réalisent en même temps. Donc P (V = (2, 0)) = P (X = 2, Y = 0) = 0.

4.1 Loi jointe et lois marginales


Soit (Ω, A, P ) un espace de probabilité et soit (E, F) un espace probabilisable. Soient
X(Ω) = {xi , i ∈ I}, avec I ⊆ N et Y (Ω) = {yj , j ∈ J}, avec J ⊆ N deux variables
aléatoires (v.a.) discrètes. Posons pour tout couple (i, j) ∈ I × J = K,

pij = P ({X = xi } ∩ {Y = yj }) = P (X = xi , Y = yj ).

Posons V = (X, Y ), remarquons que pij 6= 0 ssi (xi , yj ) ∈ (X(Ω), Y (Ω)) = V (Ω).

Définition 4.3 :
On appelle loi de probabilité jointe de deux v.a. X et Y (ou du vecteur aléatoire discret
V = (X, Y )) l’ensemble {(xi , yj ), pij , i ∈ I, j ∈ J}.

Connaissant la loi jointe du couple (X, Y ), on peut en déduire les lois de X ou de Y , que
l’on appelle lois marginales.

Définition 4.4 :
On appelle loi marginale de X et loi marginale de Y , les ensembles {xi , PX (xi ), i ∈ I} et
{yi , PY (yi ), j ∈ J} où
X X
pi· = PX (xi ) = P (X = xi ) = pij = P (X = xi , Y = yj ),
j∈J j∈J
X X
p·j = PY (yi ) = P (Y = yj ) = pij = P (X = xi , Y = yj ).
i∈I i∈I

En résumé pour trouver la loi de X (et réciproquement de Y ) à partir de la loi du couple


(X, Y ) il suffit de sommer sur toutes les valeurs de Y (et réciproquement de X) ! !

4.2 Indépendance
Définition 4.5 :
Deux v.a. discrètes X : Ω → {xi , i ∈ I} et Y : Ω → {yj , j ∈ J}, avec I, J ⊆ N sont
indépendantes ssi pour tous i et j,

P ({X = xi } ∩ {Y = yj }) = P (X = xi , Y = yj ) = P (X = xi )P (Y = yj ).

On peut généraliser cette définition au cas de n v.a. discrètes.

25
Définition 4.6 :
On dit que les n v.a. discrètes, {Xi , }i∈I sont (mutuellement) indépendantes, ssi pour tout
ensemble d’indices J ⊆ I et tous xj appartenant aux valeurs possibles de Xj , j ∈ J
 
\ Y
P  {Xj = xj } = P (Xj = xj ).
j∈J j∈J

4.3 Covariance et propriétés


Définition 4.7 :
Soient deux v.a. discrètes X : Ω → {xi , i ∈ I} et Y : Ω → {yj , j ∈ J}, avec I, J ⊆ N de
moyenne E(X) = m < ∞ et E(Y ) = µ < ∞ et telle que E(X 2 ) < ∞ et E(Y 2 ) < ∞.
On appelle covariance de X et de Y la quantité notée

Cov(X, Y ) = E((X − E(X))(Y − E(Y ))) = E((X − m)(Y − µ))


X
= (xi − m)(yj − µ)P (X = xi , Y = yj )
i∈I,j∈J
= E(XY ) − E(X)E(Y ) = E(XY ) − mµ
X
= xi yj P (X = xi , Y = yj ) − mµ.
i∈I,j∈J

Propriétés 4.1 :
Soient X, Y , Z trois v.a. discrètes admettant des variances finies alors
a) Symétrie : Cov(X, Y ) = Cov(Y, X).
b) Cov(X, X) = V ar(X).
c) Pour tout réels a, b, c et d : Cov(aX + b, cY + d) = ac Cov(X, Y ).
d) Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z).
e) Soit X1 , · · · , Xn des v.a. discrètes de variance finie alors
n
! n
X X X
V ar Xi = V ar(Xi ) + 2 Cov(Xi , Xj ).
i=1 i=1 i<j

f) D’après la propriété de Cauchy-Schwarz,


p p
Cov(X, Y ) ≤ V ar(X) V ar(Y ).

Preuve : Trivial, à faire en exercice.

Propriétés 4.2 :
a) Si X et Y sont deux variables aléatoires discrètes indépendantes dont l’espérance est
bien définie alors
E(XY ) = E(X)E(Y ).
b) Soient X et Y deux variables aléatoires indépendantes d’espérance finie alors

Cov(X, Y ) = 0.

26
c) Soient X et Y deux variables aléatoires indépendantes dont les variances sont bien définies
alors
V ar(X + Y ) = V ar(X) + V ar(Y ).

Attention : les réciproques sont fausses.

Preuve :
a) Comme X et Y sont indépendantes, on a par définition que

P (X = xi , Y = yj ) = P (X = xi )P (Y = yj ).

Ainsi
X X
E(XY ) = xi yj P (X = xi , Y = yj ) = xi yj P (X = xi )P (Y = yj )
i∈I,j∈J i∈I,j∈J
X X
= xi P (X = xi ) yj P (Y = yj ) = E(X)E(Y ).
i∈I j∈J

b) Comme X et Y sont indépendantes on a par a) :

Cov(X, Y ) = E(XY ) − E(X)E(Y ) = E(X)E(Y ) − E(X)E(Y ) = 0.

c) Comme X et Y sont indépendantes on a par b) :

V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ) = V ar(X) + V ar(Y ),


X X
E(XY ) = xi yj P (X = xi , Y = yj ) = xi yj P (X = xi )P (Y = yj )
i∈I,j∈J i∈I,j∈J
X X
= xi P (X = xi ) yj P (Y = yj ) = E(X)E(Y ).
i∈I j∈J

Exemple 13
Soit X une v.a. de loi Binomiale B(n, p), on a vu précédemment que la v.a. X peut être
vue comme la somme de n v.a. (Z1 , · · · , Zn ) indépendantes de Bernoulli de paramètre p,
c’est à dire pour n v.a. i.i.d. telles que Xi ∼ B(p), ∀i = 1, · · · , n :
n
X
X= Zi .
i=1

Ainsi en utilisant la Propriété (4.2. c), on a :


n
X n
X n
X
V ar(X) = V ar( Zi ) = V ar(Zi ) = p(1 − p) = np(1 − p).
i=1 i=1 i=1

4.4 Coefficient de correlation


Définition 4.8 :
Soient X et Y deux v.a. discrètes admettant une variance finie non nulle. On appelle
coefficient de corrélation linéaire de X et Y le nombre noté ρ(X, Y ) défini par

27
Cov(X, Y )
ρ(X, Y ) = p p .
V ar(X) V ar(Y )
Alors
|ρ(X, Y )| ≤ 1.

De plus, si X et Y sont en relation affine, c’est à dire il existe deux réels a et b tels que
Y = aX + b alors,
p p
V ar(Y ) = a2 V ar(X), donc V ar(Y ) = |a| V ar(Y ),

Cov(X, Y ) = Cov(X, aX + b) = aCov(X, X) = aV ar(X).

Donc,
aV ar(X)
ρ(X, Y ) = = sign(a).
|a|V ar(X)
Ce qui signifie que le coefficient de corrélation linéaire est en valeur absolue égal à 1, avec
pour signe, le signe de a.

Réciproquement, d’après Cauchy-Schwarz, |ρ(X, Y )| ≤ 1, et vaut 1 quand les vecteurs


X − E(X) et Y − E(Y ) sont colinéaires, c’est à dire quand il existe deux réels non nuls c et
d tels que c(X −E(X))+d(Y −E(Y ))) = 0, d’où une relation affine entre les deux variables.

La valeur du coefficient de corrélation linéaire, (qui dépend de la loi jointe des deux v.a.),
nous renseigne donc sur l’existence d’une éventuelle relation affine entre ces deux v.a.

4.5 Loi conditionnelle


Soit un vecteur aléatoire discret V = (X, Y ) où X : Ω → {xi , i ∈ I} et Y : Ω → {yj , j ∈ J}.

Définition 4.9 :
On appelle loi conditionnelle de Y sachant {X = xi } la probabilité définie sur Y (Ω) par
P (Y = yj , X = xi ) pij
Pxi (yj ) = P (Y = yj |X = xi ) = = .
P (X = xi ) pi

De cette définition découle celle de l’espérance conditionnelle.

Définition 4.10 :
On appelle espérance conditionnelle de Y sachant {X = xi }, l’espérance de Y pour la loi
conditionnelle de Y sachant {X = xi } :
X X
EX=xi (Y ) = E(Y |X = xi ) = yj Pxi (yj ) = yj P (Y = yj |X = xi )
j∈J j∈J
X P (Y = yj , X = xi ) X pij
= yj = yj .
P (X = xi ) pi
j∈J j∈J

Retenons que l’espérance d’une espérance conditionnelle est une espérance ! !

28
Chapitre 3

Variables aléatoires continues

1 Généralités
Nous considérons maintenant le cas où la quantité aléatoire d’intérêt peut prendre toutes
les valeurs d’un intervalle de R (donc une infinité de valeurs). Par exemple, si X représente
le temps passé au chômage par un individu, X peut prendre (une infinité) n’importe quelle
valeur entre 0 et 45 ans.

Définition 1.1 :
Une variable aléatoire continue X est une fonction qui à chaque résultat d’une expérience
aléatoire associe un nombre réel. Autrement dit X(Ω) = I où I est un intervalle de R.

Exemple 14
Loi uniforme sur [0, 1]
Soit U une variable aléatoire à valeur dans l’intervalle [0, 1] et ce de manière uniforme. Au-
trement dit, toutes les valeurs de l’intervalle [0, 1] ont la même probabilité d’être obtenues.

De façon évidente, si x ∈
/ [0, 1] on a P (U = x) = 0.
Que vaut cette probabilité ponctuelle si x ∈ [0, 1] ? L’intervalle [0, 1] contient une infinité de
valeurs qui se partagent donc la probabilité 1 en une infinité de probabilités ponctuelles. Si
elles ont toutes la même probabilité, elles doivent donc avoir chacune une probabilité nulle.
Par conséquent,
∀x ∈ [0, 1], P (U = x) = 0
Ainsi, contrairement au cas des variables aléatoires discrètes, on ne peut pas décrire de
manière satisfaisante la loi de probabilité d’une v.a continue en considérant les probabilités
ponctuelles. La notion de fonction de répartition permet de le faire.

1.1 Fonction de répartition


Comme pour les variables aléatoires discrètes, on peut définir la notion de fonction de
répartition dans le cas continu.

Définition 1.2 :

34
On appelle fonction de répartition d’une v.a continue X la fonction F définie sur R
par :
F (x) = P (X ≤ x).

Propriétés
Par définition, F vérifie les propriétés suivantes :
1. F est une application définie sur R à valeurs dans l’intervalle [0,1].
2. F est croissante .
3. lim F (x) = 1 (on note F (+∞) = 1) et lim F (x) = 0 (on note F (−∞) = 0)
x→+∞ x→−∞
4. Si X ne se concentre pas sur des valeurs spécifiques de R alors on admettra que F est
continue.
5. F est dérivable presque partout (sauf éventuellement en un nombre fini de points).
Le point 2 est dû au fait que si x augmente alors on “englobe” plus de valeurs dans le calcul
donc la probabilité tend vers 1 si x tend vers l’infini. De la même façon, si x diminue, on
“englobe” toujours moins de valeurs dans le calcul et la probabilité tend vers 0.

Caractérisation
• F caractérise la loi de probabilité de X. Autrement dit, si deux variables aléatoires réelles
ont même fonction de répartition, alors elles ont même loi (et réciproquement).
• Réciproquement, si F est une fonction réelle vérifiant les propriétés 1 à 5 précédentes
alors on dira qu’elle est une fonction de répartition et on peut montrer qu’il existe une
variable aléatoire X ayant F pour fonction de répartition.

Exemple 15
Loi uniforme sur [0, 1]
Reprenons la variable aléatoire U définie précédemment. Sa fonction de répartition FU est :


 0 si x < 0,
FU (x) = x si 0 ≤ x ≤ 1,


1 si x > 1.

On montre facilement que FU vérifie les propriétés 1 à 6 (à faire en exercice).

1.2 Densité de probabilité


La plupart des lois utiles dans ce cours sont absolument continues c’est-à-dire telles que la
fonction de répartition F admet une dérivée f = F 0 . Il est souvent plus facile de travailler
avec f = F 0 qu’avec F directement. Ces deux fonctions f et F caractérisent la loi de
probabilité d’une v.a. réelle de façon équivalente.

Définition 1.3 :
Soit X une variable aléatoire dont la loi de probabilité est caractérisée par la fonction de
répartition F . Si F est dérivable, on note f sa dérivée. f est appelée densité de probabilité
de X.

35
F est la primitive de f s’annulant en −∞ et on note
Z x
F (x) = f (t)dt.
−∞
R +∞
Des propriétés de F , il résulte que f est positive et −∞ f (t)dt = 1.

Caractérisation
• La densité de probabilité f caractérise aussi la loi de X.
• Toute fonction f vérifiant les 3 points suivants :
1. f (x) ≥ 0, pour tout x ∈ R,
2. f est continue presque partout,
R +∞
3. −∞ f (t)dt = 1,
est appelée densité de probabilité.

Remarque 1 :
Si X est une variable aléatoire de densité de probabilité f alors X(Ω) = {x ∈ R, f (x) > 0}
est appelé le support de la densité.

1.3 Probabilité d’un intervalle


A partir de la fonction de répartition on peut calculer la probabilité d’un intervalle :

P (a < X ≤ b) = F (b) − F (a),

ce qui peut s’écrire en fonction de la densité de probabilité :


Z b
P (a < X ≤ b) = F (b) − F (a) = f (u)du.
a

On remarque que P (a < X ≤ b) = P (a ≤ X ≤ b) = P (a ≤ X < b) = P (a < X < b).

1.4 Indépendance de deux variables aléatoires continues


De la même façon que dans le cas discret, on peut définir des vecteurs aléatoires réels de la
forme V = (X, Y ). Comme pour une v.a.r, on caractérise la loi du couple de v.a.r. (X, Y )
par sa fonction de densité notée f(X,Y ) et/ou sa fonction de répartion F(X,Y ) telles que
1. f(X,Y ) (x, y) ≥ 0, pour tout (x, y) ∈ R2 ,
2. f(X,Y ) est continue presque partout,
R +∞ R +∞
3. −∞ −∞ f(X,Y ) (x, y)dxdy = 1,
Rx Ry
4. F(X,Y ) (x, y) = −∞ −∞ f(X,Y ) (u, v)dudv = P (X ≤ x, Y ≤ y)
On ne s’attarde pas sur les propriétés de la fonction de répartion F(X,Y ) car dans ce cours,
on se restreint au cas où les v.a.r. X et Y sont indépendantes.

36
Proposition 2
Soient X et Y deux variables aléatoires continues, alors le couple (X, Y ) est une application
de Ω dans R2 . Les variables X et Y sont indépendantes ssi la loi du couple (X, Y ) est le
produit des lois de X et de Y , c’est à dire ssi, la loi du couple (X, Y ) admet pour fonction
de répartition :

F(X,Y ) = P (X ≤ x, Y ≤ y) = FX (x)FY (y), pour tout couple (x, y) ∈ R2 .

Si X et Y ont pour densités respectives fX et fY et sont indépendantes, alors la densité du


couple (X, Y ) est :

f(X,Y ) (x, y) = fY (x)fX (y), pour tout couple (x, y) ∈ R2 .

1.5 Moments d’une v.a. continue


Définition 1.4 :
Soit X une v.a. continue dont la loi est définie par sa densité f . L’espérance mathématique
de X est le nombre Z +∞
E(X) = xf (x)dx.
−∞
La variance de X est le nombre :
Z +∞
2 2 2
V (X) = E((X − E(X)) ] = E(X ) − E(X) = x2 f (x)dx − E(X)2 .
−∞

Propriétés 1.1 (Propriétés de l’espérance et de la variance) :


Les propriétés de l’espérance et de la variance sont les mêmes que celles énoncées pour
l’espérance et la variance des variables discrètes. Si X et Y sont deux v.a. continues et a, b
deux nombres réels, on a :
1. E(a) = a.
2. E(aX + b) = aE(X) + b.
3. E(X + Y ) = E(X) + E(Y ).
4. V (aX + b) = a2 V (X).
Dans le cas particulier où X et Y sont deux v.a. indépendantes, on a
1. E(XY ) = E(X)E(Y ).
2. V (X + Y ) = V (X) + V (Y ).

Proposition 3
Soit X une variable aléatoire de densité de probabilité f définie sur R . Pour toute appli-
cation ϕ, l’espérance de la v.a. Y = ϕ(X) est :
Z
E(Y ) = E(ϕ(X)) = ϕ(x)f (x)dx.
R

(Sous condition d’existence de l’espérance).


De plus, pour un couple de variables aléatoires (X, Y ) de densité f(X,Y ) (x, y), on a
Z Z
E(ϕ(X, Y )) = ϕ(x, y)f(X,Y ) (x, y)dxdy.
R R

37
à condition que ces quantités existent, pour ϕ bornée par exemple.

2 Quelques lois continues usuelles


Pour chaque loi, on donne la densité de probabilité, éventuellement son graphe, l’espérance
mathématique et la variance.

• Loi uniforme sur [a, b], a < b

f(x)
f(x)

( 1

1 b −a

1 si x ∈ [a, b],
b−a I[a,b] (x)
f (x) = = b−a
0 sinon.
a+b
E(X) = 2 .
(b−a)2
V (X) = 12 .
a 0 b xx

• Loi exponentielle E(a), a > 0


(
ae−ax si x > 0, a

f (x) = ae−ax I]0,+∞[ (x) =


0 sinon.
1
E(X) = a.
1
V (X) = a2
. 0

• Loi normale centrée réduite N (0, 1)


La densité de la loi Normale N (0, 1) a une notation particulière que l’on retrouve dans
beaucoup d’ouvrage, on la note φ(·) et sa fonction de répartition sera notée Φ(·).
f 0 (x)


φ(x) = √1 exp − 21 x2 .

E(X) = 0.
V (X) = 1.
0 x

Il est utile de savoir que E(X 3 ) = 0 et E(X 4 ) = 3.

Propriétés de la fonction de répartition :


Notons Φ la fonction de répartition de la loi normale centrée réduite. La densité φ étant
symétrique par rapport à la droite (t = 0), on a :
· Φ(0) = 0, 5.
· Φ(−t) = 1 − Φ(t) , pour tout t ∈ R.
· P (|T | < t) = P (T < t)–P (T < −t) = 2Φ(t) − 1, pour tout t ∈ R.
· P (|T | > t) = P (T > t) + P (T < −t) = 2(1 − Φ(t)), pour tout t ∈ R.

38
Valeurs remarquables :
· P (−1.645 < T < 1.645) = 0, 90.
· P (−1.96 < T < 1.96) = 0, 95.
· P (−3.05 < T < 3.05) = 0, 998.
Les autres valeurs seront lues dans la table statistique.

• Loi normale N (m, σ)


Les définitions suivantes sont équivalentes :
1. X suit une loi N (m, σ) ssi X = σT + m où T suit une loi N (0, 1).
X−m
2. X suit une loi N (m, σ) ssi la v.a. T = σ suit une loi N (0, 1).
3. X admet pour densité la fonction
 
1 1
f (x) = √ exp − 2 (x − m)2 .
2πσ 2 2σ

On a : E(X) = m et V (X) = σ 2 .
Nous avons tracé les densités de différentes lois normales sur la figure 3.1.

Remarque 2 :
Seule la loi N (0, 1) est tabulée, ainsi tout calcul de probabilité relatif à X de loi N (m, σ)
nécessite de centrer et réduire la variable X c’est-à-dire de se ramener à la variable
T = X−m σ de loi N (0, 1).

N(5,0.7)
0.5
0.4

N(0,1)
densité

0.3
0.2
0.1

N(5,1)
N(0,2)
0.0

-5 0 5 10

Figure 3.1 – Densité de lois gaussiennes pour différents paramètres

3 Transformation d’une v.a. continue


Nous avons vu au paragraphe 1.5 que si X est une v.a. continue prenant ses valeurs dans
un intervalle I de R dont la loi est caractérisée par la densité de probabilité f et ϕ est une
fonction quelconque alors l’espérance de ϕ(X) se calcule directement à partir de f :
Z
E(ϕ(X)) = ϕ(x)f (x)dx.
R

39
(Sous condition d’existence de l’espérance).

Cependant, dans certains cas nous avons besoin de connaı̂tre la loi de probabilité de Y =
ϕ(X). Nous proposons une méthode permettant de calculer la fonction de répartition et
d’en déduire la densité de probabilité de Y .
Soit X une v.a. continue, prenant ses valeurs dans un intervalle de R noté I. Soit G la
fonction de répartition de Y = ϕ(X) et g sa densité de probabilité. On suppose que ϕ est
dérivable et strictement monotone I. Elle réalise donc une bijection de I dans ϕ(I) et admet
une fonction réciproque notée ϕ−1 . Nous distinguons deux cas, selon que ϕ est croissante
ou décroissante sur I.

• Si ϕ est croissante alors on peut alors écrire pour tout y ∈ ϕ(I) :

G(y) = P (Y ≤ y) = P (ϕ(X) ≤ y) = P (X ≤ ϕ−1 (y)) = F (ϕ−1 (y)),

et en dérivant on obtient la densité g de la variable Y


1
g(y) = F 0 ◦ ϕ−1 (y).
ϕ0 ◦ ϕ−1 (y)

• Si ϕ est décroissante , alors ϕ−1 est décroissante et pour tout y ∈ I :

G(y) = P (Y ≤ y) = P (X > ϕ−1 (y)) = 1 − F (ϕ−1 (y)).

De plus,

1
g(y) = − F 0 ◦ ϕ−1 (y).
ϕ0 ◦ ϕ−1 (y)

Remarque 3 :
On notera que g(y) = 0 pour tout y n’appartenant pas à ϕ(I).

Exemple 16
Loi uniforme et transformation exponentielle
On suppose que U suit une loi uniforme sur [0, 1] et on pose Y = exp U , (ϕ(x) = ex ). Alors
on a
I = U (Ω) = [0, 1] et ϕ(I) = Y (Ω) = [1, e].
Par conséquent, (
0 si y < 1,
G(y) =
1 si y > e.
Soit y ∈ [1, e], on a

G(y) = P (Y ≤ y) = P (eU ≤ y) = P (U ≤ ln y) = ln y,

car ln y ∈ [0, 1] pour tout y ∈ [1, e]. Ainsi en dérivant on obtient


1
g(y) = I[1,e] (y) .
y

40
4 Somme de variables aléatoires continues
On s’intéresse maintenant à la somme de variables aléatoires continues et indépendantes.

Théorème 4.1. Soient X et Y deux variables aléatoires continues indépendantes de den-


sités de probabilité respectives f et g. Alors la v.a. T = X + Y admet pour fonction de
densité h telle que
Z Z
h(t) = f (t − u)g(u)du = f (u)g(t − u)du.
R R

Démonstration. Admis.

Corollaire 4.1. Toute transformée linéaire de v.a. normales est normale et toute combi-
naison linéaire de v.a. normales indépendantes est normale. Plus précisément, soient X1
et X2 deux v.a. indépendantes de loi normale, respectivement N (m1 , σ1 ), N (m2 , σ2 ), et a
et b deux nombres réels, alors :
1. aX1 suit une loi normale N (am1 , |a|σ1 ).
2. X1 + a suit une loi normale N (a + m1 , σ1 ).
p
3. X1 + X2 suit une loi normale N (m1 + m2 , σ12 + σ22 ).
p
4. aX1 + bX2 suit une loi normale N (am1 + bm2 , a2 σ12 + b2 σ22 ).

Démonstration. Admis.

Tableau récapitulatif des résultats à connaı̂tre sur les lois continues

Loi Paramètres Support Densité Espérance Variance


(
1
si x ∈ [a, b] a+b (b − a)2
Uniforme U([a, b]) (a, b) ∈ R2 , a < b [a, b] f (x) = b−a
0 sinon 2 12
(
ae−ax si x > a 1 1
Exponentielle E(a) a>0 R∗+ f (x) =
0 sinon a a2
 
1 1
Normale N (0, 1) R φ(x) = √ exp − x2 0 1
2π  2 
1 1
Normale N (m, σ) (m, σ) R f (x) = √ exp − 2 (x − m)2 m σ2
σ 2π 2σ

5 Approximation d’une loi par une autre loi


Pour de grandes valeurs de n, le calcul de certaines probabilités n’est plus possible. Il devient
alors nécessaire d’approximer ces lois par d’autres.

5.1 Approximation de la loi Hypergéométrique par une loi binomiale

H(n, p, N ) ≈ B(n, p)

41
Proposition 4
En pratique, si (n/N < 0.1) peut approximer la loi Hypergéométrique de paramètres
(n, p, N )
k C n−k
CN p Nq
P (X = k) = n
CN
par une loi Binomiale de paramètres (n, p)

P (X = k) = Cnk pk q n−k ,

avec q = 1 − p.

5.2 Approximation de la loi Binomiale par une loi de Poisson

B(n, p) ≈ P(np)

Proposition 5
En pratique, si ( n ≥ 50 et p < 0.1 ) ou si ( n ≥ 50 et p > 0.9 ), on peut approximer la
loi Binomiale de paramètres (n, p)

P (X = k) = Cnk pk q n−k ,

(où q = (1 − p)) par une loi de Poisson de paramètre np

(np)k e−np
P (X = k) = .
k!

5.3 Approximation de lois discrètes par une loi continue


B(n, p) ≈ N (np, npq)

Proposition 6
En pratique, si (n ≥ 50 et p ∈]0.4, 0.6[ ) ou si (n ≥ 50 et npq > 18 ) on peut approximer
la loi Binomiale de paramètres (n, p)

P (X = k) = Cnk pk q n−k ,

avec q = (1 − p) par une loi Normale de moyenne np et de variance npq (c’est à dire

d’écart-type npq) dont la densité est

1 1
fX (x) = √ exp(− (x − np)2 ).
2πnpq 2npq


P(λ) ≈ N (λ, λ))

42
Proposition 7
En pratique, si (λ ≥ 18), on peut approximer la loi de Poisson de paramètre λ

λk e−λ
P (X = k) =
k!

par une loi Normale de moyenne λ et de variance λ (c’est à dire d’écart-type λ) dont la
densité est
1 1
fX (x) = √ exp(− (x − λ)2 ).
2πλ 2λ

L’approximation de lois discrètes par une loi continue soulève une question importante.
Dans le cadre ”discret”, les probabilités se concentrent en des points (∃k tel que P (X =
k) 6= 0) alors que dans le cadre ”continu” les probabilités assignent 0 en tout point (∀k
P (X = k) = 0). Il nous faut alors faire une correction de continuité comme suit :

Soit X une v.a. discète que l’on approxime par une N (m, σ). Soit Φ la fonction de répartion
de la gaussienne centrée réduite N (0, 1) alors

k + 0.5 − m k − 0.5 − m
P (X = k) = P (k − 0.5 < X < k + 0.5) ≈ Φ( ) − Φ( ).
σ σ

5.4 Récapitulatif

λ≥18 N(λ,√λ)
Poiss(λ)

Bin(n,p)

n≥50 ou n≥50
et et
0.4<p<0.6 npq≥18

n≥50
et ou n≥50
p<0.1 ou p>0.9
et
np>5 et nq>5

N(np,√(npq))
Poiss(np)

6 Exercices
Exercice 3.1
Soit U une variable aléatoire de loi uniforme sur [−1, 1].
1. Donner l’expression de sa fonction de densité. Tracer son graphe.
2. Calculer sa fonction de répartition.
3. Calculer l’espérance et la variance de U .

43

Vous aimerez peut-être aussi