Stat Des 2013

Université de Fianarantsoa
L1 Ec0-Ge (2013)
Statistique et Probabilité
• Cours
• Exercices
Support de cours de Elysé Razafimahatolotra
(Cours original de Sophie Donnet et Katia Meziani)
Support de cours
www.apr-mg.org voir Support de Cours puis Stat Proba et économétrie
3.1.4 Statistique du Chi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Cas particulier des couples de variables quantitatives . . . . . . . . . . . . . . . . . . 39
3.2.1 Représentation des données, indicateurs . . . . . . . . . . . . . . . . . . . . . 39
3.2.2 Covariance et coefficient de corrélation linéaire empiriques . . . . . . . . . . . 39
3.2.3 Ajustement linéaire d’un nuage de points . . . . . . . . . . . . . . . . . . . . 41
3.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Table des matières
4 Indices statistiques 51
4.1 Indices élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.2 Exemple et interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 1 Introduction aux statistiques descriptives 4
4.1.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 1.1 Introduction générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4.1.4 Des indices élémentaires aux indices synthétiques . . . . . . . . . . . . . . . . 52 1.2 A propos des exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4.2 Indices de Laspeyres et de Paasche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 1.3 Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.2.1 Indice de Laspeyres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 1.4 Variable qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.2.2 Indice de Paasche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 1.5 Variable quantitative discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.2.3 Remarques sur les indices de Laspeyres et Paasche . . . . . . . . . . . . . . . 54 1.6 Variable quantitative continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.2.4 Un compromis : l’indice de Fisher . . . . . . . . . . . . . . . . . . . . . . . . 56 1.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.3 Les indices-chaı̂nes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.4 Indice des prix de l’INSEE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2 Distributions statistiques univariées : principaux indicateurs 16
4.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 2.1 Caractéristiques de tendance centrale et de position . . . . . . . . . . . . . . . . . . 16
2.1.1 Le mode empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5 Séries chronologiques 59 2.1.2 Moyenne empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.1 Combinaison de la tendance et de la saisonnalité : modèle additif ou multiplicatif ? . 61 2.1.3 Moyennes géométriques et arithmétiques . . . . . . . . . . . . . . . . . . . . . 17
5.2 En l’absence de saisonnalité : estimation de la tendance . . . . . . . . . . . . . . . . 61 2.1.4 La médiane empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.2.1 Estimation paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.1.5 Les quantiles empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2.2 Estimation non paramétrique : méthode par moyenne mobile . . . . . . . . . 64 2.2 Caractéristiques de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.3 Elimination de la saisonnalité dans un modèle additif . . . . . . . . . . . . . . . . . . 66 2.2.1 L’étendue (empirique) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.4 Cas pratique : étude du nombre de passagers dans un aéroport sur une durée de 12 2.2.2 Distance inter-quartiles (empirique) . . . . . . . . . . . . . . . . . . . . . . . 21
ans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 2.2.3 L’écart absolu moyen (empirique) . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 2.2.4 La variance empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.5 L’écart type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Représentation graphique : boı̂te de distribution . . . . . . . . . . . . . . . . . . . . 22
2.4 Caractéristiques de concentration : Courbe de Lorenz et indice de Gini . . . . . . . . 23
2.5 QQ-plot (graphiques quantile-quantile) . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.1 Moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.2 Indicateurs et box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6.3 Indices et courbes d’inégalités . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.4 Diagrammes quantile quantile . . . . . . . . . . . . . . . . . . . . . . . 33
3 Description des distributions statistiques bivariées 36

3.1 Distributions conjointe, marginale et conditionnelle . . . . . . . . . . . . . . . . . . 36
3.1.1 Distribution conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.2 Distributions marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.3 Distribution conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3 2
4.5 Loi conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3 Variables aléatoires continues 34

1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.1 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.2 Densité de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Table des matières
1.3 Probabilité d’un intervalle . . . . . . . . . . . . . . . . . . . . . . . . 36
1.4 Indépendance de deux variables aléatoires continues . . . . . . . . . 36
1.5 Moments d’une v.a. continue . . . . . . . . . . . . . . . . . . . . . . 37
2 Quelques lois continues usuelles . . . . . . . . . . . . . . . . . . . . . . . . . 38 1 Introduction au calcul des probabilités 4
3 Transformation d’une v.a. continue . . . . . . . . . . . . . . . . . . . . . . . 39 1 Espaces Probabilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4 Somme de variables aléatoires continues . . . . . . . . . . . . . . . . . . . . 41 1.1 Espace des possibles . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
5 Approximation d’une loi par une autre loi . . . . . . . . . . . . . . . . . . . 41 1.2 Rappels sur les ensembles . . . . . . . . . . . . . . . . . . . . . . . . 5
5.1 Approximation de la loi Hypergéométrique par une loi binomiale . . 41 1.3 Espace probabilisable . . . . . . . . . . . . . . . . . . . . . . . . . . 6
5.2 Approximation de la loi Binomiale par une loi de Poisson . . . . . . 42 1.4 Mesure de probabilité, espace probabilisé . . . . . . . . . . . . . . . 7
5.3 Approximation de lois discrètes par une loi continue . . . . . . . . . 42 2 Loi de probabilité sur un ensemble Ω fini. Analyse combinatoire . . . . . . . 8
5.4 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.1 Exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.2 Loi de probabilité uniforme sur un ensemble Ω fini . . . . . . . . . . 9
2.3 Analyse combinatoire . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1 Formule des probabilités totales . . . . . . . . . . . . . . . . . . . . . 12
3.2 Formule de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 Variables aléatoires. Cas discret 17

1 Exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 Définition d’une variable aléatoire discrète . . . . . . . . . . . . . . . . . . . 18
2.1 Fonction de répartition d’une variable aléatoire discrète . . . . . . . 18
2.2 Moyenne et variance d’une variable aléatoire discrète . . . . . . . . . 19
2.3 Propriétés de la moyenne et de la variance d’une variable aléatoire
discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Exemples classiques de loi de probabilité sur N . . . . . . . . . . . . . . . . 21
3.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3 Loi Binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.5 Loi Géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.6 Loi Hypergéométrique . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4 Vecteurs aléatoires discrets . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1 Loi jointe et lois marginales . . . . . . . . . . . . . . . . . . . . . . . 25
4.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3 Covariance et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.4 Coefficient de correlation . . . . . . . . . . . . . . . . . . . . . . . . 27
3 2
Chapitre 1
Introduction aux statistiques

descriptives
1.1 Introduction générale

Supposons que nous disposions d’un ensemble relativement important de données que nous sou-
haitons étudier. En raison du volume important des données, une lecture seule (ligne à ligne) ne
permettrait pas d’en tirer de l’information. Le but de la statistique descriptive (autrement ap-
pelée ”analyse de données”) est de résumer l’information contenue dans ce gros volume de données
en un petit nombre de quantités (moyenne, écart-type, médiane...) ou de représenter de façon
concise les données (sous forme de tableaux ou de graphiques). L’analyse des données en tant que
telle ne nécessite pas d’outils probabilistes mais utilise plutôt des concepts d’algèbre.
Remarque 1.1 :
Un autre point de vue peut-être adopté si on considère les données recueillies comme l’observation
partielle d’une population plus importante généralement supposée de taille infinie. Afin d’induire
des informations sur la population infinie à partir de l’échantillon de données recueillies, il faut in-
troduire la notion de loi de probabilité. Ce deuxième point de vue, appelée inférence statistique
ou statistique mathématique constitue le programme de 2ème année.
Dans le programme de 1ère année, nous nous intéressons à la statistique descriptive. Dans le
chapitre 1, nous introduisons d’abord quelques concepts généraux puis nous proposons (chapitre
2) un catalogue de diverses quantités permettant de résumer l’information contenue dans un jeu
de données. Le chapitre 3 est dédié à l’étude des relations entre deux variables. Dans le chapitre 4,
nous introduisons la notion d’indice. Enfin, les séries temporelles sont abordées dans le chapitre 5.
1.2 A propos des exercices

Chaque chapitre est complété par des exercices. Certains reposent sur des jeux de données réelles.
Les jeux de données traités dans les exercices sont disponibles sur le site intercours sous un format
.xls ou .csv.
• Les jeux de données dont le nom de fichier contient le mot INSEE ont été trouvés sur le site
4
de l’Institut National de la Statistique et des Etudes Economiques (INSEE). 1 . Pour certaines
questions, on vous demande de trouver vous-même les informations sur ce site.
• Les données concernant les USA ont été trouvées sur le site de l’US Census Bureau 2 . Celles
concernant les meurtres aux USA proviennent du FBI 3 . Enfin, les informations concernant la
peine de mort ont été collectées sur Wikipédia.
• Les données dont le nom de fichier contient le mot OCDE proviennent des bases de données de
l’Organisation de Coopération et de Développement Economiques (OCDE).
• Les données dont le nom de fichier contient le mot ONU proviennent des bases de données de
l’Organisation des Nations Unies.
Notez que depuis très peu de temps, dans un soucis de transparence, la France a ouvert le site
http://www.data.gouv.fr/. Ce site met à disposition un grand nombre (toutes ?) de données
officielles. Pour votre culture générale, nous vous invitons à le parcourir.
Dans les exercices, vous devez calculer des indicateurs, tracer des histogrammes, des boı̂tes de
distribution. Vous pouvez utiliser Excel ou un logiciel de statistiques. Excel n’étant pas un logiciel
de statistiques à proprement parler, les outils statistiques graphiques ne sont pas disponibles par
défaut.
• Les histogrammes peuvent être tracés en installant la macro complémentaire “Utilitaire d’analy-
se”.
• Les box-plot peuvent être faites “à la main” mais il semble plus raisonnable d’utiliser les macro
existantes sur le “marché”. En particulier nous vous proposons d’utiliser la macro complémentaire
Boxplot.xla de Olivier Martin (Modulad, Numéro 32, janvier 2005). Nous avons mis cette macro
sur MyCourse ainsi que sa notice d’utilisation particulièrement pédagogique.
Plus généralement, d’autres macro peuvent être téléchargées sur le site https://www.rocq.inria.
fr/axis/modulad/excel_macros.htm. Nous vous invitons à parcourir le web pour trouver des
outils pratiques, tout en restant vigilants quant à leur qualité.
Remarque 1.2 :
Notez que la dernière version d’Excel, la macro “Utilitaire d’analyse” a été remplacée par le logiciel
StatPlus avec une version libre pour l’instant.
1.3 Vocabulaire
En statistique, on appelle population un ensemble fini P. Les éléments de P seront appelés indi-
vidus. Cette population peut être de nature très variée : population humaine, agents économiques,
pièces détachées d’un certain type, logements dans une ville donnée, etc.
Dans la population considérée on s’intéresse à un (ou plusieurs) caractère(s) statistique(s) X
concernant les individus ; à chaque individu de P est attachée une modalité du caractère X i.e.
une valeur prise par le caractère.
Exemple 1.1
Si on observe le caractère X = ”Genre”, les modalités sont ”homme” ou ”femme”.
1. http://www.insee.fr/fr/themes/
2. http://www.census.gov/compendia/statab/cats/population.html
3. http://www2.fbi.gov/ucr/cius2009/offenses/expanded_information/homicide.html
5
Le caractère X est dit
• quantitatif si il est mesurable. Dans ce cas, il peut être
• continu si il peut prendre n’importe quelle valeur d’un intervalle de R ; par exemple, le poids
et la taille d’un individu sont quantitatifs continus ;
• discret si il prend un nombre fini de valeurs ; par exemple, le nombre d’enfants par femme est
discret ;
• qualitatif si il ne peut être mesuré ; par exemple, le département de naissance d’un individu,
son sexe, son origine sociale.
Remarque 1.3 :
Il faut prendre ces définitions avec précaution. En effet, la distinction continu / discret est parfois
peu claire. Par exemple, en théorie, l’âge est une caractéristique continue mais en pratique elle est
au mieux mesurée avec une précision d’une journée.
Dans la suite, on appellera série statistique la suite des valeurs prises par une variable X sur les
unités d’observations. On note n le nombre d’unités d’observation et x1 , . . . , xn les valeurs prises.
Une première étape consiste à classer les données par modalité (ou intervalle de valeurs) et fournir
le tableau des effectifs et fréquences. Dans une deuxième étape, on représente graphiquement la
répartition des données au moyen d’un diagramme circulaire ou d’un histogramme. La méthodologie
est propre au type de caractéristique observée.
1.4 Variable qualitative

Supposons que la variable X est qualitative et soit J le nombre de modalités de la variable (c’est
à dire le nombre de valeurs différentes que peut prendre la variable)
Exemple 1.2
Si on observe le caractère X = ”Genre” alors J = 2.
On note m1 , . . . mJ ces modalités. Soit nj le nombre de fois où on observe la modalité mj dans la
population. fj est la fréquence de la modalité :
nj
fj =
n
On remarque que
n1 + . . . + nJ = n et f1 + . . . fJ = 1
• Tableau des effectifs et fréquences
Une première façon de résumer les données brutes est de remplir le tableau des effectifs et
fréquences :
Modalités Effectifs Fréquences
m1 n1 f1
.. .. ..
. . .
mJ nJ fJ
Total n 1
6
2nd
800
1st
3rd
600
400
200
Crew
0
1st 2nd 3rd Crew
Figure 1.1 – Voyageurs du Titanic : diagrammes en barre (à g.) et en secteurs (à dr.) des effectifs
• Représentation graphique
Dans le cas d’une variable qualitative, on peut représenter les données graphiquement par
– un diagramme en barre dans lequel la hauteur de chaque barre est proportionnelle à
l’effectif. La largeur de chaque barre est arbitrairement choisie.
– un diagramme en secteur, dans lequel chaque secteur angulaire est proportionnel à l’effectif.
Exemple 1.3 (Titanic)

On s’intéresse aux voyageurs du Titanic. La variable observée est leur classe qui prend 4 modalités :
1ère classe, 2ème classe, 3ème classe, équipage
Modalités Effectifs Fréquences

1ère Classe 325 0.148
2ème Classe 285 0.129
3ème Classe 706 0.321
Equipage 885 0.402
Total 2201 1
Le diagramme en barre et le diagramme circulaire sont représentés sur la figure 1.1.
1.5 Variable quantitative discrète

Si la variable observée X est discrète, le nombre de modalités est un entier naturel. Ordonnons les
modalités. Notons mj la j-ème modalité :
m1 < m2 < · · · < mJ
nj le nombre de fois où la modalité j a été atteinte et fj sa fréquence d’apparition. Puisque les
modalités sont ordonnées, on peut définir les effectifs et fréquences cumulés, respectivement notés
7
Nj et Fj :
j
X j
X
N j = n1 + . . . + nj = nj et Fj = f1 + . . . + fj = fj
k=1 k=1
Nj est alors le nombre d’unités statistiques sur lesquelles la variable prend des valeurs inférieures
ou égales à mj .
• Tableau des effectifs et fréquences cumulés
Modalités Effectifs Eff. cumulés Fréquences Fréq. cumulées

m1 n1 N1 = n1 f1 F1
m1 n1 N2 = n1 + n2 f2 F2 = f1 + f2
.. .. .. .. ..
. . . . .
mJ nJ n fJ 1
Total n 1
– Il est standard de représenter les effectifs d’une variable discrète par un diagramme en
batônnets dont les batônnets (traits) ont pour abcisse la modalité et sont de hauteur propor-
tionnelle à l’effectif (voir figure 1.2 à gauche).
– Par ailleurs, les fréquences cumulées sont représentées par la fonction de répartition em-
pirique définie de la façon suivante :


 0 si x < m1
Fn (x) = Fj si mj ≤ x < mj+1

 1 si x ≥ mJ
C’est une fonction en escaliers (voir figure 1.2 à droite pour un exemple).
Exemple 1.4 (Insectes)

On s’intéresse aux effets d’un insecticide (McNeil, D. (1977)). Pour cela, on compte le nombre
d’insectes présents sur n = 12 petites surfaces expérimentales. La série statistique est la suivante
0 1 7 2 3 1 2 1 3 0 1 4
Les modalités ordonnées sont m1 = 0 , m2 = 1, m3 = 2, m4 = 3, m5 = 4, m6 = 7. Le tableau des

effectifs et fréquences est le suivant :
Modalités Effectifs Eff. cumulés Fréquences Fréq. cumulées

0 2 2 2/12 2/12
1 4 6 4/12 6/12
2 2 8 2/12 8/12
3 2 10 2/12 10/12
4 1 11 1/12 11/12
7 1 12 1/12 12/12
Total 12 1
Le diagramme en batônnets et la fonction de répartition empirique sont représentés sur la figure

1.2.
8
1.0
4
0.8
3
0.6
2
0.4
1
0.2
0.0
0
0 1 2 3 4 7 0 2 4 6 8
Figure 1.2 – Insectes : diagrammes en batonnets des effectifs (à g.) et fonction de répartition
empirique (à dr.)
Remarque 1.4 :
Si la variable observée est qualitative ordinale (i.e. on peut ordonner naturellement les modalités)
alors les effectifs et fréquences cumulés ainsi que la fonction de répartition empirique ont un sens.
1.6 Variable quantitative continue

Si la variable observée est quantitative continue, alors chaque valeur observée sera atteinte très
probablement une seule fois. Par conséquent, il y aura autant de modalités que d’unités statistiques.
Ainsi la méthodologie utilisée pour les variables qualitatives ou quantitatives discrètes ne permet
pas de résumer les données brutes. Dans ce cas, il faut regrouper les données en classes (ou plages de
valeurs). Le tableau des effectifs obtenus à partir de ces classes est appelé distribution groupée.
Supposons que l’on découpe les données en J classes. On note alors
· cj le centre de la j-ème classe
· bj−1 la borne inférieure de la j-ème classe
· bj la borne supérieure de la j-ème classe et la borne inférieure de la j + 1-ème classe (les classes
se ”touchent”)
· nj l’effectif de la j-ème classe
· Nj son effectif cumulé
• Le tableau des effectifs est alors le suivant :
Classe Effectifs Eff. cumulés Fréquences Fréq. cumulées

[b0 , b1 [ n1 N1 f1 F1
[b1 , b2 [ n2 N2 = N1 + n2 f2 F2 = F1 + f2
[b2 , b3 [ n3 N3 = N2 + n3 f3 F3 = F2 + f3
.. .. .. .. ..
. . . . .
[bJ−1 , bJ [ nJ n fJ 1
9
– Les données d’une variable continue sont représentées graphiquement par un histogramme
dont les rectangles ont pour bornes bj−1 et bj et sont d’une surface proportionnelle à l’effectif
(ou à la fréquence) : la j-ème classe de bornes bj−1 et bj est représentée par un rectangle de
hauteur hj telle que
fj
hj × (bj − bj−1 ) = fj ⇔ hj =
bj − bj−1
– La distribution des données peut aussi être représentée par la fonction de répartition em-
pirique. Sous l’hypothèse d’équirépartition au sein de chaque classe, la fonction de répartition
Fn est linéaire par morceaux d’équation :


 0 si x < b0
Fj −Fj−1
Fn (x) = Fj−1 + bj −bj−1 (x − bj−1 ) si x ∈ [bj−1 , bj [


1 si x ≥ bJ
Remarque 1.5 :
Puisque les classes sont contiguës, la fonction de répartition est continue de R dans ]0, 1[. De
plus si il n’y a pas de classe vide, elle est strictement croissante donc elle réalise une bijection
de [b0 , bJ ] dans ]0, 1[.
En pratique, pour tracer la fonction de répartition empirique, on relie alors par des segments
les points de coordonnées (bj , Fj ).
Exemple 1.5 (Etats-Unis)

Nous considérons le revenu national brut par habitant de chacun des 50 états des Etats Unis
d’Amérique en 1974 (colonne ’Income’ de la table 1.1). Nous regroupons les données en classes de
largeur 500 :
[bj−1 , bj [ nj Nj fj Fj
[3000; 3500 [ 2 2 0.04 0.04
[3500; 4000 [ 11 13 0.22 0.26
[4000; 4500 [ 11 24 0.22 0.48
[4500; 5000 [ 18 42 0.36 0.84
[5000; 5500 [ 7 49 0.14 0.98
[5500; 6000 [ 0 49 0.00 0.98
[6000; 6500 [ 1 50 0.02 1
L’histogramme des effectifs correspondant aux classes définies précédemment est représenté sur la
figure 1.3 à gauche. Sur la même figure à droite, on a représenté l’histogramme des effectifs dans le
cas où on regroupe les 3 dernières classes. La fonction de répartition empirique correspondant à 7
classes est représentée sur la figure 1.4
Remarque 1.6 :
Le regroupement des données par classes peut aussi être appliqué aux variables quantitatives discrètes
quand le nombre de modalités J est trop grand.
10
6e-04
6e-04
4e-04
4e-04
2e-04
2e-04
0e+00
0e+00
3000 3500 4000 4500 5000 5500 6000 6500 3000 3500 4000 4500 5000 5500 6000 6500
Figure 1.3 – USA : histogrammes des revenus pour 7 classes (à g.) et après avoir regroupé les 3
dernières classes (à dr.)
1.0
0.8
0.6
0.4
0.2
0.0
2000 3000 4000 5000 6000 7500
Figure 1.4 – USA : fonction de répartition pour 7 classes
11
Chapitre 2
Distributions statistiques univariées :

principaux indicateurs
Dans le chapitre précédent nous avons présenté les données sous forme de tableau et de graphes
(histogramme, diagrammes et fonctions des répartitions). Nous cherchons maintenant à fournir des
indicateurs permettant de décrire synthétiquement la distribution des données x1 , . . . , xn . Dans une
première partie, nous nous intéressons aux paramètres de position et de tendance centrale. Dans
un second temps, nous considérerons les indicateurs de dispersion puis de concentration.
Nous insistons sur le fait qu’un indicateur ne peut être pris seul comme description de la distribution
mais doit être comparé aux autres. En outre, les paramètres de position et de dispersion doivent
être mis en regard pour avoir une idée plus complète de la distribution.
Remarque 2.1 :
Dans la suite, les indicateurs seront tous qualifiés d’ empiriques car issus de l’étude d’une série
statistique donc d’une expérience, par opposition aux espérances et variances théoriques étudiées
dans la première partie du cours (probabilité).
2.1 Caractéristiques de tendance centrale et de position

2.1.1 Le mode empirique
Le mode empirique est la modalité qui apparaı̂t le plus fréquemment.
Le mode (empirique) peut être défini pour toutes les variables qualitatives ou quantitatives discrètes.
Il n’est pas nécessairement unique. Dans le cas d’une variable continue dont les valeurs sont re-
groupées en classe, on parlera de classe modale.
Exemple 2.1
Dans l’exemple Titanic, le mode est la modalité ”Equipage”. Dans l’exemple Insectes, le mode est
la modalité m2 = 1. Dans l’exemple USA, la classe modale est [4500, 5000[.
16
2.1.2 Moyenne empirique
La moyenne empirique n’a de sens que pour une variable quantitative. Elle est égale à la somme
des valeurs observées divisée par le nombre d’observations n :
n
1X x1 + . . . + xn
mX =x= xi =
n n
i=1
Remarque 2.2 :
Dans le cas d’une variable discrète, la moyenne empirique peut aussi s’écrire à partir des effectifs
et modalités :
J
1X
mX = nj mj
n
j=1
Exemple 2.2
Dans l’exemple Insectes, la moyenne empirique du nombre d’insectes vaut 2.08 . Dans l’exemple
USA (tableau 1.1), la moyenne empirique des revenus vaut 4435.8 US dollars par an.
Remarque 2.3 :
La moyenne empirique est très sensible aux valeurs extrêmes (très grandes ou très petites). Dans
l’exemple Insectes si on ajoute une observation qui vaut 15 la moyenne arithmétique est considérablement
modifiée : elle passe de 2.08 à 3.08.
La moyenne présentée si dessus est la moyenne arithmétique. Celle-ci n’a pas forcément le sens
voulu. Dans certains contextes, nous avons naturellement recours à d’autres types de moyennes.
2.1.3 Digression : moyennes géométriques et arithmétiques

Moyenne géométrique
La moyenne géométrique de la série statistique x1 , . . . , xn est définie par :
n
!1/n
Y
xG = xi
i=1
Remarque 2.4 :
1 Pn
Si tous les xi sont strictement positifs alors log(xG ) = n i=1 log(xi ).
Exemple 2.3
Supposons que l’on place 100 e durant 4 années aux taux de 1% la 1ère année, 2% la deuxième
année, 3% la 3ème année, et 4% la 4ème année. Quel est le taux moyen par an de ce placement ?
On entend pas ”taux moyen” le taux τm tel que si on l’applique 4 années de suite, on obtient le
même rendement.
– Au bout de 4 ans, j’ai sur mon compte 100 × 1.01 × 1.02 × 1.03 × 1.04 = 110.3550 e.
– Le taux moyen τm est tel que si j’applique τm 4 années de suite j’obtiens la même somme :
100 × 1.01 × 1.02 × 1.03 × 1.04 = 100 × (1 + τm )4
17
1 + τm = (1.01 × 1.02 × 1.03 × 1.04)1/4
τm = (1.01 × 1.02 × 1.03 × 1.04)1/4 − 1 = 0.0249
d’où dans notre cas

τm = 2.49%
1+2+3+4
ce qui est différent de la moyenne arithmétique des taux qui vaut 4 = 2.50%.
Moyenne harmonique :
La moyenne harmonique vaut :
n
xH = Pn 1
i=1 xi
Exemple 2.4
Considérons un avion faisant un aller-retour sur la même trajectoire (de longueur d) à 600 km/h à
l’aller et 700 km/h au retour. Quelle est sa vitesse moyenne ?
Pour faire son aller retour, l’avion met un temps T égal à :
1 1
T =d× +d×
600 700
heures où d est la distance de son trajet aller. Sa vitesse moyenne vm est telle que si on applique la
vitesse moyenne à tout le parcours on met le même temps T pour faire l’aller-retour :
1 1 1
T =d× +d× =2×d×
600 700 vm
d’où
2
vm = 1 1 = 646.1538
600 + 700
Cette vitesse moyenne n’est par celle obtenue par la moyenne arithmétique qui vaut 650 km/h.
Comparaison des moyennes arithmétiques, géométriques et harmoniques

Théorème 2.1.1. Soient x1 , . . . , xn , n valeurs strictement positives. Alors on a :
min{x1 , . . . , xn } ≤ xH ≤ xG ≤ x ≤ max{x1 , . . . , xn }
2.1.4 La médiane empirique

La médiane empirique me est la valeur de la série séparant les unités statistiques en deux groupes,
de telle façon que la moitié des xi sont plus petites que me . Elle n’a de sens que dans le cas d’une
variable quantitative. La médiane empirique se lit sur la fonction de répartition empirique Fn : c’est
l’abscisse me pour laquelle
Fn (me ) = 50% (2.1)
En pratique, nous distinguons les variables discrètes des variables continues :

• Variable continue :
Dans ce cas, on a vu que si il n’y a pas de classe vide, la fonction de répartition est continue
strictement croissante donc elle réalise une bijection de R sur ]0, 1[. Par conséquent, l’équation
(2.1) admet une unique solution. On trouve cette solution de la façon suivante :
18
1. On repère la classe médiane telle que Fj−1 < 0.5 et Fj ≥ 0.5
2. me vérifie l’équation
Fj − Fj−1
Fj−1 + (me − bj−1 ) = 0.5
bj − bj−1
d’où
bj − bj−1 bj − bj−1
me = bj−1 + (0.5 − Fj−1 ) = bj−1 + (0.5 − Fj−1 )
Fj − Fj−1 fj
Exemple 2.5 (USA)

D’après le tableau des effectifs cumulés associé à cet exemple, la classe médiane est [4500; 5000[
car pour cette classe Fj = 0.84 ≥ 0.5 et pour la précédente Fj−1 = 0.48 < 0.5. Par interpolation
linéaire, on obtient :
5000 − 4500
me = 4500 + (0.5 − 0.48) = 4527.8
0.84 − 0.48
• Variable discrète :
Dans ce cas, la fonction de répartition est en escalier donc n’est pas bijective : le raisonnement
précédent n’est plus valable. On peut travailler directement sur la série statistique x1 , . . . xn que
nous commençons par ordonner de la plus petite à la plus grande valeur. Nous notons x(1) , . . . , x(n)
la série ordonnée.
– Si n est un nombre impair alors la médiane est la valeur centrale :
me = x( n+1 )
2
– Si n est pair, la médiane est la moyenne entre les 2 valeurs centrales :

x( n ) + x( n +1)
2 2
me =
2
Exemple 2.6 (Insectes)

D’après le tableau des effectifs cumulés associé à cet exemple, on a un nombre pair d’observations
qui sont dans l’ordre
0 0 1 1 1 1 2 2 3 3 4 7
Les 6 premières valeurs sont 0, 0, 1, 1, 1, 1 et les 6 suivantes sont 2, 2, 3, 3, 4, 7. La médiane est donc
1+2
2 = 1.5
Remarquons que dans les deux cas, on peut lire la médiane sur le graphique de la fonction de
répartition empirique (voir figures 2.1).
2.1.5 Les quantiles empiriques

Les quantiles empiriques sont la généralisation du concept de médiane. Soit α une proportion ∈]0, 1[
que l’on se fixe. Le quantile d’ordre α est tel qu’une proportion α des xi est plus petite que qα .
Formellement, qα est tel que
Fn (qα ) = α
19
1.0
1.0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
2000 3000 4000 5000 6000 7500 0 2 4 6 8
Figure 2.1 – Lecture de la médiane sur les fonctions de répartition empiriques (exemple USA à
gauche et Insectes à droite
• Variable continue :
Comme précédemment, si la fonction de répartition Fn est continue et strictement croissante, alors
elle réalise une bijection de R sur ]0, 1[ donc qα est parfaitement bien défini. Dans le cas d’une
variable continue dont les valeurs ont été regroupées en classe,
1. On repère la classe telle que Fj−1 < α et Fj ≥ α
2. qα vérifie l’équation
fj
Fj−1 + (qα − bj ) = α
bj − bj−1
d’où
bj+1 − bj
qα = bj + (α − Fj−1 )
Fj
• Variable discrète : Si Fn n’est pas bijective (par exemple constante par morceaux dans le cas
d’une variable discrète), on adopte le même principe que pour la médiane :
– Si nα est un nombre entier alors
x(nα) + x(nα+1)
qα =
2
– Si nα n’est pas un nombre entier alors considérons dnαe le plus petit entier supérieur ou égal à
nα
qα = x(dnαe)
Exemple 2.7
Dans l’exemple USA, le premier quartile est q0.25 = 3500 + (0.25 − 0.04) 4000−3500
0.22 = 3977.273. Le
troisième quartile est q0.75 = 4500 + (0.75 − 0.48) 5000−4500
0.36 = 4875
Remarque 2.5 :
Cette définition est une parmi tant d’autres que l’on peut trouver dans la littérature. En effet, en
raison de la non-bijectivité de Fn , cette définition est une approximation de la solution de l’équation
20
(2.1). D’autres définitions peuvent être utilisées dans les ouvrages et logiciels de statistique descrip-
tive.
2.2 Caractéristiques de dispersion

2.2.1 L’étendue (empirique)
L’étendue est la différence entre la plus petite valeur et la plus grande valeur de la série :
e = x(n) − x(1)
Exemple 2.8
Dans l’exemple USA, l’étendue est e = 6315 − 3098 = 3217
2.2.2 Distance inter-quartiles (empirique)

Les quartiles sont les quantiles d’ordre 25% et 75%. La distance inter-quartile est la différence
entre ces deux valeurs :
IQ = q0.75 − q0.25
Exemple 2.9
Dans l’exemple USA, l’étendue est IQ = 897.727
2.2.3 L’écart absolu moyen (empirique)

L’écart absolu moyen est la moyenne des valeurs absolues des différences entre xi et la moyenne
arithmétique x :
n
1X
emoy = |xi − x|
n
i=1
2.2.4 La variance empirique

La variance empirique est la moyenne des carrés des différences entre xi et la moyenne arithmétique
x:
n
2 1X
sX = (xi − mX )2
n
i=1
Théorème 2.2.1. (Formule de Koenig) La variance empirique peut aussi s’écrire de la façon
suivante :
n
1X 2
s2X = xi − m2X
n
i=1
Dans le cas discret, la variance peut aussi s’écrire à partir des effectifs et des modalités :
J J
1X 1X
s2X = nj (mj − mX )2 = nj m2j − m2X
n n
j=1 j=1
21
Remarque 2.6 :
On voit en 2ème année de DEGEAD (UE 44) que si on veut estimer correctement la variance
théorique d’une distribution à partir d’un échantillon x1 , . . . , xn , on utilise la variance corrigée :
n
1 X
(s0X )2 = (xi − mX )2
n−1
i=1
En général, les logiciels de statistiques fournissent la variance corrigée.
Exemple 2.10
Dans l’exemple USA, la variance s2X vaut 370021.8 et la variance corrigée (s0X )2 = 377573.3
2.2.5 L’écart type

L’écart type est une mesure de la distance moyenne à la moyenne. C’est la racine carrée de la
variance : q
sX = s2X
De même on définit l’écart type corrigé :
q
s0X = (s0X )2
Remarque 2.7 :
L’écart-type s’exprime dans la même unité que les données.
2.3 Représentation graphique : boı̂te de distribution

La boı̂te de distribution (ou boxplot) est une représentation graphique synthétique de la distribution
des données. Elle résume quelques caractéristiques de position et de dispersion du caractère étudié
(médiane, quartiles, minimum, maximum ou déciles). Ce diagramme est utilisé principalement pour
comparer un même caractère dans deux populations de tailles différentes.
Il se construit de la façon suivante :
1. Tracer un rectangle qui s’étend de q0.25 à q0.75 , de largeur quelconque.

2. Séparer le rectangle en deux à la hauteur de la médiane me . On obtient alors une
boı̂te.
3. On complète ce rectangle par deux segments. Pour cela, calculer
a = q0.25 − 1.5IQ et b = q0.75 + 1.5IQ
Identifier les valeurs de la série telle que
xa = min{xi |xi ≥ a} et xb = max{xi |xi ≤ b}
Ces valeurs sont appelées valeurs adjacentes. On relie ces valeurs au rectangle par
un segment
4. Les valeurs qui ne sont pas comprises entre les valeurs adjacentes sont représentées
par des points et appelées valeurs extrêmes
22
6000
5500
5000
4500
4000
3500
3000
Figure 2.2 – Boı̂te de distribution pour l’exemple USA
Exemple 2.11
Dans l’exemple USA on trouve a = 2630.682 et b = 6221.591. Les valeurs adjacentes sont xa = 3098
et xb = 5348. La boı̂te de distribution est représentée sur la figure 2.2.
2.4 Caractéristiques de concentration : Courbe de Lorenz et indice

de Gini
Des indicateurs particuliers ont été développés pour mesurer les inégalités de revenus ou de pa-
trimoine. Une société sera parfaitement égalitaire si tous les individus reçoivent le même revenu.
Au contraire, elle est considérée comme parfaitement inégalitaire si un seul individu reçoit tous les
revenus.
On représente ces inégalités par la courbe de Lorenz.
Soient x1 , . . . , xn les revenus des n individus de la société considérée. Comme précédemment, on

note x(1) , . . . , x(n) les revenus ordonnés par ordre croissant. Le revenu total est la somme des revenus
x1 + . . . + xn = x(1) + . . . + x(n) . Pour tout i entre 1 et n, qi est la proportion de revenus (par
rapport au revenu total) perçus par les i individus ayant les i plus petits revenus :
Pi
x(k)
qi = Pk=1
n
k=1 xk
De plus, on pose q0 = 0 et on a qn = 1.

La courbe de Lorenz relie les points ni , qi . Ainsi à chaque proportion i
n d’individus les moins
riches, on attribue la fraction des revenus totaux dont ils disposent.
Remarque 2.8 :
23
1.0
0.8
0.6
q_i
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
i/n
Figure 2.3 – Calcul de l’indice de Gini
C
Dans le cas particulier où chaque individu perçoit le même revenu alors xi = n d’où x1 +. . .+xn = C
et qi = ni . La courbe de Lorenz est la droite d’équation y = x
Pour une série statistique fixée, on représente la courbe de Lorenz et la diagonale du carré de côté
1. Plus l’écart entre la courbe de Lorenz et la diagonale est grand et plus la société considérée est
inégalitaire.
L’indice de Gini permet de quantifier cet écart. Il est égal à 2 fois la surface comprise entre la
courbe de Lorenz et la diagonale :
n−1
X qi + qi+1
G=1−
n
i=0
Démonstration
Tout d’abord remarquons que G est égal à 2 fois la surface entre les 2 courbes.
– La surface entre les 2 courbes vaut
la surface sous la diagonale − la surface sous la courbe de Gini
– La surface sous la diagonale est égale à la moitié de la surface du carré soit 12 .
Pn−1
– La surface sous la courbe de Gini est une somme de trapèzes = i=0 Ti où Ti est la surface d’un
trapèze (représenté en gris hachuré sur la figure 2.3)
La largeur de chaque trapèze est ni − i+1 1
n = n Le trapèze est de hauteur qi à gauche et qi+1 à
droite. D’où une surface de
1 11
Ti = qi + (qi+1 − qi )
n 2n
1
= [2qi + qi+1 − qi ]
2n
1
= [qi + qi+1 ]
2n
24
1.0
0.8
0.6
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
Figure 2.4 – Courbe de Lorenz pour l’exemple USA
Finalement l’indice de Gini vaut

" n−1
#
1 X qi + qi−1
G = 2 −
2 2n
i=0
n−1
X qi + qi−1
= 1−
n
i=0
Il est facile de vérifier que :
" n
#
1 X
G = 1+ 1−2 qi
n
i=0
L’indice de Gini est compris en 0 et 1. Il est proche de 0 si tous les revenus sont égaux.
Exemple 2.12
Dans l’exemple USA, la courbe de Lorenz des revenus des 50 états est donnée sur le graphe 2.4.
L’indice de Gini vaut 0.078. Donc il semble que les revenus soient équitablement répartis entre les
états.
2.5 QQ-plot (graphiques quantile-quantile)

Soit x1 , . . . , xn une série statistique. On peut chercher à savoir si le distribution des données est
gaussienne ou Poisson etc. . . Notons F0 la fonction de répartition de cette loi de probabilité d’intérêt.
Le QQ-plot est un outil graphique permettant de visualiser rapidement l’adéquation de la distri-
bution d’une série numérique à une distribution de référence. Dans ce graphe, on reporte sur l’axe
25
Pays PIB par habitant Consommation d’énergie par habitant
(en $ US, en 2004) (en Tonnes d’équivalent pétrole, en 2002)
Afrique du sud 5700 2.502
Algérie 2575 0.985
Bénin 512 0.340
Egypte 976 0.789
Maroc 1505 0.363
Nigeria 541 0.718
Sénégal 637 0.319
Allemagne 33422 4.198
Espagne 25777 3.215
France 33614 4.470
Grèce 19226 2.637
Italie 28909 2.994
Luxembourg 66808 9.112
Norvège 54894 5.843
Portugal 15835 2.546
Royaume-Uni 35193 3.824
Suède 38746 5.718
Suisse 47577 3.723
Arabie Saoudite 9285 5.775
Chine 1258 0.960
Corée du Sud 13929 4.272
Inde 631 0.513
Iran 2350 2.044
Israel 18404 3.191
Japon 36647 4.058
Koweit 21420 9.503
Philippines 948 0.525
Russie 4071 4.288
Turquie 4296 1.083
Vietnam 520 0.530
Argentine 3808 1.543
Brésil 3210 1.093
Canada 30014 7.973
Colombie 2234 0.625
Etats-Unis 39114 7.943
Paraguay 1032 0.709
Venezuela 4203 2.141
Australie 30498 5.732
Table 2.1 – Ces données sont obtenues du 26

site http ://www.statistiques-mondiales.com/
des ordonnées les fractiles correspondant à la distribution observée et sur l’axe des abscisses ceux
correspondant à la distribution théorique.
En pratique
1. Tableau des quantiles et nuage de points

• Dans le cas d’une variable quantitative dont les valeurs sont regroupées par modalités :
Soient m1 , . . . , mJ les modalités de la série x1 , . . . , xn . On remplit le tableau des fréquences
cumulées. Pour chaque fréquence cumulée, on calcule le quantile théorique i.e. qj tel que
F0 (qj ) = Fj ⇔ qi = F0−1 (Fj )
En général ce calcul se fait par l’utilisation des tables statistiques ou par un logiciel.
On reporte dans un graphique le nuage de points (mj , qj )j=1...J .
Modalités ordonnées m1 ··· mJ

Fréquences cumulées F1 ··· FJ
Quantiles théoriques q1 = F0 (F1 ) · · · qJ = F0−1 (FJ )
−1
• Dans le cas d’une variable quantitative dont les valeurs sont regroupées en classes de mo-
dalité :
On remplit le tableau des fréquence cumulées. Pour chaque fréquence cumulée (bj+1 ) on
calcule le quantile théorique i.e. qj tel que
F0 (qj ) = Fj ⇔ qi = F0−1 (Fj )
− +
Classe [c− +
1 , c1 [ ... cJ , cJ
Fréq. cumulées F1 ... FJ
Quantiles théoriques q1 = F0 (F1 ) . . . qJ = F0−1 (FJ )
−1
On reporte dans un graphique le nuage de points (bj+1 , qj )j=1...J .

2. Interprétation
• Si les points sont alignées sur la diagonale du carré de côté 1 (1ère bissectrice), alors la loi
théorique proposée (de fonction de répartition F0 ) est adaptée aux observations.
• Si les points sont alignés sur une droite parallèle à la diagonale du carré de côté 1 on
soupçonnera une erreur sur les paramètres de position de la loi théorique.
• Si les points sont alignés sur une droite passant par l’origine mais inclinée par rapport à la
diagonale du carré de côté 1 on soupçonnera une erreur sur les paramètres de dispersion
de la loi théorique.
• Si les points sont alignés sur une droite ne passant pas par l’origine et inclinée par rapport à
la diagonale du carré de côté 1 on soupçonnera une erreur sur les paramètres de dispersion
et de position de la loi théorique.
• Si les points ne sont pas alignés sur une droite la loi théorique n’est pas adaptée aux
observations.
27
Remarque 2.9 :
Si l’on dispose des données individuelles d’une variable aléatoire continue, les modalités sont toutes
les valeurs prises par la série (ordonnées) et les fréquences cumulées sont du type ni .
Remarque 2.10 :
Les QQ-plot peuvent servir aussi à comparer les distributions de deux séries.
Exemple 2.13
On s’intéresse à la distribution du PIB pour les pays du tableau 2.1. On veut comparer leur
distribution avec une gaussienne centrée réduite. Le QQ-plot correspondant est représenté sur la
figure 2.5. Ce graphe indique que la réparition du PIB est significativement différente d’une loi
normale.
4
x 10
8
6
Quantiles of Input Sample
−2
−4
−3 −2 −1 0 1 2 3
Standard Normal Quantiles
Figure 2.5 – QQ-plots pour les données de la Table 2.1
2.6 Exercices
2.6.1 Moyennes
Exercice 2.1
La banque A. propose un placement au taux de 3% la première année et 2.5% les années suivantes.
La banque B. propose quant à elle un placement au taux constant de 2.75% par an. Quel est le
taux moyen pour chaque banque, sur une période de 2 ans ? Pour un placement de 2 ans, quelle
banque devez-vous choisir ?
Exercice 2.2 1. On parcourt un carré de côté 20 km aux vitesses respectives de 80 km/h, 85

km/h, 90 km/h et 95 km/h. Quelle est la vitesse moyenne ?
2. On parcourt un rectangle de côtés respectifs 20 km et 30 km. Le grand côté est parcouru à
110 km/h tandis que le petit coté est parcouru à 130 km/h. Quelle est la vitesse moyenne ?
3. Dans le rectangle précédent, on décide de prendre un raccourci au retour en passant par la
diagonale à 60 km/h. Quel est le temps de parcours final ? Quelle est la vitesse moyenne ?
28
Chapitre 3
Description des distributions

statistiques bivariées
Dans ce chapitre, on s’intéresse aux relations entre deux variables notées X et Y . Supposons que l’on
observe ces deux variables sur n unités statistiques. A chaque individu i, on peut associer un couple
d’observations (xi , yi ). Chaque variable peut être quantitative ou qualitative. Dans une première
partie, on s’intéresse à la présentation des données et nous proposons un indicateur d’indépendance.
Dans une seconde partie nous nous intéressons à la modélisation d’une relation linéaire entre les
deux caractères étudiés.
3.1 Distributions conjointe, marginale et conditionnelle

Notons mX X Y Y
1 , . . . mJ les J modalités de X et m1 , . . . mK les modalités de Y . Si l’une des deux
variables (ou les deux) est quantitative continue, les mX Y
j ou mk sont des classes modales.
Introduisons les quantités suivantes :
• njk est le nombre de fois où le couple (X, Y ) prend la modalité (mX Y
j , mk )
• n•k est le nombre de fois où la variable Y prend la valeur mYk .
• nj• est le nombre de fois où la variable X prend la valeur mX j .
On a
X J XK
njk = n•k et njk = nj•
j=1 k=1
De plus
K X
X J J
X K
X
njk = nj• = n•k = n
k=1 j=1 j=1 k=1
36
3.1.1 Distribution conjointe
Les données peuvent être représentées dans un tableau à double entrée appelé tableau de contin-
gence.
mY1 . . . mYk . . . mYK total
mX 1 n11 . . . n1k . . . n1K n1•
.. .. .. .. ..
. . ... . ... . .
mX j nj1 . . . njk . . . njK nj•
.. .. .. .. ..
. . ... . ... . .
mX
J nJ1 . . . nJk . . . nJK nJ•
n•1 . . . n•k . . . n•K n
Le tableau des fréquences s’obtient en divisant les effectifs par le nombre d’unités statistiques
n. Comme précédemment on définit :
njk n•k nj•
fjk = , f•k = fj• =
n n n

mX
1 f11 . . . f1k . . . f1K f1•
.. .. .. .. ..
. . ... . ... . .
mX j fj1 ... fjk . . . fjK fj•
.. .. .. .. ..
. . ... . ... . .
mX
J fJ1 . . . fJk . . . fJK fJ•
f•1 . . . f•k . . . f•K 1
Remarque 3.1 :
Dans de nombreuses situations, les données individuelles ne sont pas disponibles, on a seulement
accès aux tableaux de contingence.
3.1.2 Distributions marginales

A partir du tableau de contingence, on peut retrouver la distribution de chacune des variables
séparément :
Modalité de Y mY1 . . . mYk . . . mYK total
Fréquence empirique f•1 . . . f•k . . . f•K 1
Modalité de X mX1 . . . mXj . . . mXJ total

Fréquence empirique f1• . . . fj• . . . fJ• 1
Les distributions de X et de Y sont appelées distribution marginales. Sur chaque variable, on
peut calculer les indicateurs habituels (moyenne, variance, écart type si la variable est quantita-
tive. . .). Ces paramètres sont qualifiés d’indicateurs marginaux.
37
3.1.3 Distribution conditionnelle
La ligne j du tableau de contingence représente la répartition sur les modalités (ou classes modales)
(mY1 , . . . , mYK ) des individus pour lesquels le caractère X vaut mXj .
Si on divise les lignes ou les colonnes par leur somme, on obtient les distributions empiriques
constituées des fréquences conditionnelles. Pour j = 1, . . . , J et k = 1, . . . , K, notons :
njk fjk
fk|j = =
nj• fj•
fk|j peut se lire “fréquence de la modalité mYk sachant que X prend la modalité mX
j ”.
On peut alors construire le tableau des profils lignes :

mX
1 f1|1 . . . fk|1 . . . fK|1 1
.. .. .. .. ..
. . ... . ... . .
mX j f1|j . . . fk|j . . . fK|j 1
.. .. .. .. ..
. . ... . ... . .
mX
J f1|J . . . fk|J . . . fK|J 1
Les profils colonnes sont les fréquences en colonne i.e. :

njk fjk
fj|k = =
n•k f•k
Si la variable X est quantitative, on peut calculer les moyennes et variances empiriques condi-
tionnelles : pour tout k = 1 . . . K
J
X J
X
mX|Y =k = fj|k mX
j s2X|Y =k = fj|k (mX
j − mX|Y =k )
2
j=1 j=1
Il s’agit de la moyenne ou de la variance des xi calculées pour les couples dont la variable Y a pour
valeur la k-ième modalité. On peut bien sûr faire de même en échangeant le rôle de X et Y pour
obtenir des moyennes et variances conditionnelles de Y .
3.1.4 Statistique du Chi-deux

En présence de deux variables, l’un des enjeux principaux est d’étudier (c’est à dire quantifier voire
expliquer) la dépendance entre les deux caractères.
Intuitivement, deux caractères sont indépendants si la valeur de l’un n’a aucune influence sur la
distribution de l’autre. Si tel était le cas, alors les distributions conditionnelles seraient toutes
semblables à la distribution marginale : pour tout (j, k), on devrait avoir
fj|k = fj• et fk|j = f•k
Ainsi, on aurait :
fij = fj|k f•k = fj• f•k
D’où, si les 2 variables étaient indépendantes, on aurait
n•j ni•
nij =
n
38
On peut “quantifier la distance à l’indépendance” par la statistique du chi-deux :
J X
X K
(fjk − f•j fi• )2
D χ2 = n
f•j fi•
j=1 k=1
 
XJ X K 2
njk
= n − 1
nj• n•k
j=1 k=1
Ou de façon équivalente :
J X
X K n•j ni• 2
(njk − n )
D χ2 = n•j ni•
j=1 k=1 n
auseuil 5 pourcent, il faut comparer comparer Dχ2 au quantile q0,95 d’orde 95% d’une loi du χ2 à
(J − 1)(K − 1) degré de liberté c’est à dire
– si Dχ2 ≤ q0,95 , on conclue que les deux variables sont dépendantes,
– indépendantes sinon.
Interprétation : La statistique du chi-deux est proche de 0 si les deux caractères sont indépendants.
Elle est maximale s’il existe une dépendance systématique.
3.2 Cas particulier des couples de variables quantitatives

Dans ce cas, les xi et yi sont des nombres
3.2.1 Représentation des données, indicateurs

Dans le cas de variables quantitatives, la première chose à faire est de représenter ces données dans
le plan par un nuage de points de coordonnées (xi , yi ).
Exemple 3.1
Dans l’exemple USA, on considère la variable x = ”Illiteracy” et la variable Y =”Life Expectation”.
Le nuage de points est représenté sur la figure 3.1.
Comme vu précédemment, chaque variable peut être analysée séparément. Ainsi on peut calculer
les moyennes (mX , mY ) , variances (s2X et s2Y ) et écart-types (sX et sY ) pour X et pour Y . Ces
paramètres sont appelés paramètres marginaux.
3.2.2 Covariance et coefficient de corrélation linéaire empiriques

La covariance empirique est définie par
n
1X
sXY = (xi − x)(yi − y)
n
i=1
= xy − x y,
P
où xy = n1 ni=1 xi yi . La covariance permet d’évaluer le sens de variation de deux variables et, ainsi,
de qualifier l’indépendance de ces variables :
39
73
72
Life Expectation
71
70
69
68
0.5 1.0 1.5 2.0 2.5
Illiteracy
Figure 3.1 – Nuage de points du jeu de données USA
Propriétés de la covariance empirique

1. sXY = sY X
2. Si xi = yi pour tout i, alors la covariance est en fait la variance de X.
3. s2X+Y = s2X + s2Y + 2 sXY
4. La covariance peut prendre des valeurs positives ou négatives
Le coefficient de corrélation linéaire est :
sXY
rXY =
sX sY
Propriétés de rXY
1. rXY est toujours compris dans l’intervalle [−1, 1]. C’est une quantité sans dimension.
2. Si xi = yi pour tout i = 1 . . . n, ce coefficient prend la valeur 1.
3. Si rXY est ”assez grand en valeur absolue” et négatif, les points sont globalement alignés sur
une droite décroissante.
4. Si rXY est ”assez grand en valeur absolue” et positif, les points sont globalement alignés sur
une droite croissante.
5. Si rXY est proche de zéro alors il n’y a pas de dépendance linéaire. Cependant, il peut y avoir
une dépendance autre que linéaire (Y = X 2 par exemple).
Exemple 3.2
Sur la figure 3.2 on a représenté des nuages de points et calculé le coefficient de corrélation pour
chacun.
– En haut à gauche, les points sont alignés sur une droite croissante, rXY = 1.
– En haut au milieu, les points sont alignés sur une droite décroissante, rXY = −1.
40
1 -1 0.194
0.739 -0.774 0.404
Figure 3.2 – Exemple 3.2 : Coefficients de corrélation pour chaque nuage de points.
– En bas à gauche, les points semblent suivre une droite croissante sans pour autant être alignés,
rXY = 0.739.
– En bas au milieu, les points semblent suivre une droite décroissante sans pour autant être alignés,
rXY = 0. − 774.
– En haut à droite, aucun motif ne se dessine, rXY est petit et vaut 0.194.
– En bas à droite, les points sont parfaitement répartis selon une courbe qui n’est pas une droite,
rXY est petit.
Exemple 3.3
Dans l’exemple USA, on obtient
x̄ = 1.17 ȳ = 70.8786 s2X = 0.3641 s2Y = 1.76598 sXY = −0.471882 rXY = −0.5884779
3.2.3 Ajustement linéaire d’un nuage de points

On peut chercher à expliquer la relation entre X et Y par une transformation linéaire : Y = aX + b.
41
A partir d’un nuage de points (yi , xi ), i = 1, . . . , n qui semblent alignés, on va chercher la droite
d’équation y = ax + b qui passe au plus près des points du graphe. Passer au plus près, selon la
méthode des moindres carrés, c’est rendre minimale la somme suivante :
n
X
M (a, b) = (yi − axi − b)2
i=1
où (yi − axi − b)2 représente le carré de la distance verticale du point expérimental (yi , xi ) à la
droite considérée comme la meilleure. Cela revient donc à déterminer les valeurs des paramètres a
et b (respectivement le coefficient directeur de la droite et son ordonnée à l’origine) qui minimisent
la somme M (a, b).
Théorème 3.2.1. Soit (xi , yi ) un nuage de points. Le couple (a, b) minimisant le critère des
moindres carrés est
sXY
b
a= 2 et bb = y − b
ax.
sX
a et bb sont appelés estimateurs des moindres carrés de a et b.
b
Démonstration. Le minimum de M (a, b) en (a, b) s’obtient en dérivant M (a, b) par rapport à a et

à b et en annulant ces dérivées partielles.
( P
∂M (a,b)
∂a = −2 ni=1 xi (yi − axi − b) = 0
∂M (a,b) P
∂b = −2 ni=1 (yi − axi − b) = 0
On obtient donc un système à 2 équations et 2 inconnus. En divisant les deux lignes par −2n on
obtient : ( P P P
n
1
n i=1 xi yi − a n1 ni=1 x2i − n1 ni=1 xi b = 0
1 Pn 1 Pn 1 Pn
n i=1 yi − a n i=1 xi − n i=1 b = 0
Ce qui est équivalent à
( Pn P Pn
1
n i=1 xi yi − a n1 ni=1 x2i − 1
n i=1 xi b = 0
y − ax − b = 0
D’où
b = y − ax (3.1)
Donc
n n
1X 1X 2
x i yi − a xi − x(y − ax) = 0
n n
i=1 i=1
Ainsi Pn
1
n i=1 xi yi − x y
a= 1 Pn 2 2
(3.2)
n i=1 xi − x
On reconnaı̂t au numérateur la covariance sXY et au dénominateur la variance s2X Ainsi les

équations (3.1) et (3.2) nous donnent les expressions de ba et bb.
Il faut maintenant vérifier qu’il s’agit bien d’un minimum en calculant le déterminant de la matrice
hessienne  ∂ 2 M (a,b) P

 2∂ 2 a = 2 ni=1 x2i
P
r∂ M (a,b)
∂2b
= 2 ni=1 1 = 2n

 ∂ 2 M (a,b) P
∂a∂b = 2 ni=1 xi = 2nx
42
n
!
X
det HessM = 2 x2i × (2n) − (2nx)2
i=1
n
!
2 1X 2
= 4n xi − x2
n
i=1
= 4n2 s2x >0
Remarque 3.2 :
ax + bb =
Le point moyen de coordonnées (x, y) appartient à la droite des moindres carrés. En effet, b
ax + y − b
b ax = y.
| {z }
b
b
• Prédictions
La droite des moindres carrés permet d’expliquer la relation entre X et Y mais elle permet aussi
de prédire de nouvelles valeurs. Supposons qu’on nous fournisse une nouvelle valeur x? , on pourra
prédire la valeur de Y correspondante par :
ax? + bb
y? = b
• Résidus et valeurs ajustées ou prédites

Maintenant que les a et b optimum ont été trouvés on peut considérer les valeurs ajustées qui
sont obtenues par :
axi + bb, ∀i = 1 . . . n
yi∗ = b
Ce sont les valeurs prédites par la droite de régression pour la valeur xi .
Les résidus sont les différences entre les valeurs observées yi et les valeurs ajustées yi∗ :
ei = yi − yi∗
Ils représentent la partie non-expliquée des yi par la droite des moindres carrés.
Remarque 3.3 :
P P P
axi + bb = b
On a n1 ni=1 yi∗ = n1 ni=1 b ax + bb = y = n1 ni=1 yi car le point (x, y) appartient à la droite
P
des moindres carrés. Par conséquent, la somme des résidus ni=1 ei est nulle.
• Reformulation du coefficient de corrélation linéaire

– On appelle somme des carrés des résidus la quantité
n
X n
X
SCRES = e2i = (yi − yi∗ )2
i=1 i=1
La variance résiduelle est alors

SCRES
s2e =
n
43
– On appelle somme des carrés totale
n
X
SCT OT = (yi − y)2
i=1
Ainsi la variance marginale des yi s’exprime par s2y = SCTnOT .

– On appelle somme des carrés de la regression ou somme des carrés expliquée la quantité
n
X
SCREG = (yi∗ − y)2
i=1
2
Ré-interprétation : rXY est en fait la proportion de la variation de la variable Y expliquée par la
droite des moindres carrés.
2 SCREG
rXY =
SCT OT
Démonstration.
n
SCREG 1X ∗
= (yi − y)2
n n
i=1
n
1X
= (axi + b − ax − b)2
n
i=1
n
X
21 sXY
= a (xi − x)2 or a = s2x
donc
n
i=1
s2XY 2 s2XY 2
= s x = s
s4x s2x s2y y
2 2 SCT OT
= rXY s2y = rXY
n
Par conséquent
2 SCREG
rXY =
SCT OT
Finalement, le carré du coefficient de corrélation linéaire mesure le degré de dépendance

linéaire entre X et Y .
Exemple 3.4
Dans l’exemple USA, on a tracé la droite des moindres carrés sur la figure 3.3.
• Et si on expliquait X par Y ? Le raisonnement précédent ne donne pas le même rôle à X et à

Y . On peut chercher à expliquer X par Y : X = a0 Y + b0 . Comme précédemment la minimisation
du critère des moindres carrés donne :
sXY
a0 = et b0 = x − a0 y
s2y
Si on veut tracer les deux droites sur le même graphe, il faut re-exprimer Y en fonction de X. Les
positions relatives de ces deux droites sont étudiées dans l’exercice 3.10.
44
73
72
Life Expectation
71
70
69
68
0.5 1.0 1.5 2.0 2.5
Illiteracy
Figure 3.3 – Nuage de points du jeu de données USA
3.3 Exercices
Exercice 3.1 (Yeux - Cheveux)
On a étudié la couleur des yeux et des cheveux de 592 étudiants en statistiques de l’Université du
Delaware (Snee 1974). La table de contingence est la suivante :
PP
P PP Yeux Marron Bleu Hazel 1 Vert
Cheveux PPPP
Brun 68 20 15 5
Chatain 119 84 54 29
Roux 26 17 14 14
Blond 7 94 10 16
1. Donner les modalités prises par les 2 variables

2. Donner les distributions empiriques marginales.
3. Donner la distribution conditionnelle de la couleur des cheveux sachant que les yeux sont
bleus.
4. Les deux variables sont-elles indépendantes ?
Exercice 3.2 (Logement-Situation Maritale)

A partir de 200 dossiers d’une agence immobilière, on recense les réponses positives et négatives selon
la situation maritale du demandeur (célibataire ou en couple). On obtient les résultats suivants :
Célibataire En couple
Dossier accepté 34 58
Dossier réfusé 66 42
1. Hazel est un mélange de marron et vert
45
Chapitre 4
Indices statistiques
Les indices permettent de mesurer l’évolution d’un phénomène au cours du temps. Dans ce chapitre
nous donnons les propriétés principales des indices et nous introduisons les indices de Laspeyres et
de Paasches.
4.1 Indices élémentaires

4.1.1 Définition
Soit x(t) une quantité observée au cours du temps. On appelle indice élémentaire le rapport des
valeurs prises par la série à deux dates différentes :
x(t)
It/t0 =
x(t0 )
Remarque 4.1 :
– De la même façon, on peut construire des indices pour des séries dont les valeurs sont mesurées
en différents lieux (dans ce cas là, t représente un lieu).
– Il suffit de multiplier l’indice par 100 pour l’exprimer en pourcentage.
4.1.2 Exemple et interprétation

A l’occasion d’Halloween, le CENSUS Bureau publie les chiffres de la production de citrouilles.
Pour les années 2008, 2009 et 2010 on relève les chiffres suivants :
année Production en Cwt 1 (q(t)) Prix à l’unité ($/Cwt) 2 (p(t)) Valeur totale (v(t))
2008 1 484 000 12.50 18 550
2009 1 479 000 13.90 20 558
2010 1 860 000 10.10 18 786
2. prix moyen payé aux producteurs au premier point de vente

2. 1 Cwt = 45 kg
51
On peut calculer les indices élémentaires pour la production, le prix à l’unité et la valeur totale.
On constate que la production de citrouilles a rapporté 10.77% de plus en 2009 qu’en 2008
20558
I2009/2008 (v) · 100 = 100 ≈ 110.77
18550
alors que la production pour ces mêmes années avait baissé de 0.34%
1479000
I2009/2008 (q) · 100 = 100 ≈ 99.66
1484000
4.1.3 Propriétés
Les indices élémentaires vérifient les propriétés de circularité et de réversibilité définies ci-dessous.
• Circularité : considérons trois dates (t1 , t2 , t3 ). On a :
It1 /t3 = It1 /t2 It2 /t3
En effet,
x(t1 ) x(t1 ) x(t2 )

It1 /t3 = = = It1 /t2 It2 /t3
x(t3 ) x(t2 ) x(t3 )
Conséquences
– A partir d’une série d’indices calculés en des temps intermédiaires, on peut calculer un indice
global sur la période.
– En outre, si on dispose d’indices calculés par rapport à une date de référence –l’année 0– It/0
et It0 /0 , alors on peut calculer l’indice It/t0 par la formule :
It/0
It/t0 =
It0 /0
En effet, It/0 = It/t0 It0 /0 par la propriété de circularité. D’où la formule précédente.
• Réversibilité : soient deux dates t et t0 , on a

1
It/t0 =
It0 /t
Remarque 4.2 :
Attention, si on considère des indices exprimés en pourcentage les formules précédentes sont légèrement
modifiées.
4.1.4 Des indices élémentaires aux indices synthétiques

Les indices élémentaires présentés précédemment permettent de suivre l’évolution d’une unique
quantité au cours du temps. Cependant, afin de rendre compte d’une situation ou d’un contexte
économique complexe, on peut être amené à combiner des grandeurs non homogènes (non som-
mables) pour proposer un indice dit synthétique.
52
Exemple 4.1
Un fabricant de linge de maison cherche à connaı̂tre l’évolution de sa situation économique entre
deux années. Chaque année, il produit d’une part des torchons dont on note q1 (t) la quantité
produite et p1 (t) le prix à l’unité. D’autre part, il produit des serviettes dont on note q2 (t) la quantité
produite et p2 (t) le prix à l’unité. Pour chaque produit i, on peut observer l’indice des revenus
apportés I1 (t/0) = ppii(0)q
(t)qi (t)
i (0)
. Cependant, les torchons et les serviettes ne sont pas sommables.
Comment peut-on combiner ces deux indices élémentaires ?
Il existe un infinité de façon de combiner les grandeurs d’intéret. Les indices synthétiques les plus
connus sont les indices de Laspeyres et de Paasche : ces deux indices sont des moyennes pondérées
des indices élémentaires.
4.2 Indices de Laspeyres et de Paasche

Considérons un ‘panier” composé de n produits. Notons pi (t) le prix du produit i l’année t et qi (t)
la quantité consommée de produit i l’année t. Les quantités et les prix varient entre la date 0 et la
date t.
4.2.1 Indice de Laspeyres

L’indice de Laspeyres des prix est
Pn
pi (t)qi (0)
Lt/0 (p) = Pni=1
i=1 pi (0)qi (0)
Ainsi, partant d’un ‘panier de référence” caractérisé par les quantités qi (0), l’indice de Lapeyres des
prix mesure l’évolution du prix à payer pour ce panier de référence. Cet indice ne tient pas compte
de l’évolution de la composition du panier donc des habitudes de consommation.
L’indice de Laspeyres vu comme somme pondérée des indices élémentaires :

En effet, on peut réécrire l’indice de Laspeyres de la façon suivante :
Pn
p (t)qi (0)
Lt/0 (p) = Pni=1 i
j=1 pj (0)qj (0)
n
X q (0)pi (0) pi (t)
= Pn i
i=1 j=1 pj (0)qj (0) pi (0)
n
X
= wi (0)Ii,t/0
i=1
où Ii,t/0 est l’indice élémentaire pour les prix. wi (0) = Pnqi (0)p i (0)
est un poids représentant la
j=1 pj (0)qj (0)
part du produit i dans la consommation globale à l’instant de référence. Ces poids sont appelés
P
coefficients budgétaires pour la période de référence. On peut remarquer que ni=1 wi (0) = 1.
Finalement, l’indice de Laspeyres s’écrit comme une moyenne arithmétique des indices élémentaires
de chaque produit.
53
De la même façon, on définit l’indice Lapeyres des quantités :
Pn
pi (0)qi (t)
Lt/0 (q) = Pni=1
i=1 pi (0)qi (0)
Cet indice ne tient pas compte de la variation de prix mais seulement de la variation des quantités.
4.2.2 Indice de Paasche

L’indice de Paasche s’écrit de la façon suivante :
Pn
pi (t)qi (t)
Πt/0 (p) = Pni=1
i=1 i (0)qi (t)
p
Ainsi, partant d’un panier dont les consommations sont définies à l’instant t, on calcule rétrospectivement
P
son coût à l’instant de référence ni=1 pi (0)qi (t) et on le compare au coût du panier à l’instant t.
Remarque 4.3 :
De la même façon, on peut définir l’indice de Paasche des quantités :
Pn
pi (t)qi (t)
Πt/0 (q) = Pni=1
i=1 pi (t)qi (0)
L’indice de Paasche vu comme moyenne harmonique des indices élémentaires :
On peut réécrire l’inverse de l’indice de Paasche de la façon suivante :

Pn Pn
1 i=1 pi (0)qi (t) Pnpi (t)qi (t) pi (0)
Πt/0 (p) = Pn = i=1
j=1 pj (t)qj (t) j=1 pj (t)qj (t) pi (t)
Pn 1
= i=1 wi (t) Ii,t/0
où wi (t) = Pnpi (t)q i (t)

quantifie la part du produit i dans le coût de la consommation globale à
j=1 pj (t)qj (t)
l’instant t. Ces poids sont les coefficients budgétaires à l’instant t. Finalement :
1
Πt/0 (p) = Pn 1
i=1 wi (t) Ii,t/0
L’indice de Paasche est une moyenne pondérée harmonique des indices élémentaires de chaque
produit.
Remarque 4.4 :
L’indice de Paasche nécéssite la mise à jour des coefficients budgétaires et est donc moins aisé à
utiliser que l’indice de Laspeyres
4.2.3 Remarques sur les indices de Laspeyres et Paasche

• Propriétés de réversibilité et de circularité
En combinant diverses séries statistiques, les indices synthétiques perdent généralement leurs
propriétés de circularité et de réversibilité.
54
• Evolution du coût total du panier
Considérons le panier composé des n produits précédents. On s’intéresse alors à l’évolution
conjointe des quantités consommées et des prix des produits. Pour cela, on étudie l’indice
P
élémentaire de la série ni=1 qi (t)pi (t).
On remarque que :
Pn
qi (t)pi (t)
It/0 = Pni=1
q i (0)pi (0)
Pi=1
n P
i=1 qi (t)pi (t) ni=1 qi (t)pi (0)
= Pn Pn
i=1 qi (t)pi (0) i=1 qi (0)pi (0)
= Πt/0 (p)Lt/0 (q)
Lt/0 (q) permet de mesurer l’effet de la variation des quantités tandis que Πt/0 (p) permet de
quantifier l’effet de la variation des prix : les indices de Laspeyres des quantités et de Paasche
permettent de dissocier les variations des quantités de celle des prix. De la même façon on montre
que :
Pn
qi (t)pi (t)
It/0 = Pni=1
qi (0)pi (0)
Pi=1
n P
qi (t)pi (t) ni=1 qi (0)pi (t)
= Pni=1 Pn
i=1 qi (0)pi (t) i=1 qi (0)pi (0)
= Πt/0 (q)Lt/0 (p)
• Comparaison des indices de Laspeyres et de Paasche
On sait que la moyenne harmonique est plus petite que la moyenne arithmétique donc si les poids
wi (t) ne variaient pas au cours du temps (wi (0) = wi (t)), on aurait que l’indice de Paasche est
inférieur à l’indice de Laspeyres.
L’hypothèse des poids constants n’est pas réaliste et donc cette comparaison n’est pas valable
théoriquement mais on remarque que, en pratique, l’indice de Paasche est souvent plus petit que
l’indice de Laspeyres.
• Théorie du consommateur et indice des prix
L’indice de Laspeyres est connu pour sous-estimer une hausse des prix. En effet, faisons l’hy-
pothèse réaliste qu’un consommateur quelconque aura tendance à consommer plus un produit
dont le produit diminue et inversement. Autrement dit :
pi (0) ≤ pi (t) implique qi (t) ≤ qi (0)
pi (t) ≤ pi (0) implique qi (0) ≤ qi (t)
En reprenant la formule de l’indice de Laspeyres des prix,

Pn
pi (t)qi (0)
Lt/0 (p) = ni=1
P
i=1 i (0)qi (0)
p
on remarque que au numérateur en prenant qi (0) au lieu de qi (t) on surestime les quantités
consommées des produits dont les prix ont augmenté et on sous-estime les quantités des produits
dont les prix ont diminué. Donc l’indice de Laspeyres a tendance à sur-estimer la hausse.
Inversement (en échangeant le rôle de q et q), on peut intuiter que l’indice de Paasche aura
tendance à sous-estimer la hausse.
55
4.2.4 Un compromis : l’indice de Fisher
Afin de faire un compromis entre l’indice de Laspeyres (qui surestime la hausse) et de Paasche (qui
sous-estime la hausse), on peut proposer l’indice de Fisher :
q
Ft/0 = Πt/0 (p)Lt/0 (p)
qui est la moyenne géométrique entre l’indice de Laspeyres et l’indice de Paasche. En tant que
moyenne géométrique, l’indice de Fisher est compris entre les indices de Laspeyres et de Paasche.
4.3 Les indices-chaı̂nes

L’indice de Laspeyres précédemment décrit souffre du fait que la pondération wi (0) vieillit. En
effet, plus on s’éloigne de l’année de référence, plus les pondérations wi (0) sont vieilles donc po-
tentiellement loin des coefficients budgétaires au temps t : au cours du temps, les habitudes de
consommation, les préférences sont modifiées et les poids devraient évoluer.
Une solution serait donc de modifier la date de référence mais dans ce cas, il devient difficile de
comparer des indices ayant des bases différentes.
La solution proposée est de définir les indices chaı̂nes : considérons les dates t0 , . . . , tK . Pour
chaque date on calcule l’indice de Laspeyres en prenant pour base l’année précédente : Ltk /tk−1 .
L’indice chaine de Laspeyres est le produit de ces indices :
K
Y
CLtK /t0 = Ltk /tk−1
k=1
De la même façon on peut définir l’indice chaı̂ne de Paasche.
Remarque 4.5 :
On peut utiliser ce principe de chaı̂nage quand la façon de calculer l’indice a été modifiée au cours
du temps.
4.4 Indice des prix de l’INSEE

D’après l’INSEE, l’indice des prix à la consommation est l’instrument de mesure de l’inflation. Il
permet d’estimer, entre deux périodes données, la variation du niveau général des prix des biens
et des services consommés par les ménages sur le territoire français. C’est une mesure synthétique
des évolutions de prix à qualité constante. Les prix sont relevés dans 106 agglomérations de plus
de 2000 habitants dispersées sur tout le territoire et de toute taille ; un échantillon d’un peu plus
de 1000 familles de produits, appelées ‘variétés” est défini pour tenir compte de l’hétérogénéité des
produits au sein de 161 groupes de produits. On aboutit ainsi à 21000 indices élémentaires. L’Indice
de Laspeyres chaı̂né annuellement est alors utilisé pour combiner ces 21000 indices élémentaires.
Remarque 4.6 :
A noter que l’INSEE fournit un simulateur d’indice des prix personnalisés http: // www. insee.
fr/ fr/ indicateurs/ indic_ cons/ sip/ sip. htm . Il est possible de régler ses propres pondérations
56
Chapitre 1
Introduction au calcul des

probabilités
1 Espaces Probabilisés
Un des buts du calcul des probabilités est de fournir un formalisme permettant de trai-
ter mathématiquement des phénomènes aléatoires. On appelle phénomène aléatoire une
procédure ou expérience (de la vie quotidienne, scientifique ...), qui produit un résultat
(ou issue) dont on ne peut dire à l’avance ce qu’il sera. Par exemple : lancer une pièce de
monnaie, lancer un dé 6 faces, le déplacement d’une particule physique...
La théorie des probabilités propose de modéliser ces phénomènes par un triplet d’objets
mathématiques :
– un ensemble Ω,
– une certaine classe de parties de Ω,
– et une fonction sur les parties de Ω.
Nous allons tout d’abord définir plus précisement chacun des éléments de ce triplet.
1.1 Espace des possibles

Définition 1.1 :
On appelle espace des possibles ou univers, l’ensemble des résultats possibles d’une
expérience dont le résultat n’est pas prévisible. On notera cet espace Ω. Chaque élément de
Ω est noté ω.
Notons que Ω n’est pas imposé par l’expérience mais qu’il résulte d’un choix. Ce choix
dépend du phénomène que l’on veut étudier. Ainsi pour un lancer de 2 pièces de monnaie,
on peut faire le choix de distinguer ou non ces pièces.
Exemple 1
On lance 2 pièces ,
– on peut prendre Ω = {(P, P ), (F, F ), (P, F ), (F, P )}.
– Cependant si les 2 pièces sont indiscernables, on peut réduire Ω à Ω = {(P, P ), (F, F ), (P, F )}
si les 2 pièces sont indiscernables.
4
Exemple 2
L’ensemble des possibles Ω peut être un ensemble aussi ”grand” que nécessaire. Par exemple
en physique, si l’on considère le déplacement d’une particule comme un phénomène aléatoire
et que l’on s’intéresse à sa position au temps t, Ω = R3 .
1.2 Rappels sur les ensembles

L’espace Ω peut donc être très grand. Le plus intéressant n’est pas nécessairement le résultat
précis de l’expérience mais un aspect particulier de l’expérience : une partie de Ω.
Exemple 3
Si on lance un dé, on peut vouloir regarder ”le nombre qui sort est impair”. Dans ce cas
l’événement ”le nombre qui sort est impair” est réalisé si le résultat de l’expérience aléatoire
appartient à l’ensemble {1, 3, 5}.
Notons que l’on identifie un événement à une partie de Ω généralement notée par une lettre
majuscule (A, B,...). Ici, l’événement ”le nombre qui sort est impair” sera noté A = {1, 3, 5}.
Avant de définir plus rigoureusement la notion d’événement, rappelons quelques corres-

pondances entre le language ensembliste et le language probabiliste, ainsi que quelques
notations et autres propriétés utiles.
Soient A, B deux parties de l’espace Ω et ω un point (résultat possible) de Ω.
– On dit que A est réalisé → on note ω ∈ A.
– On dit A ou B → on note A ∪ B (A union B).
– On dit A et B → on note A ∩ B (A inter B)
Définition 1.2 :
Soient l’ensemble des possibles Ω et une partie A ⊂ Ω, on appelle complémentaire de A
et on note Ac , l’ensemble tel que
A ∩ Ac = ∅ et A ∪ Ac = Ω.
Notons que le complémentaire de Ω est l’ensemble vide ∅, Ωc = ∅ (réciproquement, ∅c = Ω).
Définition 1.3 :
Soient l’ensemble des possibles Ω, A ⊂ Ω et B ⊂ Ω , on dit que A et B sont incompatibles
si A ∩ B = ∅.
Exemple 4
Reprenons l’exemple du lancer d’un dé :
– Ω = {1, 2, 3, 4, 5, 6}.
– Soit A l’événement ”le nombre qui sort est impair” : A = {1, 3, 5}, Alors l’événement
contraire de A est ”le nombre qui sort est pair” : Ac = {2, 4, 6}.
– Soit B l’événement défini comme B = {2, 4}, alors A et B sont incompatibles car A∩B =
∅.
5
Propriétés 1.1 :
Soient A, B et C trois parties de Ω :
(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C).
Lemme 1.1. Soient A et B deux parties de Ω :
A = (A ∩ B) ∪ (A ∩ B c ).
Notons que le Lemme 1.1 est très utile pour le calcul de probabilité.
Preuve : Si B ⊂ Ω, on a par la Définition 1.2, Ω = B ∪ B c . De plus, pour A ⊂ Ω, A = A ∩ Ω.
Ainsi par la propriété 1.1
A = A ∩ Ω = A ∩ (B ∪ B c ) = (A ∩ B) ∪ (A ∩ B c ).
Propriétés 1.2 (Loi de Morgan) :

Soient (Ai )i=1,·,n n parties de Ω, alors
n
!c n
[ \
Ai = Aci , (1.1)
i=1 i=1
n
!c n
\ [
Ai = Aci . (1.2)
i=1 i=1
Une notion importante pour le calcul de probabilité est la notion de partition.
Définition 1.4 :
On appelle partition dénombrable de Ω, toute suite (Ai )i∈I de parties de Ω, avec I ⊂ N
telle que
[
Ai = Ω,
i∈I
Ai ∩ Aj = ∅, ∀i ∈ I, j ∈ I, i 6= j.
Remarquons que pour A ∈ Ω, le couple (A, Ac ) forme une partition de Ω.
1.3 Espace probabilisable

Nous avons vu que les événements sont représentées par des parties de Ω, notées par des
lettres majuscules (A, B,...). Nous noterons par une lettre calligraphique A, la classe des
événements de Ω. On peut se demander si A = P(Ω), où P(Ω) est la classe de toutes les
parties de Ω. Dans l’exemple du lancer d’un dé, il est simple de voir que A = P(Ω). En
revanche, pour un ensemble Ω plus gros tel que R2 , il ne devient plus possible de considerer
P(Ω) comme l’ensemble des événements.
De plus, pour une expérience donnée, la classe A choisie pour la modélisation est liée à
la connaissance que l’observateur a de la réalisation de l’expérience aléatoire. Prenons un
exemple.
6
Exemple 5
On lance 2 dés, prenons Ω = {1, 2, 3, 4, 5, 6}2 et P(Ω) = {(i, j), 1 ≤ i ≤ 6, 1 ≤ j ≤ 6}.
Intéressons nous aux événements observables, à la classe des événements A,
– A = P(Ω) si l’on distingue les 2 dés.
– En revanche, si les 2 dés sont indicernables A = {(i, j), 1 ≤ i ≤ j ≤ 6} =6 P(Ω).
On comprend donc qu’il existe différents choix possibles pour la classe A. Il convient ce-
pendant d’imposer certaines propriétés à cette classe. On demandera à la classe A d’être
une tribu (ou σ−algèbre).
Définition 1.5 :
Un ensemble A de parties de Ω est appelé tribu (ou σ−algèbre) s’il vérifie les propriétés
suivantes :
1. Ω ∈ A
2. Stabilité par passage au complémentaire : si A ∈ A alors Ac ∈ A.
3. Stabilité par union dénombrable : si (Ai )i∈N est une suite d’éléments de A alors
S
i∈N Ai ∈ A.
Notons que les points 1. et 2. impliquent que ∅ ∈ Ω.
Définition 1.6 :
Le couple (Ω, A) constitué par un ensemble Ω et une tribu A de parties de Ω est appelé
espace probabilisable. Les éléments de A sont appelés événements.
Quelques événements importants :

– L’élément (point) ω de Ω est appelé événement élémentaire.
– L’espace Ω est appelé événement certain.
– L’ensemble vide ∅ est appelé événement impossible.
1.4 Mesure de probabilité, espace probabilisé

Précédemment, nous avons vu une description qualitative de l’expérience. On se doute bien
qu’il existe des événements ”plus probables” que d’autres. Dans l’exemple du lancer de
dé, l’événement ”le résultat est pair” a plus de chance de se réaliser que l’événement ”le
résultat est 5”. En fait, nous voulons associer à chaque événement A ∈ A une mesure P (A)
qui représente le nombre de chances qu’il a de se réaliser et tel que pour tout événement
A ∈ A,
0 ≤ P (A) ≤ 1.
L’événement certain Ω doit bien entendu avoir 100% de chance de se réaliser, on doit donc
imposer
P (Ω) = 1,
l’événement impossible ∅ doit avoir 0 chance de se réaliser donc
P (∅) = 0.
7
De plus, pour deux événements incompatibles A ∈ A et B ∈ A (qui ne peuvent se réaliser
en même temps A ∩ B = ∅), il est naturel d’avoir
P (A ∪ B) = P (A) + P (B). (1.3)
La propriété (1.3) se généralise de manière suivante : pour toute suite (Ai )i∈N de Ω telle
que ∀i 6= j, Ai ∩ Aj = ∅, [ X
P ( Ai ) = P (Ai ). (1.4)
i∈N i∈N
Cette propriété est la propriété de σ−additivité.
Définition 1.7 :
On appelle loi de probabilité (ou mesure de probabilité, ou probabilité, ou loi) sur (Ω, A)
toute application P définie de A à valeurs dans [0, 1] qui satisfait :
– 0 ≤ P (A) ≤ 1, pour tout A ∈ A et P (Ω) = 1,
– pour toute suite (Ai )i∈N de parties de Ω telles que ∀i 6= j, Ai ∩ Aj = ∅,
[ X
P( Ai ) = P (Ai ).
i∈N i∈N
On appelle espace probabilisé (ou modèle probabiliste), le triplet (Ω, A, P ).
On peut déduire de la Définition 1.7 les propriétés suivantes :
Soit (Ω, A, P ) un modèle probabiliste,
– Pour tout A ∈ A, son complémentaire Ac ∈ A vérifie
P (Ac ) = 1 − P (A). (1.5)
– Pour tout A ∈ A et B ∈ A
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (1.6)
– Pour tout A ∈ A et B ∈ A,
A ⊆ B ⇒ P (A) ≤ P (B) (1.7)
2 Loi de probabilité sur un ensemble Ω fini. Analyse combi-

natoire
2.1 Exemple introductif
On s’intéresse au lancer d’un dé. Nous avons vu que Ω = {1, 2, 3, 4, 5, 6}, et A = P(Ω). Ici
les événements élémentaires sont
{i} := ωi , i = 1, · · · , 6
8
et ont la même probabilité pi de se réaliser
1
pi = P ({i}) = P (ωi ) = , i = 1, · · · , n,
6
X6 6
X1
P (ωi ) = = 1.
6
i=1 i=1
Alors si A est l’événement ”le résultat est pair”, A = {2, 4, 6} = {2} ∪ {4} ∪ {6} et
card(A) 3
P (A) = = ,
card(Ω) 6
où card(A) dénote le cardinal de A, c’est à dire le nombre d’événements élémentaires

réalisant A. Cette probabilité est appelée équiprobabilité (ou probabilité uniforme sur Ω)
et est résumée par la fameuse phrase ”nombre de cas favorables sur nombre de cas possibles”.
Remarquons que l’ensemble des éveènements élémentaires {ω1 , · · · , ω6 } = {{1}, · · · , {6}}

forme une partion de Ω = {1, 2, 3, 4, 5, 6} :
6
[ 6
[
{i} = ωi = Ω,
i=1 i=1
{i} ∩ {j} = ωi ∩ ωj = ∅, ∀i 6= j, 1 ≤ i ≤ 6, 1 ≤ j ≤ 6.
et on a donc :
6
[ 6
X 6
X 1
1 = P (Ω) = P ( ωi ) = P (ωi ) = = 1.
6
i=1 i=1 i=1
2.2 Loi de probabilité uniforme sur un ensemble Ω fini

Lorsque tous les résultats possibles d’une expérience aléatoire ont la même chance de se
réaliser, on fait l’hypothèse d’équiprobabilité. Soit Ω = {ω1 , · · · , ωN } un ensemble de car-
dinal fini N ,
– s’il existe une probabilité unique, appelée probabilité uniforme sur Ω, telle que tous les
(ωi )i=1,··· ,N aient la même probabilité,
– si pour tout i ∈ {1, · · · , N }, on note pi = P (ωi ), on a alors pour tout i ∈ {1, · · · , N }
1
pi = .
card(Ω)
Pour tout A ∈ A,
card(A) card(A)
P (A) = = .
card(Ω) N
Le calcul de telles probabilités fait appel à l’analyse combinatoire.
2.3 Analyse combinatoire

Avant d’entrer plus en détails dans ce que nous appellerons l’analyse combinatoire (ou
dénombrement), rappelons un principe important : le principe multiplicatif. Imaginons deux
9
expériences dont les nombres de résultats possibles sont respectivement n1 et n2 . Alors à
l’issue des 2 expériences il y a n1 × n2 résultats possibles. Prenons un exemple pour bien
comprendre le principe multiplicatif. Soit 10 femmes qui possèdent chacune 3 filles, alors il
existe 10 × 3 = 30 couples ”mère-fille” différents.
Il est possible de généraliser ce principe à r ≥ 2 expériences.
Théorème 2.1. Soient r ≥ 2 expériences avec respectivement n1 résultats possibles pour la

première, n2 résultats possibles pour la seconde,...,et nr résultats possibles pour la dernière
(soit la rième) alors il y a au total n1 ×n2 ×· · ·×nr résultats possibles pour les r expériences
prises ensemble.
Théorème 2.2.
– Le nombre de permutations (c’est à dire le nombre de façons d’arranger, de plaçer, de
choisir) de n objets distinguables est
n! = n × (n − 1) × ... × 1.
C’est le nombre de bijections d’ensemble à n éléments. L’écriture n! se lit ”factorielle n”.

NB : Par convention 0! = 1.
– Le nombre de permutations de n objets parmi lesquels n1 sont indistinguables entre
eux, n2 entre eux, ... , nr entre eux est
n!
,
n1 !n2 !...nr !
Pr
tel que i=1 ni = n.
Théorème 2.3.
– Le nombre d’arrangements de r éléments choisis parmi n sans répétitions est noté Arn : il
y a n choix à la première étape, n−1 choix à la deuxième étape, n−2 choix à la troisième
étape,... , n − (r + 1) choix à la r−ième étape. Le résultat est donc n(n − 1)...(n − r + 1),
c’est le nombre d’injections d’un ensemble à r éléments dans un ensemble à n éléments
n!
Arn = n(n − 1) · · · (n − r + 1) =
(n − r)!
– Le nombre de combinaisons de r objets pris parmi n, ou encore le nombre de groupes de

taille r si, dans ce choix, l’ordre n’est pas considéré comme significatif est
n!
Cnk = (nk ) = .
(n − k)!k!
Théorème 2.4. Pour tout 1 ≤ r ≤ n, avec r et n entiers

r−1
Cnr = Cn−1 r
+ Cn−1
Théorème 2.5. (Binôme de Newton) Pour tout n ∈ N

n
X
n
(a + b) = Cnk ak bn−k .
k=0
10
3 Probabilité conditionnelle
Exemple introductif
On choisit au hasard (c’est à dire selon une probabilité uniforme) un(e) étudiant(e) dans
une classe de 30 élèves (card(Ω) = 30). On considère les événements A =”la personne est
une fille” et B =”la personne a eu la moyenne au dernier partiel”. On a vu précédemment
que
card(A) card(B) card(A∩B)
P (A) = 30 , P (B) = 30 et P (A ∩ B) = 30 .
On sait que l’on a choisi une fille (événement A), quelle est alors la probabilité qu’elle ait
la moyenne au dernier partiel (événement B). Pour que B ait lieu, il faut que l’issue ω
appartienne à l’événement A ∩ B. Donc la probabilité que ”la personne a eu la moyenne
au dernier partiel” sachant que ”la personne est une fille” est égale au nombre de cas
favorables sur le nombre de cas possibles
card(A ∩ B)
,
card(A)
soit si P (A) 6= 0
card(A ∩ B) card(A ∩ B) 30 P (A ∩ B)
= × = .
card(A) 30 card(A) P (A)
On appelle cette probabilité, probabilité conditionnelle de B sachant A et on la note
P (A ∩ B)
P (B|A) = PA (B) = .
P (A)
Définition 3.1 :
Soit (Ω, A, P ) un espace de probabilité et A un événement de probabilité non nulle (P (A) 6=
0). On appelle probabilité conditionnelle d’un événement B ∈ A sachant A et l’on note
P (B|A) (ou PA (B)) le nombre défini par
P (A ∩ B)
P (B|A) = PA (B) = .
P (A)
Notons que l’application B 7→ P (B|A) définie sur A est une probabilité sur (Ω, A) portée
par A. Autrement dit, on peut énoncer le théorème suivant :
Théorème 3.1. Pour tout A ∈ A tel que P (A) 6= 0 on a :

1. Pour tout événement B, 0 ≤ P (B|A) ≤ 1.
2. P (Ω|A) = 1.
3. Soient (Bi )i∈N une suite d’événements tels que ∀i 6= j, Bi ∩ Bj = ∅, alors
[ X
P ( Bi |A) = P (Bi |A).
i∈N i∈N
Preuve : Pour P (A) 6= 0
11
1. P (A ∩ B) ≥ 0 et (A ∩ B) ⊂ A donc par (1.7),
P (A ∩ B)
P (B|A) = ≥ 0,
P (A)
P (A ∩ B) P (A)
P (B|A) = ≤ = 1.
P (A) P (A)
2. Comme (A ∩ Ω) = A,
P (A ∩ Ω) P (A)
P (Ω|A) = = = 1.
P (A) P (A)
3. Soient (Bi )i∈N des événements tels que ∀i 6= j, Bi ∩ Bj = ∅, on a par la Propriété 1.1
S S
que A ∩ ( i∈N Bi ) = i∈N (A ∩ Bi )
S S
[ P (A ∩ ( i∈N Bi )) P ( i∈N (A ∩ Bi )
P ( Bi |A) = =
P (A) P (A)
i∈N
X P (A ∩ Bi ) X
= = P (Bi |A).
P (A)
i∈N i∈N
3.1 Formule des probabilités totales

Nous avons vu la notion de partition dénombrable (Définition 1.4). Introduisons une nou-
velle définition en vue d’introduire la formule des probabilités totales.
Définition 3.2 :
Soit un espace de probabilité (Ω, A, P ), on appelle système complet d’événements (s.c.e.)
de A, toute partition dénombrable de Ω formée d’événements non impossibles, c’est à dire
tel que pour tout I ⊂ N
– ∀i ∈ I, P (Ai ) 6= 0.
S
– i∈I Ai = Ω.
– Ai ∩ Aj = ∅, ∀(i, j) ∈ I 2 et i 6= j, on dit que les événements Ai s’excluent mutuel-
lement.
Exemple 6
Soit A ∈ A un événement tel que P (A) 6= 0, alors (A, Ac ) forme un s.e.c. et tout événement
B ∈ A peut s’écrire
B = (B ∩ A) ∪ (B ∩ Ac ),
où (B ∩ A) et (B ∩ Ac ) sont deux événements incompatibles. Ainsi par la propriété de
σ−additivité (1.4) et par définition de la probabilité conditionnelle (Définition 3.1) on a
P (B) = P ((B ∩ A) ∪ (B ∩ Ac )) = P (B ∩ A) + P (B ∩ Ac )
= P (B|A)P (A) + P (B|Ac )P (Ac ).
C’est la formule des probabilité totales
12
Théorème 3.2 (Formule des probabilité totales généralisée). Soient un espace de
probabilité (Ω, A, P ), et (Ai )i∈I un système complet d’événements (s.c.e.) de A, alors pour
tout B ∈ A
X
P (B) = P (B|Ai )P (Ai ). (1.8)
i∈I
3.2 Formule de Bayes

Théorème 3.3 (Formule de Bayes). Soient un espace de probabilité (Ω, A, P ), et (Ai )i∈I
un système complet d’événements (s.e.c) de A, alors pour tout B ∈ A tel que P (B) 6= 0 et
pour tout i ∈ I
P (B ∩ Ai )
P (Ai |B) = P . (1.9)
i∈I P (B|Ai )P (Ai )
P
Preuve : Comme (Ai )i∈I un s.e.c, P (B) = i∈I P (B|Ai )P (Ai ) et
P (B ∩ Ai )
P (Ai |B) = .
P (B)
3.3 Indépendance
Dans la plupart des cas, la probabilité P (B|A) est différente de la probabilité P (B), c’est
à dire P (B|A) 6= P (B). En d’autres termes, la réalisation ou non de l’événement A influe
sur la réalisation de B. Prenons l’exemple du lancer de deux dés et notons A =”la somme
des deux dés est paire” et B =”la somme des deux dés est supérieure ou égale à 4”. Il
est trivial de voir que si A s’est réalisé, la probabilité de B sachant que A s’est réalisé est
différente (ici plus petite) de la probabilité de B. On dira que les événements A et B sont
dépendants. Que sont alors deux événements indépendants ? Intuitivement ceux sont des
événements tels que la réalisation de l’un n’influe pas sur la réalisation de l’autre, c’est à
dire :
P (B ∩ A)
P (B|A) = P (B) ⇔ = P (B) ⇔ P (B ∩ A) = P (A)P (B).
P (A)
Définition 3.3 :
Deux événements A et B sont indépendants ssi P (B ∩ A) = P (A)P (B).
Proposition 3.1. Si A et B sont deux événements indépendants, alors A et B c sont

indépendants de même que Ac et B et que Ac et B c .
Preuve : Remarquons tout d’abord que l’événement A = (A ∩ B) ∪ (A ∩ B c ), avec (A ∩ B)
et (A ∩ B c ) deux événements incompatibles, ainsi
P (A) = P (A ∩ B) + P (A ∩ B c ) ⇔ P (A ∩ B c ) = P (A) − P (A ∩ B).
De plus A et B sont deux événements indépendants alors P (B ∩ A) = P (A)P (B) et
P (A ∩ B c ) = P (A) − P (A)P (B) = P (A)(1 − P (B)) = P (A)P (B c ).
13
De même pour les autres cas.
Définition 3.4 :
Des événements A1 , · · · , An sont mutuellement indépendants ssi, pour tout ensemble
d’indices J ⊂ {1, 2, · · · , n},
 
\ Y
P Aj  = P (Aj ).
j∈J j∈J
4 Exercices
Exercice 1.1.
Une petite communauté se compose de 10 hommes et de leurs fils, chaque homme ayant
3 fils. Si on veut désigner un couple ”père-fils” pour une randonnée, combien y a t il de
couples possibles ?
Exercice 1.2.
1) Combien de plaques minéralogiques à sept caractères peut on former si les 3 premiers
caractères sont des lettres et les 4 derniers des chiffres ?
2) Si on ne veut pas que les caractères soient en double ?
Exercice 1.3.
1) Combien existe t-il d’arrangements ordonnés des lettres A, B, C sans répétition ?
2) Combien peut on former d’arrangements différents avec les lettres PEPPER ?
3) Dans un tournois d’échec, il y a 10 participants : 4 russes, 3 américains, 2 anglais, et 1
brésilien. Dans le classement on ne peut lire que la nationalité des joueurs, à combien de
classements une liste de nationalités correspond t-elle ?
4) Combien de groupes de 3 objets peut-on construire en tirant parmi les 5 lettres A,B,C,D,E.
5) De combien de façon peut-on asseoir en rang 3 garçons et 3 filles ? Considérer les cas où
les filles (resp. les garçons) sont ou non distinguables entres elles (resp. eux).
Exercice 1.4.
Parmi 1000 billets de loterie, 10 sont gagnants, les autres sont perdants. J’en achète 5.
Quelle est la probabilité qu’il y ait deux billets gagnants ?
Exercice 1.5.
Quel est l’événement le plus probable : avoir un six au moins une fois quand on lance quatre
fois un dé ou obtenir au moins une fois un double six en lançant 24 fois une paire de dés ?
Exercice 1.6.
Soit une urne U contenant 24 boules de trois couleurs différentes : 12 boules rouges, 7 boules
vertes et 5 boules bleues.
14
Chapitre 2
Variables aléatoires. Cas discret
1 Exemple introductif
Considérons une pièce de monnaie non truquée, c’est à dire que la probabilité d’avoir pile
est la même que la probabilité d’avoir face et vaut 1/2. On effectue n lancers de cette pièce
et on s’intéresse au nombre de fois où face est apparu. On modélise l’expérience comme
suit :
– L’espace des possibles est Ω = {P, F }n , le cardinal de Ω vaut 2n .
– Un résultat possible est une suite ω = (P, P, F, P, F, · · · , P ) = (ωi )i=1,··· ,n de longueur n.
– La pièce n’étant pas truquée, chacune de ces suites à la même probabilité p = 21n de se
réaliser, on a équiprobabilité.
Ainsi si l’on s’intéresse à la probabilité de l’événement ”avoir 1 fois face sur n = 4 lancers”,
cette probabilité vaut par équiprobabilité :
1 1 1 1 4
P (F, P, P, P ) + P (P, F, P, P ) + P (P, P, F, P ) + P (P, P, P, F ) =
4
+ 4 + 4 + 4 = 4.
2 2 2 2 2
On imagine assez bien que si le nombre n de lancers est plus grand et/ou que l’on s’intéresse
à des événements comme ”avoir k > 1 fois face sur n lancers”, il serait trop long d’écrire
tous les événements élémentaires. Introduisons alors la notion de variable aléatoire.
Intéressons nous à la probabilité d’obtenir k faces au cours de n lancers. Notons X(ω), le

nombre de fois où face est apparu au cours des n lancers. Si ω = (ωi )i=1,··· ,n ∈ Ω, on a
n
X
X(ω) = card{i, ωi = F } = Iωi =F ,
i=1
où I dénote la fonction indicatrice, c’est à dire Iωi =F = 1 si ωi = F et Iωi =F = 0 si ωi 6= F .

Ainsi X est une application de Ω dans {0, · · · , n}, le nombre de fois où face est apparu
au cours de n lancers étant compris entre 0 et n. On note l’événement ”avoir k fois face
sur n lancers”, comme suit
{ω ∈ Ω, X(ω) = k} = X −1 ({k}) = {X = k}.
Ainsi la probabilité de l’événement ”avoir k fois face sur n lancers”, vaut par équiprobabilité :
Cnk
P (ω, X(ω) = k) = P (X = k) = .
2n
17
2 Définition d’une variable aléatoire discrète
Définition 2.1 :
Soit (Ω, A, P ) un espace de probabilité et soit (E, F) un espace de probabilisable, on ap-
pelle variable aléatoire (v.a.) définie sur (Ω, A, P ) à valeurs dans (E, F) toute application
X mesurable de (Ω, A) sur (E, F), c’est à dire telle que ∀B ∈ E, son image réciproque
X −1 (B) = {X ∈ B} ∈ A, de sorte que X −1 (B) est donc un événement.
Exemple 7
Prenons l’exemple du lancer de deux dés, l’ensemble Ω = {1, · · · , 6}2 , A = P(Ω). Soit
ω = (ω1 , ω2 ) le résultat de l’expérience, où ω1 et ω2 sont respectivement les résultats du
lancer du dé 1 et du dé 2. Soit X la somme des deux dés, c’est à dire X(ω) = ω1 + ω2 .
L’événement ”la somme des deux dés est 3 ” peut être écrit :
{X = 3} = {ω ∈ Ω, X(ω) = 3} = X −1 {3}.
Remarques :
- Dans le cadre des v.a. discrètes, on considère toujours Ω dénombrable, ainsi X(Ω) =
{xi , i ∈ I}, avec I ⊂ N
- Pour P une probabilité, on a
X
P (X = xi ) = 1.
xi ,i∈I
- Si Ω ⊆ N, c’est à dire que X est à valeurs entières, xi = i et

∞
X
P (X = i) = 1.
i=0
2.1 Fonction de répartition d’une variable aléatoire discrète

Soit (Ω, A, P ) un espace de probabilité et soit (E, F) un espace probabilisable, la va-
riable aléatoire (v.a.) définie sur (Ω, A, P ) à valeurs dans (E, F) avec Ω dénombrable
(X(Ω) = {xi , i ∈ I}, avec I ⊆ N) est dite v.a. discrète.
Définition 2.2 :
On appelle fonction de répartition (f.d.r.) d’une v.a X la fonction F définie sur R par
F (x) = P (X ≤ x).
Lorsque X est une v.a. discrète, c’est à dire qu’elle ne prend qu’un nombre dénombrable de
valeurs {xi , i ∈ I}, avec I ⊆ N, la f.d.r. F de X s’écrit :
X
F (x) = P (X ≤ x) = P (X = xi )Ixi ≤x .
i∈I
Par définition, F vérifie les propriétés suivantes :
18
1. F est une application définie sur R à valeurs dans l’intervalle [0, 1].
2. F est continue à droite.
3. F est une fonction croissante et pour une v.a. discrète F est une fonction en escalier.
4. lim F (x) = 1 (on note F (+∞) = 1).
x→+∞
5. lim F (x) = 0 (on note F (−∞) = 0).
x→−∞
2.2 Moyenne et variance d’une variable aléatoire discrète

Dans ce chapitre, on considère que X est une application mesurable de (Ω, A, P ) sur (E, F),
où E est un espace dénombrable. On parle alors de v.a. discrète (par exemple (E, F) =
(N, P(N)).
Définition 2.3 :
Soit X une v.a. discrète, on appelle espérance mathématique (ou moyenne) de X la quantité
X
E(X) = xi P (X = xi ).
i∈I
De plus, si Ω ⊆ N
+∞
X
E(X) = iP (X = i),
i=0
à condition que cette quantité E(X) existe .
Exemple 8
On lance un dé non truqué, l’ensemble Ω = {1, · · · , 6}, A = P(Ω). Soit X le chiffre apparu
lors du lancer (ici E = Ω), c’est à dire X peut prendre les valeurs 1, · · · , 6 et P la probabilité
uniforme sur Ω alors
+∞
X 6
X 1 1 1 7
E(X) = iP (X = i) = iP (X = i) = 1. + 2. + · · · + 6. = .
6 6 6 2
i=0 i=1
Proposition 1
Pour toute application h de E sur R, h(X) est une v.a. discrète et
X
E(h(X)) = h(xi )P (X = xi ).
i∈I
+∞
X
E(h(X)) = h(i)P (X = i),
i=0
à condition que cette quantité E(h(X)) existe, pour h mesurable bornée par exemple.
19
Exemple 9
Prenons l’exemple d’un lancer d’une pièce non truquée, l’ensemble Ω = {pile, f ace} . Soit
X la v.a. :
X(ω) = 1 si ω = f ace,
X(ω) = 0 si ω = pile.
1
Ainsi pour P la probabilité uniforme P (X = 1) = P (X = 0) = 2 et h(t) = t2
1
E(h(X)) = E(X 2 ) = 02 .P (X = 0) + 12 .P (X = 1) = ,
2
1
E(X) = E(X) = 0.P (X = 0) + 1.P (X = 1) = .
2
Définition 2.4 :
Soit X une v.a. dicrète de moyenne E(X) = m < ∞ et telle que E(X 2 ) < ∞, on appelle
variance de X la quantité notée
X
V ar(X) = E((X − E(X))2 ) = E((X − m)2 ) = (xi − m)2 P (X = xi )
i∈I
X
2 2 2 2
= E(X ) − (E(X)) = E(X ) − m = x2i P (X = xi ) − m2 .
i∈I
+∞
X
V ar(X) = E((X − E(X))2 ) = E((X − m)2 ) = (i − m)2 P (X = i)
i=0
+∞
X
= E(X 2 ) − (E(X))2 = E(X 2 ) − m2 = i2 P (X = i) − m2 .
i=0
Exemple 10
Reprenons l’exemple précédent du lancer d’une pièce non truquée, la variance de X vaut
1 1 1
V ar(X) = E(X 2 ) − (E(X))2 = − ( )2 = .
2 2 4
1 2 1 1
2
V ar(X) = E((X − E(X)) ) = (0 − ) .P (X = 0) + (1 − )2 .P (X = 1) = .
2 2 4
2.3 Propriétés de la moyenne et de la variance d’une variable aléatoire

discrète
- Linéarité de l’espérance : Si X et Y sont deux variables aléatoires dont l’espérance est
bien définie et si a et b sont deux constantes réelles alors
E(aX + bY ) = aE(X) + bE(Y ).
- Soit X une variable aléatoire dont la variance est bien définie alors
V ar(aX + b) = a2 V ar(X).
20
3 Exemples classiques de loi de probabilité sur N
3.1 Loi uniforme
Définition 3.1 :
On dit que X suit une loi Uniforme sur {1, · · · , n} et on note X ∼ U({1, · · · , n}) si pour
tout k ∈ {1, · · · , n},
1
P (X = k) = .
n
(n+1) (n+1)(n−1)
Alors E(X) = 2 et V ar(X) = 12 .
On peut calculer E(X), E(X 2 ) et V ar(X) comme suit :

n
X n
1X 1 (n + 1)n (n + 1)
E(X) = kP (X = k) = k= = ,
n n 2 2
k=1 k=1
n
X Xn
1 1 (2n + 1)(n + 1)n (2n + 1)(n + 1)
E(X 2 ) = k 2 P (X = k) = k2 = = ,
n n 6 6
k=1 k=1
(2n + 1)(n + 1) (n + 1)2 (n + 1)(n − 1)
V ar(X) = E(X 2 ) − (E(X))2 = − = .
6 4 12
3.2 Loi de Bernoulli

Une loi très simple et utile en probabilité est la loi de Bernoulli. Prenons A un événement
(il pleut, tirer un roi,...) de probabilité P (A) = p, p ∈]0, 1[. Si l’on s’intéresse à la réalisation
de A, on peut retranscrire ce problème en terme de variable aléatoire. Pour cela, il suffit de
prendre X = IA :
- Si A est réalisé (ω ∈ A), X(ω) = 1 et P (X = 1) = p.
- Si Ac est réalisé (ω ∈ Ac ), X(ω) = 0 et P (X = 0) = 1 − p.
Définition 3.2 :
On dit que X suit une loi de Bernoulli de paramètre p ∈]0, 1[ et on note X ∼ B(p), la v.a.
X qui ne prend que deux valeurs 1 ou 0, et telle que :
P (X = 1) = p et P (X = 0) = 1 − p.
Alors E(X) = p et V ar(X) = p(1 − p).

1
X
E(X) = kP (X = k) = 0.(1 − p) + 1.p = p,
k=0
X1
E(X 2 ) = k 2 P (X = k) = 02 .(1 − p) + 12 .p = p,
k=0
V ar(X) = E(X 2 ) − (E(X))2 = p − p2 = p(1 − p).
Remarquons que pour un événement A tel que P (A) = p 6= 0, X = IA ∼ B(p).
21
3.3 Loi Binomiale
Imaginons que l’on s’intéresse au nombre de fois où un événement A de probabilité P (A) =
p 6= 0 s’est réalisé au cours de n expériences indépendantes et identiques (ex : lancer une
pièce truquée n fois et A = {pile}). Posons X la v.a. égale au nombre de fois où A s’est
réalisé au cours des n expériences, alors X est une v.a. discrète à valeurs dans {0, 1, · · · , n}.
Définition 3.3 :
On dit que X suit une loi Binomiale de paramètres n ∈ N et p ∈]0, 1[ et on note X ∼ B(n, p),
la v.a. X qui prend ses valeurs dans {0, 1, · · · , n}, et telle que ∀k ∈ {0, 1, · · · , n}
P (X = k) = Cnk pk (1 − p)n−k .
Alors E(X) = np et V ar(X) = np(1 − p).
Remarquons que la v.a. X peut être vue comme la somme de n v.a. (Z1 , · · · , Zn ) indépendantes
de Bernoulli de paramètre p, c’est à dire pour n v.a. i.i.d. telles que Zi ∼ B(p), ∀i = 1, · · · , n :
n
X
X= Zi .
i=1
On peut calculer E(X) comme suit

n
X n
X n
X
E(X) = E( Zi ) = E(Zi ) = p = np
i=1 i=1 i=1
Le calcul de la variance de X (V ar(X)) sera traitée dans l’exemple 13
Théorème 3.1. Si X est une v.a. discrète de loi Binomiale B(n, p) alors Z = n − X est
également une v.a. discrète de loi Binomiale mais de paramètre (n, 1 − p) :
Z ∼ B(n, 1 − p)
3.4 Loi de Poisson

Définition 3.4 :
On dit que X suit une loi de Poisson de paramètre λ > 0 et on note X ∼ P(λ), la v.a. X
qui prend ses valeurs dans N, et telle que ∀k ∈ N
λk e−λ
P (X = k) = .
k!
Alors E(X) = λ et V ar(X) = λ.
22
∞
X ∞
X ∞
X
λk e−λ λk−1
E(X) = kP (X = k) = k = e−λ λ = e−λ λeλ = λ,
k! (k − 1)!
k=0 k=0 k=0
∞
X X∞ ∞
X X ∞
λk e−λ −λ λk λ`+1
E(X 2 ) = k 2 P (X = k) = k2 =e k = e−λ (` + 1)
k! (k − 1)! `!
k=0 k=0 k=1 `=0
∞
X ∞
X ∞
X ∞
X
−λ λ`+1 −λ λ`+1 −λ 2 λ`−1 −λ λ`
= e ` +e =e λ +e λ = e−λ λ2 eλ + e−λ λeλ
`! `! ` − 1! `!
`=1 `=0 `=1 `=0
2
= λ + λ,
V ar(X) = E(X 2 ) − (E(X))2 = λ2 + λ − λ2 = λ.
3.5 Loi Géométrique

Lançons une pièce de monnaie truquée telle que la probabilité d’avoir face soit p. Intéressons
nous au nombre de fois où il faut jeter cette pièce pour obtenir face. Soit X le nombre de
jets nécessaires pour avoir face, alors X est une v.a. discrète à valeurs dans N∗ .
Définition 3.5 :
On dit que X suit une loi Géométrique de paramètre p ∈]0, 1[ et on note X ∼ G(p), la v.a.
X qui prend ses valeurs dans N∗ , et telle que ∀k ∈ N∗
P (X = k) = p(1 − p)k−1 .
1 1−p
Alors E(X) = p et V ar(X) = p2
.
P
En remarquant que ∞ k 1 2
k=0 p = 1−p pour p ∈]0, 1[, on peut calculer E(X), E(X ) et V ar(X)
comme suit :
∞
X ∞
X X∞
k−1
E(X) = kP (X = k) = kp(1 − p) =p k(1 − p)k−1
k=1 k=1 k=1
∞
!
∂ X ∂ 1 p 1
= p − (1 − p)k =p − = 2 = ,
∂p ∂p p p p
k=0
∞
X ∞
X ∞
X ∞
X
E(X 2 ) = k 2 P (X = k) = k 2 p(1 − p)k−1 = p k(k − 1)(1 − p)k−1 + p k(1 − p)k−1
k=1 k=1 k=1 k=1
∞ ∞
!
X ∂2 X 1
= p(1 − p) k(k − 1)(1 − p)k−2 + E(X) = p(1 − p) (1 − p)k +
∂p2 p
k=2 k=0

1 ∂2
1 ∂ 1 1 2 1 2 1
= p(1 − p) 2 + = p(1 − p) − 2 + = p(1 − p) + = 2− ,
∂p p p ∂p p p p3 p p p
2 1 1 1−p
V ar(X) = E(X 2 ) − (E(X))2 = 2 − − 2 = .
p p p p2
3.6 Loi Hypergéométrique

Considérons que l’on ait une urne contenant N boules, dont N1 ≤ N sont blanches et
N − N1 sont noires. On effectue un tirage de n ≤ N boules simultanément et sans remise
23
et l’on s’intéresse à X le nombre de boules blanches tirées au cours de ces n tirages, alors
X est une v.a. discrète à valeurs dans {0, 1, · · · , n}. Notons p = NN1 et q = 1 − p = N −N
N
1
alors N1 = pN et N − N1 = qN .
Définition 3.6 :
On dit que X suit une loi Hypergéométrique de paramètres (n, p, N ) où p ∈]0, 1[ et on note
X ∼ H(n, p, N ), la v.a. X qui prend ses valeurs dans {max (0, n − qA), · · · , min (pA, n)},
avec pN et qN des entiers et telle que ∀k ∈ {0, 1, · · · , n}
k C n−k
CpN qN
P (X = k) = n .
CN
−n
Alors E(X) = np et V ar(X) = npq N
N −1 .
4 Vecteurs aléatoires discrets

Soit (Ω, A, P ) un espace de probabilité et soit (E, F) un espace probabilisable, les variables
aléatoires (v.a.) définies sur (Ω, A, P ) à valeurs dans (E, F) avec Ω dénombrable (ex :
X(Ω) = {xi , i ∈ I}, avec I ⊆ N) sont dites v.a. discrètes.
Définition 4.1 :
Soit (Ω, A, P ) et soient deux v.a. discrètes X et Y à valeurs dans (E, F), l’application
V = (X(ω), Y (ω)) = (X, Y ) définie sur Ω est appelée couple aléatoire discret ou vecteur
aléatoire discret à valeurs dans E 2 et est de dimension 2.
Exemple 11
On lance 2 dés non truqué,
– Soit Y = le nombre de chiffres impairs apparus lors du lancer des 2 dés. Clairement, on
peut avoir 0 chiffre impair ou 1 chiffre impair ou 2 chiffres impairs. Ainsi, le support de
Y , c’est à dire les valeurs possibles de Y sont
Supp(Y ) = {0, 1, 2}.
.
– Soit X= la somme des 2 chiffres apparus sur les dés. Ainsi, le support de X est
Supp(X) = {2, · · · , 12}.
– Alors V = (X, Y ) admet comme support
Supp(V ) = Supp(X) × Supp(Y ).
Définition 4.2 :
Soit V un vecteur aléatoire discret, on appelle loi de probabilité ou distribution de probabilité
du vecteur aléatoire discret V la donnée de l’ensemble {(vk , P (V = vk )), k ∈ K}, d’éléments
de E 2 × [0, 1] telle que
24
P
P (V = vk ) ∈ [0, 1] et k∈K P (V = vk ) = 1.
Exemple 12
Reprennons l’exemple précédent P (V = (2, 0)) = P (X = 2, Y = 0), il faut comprendre
cette probabilité comme la probabilité que X = 2 et Y = 2. On remarque que X = 2 si et
seulement si le chiffre 1 apparait sur les 2 dés. De plus, Y = 0 si sur chacun des 2 dés apparait
un chiffre pair, il existe 9 possibilités. En revanche il n’existe aucune possibilité pour que
ces 2 événements se réalisent en même temps. Donc P (V = (2, 0)) = P (X = 2, Y = 0) = 0.
4.1 Loi jointe et lois marginales

Soit (Ω, A, P ) un espace de probabilité et soit (E, F) un espace probabilisable. Soient
X(Ω) = {xi , i ∈ I}, avec I ⊆ N et Y (Ω) = {yj , j ∈ J}, avec J ⊆ N deux variables
aléatoires (v.a.) discrètes. Posons pour tout couple (i, j) ∈ I × J = K,
pij = P ({X = xi } ∩ {Y = yj }) = P (X = xi , Y = yj ).
Posons V = (X, Y ), remarquons que pij 6= 0 ssi (xi , yj ) ∈ (X(Ω), Y (Ω)) = V (Ω).
Définition 4.3 :
On appelle loi de probabilité jointe de deux v.a. X et Y (ou du vecteur aléatoire discret
V = (X, Y )) l’ensemble {(xi , yj ), pij , i ∈ I, j ∈ J}.
Connaissant la loi jointe du couple (X, Y ), on peut en déduire les lois de X ou de Y , que
l’on appelle lois marginales.
Définition 4.4 :
On appelle loi marginale de X et loi marginale de Y , les ensembles {xi , PX (xi ), i ∈ I} et
{yi , PY (yi ), j ∈ J} où
X X
pi· = PX (xi ) = P (X = xi ) = pij = P (X = xi , Y = yj ),
j∈J j∈J
X X
p·j = PY (yi ) = P (Y = yj ) = pij = P (X = xi , Y = yj ).
i∈I i∈I
En résumé pour trouver la loi de X (et réciproquement de Y ) à partir de la loi du couple

(X, Y ) il suffit de sommer sur toutes les valeurs de Y (et réciproquement de X) ! !
4.2 Indépendance
Définition 4.5 :
Deux v.a. discrètes X : Ω → {xi , i ∈ I} et Y : Ω → {yj , j ∈ J}, avec I, J ⊆ N sont
indépendantes ssi pour tous i et j,
P ({X = xi } ∩ {Y = yj }) = P (X = xi , Y = yj ) = P (X = xi )P (Y = yj ).
On peut généraliser cette définition au cas de n v.a. discrètes.
25
Définition 4.6 :
On dit que les n v.a. discrètes, {Xi , }i∈I sont (mutuellement) indépendantes, ssi pour tout
ensemble d’indices J ⊆ I et tous xj appartenant aux valeurs possibles de Xj , j ∈ J
 
\ Y
P  {Xj = xj } = P (Xj = xj ).
j∈J j∈J
4.3 Covariance et propriétés

Définition 4.7 :
Soient deux v.a. discrètes X : Ω → {xi , i ∈ I} et Y : Ω → {yj , j ∈ J}, avec I, J ⊆ N de
moyenne E(X) = m < ∞ et E(Y ) = µ < ∞ et telle que E(X 2 ) < ∞ et E(Y 2 ) < ∞.
On appelle covariance de X et de Y la quantité notée
Cov(X, Y ) = E((X − E(X))(Y − E(Y ))) = E((X − m)(Y − µ))

X
= (xi − m)(yj − µ)P (X = xi , Y = yj )
i∈I,j∈J
= E(XY ) − E(X)E(Y ) = E(XY ) − mµ
X
= xi yj P (X = xi , Y = yj ) − mµ.
i∈I,j∈J
Soient X, Y , Z trois v.a. discrètes admettant des variances finies alors
a) Symétrie : Cov(X, Y ) = Cov(Y, X).
b) Cov(X, X) = V ar(X).
c) Pour tout réels a, b, c et d : Cov(aX + b, cY + d) = ac Cov(X, Y ).
d) Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z).
e) Soit X1 , · · · , Xn des v.a. discrètes de variance finie alors
n
! n
X X X
V ar Xi = V ar(Xi ) + 2 Cov(Xi , Xj ).
i=1 i=1 i<j
f) D’après la propriété de Cauchy-Schwarz,

p p
Cov(X, Y ) ≤ V ar(X) V ar(Y ).
Preuve : Trivial, à faire en exercice.
a) Si X et Y sont deux variables aléatoires discrètes indépendantes dont l’espérance est
bien définie alors
E(XY ) = E(X)E(Y ).
b) Soient X et Y deux variables aléatoires indépendantes d’espérance finie alors
Cov(X, Y ) = 0.
26
c) Soient X et Y deux variables aléatoires indépendantes dont les variances sont bien définies
alors
V ar(X + Y ) = V ar(X) + V ar(Y ).
Attention : les réciproques sont fausses.
Preuve :
a) Comme X et Y sont indépendantes, on a par définition que
P (X = xi , Y = yj ) = P (X = xi )P (Y = yj ).
Ainsi
X X
E(XY ) = xi yj P (X = xi , Y = yj ) = xi yj P (X = xi )P (Y = yj )
i∈I,j∈J i∈I,j∈J
X X
= xi P (X = xi ) yj P (Y = yj ) = E(X)E(Y ).
i∈I j∈J
b) Comme X et Y sont indépendantes on a par a) :
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = E(X)E(Y ) − E(X)E(Y ) = 0.
c) Comme X et Y sont indépendantes on a par b) :
V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ) = V ar(X) + V ar(Y ),

X X
E(XY ) = xi yj P (X = xi , Y = yj ) = xi yj P (X = xi )P (Y = yj )
i∈I,j∈J i∈I,j∈J
X X
= xi P (X = xi ) yj P (Y = yj ) = E(X)E(Y ).
i∈I j∈J
Exemple 13
Soit X une v.a. de loi Binomiale B(n, p), on a vu précédemment que la v.a. X peut être
vue comme la somme de n v.a. (Z1 , · · · , Zn ) indépendantes de Bernoulli de paramètre p,
c’est à dire pour n v.a. i.i.d. telles que Xi ∼ B(p), ∀i = 1, · · · , n :
n
X
X= Zi .
i=1
Ainsi en utilisant la Propriété (4.2. c), on a :

n
X n
X n
X
V ar(X) = V ar( Zi ) = V ar(Zi ) = p(1 − p) = np(1 − p).
i=1 i=1 i=1
4.4 Coefficient de correlation

Définition 4.8 :
Soient X et Y deux v.a. discrètes admettant une variance finie non nulle. On appelle
coefficient de corrélation linéaire de X et Y le nombre noté ρ(X, Y ) défini par
27
Cov(X, Y )
ρ(X, Y ) = p p .
V ar(X) V ar(Y )
Alors
|ρ(X, Y )| ≤ 1.
De plus, si X et Y sont en relation affine, c’est à dire il existe deux réels a et b tels que
Y = aX + b alors,
p p
V ar(Y ) = a2 V ar(X), donc V ar(Y ) = |a| V ar(Y ),
Cov(X, Y ) = Cov(X, aX + b) = aCov(X, X) = aV ar(X).
Donc,
aV ar(X)
ρ(X, Y ) = = sign(a).
|a|V ar(X)
Ce qui signifie que le coefficient de corrélation linéaire est en valeur absolue égal à 1, avec
pour signe, le signe de a.
Réciproquement, d’après Cauchy-Schwarz, |ρ(X, Y )| ≤ 1, et vaut 1 quand les vecteurs

X − E(X) et Y − E(Y ) sont colinéaires, c’est à dire quand il existe deux réels non nuls c et
d tels que c(X −E(X))+d(Y −E(Y ))) = 0, d’où une relation affine entre les deux variables.
La valeur du coefficient de corrélation linéaire, (qui dépend de la loi jointe des deux v.a.),
nous renseigne donc sur l’existence d’une éventuelle relation affine entre ces deux v.a.
4.5 Loi conditionnelle

Soit un vecteur aléatoire discret V = (X, Y ) où X : Ω → {xi , i ∈ I} et Y : Ω → {yj , j ∈ J}.
Définition 4.9 :
On appelle loi conditionnelle de Y sachant {X = xi } la probabilité définie sur Y (Ω) par
P (Y = yj , X = xi ) pij
Pxi (yj ) = P (Y = yj |X = xi ) = = .
P (X = xi ) pi
De cette définition découle celle de l’espérance conditionnelle.
Définition 4.10 :
On appelle espérance conditionnelle de Y sachant {X = xi }, l’espérance de Y pour la loi
conditionnelle de Y sachant {X = xi } :
X X
EX=xi (Y ) = E(Y |X = xi ) = yj Pxi (yj ) = yj P (Y = yj |X = xi )
j∈J j∈J
X P (Y = yj , X = xi ) X pij
= yj = yj .
P (X = xi ) pi
j∈J j∈J
Retenons que l’espérance d’une espérance conditionnelle est une espérance ! !
28
Chapitre 3
Variables aléatoires continues
1 Généralités
Nous considérons maintenant le cas où la quantité aléatoire d’intérêt peut prendre toutes
les valeurs d’un intervalle de R (donc une infinité de valeurs). Par exemple, si X représente
le temps passé au chômage par un individu, X peut prendre (une infinité) n’importe quelle
valeur entre 0 et 45 ans.
Définition 1.1 :
Une variable aléatoire continue X est une fonction qui à chaque résultat d’une expérience
aléatoire associe un nombre réel. Autrement dit X(Ω) = I où I est un intervalle de R.
Exemple 14
Loi uniforme sur [0, 1]
Soit U une variable aléatoire à valeur dans l’intervalle [0, 1] et ce de manière uniforme. Au-
trement dit, toutes les valeurs de l’intervalle [0, 1] ont la même probabilité d’être obtenues.
De façon évidente, si x ∈
/ [0, 1] on a P (U = x) = 0.
Que vaut cette probabilité ponctuelle si x ∈ [0, 1] ? L’intervalle [0, 1] contient une infinité de
valeurs qui se partagent donc la probabilité 1 en une infinité de probabilités ponctuelles. Si
elles ont toutes la même probabilité, elles doivent donc avoir chacune une probabilité nulle.
Par conséquent,
∀x ∈ [0, 1], P (U = x) = 0
Ainsi, contrairement au cas des variables aléatoires discrètes, on ne peut pas décrire de
manière satisfaisante la loi de probabilité d’une v.a continue en considérant les probabilités
ponctuelles. La notion de fonction de répartition permet de le faire.
1.1 Fonction de répartition

Comme pour les variables aléatoires discrètes, on peut définir la notion de fonction de
répartition dans le cas continu.
Définition 1.2 :
34
On appelle fonction de répartition d’une v.a continue X la fonction F définie sur R
par :
F (x) = P (X ≤ x).
Propriétés
Par définition, F vérifie les propriétés suivantes :
1. F est une application définie sur R à valeurs dans l’intervalle [0,1].
2. F est croissante .
3. lim F (x) = 1 (on note F (+∞) = 1) et lim F (x) = 0 (on note F (−∞) = 0)
x→+∞ x→−∞
4. Si X ne se concentre pas sur des valeurs spécifiques de R alors on admettra que F est
continue.
5. F est dérivable presque partout (sauf éventuellement en un nombre fini de points).
Le point 2 est dû au fait que si x augmente alors on “englobe” plus de valeurs dans le calcul
donc la probabilité tend vers 1 si x tend vers l’infini. De la même façon, si x diminue, on
“englobe” toujours moins de valeurs dans le calcul et la probabilité tend vers 0.
Caractérisation
• F caractérise la loi de probabilité de X. Autrement dit, si deux variables aléatoires réelles
ont même fonction de répartition, alors elles ont même loi (et réciproquement).
• Réciproquement, si F est une fonction réelle vérifiant les propriétés 1 à 5 précédentes
alors on dira qu’elle est une fonction de répartition et on peut montrer qu’il existe une
variable aléatoire X ayant F pour fonction de répartition.
Exemple 15
Loi uniforme sur [0, 1]
Reprenons la variable aléatoire U définie précédemment. Sa fonction de répartition FU est :


 0 si x < 0,
FU (x) = x si 0 ≤ x ≤ 1,


1 si x > 1.
On montre facilement que FU vérifie les propriétés 1 à 6 (à faire en exercice).
1.2 Densité de probabilité

La plupart des lois utiles dans ce cours sont absolument continues c’est-à-dire telles que la
fonction de répartition F admet une dérivée f = F 0 . Il est souvent plus facile de travailler
avec f = F 0 qu’avec F directement. Ces deux fonctions f et F caractérisent la loi de
probabilité d’une v.a. réelle de façon équivalente.
Définition 1.3 :
Soit X une variable aléatoire dont la loi de probabilité est caractérisée par la fonction de
répartition F . Si F est dérivable, on note f sa dérivée. f est appelée densité de probabilité
de X.
35
F est la primitive de f s’annulant en −∞ et on note
Z x
F (x) = f (t)dt.
−∞
R +∞
Des propriétés de F , il résulte que f est positive et −∞ f (t)dt = 1.
Caractérisation
• La densité de probabilité f caractérise aussi la loi de X.
• Toute fonction f vérifiant les 3 points suivants :
1. f (x) ≥ 0, pour tout x ∈ R,
2. f est continue presque partout,
R +∞
3. −∞ f (t)dt = 1,
est appelée densité de probabilité.
Remarque 1 :
Si X est une variable aléatoire de densité de probabilité f alors X(Ω) = {x ∈ R, f (x) > 0}
est appelé le support de la densité.
1.3 Probabilité d’un intervalle

A partir de la fonction de répartition on peut calculer la probabilité d’un intervalle :
P (a < X ≤ b) = F (b) − F (a),
ce qui peut s’écrire en fonction de la densité de probabilité :

Z b
P (a < X ≤ b) = F (b) − F (a) = f (u)du.
a
On remarque que P (a < X ≤ b) = P (a ≤ X ≤ b) = P (a ≤ X < b) = P (a < X < b).
1.4 Indépendance de deux variables aléatoires continues

De la même façon que dans le cas discret, on peut définir des vecteurs aléatoires réels de la
forme V = (X, Y ). Comme pour une v.a.r, on caractérise la loi du couple de v.a.r. (X, Y )
par sa fonction de densité notée f(X,Y ) et/ou sa fonction de répartion F(X,Y ) telles que
1. f(X,Y ) (x, y) ≥ 0, pour tout (x, y) ∈ R2 ,
2. f(X,Y ) est continue presque partout,
R +∞ R +∞
3. −∞ −∞ f(X,Y ) (x, y)dxdy = 1,
Rx Ry
4. F(X,Y ) (x, y) = −∞ −∞ f(X,Y ) (u, v)dudv = P (X ≤ x, Y ≤ y)
On ne s’attarde pas sur les propriétés de la fonction de répartion F(X,Y ) car dans ce cours,
on se restreint au cas où les v.a.r. X et Y sont indépendantes.
36
Proposition 2
Soient X et Y deux variables aléatoires continues, alors le couple (X, Y ) est une application
de Ω dans R2 . Les variables X et Y sont indépendantes ssi la loi du couple (X, Y ) est le
produit des lois de X et de Y , c’est à dire ssi, la loi du couple (X, Y ) admet pour fonction
de répartition :
F(X,Y ) = P (X ≤ x, Y ≤ y) = FX (x)FY (y), pour tout couple (x, y) ∈ R2 .
Si X et Y ont pour densités respectives fX et fY et sont indépendantes, alors la densité du

couple (X, Y ) est :
f(X,Y ) (x, y) = fY (x)fX (y), pour tout couple (x, y) ∈ R2 .
1.5 Moments d’une v.a. continue

Définition 1.4 :
Soit X une v.a. continue dont la loi est définie par sa densité f . L’espérance mathématique
de X est le nombre Z +∞
E(X) = xf (x)dx.
−∞
La variance de X est le nombre :
Z +∞
2 2 2
V (X) = E((X − E(X)) ] = E(X ) − E(X) = x2 f (x)dx − E(X)2 .
−∞
Propriétés 1.1 (Propriétés de l’espérance et de la variance) :

Les propriétés de l’espérance et de la variance sont les mêmes que celles énoncées pour
l’espérance et la variance des variables discrètes. Si X et Y sont deux v.a. continues et a, b
deux nombres réels, on a :
1. E(a) = a.
2. E(aX + b) = aE(X) + b.
3. E(X + Y ) = E(X) + E(Y ).
4. V (aX + b) = a2 V (X).
Dans le cas particulier où X et Y sont deux v.a. indépendantes, on a
1. E(XY ) = E(X)E(Y ).
2. V (X + Y ) = V (X) + V (Y ).
Proposition 3
Soit X une variable aléatoire de densité de probabilité f définie sur R . Pour toute appli-
cation ϕ, l’espérance de la v.a. Y = ϕ(X) est :
Z
E(Y ) = E(ϕ(X)) = ϕ(x)f (x)dx.
R
(Sous condition d’existence de l’espérance).

De plus, pour un couple de variables aléatoires (X, Y ) de densité f(X,Y ) (x, y), on a
Z Z
E(ϕ(X, Y )) = ϕ(x, y)f(X,Y ) (x, y)dxdy.
R R
37
à condition que ces quantités existent, pour ϕ bornée par exemple.
2 Quelques lois continues usuelles

Pour chaque loi, on donne la densité de probabilité, éventuellement son graphe, l’espérance
mathématique et la variance.
• Loi uniforme sur [a, b], a < b
f(x)
f(x)
( 1
1 b −a
1 si x ∈ [a, b],
b−a I[a,b] (x)
f (x) = = b−a
0 sinon.
a+b
E(X) = 2 .
(b−a)2
V (X) = 12 .
a 0 b xx
• Loi exponentielle E(a), a > 0

(
ae−ax si x > 0, a
f (x) = ae−ax I]0,+∞[ (x) =

0 sinon.
1
E(X) = a.
1
V (X) = a2
. 0
• Loi normale centrée réduite N (0, 1)

La densité de la loi Normale N (0, 1) a une notation particulière que l’on retrouve dans
beaucoup d’ouvrage, on la note φ(·) et sa fonction de répartition sera notée Φ(·).
f 0 (x)

φ(x) = √1 exp − 21 x2 .
2π
E(X) = 0.
V (X) = 1.
0 x
Il est utile de savoir que E(X 3 ) = 0 et E(X 4 ) = 3.
Propriétés de la fonction de répartition :

Notons Φ la fonction de répartition de la loi normale centrée réduite. La densité φ étant
symétrique par rapport à la droite (t = 0), on a :
· Φ(0) = 0, 5.
· Φ(−t) = 1 − Φ(t) , pour tout t ∈ R.
· P (|T | < t) = P (T < t)–P (T < −t) = 2Φ(t) − 1, pour tout t ∈ R.
· P (|T | > t) = P (T > t) + P (T < −t) = 2(1 − Φ(t)), pour tout t ∈ R.
38
Valeurs remarquables :
· P (−1.645 < T < 1.645) = 0, 90.
· P (−1.96 < T < 1.96) = 0, 95.
· P (−3.05 < T < 3.05) = 0, 998.
Les autres valeurs seront lues dans la table statistique.
• Loi normale N (m, σ)

Les définitions suivantes sont équivalentes :
1. X suit une loi N (m, σ) ssi X = σT + m où T suit une loi N (0, 1).
X−m
2. X suit une loi N (m, σ) ssi la v.a. T = σ suit une loi N (0, 1).
3. X admet pour densité la fonction

1 1
f (x) = √ exp − 2 (x − m)2 .
2πσ 2 2σ
On a : E(X) = m et V (X) = σ 2 .
Nous avons tracé les densités de différentes lois normales sur la figure 3.1.
Remarque 2 :
Seule la loi N (0, 1) est tabulée, ainsi tout calcul de probabilité relatif à X de loi N (m, σ)
nécessite de centrer et réduire la variable X c’est-à-dire de se ramener à la variable
T = X−m σ de loi N (0, 1).
N(5,0.7)
0.5
0.4
N(0,1)
densité
0.3
0.2
0.1
N(5,1)
N(0,2)
0.0
-5 0 5 10
Figure 3.1 – Densité de lois gaussiennes pour différents paramètres
3 Transformation d’une v.a. continue

Nous avons vu au paragraphe 1.5 que si X est une v.a. continue prenant ses valeurs dans
un intervalle I de R dont la loi est caractérisée par la densité de probabilité f et ϕ est une
fonction quelconque alors l’espérance de ϕ(X) se calcule directement à partir de f :
Z
E(ϕ(X)) = ϕ(x)f (x)dx.
R
39
(Sous condition d’existence de l’espérance).
Cependant, dans certains cas nous avons besoin de connaı̂tre la loi de probabilité de Y =
ϕ(X). Nous proposons une méthode permettant de calculer la fonction de répartition et
d’en déduire la densité de probabilité de Y .
Soit X une v.a. continue, prenant ses valeurs dans un intervalle de R noté I. Soit G la
fonction de répartition de Y = ϕ(X) et g sa densité de probabilité. On suppose que ϕ est
dérivable et strictement monotone I. Elle réalise donc une bijection de I dans ϕ(I) et admet
une fonction réciproque notée ϕ−1 . Nous distinguons deux cas, selon que ϕ est croissante
ou décroissante sur I.
• Si ϕ est croissante alors on peut alors écrire pour tout y ∈ ϕ(I) :
G(y) = P (Y ≤ y) = P (ϕ(X) ≤ y) = P (X ≤ ϕ−1 (y)) = F (ϕ−1 (y)),
et en dérivant on obtient la densité g de la variable Y

1
g(y) = F 0 ◦ ϕ−1 (y).
ϕ0 ◦ ϕ−1 (y)
• Si ϕ est décroissante , alors ϕ−1 est décroissante et pour tout y ∈ I :
G(y) = P (Y ≤ y) = P (X > ϕ−1 (y)) = 1 − F (ϕ−1 (y)).
De plus,
1
g(y) = − F 0 ◦ ϕ−1 (y).
ϕ0 ◦ ϕ−1 (y)
Remarque 3 :
On notera que g(y) = 0 pour tout y n’appartenant pas à ϕ(I).
Exemple 16
Loi uniforme et transformation exponentielle
On suppose que U suit une loi uniforme sur [0, 1] et on pose Y = exp U , (ϕ(x) = ex ). Alors
on a
I = U (Ω) = [0, 1] et ϕ(I) = Y (Ω) = [1, e].
Par conséquent, (
0 si y < 1,
G(y) =
1 si y > e.
Soit y ∈ [1, e], on a
G(y) = P (Y ≤ y) = P (eU ≤ y) = P (U ≤ ln y) = ln y,
car ln y ∈ [0, 1] pour tout y ∈ [1, e]. Ainsi en dérivant on obtient

1
g(y) = I[1,e] (y) .
y
40
4 Somme de variables aléatoires continues
On s’intéresse maintenant à la somme de variables aléatoires continues et indépendantes.
Théorème 4.1. Soient X et Y deux variables aléatoires continues indépendantes de den-

sités de probabilité respectives f et g. Alors la v.a. T = X + Y admet pour fonction de
densité h telle que
Z Z
h(t) = f (t − u)g(u)du = f (u)g(t − u)du.
R R
Démonstration. Admis.
Corollaire 4.1. Toute transformée linéaire de v.a. normales est normale et toute combi-
naison linéaire de v.a. normales indépendantes est normale. Plus précisément, soient X1
et X2 deux v.a. indépendantes de loi normale, respectivement N (m1 , σ1 ), N (m2 , σ2 ), et a
et b deux nombres réels, alors :
1. aX1 suit une loi normale N (am1 , |a|σ1 ).
2. X1 + a suit une loi normale N (a + m1 , σ1 ).
p
3. X1 + X2 suit une loi normale N (m1 + m2 , σ12 + σ22 ).
p
4. aX1 + bX2 suit une loi normale N (am1 + bm2 , a2 σ12 + b2 σ22 ).
Démonstration. Admis.
Tableau récapitulatif des résultats à connaı̂tre sur les lois continues
Loi Paramètres Support Densité Espérance Variance

(
1
si x ∈ [a, b] a+b (b − a)2
Uniforme U([a, b]) (a, b) ∈ R2 , a < b [a, b] f (x) = b−a
0 sinon 2 12
(
ae−ax si x > a 1 1
Exponentielle E(a) a>0 R∗+ f (x) =
0 sinon a a2

1 1
Normale N (0, 1) R φ(x) = √ exp − x2 0 1
2π 2
1 1
Normale N (m, σ) (m, σ) R f (x) = √ exp − 2 (x − m)2 m σ2
σ 2π 2σ
5 Approximation d’une loi par une autre loi

Pour de grandes valeurs de n, le calcul de certaines probabilités n’est plus possible. Il devient
alors nécessaire d’approximer ces lois par d’autres.
5.1 Approximation de la loi Hypergéométrique par une loi binomiale
H(n, p, N ) ≈ B(n, p)
41
Proposition 4
En pratique, si (n/N < 0.1) peut approximer la loi Hypergéométrique de paramètres
(n, p, N )
k C n−k
CN p Nq
P (X = k) = n
CN
par une loi Binomiale de paramètres (n, p)
P (X = k) = Cnk pk q n−k ,
avec q = 1 − p.
5.2 Approximation de la loi Binomiale par une loi de Poisson
B(n, p) ≈ P(np)
Proposition 5
En pratique, si ( n ≥ 50 et p < 0.1 ) ou si ( n ≥ 50 et p > 0.9 ), on peut approximer la
loi Binomiale de paramètres (n, p)
(où q = (1 − p)) par une loi de Poisson de paramètre np
(np)k e−np
P (X = k) = .
k!
5.3 Approximation de lois discrètes par une loi continue
√
B(n, p) ≈ N (np, npq)
Proposition 6
En pratique, si (n ≥ 50 et p ∈]0.4, 0.6[ ) ou si (n ≥ 50 et npq > 18 ) on peut approximer
la loi Binomiale de paramètres (n, p)
avec q = (1 − p) par une loi Normale de moyenne np et de variance npq (c’est à dire
√
d’écart-type npq) dont la densité est
1 1
fX (x) = √ exp(− (x − np)2 ).
2πnpq 2npq
√
P(λ) ≈ N (λ, λ))
42
Proposition 7
En pratique, si (λ ≥ 18), on peut approximer la loi de Poisson de paramètre λ
λk e−λ
P (X = k) =
k!
√
par une loi Normale de moyenne λ et de variance λ (c’est à dire d’écart-type λ) dont la
densité est
1 1
fX (x) = √ exp(− (x − λ)2 ).
2πλ 2λ
L’approximation de lois discrètes par une loi continue soulève une question importante.
Dans le cadre ”discret”, les probabilités se concentrent en des points (∃k tel que P (X =
k) 6= 0) alors que dans le cadre ”continu” les probabilités assignent 0 en tout point (∀k
P (X = k) = 0). Il nous faut alors faire une correction de continuité comme suit :
Soit X une v.a. discète que l’on approxime par une N (m, σ). Soit Φ la fonction de répartion
de la gaussienne centrée réduite N (0, 1) alors
k + 0.5 − m k − 0.5 − m
P (X = k) = P (k − 0.5 < X < k + 0.5) ≈ Φ( ) − Φ( ).
σ σ
5.4 Récapitulatif
λ≥18 N(λ,√λ)
Poiss(λ)
Bin(n,p)
n≥50 ou n≥50
et et
0.4<p<0.6 npq≥18
n≥50
et ou n≥50
p<0.1 ou p>0.9
et
np>5 et nq>5
N(np,√(npq))
Poiss(np)
6 Exercices
Exercice 3.1
Soit U une variable aléatoire de loi uniforme sur [−1, 1].
1. Donner l’expression de sa fonction de densité. Tracer son graphe.
2. Calculer sa fonction de répartition.
3. Calculer l’espérance et la variance de U .
43

Stat Des 2013

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Stat Des 2013

Transféré par

Droits d'auteur :

Formats disponibles

Université de Fianarantsoa

Support de cours de Elysé Razafimahatolotra

(Cours original de Sophie Donnet et Katia Meziani)

3 Description des distributions statistiques bivariées 36

3 Variables aléatoires continues 34

2 Variables aléatoires. Cas discret 17

Introduction aux statistiques

1.1 Introduction générale

1.2 A propos des exercices

1.4 Variable qualitative

1st 2nd 3rd Crew

Exemple 1.3 (Titanic)

Modalités Effectifs Fréquences

1.5 Variable quantitative discrète

m1 < m2 < · · · < mJ

Modalités Effectifs Eff. cumulés Fréquences Fréq. cumulées

Exemple 1.4 (Insectes)

Les modalités ordonnées sont m1 = 0 , m2 = 1, m3 = 2, m4 = 3, m5 = 4, m6 = 7. Le tableau des

Modalités Effectifs Eff. cumulés Fréquences Fréq. cumulées

Le diagramme en batônnets et la fonction de répartition empirique sont représentés sur la figure

1.6 Variable quantitative continue

Classe Effectifs Eff. cumulés Fréquences Fréq. cumulées

Exemple 1.5 (Etats-Unis)

2000 3000 4000 5000 6000 7500

Figure 1.4 – USA : fonction de répartition pour 7 classes

Distributions statistiques univariées :

2.1 Caractéristiques de tendance centrale et de position

2.1.3 Digression : moyennes géométriques et arithmétiques

100 × 1.01 × 1.02 × 1.03 × 1.04 = 100 × (1 + τm )4

d’où dans notre cas

Comparaison des moyennes arithmétiques, géométriques et harmoniques

2.1.4 La médiane empirique

En pratique, nous distinguons les variables discrètes des variables continues :

Exemple 2.5 (USA)

– Si n est pair, la médiane est la moyenne entre les 2 valeurs centrales :

Exemple 2.6 (Insectes)

2.1.5 Les quantiles empiriques

2.2 Caractéristiques de dispersion

2.2.2 Distance inter-quartiles (empirique)

2.2.3 L’écart absolu moyen (empirique)

2.2.4 La variance empirique

En général, les logiciels de statistiques fournissent la variance corrigée.

2.2.5 L’écart type

2.3 Représentation graphique : boı̂te de distribution

1. Tracer un rectangle qui s’étend de q0.25 à q0.75 , de largeur quelconque.

a = q0.25 − 1.5IQ et b = q0.75 + 1.5IQ

Identifier les valeurs de la série telle que

xa = min{xi |xi ≥ a} et xb = max{xi |xi ≤ b}

Figure 2.2 – Boı̂te de distribution pour l’exemple USA

2.4 Caractéristiques de concentration : Courbe de Lorenz et indice

On représente ces inégalités par la courbe de Lorenz.

Soient x1 , . . . , xn les revenus des n individus de la société considérée. Comme précédemment, on

0.0 0.2 0.4 0.6 0.8 1.0

Figure 2.3 – Calcul de l’indice de Gini

0.0 0.2 0.4 0.6 0.8 1.0

Figure 2.4 – Courbe de Lorenz pour l’exemple USA

Finalement l’indice de Gini vaut

Il est facile de vérifier que :

2.5 QQ-plot (graphiques quantile-quantile)

Table 2.1 – Ces données sont obtenues du 26

1. Tableau des quantiles et nuage de points

F0 (qj ) = Fj ⇔ qi = F0−1 (Fj )

Modalités ordonnées m1 ··· mJ

F0 (qj ) = Fj ⇔ qi = F0−1 (Fj )