Académique Documents
Professionnel Documents
Culture Documents
L1 Ec0-Ge (2013)
Statistique et Probabilité
• Cours
• Exercices
Support de cours
www.apr-mg.org voir Support de Cours puis Stat Proba et économétrie
3.1.4 Statistique du Chi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Cas particulier des couples de variables quantitatives . . . . . . . . . . . . . . . . . . 39
3.2.1 Représentation des données, indicateurs . . . . . . . . . . . . . . . . . . . . . 39
3.2.2 Covariance et coefficient de corrélation linéaire empiriques . . . . . . . . . . . 39
3.2.3 Ajustement linéaire d’un nuage de points . . . . . . . . . . . . . . . . . . . . 41
3.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Table des matières
4 Indices statistiques 51
4.1 Indices élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.2 Exemple et interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 1 Introduction aux statistiques descriptives 4
4.1.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 1.1 Introduction générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4.1.4 Des indices élémentaires aux indices synthétiques . . . . . . . . . . . . . . . . 52 1.2 A propos des exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4.2 Indices de Laspeyres et de Paasche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 1.3 Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.2.1 Indice de Laspeyres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 1.4 Variable qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.2.2 Indice de Paasche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 1.5 Variable quantitative discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.2.3 Remarques sur les indices de Laspeyres et Paasche . . . . . . . . . . . . . . . 54 1.6 Variable quantitative continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.2.4 Un compromis : l’indice de Fisher . . . . . . . . . . . . . . . . . . . . . . . . 56 1.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.3 Les indices-chaı̂nes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.4 Indice des prix de l’INSEE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2 Distributions statistiques univariées : principaux indicateurs 16
4.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 2.1 Caractéristiques de tendance centrale et de position . . . . . . . . . . . . . . . . . . 16
2.1.1 Le mode empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5 Séries chronologiques 59 2.1.2 Moyenne empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.1 Combinaison de la tendance et de la saisonnalité : modèle additif ou multiplicatif ? . 61 2.1.3 Moyennes géométriques et arithmétiques . . . . . . . . . . . . . . . . . . . . . 17
5.2 En l’absence de saisonnalité : estimation de la tendance . . . . . . . . . . . . . . . . 61 2.1.4 La médiane empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.2.1 Estimation paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.1.5 Les quantiles empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2.2 Estimation non paramétrique : méthode par moyenne mobile . . . . . . . . . 64 2.2 Caractéristiques de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.3 Elimination de la saisonnalité dans un modèle additif . . . . . . . . . . . . . . . . . . 66 2.2.1 L’étendue (empirique) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.4 Cas pratique : étude du nombre de passagers dans un aéroport sur une durée de 12 2.2.2 Distance inter-quartiles (empirique) . . . . . . . . . . . . . . . . . . . . . . . 21
ans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 2.2.3 L’écart absolu moyen (empirique) . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 2.2.4 La variance empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.5 L’écart type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Représentation graphique : boı̂te de distribution . . . . . . . . . . . . . . . . . . . . 22
2.4 Caractéristiques de concentration : Courbe de Lorenz et indice de Gini . . . . . . . . 23
2.5 QQ-plot (graphiques quantile-quantile) . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.1 Moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.2 Indicateurs et box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6.3 Indices et courbes d’inégalités . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.4 Diagrammes quantile quantile . . . . . . . . . . . . . . . . . . . . . . . 33
3 2
4.5 Loi conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3 2
Chapitre 1
Remarque 1.1 :
Un autre point de vue peut-être adopté si on considère les données recueillies comme l’observation
partielle d’une population plus importante généralement supposée de taille infinie. Afin d’induire
des informations sur la population infinie à partir de l’échantillon de données recueillies, il faut in-
troduire la notion de loi de probabilité. Ce deuxième point de vue, appelée inférence statistique
ou statistique mathématique constitue le programme de 2ème année.
Dans le programme de 1ère année, nous nous intéressons à la statistique descriptive. Dans le
chapitre 1, nous introduisons d’abord quelques concepts généraux puis nous proposons (chapitre
2) un catalogue de diverses quantités permettant de résumer l’information contenue dans un jeu
de données. Le chapitre 3 est dédié à l’étude des relations entre deux variables. Dans le chapitre 4,
nous introduisons la notion d’indice. Enfin, les séries temporelles sont abordées dans le chapitre 5.
4
de l’Institut National de la Statistique et des Etudes Economiques (INSEE). 1 . Pour certaines
questions, on vous demande de trouver vous-même les informations sur ce site.
• Les données concernant les USA ont été trouvées sur le site de l’US Census Bureau 2 . Celles
concernant les meurtres aux USA proviennent du FBI 3 . Enfin, les informations concernant la
peine de mort ont été collectées sur Wikipédia.
• Les données dont le nom de fichier contient le mot OCDE proviennent des bases de données de
l’Organisation de Coopération et de Développement Economiques (OCDE).
• Les données dont le nom de fichier contient le mot ONU proviennent des bases de données de
l’Organisation des Nations Unies.
Notez que depuis très peu de temps, dans un soucis de transparence, la France a ouvert le site
http://www.data.gouv.fr/. Ce site met à disposition un grand nombre (toutes ?) de données
officielles. Pour votre culture générale, nous vous invitons à le parcourir.
Dans les exercices, vous devez calculer des indicateurs, tracer des histogrammes, des boı̂tes de
distribution. Vous pouvez utiliser Excel ou un logiciel de statistiques. Excel n’étant pas un logiciel
de statistiques à proprement parler, les outils statistiques graphiques ne sont pas disponibles par
défaut.
• Les histogrammes peuvent être tracés en installant la macro complémentaire “Utilitaire d’analy-
se”.
• Les box-plot peuvent être faites “à la main” mais il semble plus raisonnable d’utiliser les macro
existantes sur le “marché”. En particulier nous vous proposons d’utiliser la macro complémentaire
Boxplot.xla de Olivier Martin (Modulad, Numéro 32, janvier 2005). Nous avons mis cette macro
sur MyCourse ainsi que sa notice d’utilisation particulièrement pédagogique.
Plus généralement, d’autres macro peuvent être téléchargées sur le site https://www.rocq.inria.
fr/axis/modulad/excel_macros.htm. Nous vous invitons à parcourir le web pour trouver des
outils pratiques, tout en restant vigilants quant à leur qualité.
Remarque 1.2 :
Notez que la dernière version d’Excel, la macro “Utilitaire d’analyse” a été remplacée par le logiciel
StatPlus avec une version libre pour l’instant.
1.3 Vocabulaire
En statistique, on appelle population un ensemble fini P. Les éléments de P seront appelés indi-
vidus. Cette population peut être de nature très variée : population humaine, agents économiques,
pièces détachées d’un certain type, logements dans une ville donnée, etc.
Dans la population considérée on s’intéresse à un (ou plusieurs) caractère(s) statistique(s) X
concernant les individus ; à chaque individu de P est attachée une modalité du caractère X i.e.
une valeur prise par le caractère.
Exemple 1.1
Si on observe le caractère X = ”Genre”, les modalités sont ”homme” ou ”femme”.
1. http://www.insee.fr/fr/themes/
2. http://www.census.gov/compendia/statab/cats/population.html
3. http://www2.fbi.gov/ucr/cius2009/offenses/expanded_information/homicide.html
5
Le caractère X est dit
• quantitatif si il est mesurable. Dans ce cas, il peut être
• continu si il peut prendre n’importe quelle valeur d’un intervalle de R ; par exemple, le poids
et la taille d’un individu sont quantitatifs continus ;
• discret si il prend un nombre fini de valeurs ; par exemple, le nombre d’enfants par femme est
discret ;
• qualitatif si il ne peut être mesuré ; par exemple, le département de naissance d’un individu,
son sexe, son origine sociale.
Remarque 1.3 :
Il faut prendre ces définitions avec précaution. En effet, la distinction continu / discret est parfois
peu claire. Par exemple, en théorie, l’âge est une caractéristique continue mais en pratique elle est
au mieux mesurée avec une précision d’une journée.
Dans la suite, on appellera série statistique la suite des valeurs prises par une variable X sur les
unités d’observations. On note n le nombre d’unités d’observation et x1 , . . . , xn les valeurs prises.
Une première étape consiste à classer les données par modalité (ou intervalle de valeurs) et fournir
le tableau des effectifs et fréquences. Dans une deuxième étape, on représente graphiquement la
répartition des données au moyen d’un diagramme circulaire ou d’un histogramme. La méthodologie
est propre au type de caractéristique observée.
Exemple 1.2
Si on observe le caractère X = ”Genre” alors J = 2.
On note m1 , . . . mJ ces modalités. Soit nj le nombre de fois où on observe la modalité mj dans la
population. fj est la fréquence de la modalité :
nj
fj =
n
On remarque que
n1 + . . . + nJ = n et f1 + . . . fJ = 1
• Tableau des effectifs et fréquences
Une première façon de résumer les données brutes est de remplir le tableau des effectifs et
fréquences :
Modalités Effectifs Fréquences
m1 n1 f1
.. .. ..
. . .
mJ nJ fJ
Total n 1
6
2nd
800
1st
3rd
600
400
200
Crew
0
Figure 1.1 – Voyageurs du Titanic : diagrammes en barre (à g.) et en secteurs (à dr.) des effectifs
• Représentation graphique
Dans le cas d’une variable qualitative, on peut représenter les données graphiquement par
– un diagramme en barre dans lequel la hauteur de chaque barre est proportionnelle à
l’effectif. La largeur de chaque barre est arbitrairement choisie.
– un diagramme en secteur, dans lequel chaque secteur angulaire est proportionnel à l’effectif.
nj le nombre de fois où la modalité j a été atteinte et fj sa fréquence d’apparition. Puisque les
modalités sont ordonnées, on peut définir les effectifs et fréquences cumulés, respectivement notés
7
Nj et Fj :
j
X j
X
N j = n1 + . . . + nj = nj et Fj = f1 + . . . + fj = fj
k=1 k=1
Nj est alors le nombre d’unités statistiques sur lesquelles la variable prend des valeurs inférieures
ou égales à mj .
• Tableau des effectifs et fréquences cumulés
C’est une fonction en escaliers (voir figure 1.2 à droite pour un exemple).
0 1 7 2 3 1 2 1 3 0 1 4
8
1.0
4
0.8
3
0.6
2
0.4
1
0.2
0.0
0
0 1 2 3 4 7 0 2 4 6 8
Figure 1.2 – Insectes : diagrammes en batonnets des effectifs (à g.) et fonction de répartition
empirique (à dr.)
Remarque 1.4 :
Si la variable observée est qualitative ordinale (i.e. on peut ordonner naturellement les modalités)
alors les effectifs et fréquences cumulés ainsi que la fonction de répartition empirique ont un sens.
9
– Les données d’une variable continue sont représentées graphiquement par un histogramme
dont les rectangles ont pour bornes bj−1 et bj et sont d’une surface proportionnelle à l’effectif
(ou à la fréquence) : la j-ème classe de bornes bj−1 et bj est représentée par un rectangle de
hauteur hj telle que
fj
hj × (bj − bj−1 ) = fj ⇔ hj =
bj − bj−1
– La distribution des données peut aussi être représentée par la fonction de répartition em-
pirique. Sous l’hypothèse d’équirépartition au sein de chaque classe, la fonction de répartition
Fn est linéaire par morceaux d’équation :
0 si x < b0
Fj −Fj−1
Fn (x) = Fj−1 + bj −bj−1 (x − bj−1 ) si x ∈ [bj−1 , bj [
1 si x ≥ bJ
Remarque 1.5 :
Puisque les classes sont contiguës, la fonction de répartition est continue de R dans ]0, 1[. De
plus si il n’y a pas de classe vide, elle est strictement croissante donc elle réalise une bijection
de [b0 , bJ ] dans ]0, 1[.
En pratique, pour tracer la fonction de répartition empirique, on relie alors par des segments
les points de coordonnées (bj , Fj ).
L’histogramme des effectifs correspondant aux classes définies précédemment est représenté sur la
figure 1.3 à gauche. Sur la même figure à droite, on a représenté l’histogramme des effectifs dans le
cas où on regroupe les 3 dernières classes. La fonction de répartition empirique correspondant à 7
classes est représentée sur la figure 1.4
Remarque 1.6 :
Le regroupement des données par classes peut aussi être appliqué aux variables quantitatives discrètes
quand le nombre de modalités J est trop grand.
10
6e-04
6e-04
4e-04
4e-04
2e-04
2e-04
0e+00
0e+00
3000 3500 4000 4500 5000 5500 6000 6500 3000 3500 4000 4500 5000 5500 6000 6500
Figure 1.3 – USA : histogrammes des revenus pour 7 classes (à g.) et après avoir regroupé les 3
dernières classes (à dr.)
1.0
0.8
0.6
0.4
0.2
0.0
11
Chapitre 2
Dans le chapitre précédent nous avons présenté les données sous forme de tableau et de graphes
(histogramme, diagrammes et fonctions des répartitions). Nous cherchons maintenant à fournir des
indicateurs permettant de décrire synthétiquement la distribution des données x1 , . . . , xn . Dans une
première partie, nous nous intéressons aux paramètres de position et de tendance centrale. Dans
un second temps, nous considérerons les indicateurs de dispersion puis de concentration.
Nous insistons sur le fait qu’un indicateur ne peut être pris seul comme description de la distribution
mais doit être comparé aux autres. En outre, les paramètres de position et de dispersion doivent
être mis en regard pour avoir une idée plus complète de la distribution.
Remarque 2.1 :
Dans la suite, les indicateurs seront tous qualifiés d’ empiriques car issus de l’étude d’une série
statistique donc d’une expérience, par opposition aux espérances et variances théoriques étudiées
dans la première partie du cours (probabilité).
Exemple 2.1
Dans l’exemple Titanic, le mode est la modalité ”Equipage”. Dans l’exemple Insectes, le mode est
la modalité m2 = 1. Dans l’exemple USA, la classe modale est [4500, 5000[.
16
2.1.2 Moyenne empirique
La moyenne empirique n’a de sens que pour une variable quantitative. Elle est égale à la somme
des valeurs observées divisée par le nombre d’observations n :
n
1X x1 + . . . + xn
mX =x= xi =
n n
i=1
Remarque 2.2 :
Dans le cas d’une variable discrète, la moyenne empirique peut aussi s’écrire à partir des effectifs
et modalités :
J
1X
mX = nj mj
n
j=1
Exemple 2.2
Dans l’exemple Insectes, la moyenne empirique du nombre d’insectes vaut 2.08 . Dans l’exemple
USA (tableau 1.1), la moyenne empirique des revenus vaut 4435.8 US dollars par an.
Remarque 2.3 :
La moyenne empirique est très sensible aux valeurs extrêmes (très grandes ou très petites). Dans
l’exemple Insectes si on ajoute une observation qui vaut 15 la moyenne arithmétique est considérablement
modifiée : elle passe de 2.08 à 3.08.
La moyenne présentée si dessus est la moyenne arithmétique. Celle-ci n’a pas forcément le sens
voulu. Dans certains contextes, nous avons naturellement recours à d’autres types de moyennes.
n
!1/n
Y
xG = xi
i=1
Remarque 2.4 :
1 Pn
Si tous les xi sont strictement positifs alors log(xG ) = n i=1 log(xi ).
Exemple 2.3
Supposons que l’on place 100 e durant 4 années aux taux de 1% la 1ère année, 2% la deuxième
année, 3% la 3ème année, et 4% la 4ème année. Quel est le taux moyen par an de ce placement ?
On entend pas ”taux moyen” le taux τm tel que si on l’applique 4 années de suite, on obtient le
même rendement.
– Au bout de 4 ans, j’ai sur mon compte 100 × 1.01 × 1.02 × 1.03 × 1.04 = 110.3550 e.
– Le taux moyen τm est tel que si j’applique τm 4 années de suite j’obtiens la même somme :
17
1 + τm = (1.01 × 1.02 × 1.03 × 1.04)1/4
τm = (1.01 × 1.02 × 1.03 × 1.04)1/4 − 1 = 0.0249
Moyenne harmonique :
La moyenne harmonique vaut :
n
xH = Pn 1
i=1 xi
Exemple 2.4
Considérons un avion faisant un aller-retour sur la même trajectoire (de longueur d) à 600 km/h à
l’aller et 700 km/h au retour. Quelle est sa vitesse moyenne ?
Pour faire son aller retour, l’avion met un temps T égal à :
1 1
T =d× +d×
600 700
heures où d est la distance de son trajet aller. Sa vitesse moyenne vm est telle que si on applique la
vitesse moyenne à tout le parcours on met le même temps T pour faire l’aller-retour :
1 1 1
T =d× +d× =2×d×
600 700 vm
d’où
2
vm = 1 1 = 646.1538
600 + 700
Cette vitesse moyenne n’est par celle obtenue par la moyenne arithmétique qui vaut 650 km/h.
min{x1 , . . . , xn } ≤ xH ≤ xG ≤ x ≤ max{x1 , . . . , xn }
18
1. On repère la classe médiane telle que Fj−1 < 0.5 et Fj ≥ 0.5
2. me vérifie l’équation
Fj − Fj−1
Fj−1 + (me − bj−1 ) = 0.5
bj − bj−1
d’où
bj − bj−1 bj − bj−1
me = bj−1 + (0.5 − Fj−1 ) = bj−1 + (0.5 − Fj−1 )
Fj − Fj−1 fj
• Variable discrète :
Dans ce cas, la fonction de répartition est en escalier donc n’est pas bijective : le raisonnement
précédent n’est plus valable. On peut travailler directement sur la série statistique x1 , . . . xn que
nous commençons par ordonner de la plus petite à la plus grande valeur. Nous notons x(1) , . . . , x(n)
la série ordonnée.
– Si n est un nombre impair alors la médiane est la valeur centrale :
me = x( n+1 )
2
Les 6 premières valeurs sont 0, 0, 1, 1, 1, 1 et les 6 suivantes sont 2, 2, 3, 3, 4, 7. La médiane est donc
1+2
2 = 1.5
Remarquons que dans les deux cas, on peut lire la médiane sur le graphique de la fonction de
répartition empirique (voir figures 2.1).
19
1.0
1.0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
2000 3000 4000 5000 6000 7500 0 2 4 6 8
Figure 2.1 – Lecture de la médiane sur les fonctions de répartition empiriques (exemple USA à
gauche et Insectes à droite
• Variable continue :
Comme précédemment, si la fonction de répartition Fn est continue et strictement croissante, alors
elle réalise une bijection de R sur ]0, 1[ donc qα est parfaitement bien défini. Dans le cas d’une
variable continue dont les valeurs ont été regroupées en classe,
1. On repère la classe telle que Fj−1 < α et Fj ≥ α
2. qα vérifie l’équation
fj
Fj−1 + (qα − bj ) = α
bj − bj−1
d’où
bj+1 − bj
qα = bj + (α − Fj−1 )
Fj
• Variable discrète : Si Fn n’est pas bijective (par exemple constante par morceaux dans le cas
d’une variable discrète), on adopte le même principe que pour la médiane :
– Si nα est un nombre entier alors
x(nα) + x(nα+1)
qα =
2
– Si nα n’est pas un nombre entier alors considérons dnαe le plus petit entier supérieur ou égal à
nα
qα = x(dnαe)
Exemple 2.7
Dans l’exemple USA, le premier quartile est q0.25 = 3500 + (0.25 − 0.04) 4000−3500
0.22 = 3977.273. Le
troisième quartile est q0.75 = 4500 + (0.75 − 0.48) 5000−4500
0.36 = 4875
Remarque 2.5 :
Cette définition est une parmi tant d’autres que l’on peut trouver dans la littérature. En effet, en
raison de la non-bijectivité de Fn , cette définition est une approximation de la solution de l’équation
20
(2.1). D’autres définitions peuvent être utilisées dans les ouvrages et logiciels de statistique descrip-
tive.
e = x(n) − x(1)
Exemple 2.8
Dans l’exemple USA, l’étendue est e = 6315 − 3098 = 3217
Exemple 2.9
Dans l’exemple USA, l’étendue est IQ = 897.727
Théorème 2.2.1. (Formule de Koenig) La variance empirique peut aussi s’écrire de la façon
suivante :
n
1X 2
s2X = xi − m2X
n
i=1
Dans le cas discret, la variance peut aussi s’écrire à partir des effectifs et des modalités :
J J
1X 1X
s2X = nj (mj − mX )2 = nj m2j − m2X
n n
j=1 j=1
21
Remarque 2.6 :
On voit en 2ème année de DEGEAD (UE 44) que si on veut estimer correctement la variance
théorique d’une distribution à partir d’un échantillon x1 , . . . , xn , on utilise la variance corrigée :
n
1 X
(s0X )2 = (xi − mX )2
n−1
i=1
Exemple 2.10
Dans l’exemple USA, la variance s2X vaut 370021.8 et la variance corrigée (s0X )2 = 377573.3
Remarque 2.7 :
L’écart-type s’exprime dans la même unité que les données.
Ces valeurs sont appelées valeurs adjacentes. On relie ces valeurs au rectangle par
un segment
4. Les valeurs qui ne sont pas comprises entre les valeurs adjacentes sont représentées
par des points et appelées valeurs extrêmes
22
6000
5500
5000
4500
4000
3500
3000
Exemple 2.11
Dans l’exemple USA on trouve a = 2630.682 et b = 6221.591. Les valeurs adjacentes sont xa = 3098
et xb = 5348. La boı̂te de distribution est représentée sur la figure 2.2.
De plus, on pose q0 = 0 et on a qn = 1.
La courbe de Lorenz relie les points ni , qi . Ainsi à chaque proportion i
n d’individus les moins
riches, on attribue la fraction des revenus totaux dont ils disposent.
Remarque 2.8 :
23
1.0
0.8
0.6
q_i
0.4
0.2
0.0
i/n
C
Dans le cas particulier où chaque individu perçoit le même revenu alors xi = n d’où x1 +. . .+xn = C
et qi = ni . La courbe de Lorenz est la droite d’équation y = x
Pour une série statistique fixée, on représente la courbe de Lorenz et la diagonale du carré de côté
1. Plus l’écart entre la courbe de Lorenz et la diagonale est grand et plus la société considérée est
inégalitaire.
L’indice de Gini permet de quantifier cet écart. Il est égal à 2 fois la surface comprise entre la
courbe de Lorenz et la diagonale :
n−1
X qi + qi+1
G=1−
n
i=0
Démonstration
Tout d’abord remarquons que G est égal à 2 fois la surface entre les 2 courbes.
– La surface entre les 2 courbes vaut
la surface sous la diagonale − la surface sous la courbe de Gini
– La surface sous la diagonale est égale à la moitié de la surface du carré soit 12 .
Pn−1
– La surface sous la courbe de Gini est une somme de trapèzes = i=0 Ti où Ti est la surface d’un
trapèze (représenté en gris hachuré sur la figure 2.3)
La largeur de chaque trapèze est ni − i+1 1
n = n Le trapèze est de hauteur qi à gauche et qi+1 à
droite. D’où une surface de
1 11
Ti = qi + (qi+1 − qi )
n 2n
1
= [2qi + qi+1 − qi ]
2n
1
= [qi + qi+1 ]
2n
24
1.0
0.8
0.6
0.4
0.2
0.0
" n
#
1 X
G = 1+ 1−2 qi
n
i=0
L’indice de Gini est compris en 0 et 1. Il est proche de 0 si tous les revenus sont égaux.
Exemple 2.12
Dans l’exemple USA, la courbe de Lorenz des revenus des 50 états est donnée sur le graphe 2.4.
L’indice de Gini vaut 0.078. Donc il semble que les revenus soient équitablement répartis entre les
états.
25
Pays PIB par habitant Consommation d’énergie par habitant
(en $ US, en 2004) (en Tonnes d’équivalent pétrole, en 2002)
Afrique du sud 5700 2.502
Algérie 2575 0.985
Bénin 512 0.340
Egypte 976 0.789
Maroc 1505 0.363
Nigeria 541 0.718
Sénégal 637 0.319
Allemagne 33422 4.198
Espagne 25777 3.215
France 33614 4.470
Grèce 19226 2.637
Italie 28909 2.994
Luxembourg 66808 9.112
Norvège 54894 5.843
Portugal 15835 2.546
Royaume-Uni 35193 3.824
Suède 38746 5.718
Suisse 47577 3.723
Arabie Saoudite 9285 5.775
Chine 1258 0.960
Corée du Sud 13929 4.272
Inde 631 0.513
Iran 2350 2.044
Israel 18404 3.191
Japon 36647 4.058
Koweit 21420 9.503
Philippines 948 0.525
Russie 4071 4.288
Turquie 4296 1.083
Vietnam 520 0.530
Argentine 3808 1.543
Brésil 3210 1.093
Canada 30014 7.973
Colombie 2234 0.625
Etats-Unis 39114 7.943
Paraguay 1032 0.709
Venezuela 4203 2.141
Australie 30498 5.732
En pratique
En général ce calcul se fait par l’utilisation des tables statistiques ou par un logiciel.
On reporte dans un graphique le nuage de points (mj , qj )j=1...J .
• Dans le cas d’une variable quantitative dont les valeurs sont regroupées en classes de mo-
dalité :
On remplit le tableau des fréquence cumulées. Pour chaque fréquence cumulée (bj+1 ) on
calcule le quantile théorique i.e. qj tel que
− +
Classe [c− +
1 , c1 [ ... cJ , cJ
Fréq. cumulées F1 ... FJ
Quantiles théoriques q1 = F0 (F1 ) . . . qJ = F0−1 (FJ )
−1
27
Remarque 2.9 :
Si l’on dispose des données individuelles d’une variable aléatoire continue, les modalités sont toutes
les valeurs prises par la série (ordonnées) et les fréquences cumulées sont du type ni .
Remarque 2.10 :
Les QQ-plot peuvent servir aussi à comparer les distributions de deux séries.
Exemple 2.13
On s’intéresse à la distribution du PIB pour les pays du tableau 2.1. On veut comparer leur
distribution avec une gaussienne centrée réduite. Le QQ-plot correspondant est représenté sur la
figure 2.5. Ce graphe indique que la réparition du PIB est significativement différente d’une loi
normale.
4
x 10
8
6
Quantiles of Input Sample
−2
−4
−3 −2 −1 0 1 2 3
Standard Normal Quantiles
2.6 Exercices
2.6.1 Moyennes
Exercice 2.1
La banque A. propose un placement au taux de 3% la première année et 2.5% les années suivantes.
La banque B. propose quant à elle un placement au taux constant de 2.75% par an. Quel est le
taux moyen pour chaque banque, sur une période de 2 ans ? Pour un placement de 2 ans, quelle
banque devez-vous choisir ?
28
Chapitre 3
Dans ce chapitre, on s’intéresse aux relations entre deux variables notées X et Y . Supposons que l’on
observe ces deux variables sur n unités statistiques. A chaque individu i, on peut associer un couple
d’observations (xi , yi ). Chaque variable peut être quantitative ou qualitative. Dans une première
partie, on s’intéresse à la présentation des données et nous proposons un indicateur d’indépendance.
Dans une seconde partie nous nous intéressons à la modélisation d’une relation linéaire entre les
deux caractères étudiés.
De plus
K X
X J J
X K
X
njk = nj• = n•k = n
k=1 j=1 j=1 k=1
36
3.1.1 Distribution conjointe
Les données peuvent être représentées dans un tableau à double entrée appelé tableau de contin-
gence.
mY1 . . . mYk . . . mYK total
mX 1 n11 . . . n1k . . . n1K n1•
.. .. .. .. ..
. . ... . ... . .
mX j nj1 . . . njk . . . njK nj•
.. .. .. .. ..
. . ... . ... . .
mX
J nJ1 . . . nJk . . . nJK nJ•
n•1 . . . n•k . . . n•K n
Le tableau des fréquences s’obtient en divisant les effectifs par le nombre d’unités statistiques
n. Comme précédemment on définit :
njk n•k nj•
fjk = , f•k = fj• =
n n n
Remarque 3.1 :
Dans de nombreuses situations, les données individuelles ne sont pas disponibles, on a seulement
accès aux tableaux de contingence.
37
3.1.3 Distribution conditionnelle
La ligne j du tableau de contingence représente la répartition sur les modalités (ou classes modales)
(mY1 , . . . , mYK ) des individus pour lesquels le caractère X vaut mXj .
Si on divise les lignes ou les colonnes par leur somme, on obtient les distributions empiriques
constituées des fréquences conditionnelles. Pour j = 1, . . . , J et k = 1, . . . , K, notons :
njk fjk
fk|j = =
nj• fj•
fk|j peut se lire “fréquence de la modalité mYk sachant que X prend la modalité mX
j ”.
On peut alors construire le tableau des profils lignes :
j=1 j=1
Il s’agit de la moyenne ou de la variance des xi calculées pour les couples dont la variable Y a pour
valeur la k-ième modalité. On peut bien sûr faire de même en échangeant le rôle de X et Y pour
obtenir des moyennes et variances conditionnelles de Y .
Ainsi, on aurait :
fij = fj|k f•k = fj• f•k
D’où, si les 2 variables étaient indépendantes, on aurait
n•j ni•
nij =
n
38
On peut “quantifier la distance à l’indépendance” par la statistique du chi-deux :
J X
X K
(fjk − f•j fi• )2
D χ2 = n
f•j fi•
j=1 k=1
XJ X K 2
njk
= n − 1
nj• n•k
j=1 k=1
Ou de façon équivalente :
J X
X K n•j ni• 2
(njk − n )
D χ2 = n•j ni•
j=1 k=1 n
auseuil 5 pourcent, il faut comparer comparer Dχ2 au quantile q0,95 d’orde 95% d’une loi du χ2 à
(J − 1)(K − 1) degré de liberté c’est à dire
– si Dχ2 ≤ q0,95 , on conclue que les deux variables sont dépendantes,
– indépendantes sinon.
Interprétation : La statistique du chi-deux est proche de 0 si les deux caractères sont indépendants.
Elle est maximale s’il existe une dépendance systématique.
Exemple 3.1
Dans l’exemple USA, on considère la variable x = ”Illiteracy” et la variable Y =”Life Expectation”.
Le nuage de points est représenté sur la figure 3.1.
Comme vu précédemment, chaque variable peut être analysée séparément. Ainsi on peut calculer
les moyennes (mX , mY ) , variances (s2X et s2Y ) et écart-types (sX et sY ) pour X et pour Y . Ces
paramètres sont appelés paramètres marginaux.
39
73
72
Life Expectation
71
70
69
68
Illiteracy
Exemple 3.2
Sur la figure 3.2 on a représenté des nuages de points et calculé le coefficient de corrélation pour
chacun.
– En haut à gauche, les points sont alignés sur une droite croissante, rXY = 1.
– En haut au milieu, les points sont alignés sur une droite décroissante, rXY = −1.
40
1 -1 0.194
Figure 3.2 – Exemple 3.2 : Coefficients de corrélation pour chaque nuage de points.
– En bas à gauche, les points semblent suivre une droite croissante sans pour autant être alignés,
rXY = 0.739.
– En bas au milieu, les points semblent suivre une droite décroissante sans pour autant être alignés,
rXY = 0. − 774.
– En haut à droite, aucun motif ne se dessine, rXY est petit et vaut 0.194.
– En bas à droite, les points sont parfaitement répartis selon une courbe qui n’est pas une droite,
rXY est petit.
Exemple 3.3
Dans l’exemple USA, on obtient
x̄ = 1.17 ȳ = 70.8786 s2X = 0.3641 s2Y = 1.76598 sXY = −0.471882 rXY = −0.5884779
41
A partir d’un nuage de points (yi , xi ), i = 1, . . . , n qui semblent alignés, on va chercher la droite
d’équation y = ax + b qui passe au plus près des points du graphe. Passer au plus près, selon la
méthode des moindres carrés, c’est rendre minimale la somme suivante :
n
X
M (a, b) = (yi − axi − b)2
i=1
où (yi − axi − b)2 représente le carré de la distance verticale du point expérimental (yi , xi ) à la
droite considérée comme la meilleure. Cela revient donc à déterminer les valeurs des paramètres a
et b (respectivement le coefficient directeur de la droite et son ordonnée à l’origine) qui minimisent
la somme M (a, b).
Théorème 3.2.1. Soit (xi , yi ) un nuage de points. Le couple (a, b) minimisant le critère des
moindres carrés est
sXY
b
a= 2 et bb = y − b
ax.
sX
a et bb sont appelés estimateurs des moindres carrés de a et b.
b
On obtient donc un système à 2 équations et 2 inconnus. En divisant les deux lignes par −2n on
obtient : ( P P P
n
1
n i=1 xi yi − a n1 ni=1 x2i − n1 ni=1 xi b = 0
1 Pn 1 Pn 1 Pn
n i=1 yi − a n i=1 xi − n i=1 b = 0
Ce qui est équivalent à
( Pn P Pn
1
n i=1 xi yi − a n1 ni=1 x2i − 1
n i=1 xi b = 0
y − ax − b = 0
D’où
b = y − ax (3.1)
Donc
n n
1X 1X 2
x i yi − a xi − x(y − ax) = 0
n n
i=1 i=1
Ainsi Pn
1
n i=1 xi yi − x y
a= 1 Pn 2 2
(3.2)
n i=1 xi − x
42
n
!
X
det HessM = 2 x2i × (2n) − (2nx)2
i=1
n
!
2 1X 2
= 4n xi − x2
n
i=1
= 4n2 s2x >0
Remarque 3.2 :
ax + bb =
Le point moyen de coordonnées (x, y) appartient à la droite des moindres carrés. En effet, b
ax + y − b
b ax = y.
| {z }
b
b
• Prédictions
La droite des moindres carrés permet d’expliquer la relation entre X et Y mais elle permet aussi
de prédire de nouvelles valeurs. Supposons qu’on nous fournisse une nouvelle valeur x? , on pourra
prédire la valeur de Y correspondante par :
ax? + bb
y? = b
ei = yi − yi∗
Ils représentent la partie non-expliquée des yi par la droite des moindres carrés.
Remarque 3.3 :
P P P
axi + bb = b
On a n1 ni=1 yi∗ = n1 ni=1 b ax + bb = y = n1 ni=1 yi car le point (x, y) appartient à la droite
P
des moindres carrés. Par conséquent, la somme des résidus ni=1 ei est nulle.
43
– On appelle somme des carrés totale
n
X
SCT OT = (yi − y)2
i=1
2
Ré-interprétation : rXY est en fait la proportion de la variation de la variable Y expliquée par la
droite des moindres carrés.
2 SCREG
rXY =
SCT OT
Démonstration.
n
SCREG 1X ∗
= (yi − y)2
n n
i=1
n
1X
= (axi + b − ax − b)2
n
i=1
n
X
21 sXY
= a (xi − x)2 or a = s2x
donc
n
i=1
s2XY 2 s2XY 2
= s x = s
s4x s2x s2y y
2 2 SCT OT
= rXY s2y = rXY
n
Par conséquent
2 SCREG
rXY =
SCT OT
Exemple 3.4
Dans l’exemple USA, on a tracé la droite des moindres carrés sur la figure 3.3.
sXY
a0 = et b0 = x − a0 y
s2y
Si on veut tracer les deux droites sur le même graphe, il faut re-exprimer Y en fonction de X. Les
positions relatives de ces deux droites sont étudiées dans l’exercice 3.10.
44
73
72
Life Expectation
71
70
69
68
Illiteracy
3.3 Exercices
Exercice 3.1 (Yeux - Cheveux)
On a étudié la couleur des yeux et des cheveux de 592 étudiants en statistiques de l’Université du
Delaware (Snee 1974). La table de contingence est la suivante :
PP
P PP Yeux Marron Bleu Hazel 1 Vert
Cheveux PPPP
Brun 68 20 15 5
Chatain 119 84 54 29
Roux 26 17 14 14
Blond 7 94 10 16
45
Chapitre 4
Indices statistiques
Les indices permettent de mesurer l’évolution d’un phénomène au cours du temps. Dans ce chapitre
nous donnons les propriétés principales des indices et nous introduisons les indices de Laspeyres et
de Paasches.
x(t)
It/t0 =
x(t0 )
Remarque 4.1 :
– De la même façon, on peut construire des indices pour des séries dont les valeurs sont mesurées
en différents lieux (dans ce cas là, t représente un lieu).
– Il suffit de multiplier l’indice par 100 pour l’exprimer en pourcentage.
année Production en Cwt 1 (q(t)) Prix à l’unité ($/Cwt) 2 (p(t)) Valeur totale (v(t))
2008 1 484 000 12.50 18 550
2009 1 479 000 13.90 20 558
2010 1 860 000 10.10 18 786
51
On peut calculer les indices élémentaires pour la production, le prix à l’unité et la valeur totale.
On constate que la production de citrouilles a rapporté 10.77% de plus en 2009 qu’en 2008
20558
I2009/2008 (v) · 100 = 100 ≈ 110.77
18550
alors que la production pour ces mêmes années avait baissé de 0.34%
1479000
I2009/2008 (q) · 100 = 100 ≈ 99.66
1484000
4.1.3 Propriétés
Les indices élémentaires vérifient les propriétés de circularité et de réversibilité définies ci-dessous.
• Circularité : considérons trois dates (t1 , t2 , t3 ). On a :
En effet,
Conséquences
– A partir d’une série d’indices calculés en des temps intermédiaires, on peut calculer un indice
global sur la période.
– En outre, si on dispose d’indices calculés par rapport à une date de référence –l’année 0– It/0
et It0 /0 , alors on peut calculer l’indice It/t0 par la formule :
It/0
It/t0 =
It0 /0
En effet, It/0 = It/t0 It0 /0 par la propriété de circularité. D’où la formule précédente.
Remarque 4.2 :
Attention, si on considère des indices exprimés en pourcentage les formules précédentes sont légèrement
modifiées.
52
Exemple 4.1
Un fabricant de linge de maison cherche à connaı̂tre l’évolution de sa situation économique entre
deux années. Chaque année, il produit d’une part des torchons dont on note q1 (t) la quantité
produite et p1 (t) le prix à l’unité. D’autre part, il produit des serviettes dont on note q2 (t) la quantité
produite et p2 (t) le prix à l’unité. Pour chaque produit i, on peut observer l’indice des revenus
apportés I1 (t/0) = ppii(0)q
(t)qi (t)
i (0)
. Cependant, les torchons et les serviettes ne sont pas sommables.
Comment peut-on combiner ces deux indices élémentaires ?
Il existe un infinité de façon de combiner les grandeurs d’intéret. Les indices synthétiques les plus
connus sont les indices de Laspeyres et de Paasche : ces deux indices sont des moyennes pondérées
des indices élémentaires.
Ainsi, partant d’un ‘panier de référence” caractérisé par les quantités qi (0), l’indice de Lapeyres des
prix mesure l’évolution du prix à payer pour ce panier de référence. Cet indice ne tient pas compte
de l’évolution de la composition du panier donc des habitudes de consommation.
Pn
p (t)qi (0)
Lt/0 (p) = Pni=1 i
j=1 pj (0)qj (0)
n
X q (0)pi (0) pi (t)
= Pn i
i=1 j=1 pj (0)qj (0) pi (0)
n
X
= wi (0)Ii,t/0
i=1
où Ii,t/0 est l’indice élémentaire pour les prix. wi (0) = Pnqi (0)p i (0)
est un poids représentant la
j=1 pj (0)qj (0)
part du produit i dans la consommation globale à l’instant de référence. Ces poids sont appelés
P
coefficients budgétaires pour la période de référence. On peut remarquer que ni=1 wi (0) = 1.
Finalement, l’indice de Laspeyres s’écrit comme une moyenne arithmétique des indices élémentaires
de chaque produit.
53
De la même façon, on définit l’indice Lapeyres des quantités :
Pn
pi (0)qi (t)
Lt/0 (q) = Pni=1
i=1 pi (0)qi (0)
Cet indice ne tient pas compte de la variation de prix mais seulement de la variation des quantités.
Remarque 4.3 :
De la même façon, on peut définir l’indice de Paasche des quantités :
Pn
pi (t)qi (t)
Πt/0 (q) = Pni=1
i=1 pi (t)qi (0)
L’indice de Paasche est une moyenne pondérée harmonique des indices élémentaires de chaque
produit.
Remarque 4.4 :
L’indice de Paasche nécéssite la mise à jour des coefficients budgétaires et est donc moins aisé à
utiliser que l’indice de Laspeyres
54
• Evolution du coût total du panier
Considérons le panier composé des n produits précédents. On s’intéresse alors à l’évolution
conjointe des quantités consommées et des prix des produits. Pour cela, on étudie l’indice
P
élémentaire de la série ni=1 qi (t)pi (t).
On remarque que :
Pn
qi (t)pi (t)
It/0 = Pni=1
q i (0)pi (0)
Pi=1
n P
i=1 qi (t)pi (t) ni=1 qi (t)pi (0)
= Pn Pn
i=1 qi (t)pi (0) i=1 qi (0)pi (0)
= Πt/0 (p)Lt/0 (q)
Lt/0 (q) permet de mesurer l’effet de la variation des quantités tandis que Πt/0 (p) permet de
quantifier l’effet de la variation des prix : les indices de Laspeyres des quantités et de Paasche
permettent de dissocier les variations des quantités de celle des prix. De la même façon on montre
que :
Pn
qi (t)pi (t)
It/0 = Pni=1
qi (0)pi (0)
Pi=1
n P
qi (t)pi (t) ni=1 qi (0)pi (t)
= Pni=1 Pn
i=1 qi (0)pi (t) i=1 qi (0)pi (0)
= Πt/0 (q)Lt/0 (p)
• Comparaison des indices de Laspeyres et de Paasche
On sait que la moyenne harmonique est plus petite que la moyenne arithmétique donc si les poids
wi (t) ne variaient pas au cours du temps (wi (0) = wi (t)), on aurait que l’indice de Paasche est
inférieur à l’indice de Laspeyres.
L’hypothèse des poids constants n’est pas réaliste et donc cette comparaison n’est pas valable
théoriquement mais on remarque que, en pratique, l’indice de Paasche est souvent plus petit que
l’indice de Laspeyres.
• Théorie du consommateur et indice des prix
L’indice de Laspeyres est connu pour sous-estimer une hausse des prix. En effet, faisons l’hy-
pothèse réaliste qu’un consommateur quelconque aura tendance à consommer plus un produit
dont le produit diminue et inversement. Autrement dit :
pi (0) ≤ pi (t) implique qi (t) ≤ qi (0)
pi (t) ≤ pi (0) implique qi (0) ≤ qi (t)
Inversement (en échangeant le rôle de q et q), on peut intuiter que l’indice de Paasche aura
tendance à sous-estimer la hausse.
55
4.2.4 Un compromis : l’indice de Fisher
Afin de faire un compromis entre l’indice de Laspeyres (qui surestime la hausse) et de Paasche (qui
sous-estime la hausse), on peut proposer l’indice de Fisher :
q
Ft/0 = Πt/0 (p)Lt/0 (p)
qui est la moyenne géométrique entre l’indice de Laspeyres et l’indice de Paasche. En tant que
moyenne géométrique, l’indice de Fisher est compris entre les indices de Laspeyres et de Paasche.
K
Y
CLtK /t0 = Ltk /tk−1
k=1
Remarque 4.5 :
On peut utiliser ce principe de chaı̂nage quand la façon de calculer l’indice a été modifiée au cours
du temps.
Remarque 4.6 :
A noter que l’INSEE fournit un simulateur d’indice des prix personnalisés http: // www. insee.
fr/ fr/ indicateurs/ indic_ cons/ sip/ sip. htm . Il est possible de régler ses propres pondérations
56
Chapitre 1
1 Espaces Probabilisés
Un des buts du calcul des probabilités est de fournir un formalisme permettant de trai-
ter mathématiquement des phénomènes aléatoires. On appelle phénomène aléatoire une
procédure ou expérience (de la vie quotidienne, scientifique ...), qui produit un résultat
(ou issue) dont on ne peut dire à l’avance ce qu’il sera. Par exemple : lancer une pièce de
monnaie, lancer un dé 6 faces, le déplacement d’une particule physique...
La théorie des probabilités propose de modéliser ces phénomènes par un triplet d’objets
mathématiques :
– un ensemble Ω,
– une certaine classe de parties de Ω,
– et une fonction sur les parties de Ω.
Nous allons tout d’abord définir plus précisement chacun des éléments de ce triplet.
Notons que Ω n’est pas imposé par l’expérience mais qu’il résulte d’un choix. Ce choix
dépend du phénomène que l’on veut étudier. Ainsi pour un lancer de 2 pièces de monnaie,
on peut faire le choix de distinguer ou non ces pièces.
Exemple 1
On lance 2 pièces ,
– on peut prendre Ω = {(P, P ), (F, F ), (P, F ), (F, P )}.
– Cependant si les 2 pièces sont indiscernables, on peut réduire Ω à Ω = {(P, P ), (F, F ), (P, F )}
si les 2 pièces sont indiscernables.
4
Exemple 2
L’ensemble des possibles Ω peut être un ensemble aussi ”grand” que nécessaire. Par exemple
en physique, si l’on considère le déplacement d’une particule comme un phénomène aléatoire
et que l’on s’intéresse à sa position au temps t, Ω = R3 .
Exemple 3
Si on lance un dé, on peut vouloir regarder ”le nombre qui sort est impair”. Dans ce cas
l’événement ”le nombre qui sort est impair” est réalisé si le résultat de l’expérience aléatoire
appartient à l’ensemble {1, 3, 5}.
Notons que l’on identifie un événement à une partie de Ω généralement notée par une lettre
majuscule (A, B,...). Ici, l’événement ”le nombre qui sort est impair” sera noté A = {1, 3, 5}.
Définition 1.2 :
Soient l’ensemble des possibles Ω et une partie A ⊂ Ω, on appelle complémentaire de A
et on note Ac , l’ensemble tel que
A ∩ Ac = ∅ et A ∪ Ac = Ω.
Définition 1.3 :
Soient l’ensemble des possibles Ω, A ⊂ Ω et B ⊂ Ω , on dit que A et B sont incompatibles
si A ∩ B = ∅.
Exemple 4
Reprenons l’exemple du lancer d’un dé :
– Ω = {1, 2, 3, 4, 5, 6}.
– Soit A l’événement ”le nombre qui sort est impair” : A = {1, 3, 5}, Alors l’événement
contraire de A est ”le nombre qui sort est pair” : Ac = {2, 4, 6}.
– Soit B l’événement défini comme B = {2, 4}, alors A et B sont incompatibles car A∩B =
∅.
5
Propriétés 1.1 :
Soient A, B et C trois parties de Ω :
(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C).
A = (A ∩ B) ∪ (A ∩ B c ).
Notons que le Lemme 1.1 est très utile pour le calcul de probabilité.
Preuve : Si B ⊂ Ω, on a par la Définition 1.2, Ω = B ∪ B c . De plus, pour A ⊂ Ω, A = A ∩ Ω.
Ainsi par la propriété 1.1
A = A ∩ Ω = A ∩ (B ∪ B c ) = (A ∩ B) ∪ (A ∩ B c ).
n
!c n
[ \
Ai = Aci , (1.1)
i=1 i=1
n
!c n
\ [
Ai = Aci . (1.2)
i=1 i=1
Définition 1.4 :
On appelle partition dénombrable de Ω, toute suite (Ai )i∈I de parties de Ω, avec I ⊂ N
telle que
[
Ai = Ω,
i∈I
Ai ∩ Aj = ∅, ∀i ∈ I, j ∈ I, i 6= j.
6
Exemple 5
On lance 2 dés, prenons Ω = {1, 2, 3, 4, 5, 6}2 et P(Ω) = {(i, j), 1 ≤ i ≤ 6, 1 ≤ j ≤ 6}.
Intéressons nous aux événements observables, à la classe des événements A,
– A = P(Ω) si l’on distingue les 2 dés.
– En revanche, si les 2 dés sont indicernables A = {(i, j), 1 ≤ i ≤ j ≤ 6} =6 P(Ω).
On comprend donc qu’il existe différents choix possibles pour la classe A. Il convient ce-
pendant d’imposer certaines propriétés à cette classe. On demandera à la classe A d’être
une tribu (ou σ−algèbre).
Définition 1.5 :
Un ensemble A de parties de Ω est appelé tribu (ou σ−algèbre) s’il vérifie les propriétés
suivantes :
1. Ω ∈ A
2. Stabilité par passage au complémentaire : si A ∈ A alors Ac ∈ A.
3. Stabilité par union dénombrable : si (Ai )i∈N est une suite d’éléments de A alors
S
i∈N Ai ∈ A.
Définition 1.6 :
Le couple (Ω, A) constitué par un ensemble Ω et une tribu A de parties de Ω est appelé
espace probabilisable. Les éléments de A sont appelés événements.
P (∅) = 0.
7
De plus, pour deux événements incompatibles A ∈ A et B ∈ A (qui ne peuvent se réaliser
en même temps A ∩ B = ∅), il est naturel d’avoir
La propriété (1.3) se généralise de manière suivante : pour toute suite (Ai )i∈N de Ω telle
que ∀i 6= j, Ai ∩ Aj = ∅, [ X
P ( Ai ) = P (Ai ). (1.4)
i∈N i∈N
Définition 1.7 :
On appelle loi de probabilité (ou mesure de probabilité, ou probabilité, ou loi) sur (Ω, A)
toute application P définie de A à valeurs dans [0, 1] qui satisfait :
– 0 ≤ P (A) ≤ 1, pour tout A ∈ A et P (Ω) = 1,
– pour toute suite (Ai )i∈N de parties de Ω telles que ∀i 6= j, Ai ∩ Aj = ∅,
[ X
P( Ai ) = P (Ai ).
i∈N i∈N
Propriétés 1.3 :
Soit (Ω, A, P ) un modèle probabiliste,
– Pour tout A ∈ A, son complémentaire Ac ∈ A vérifie
– Pour tout A ∈ A et B ∈ A
– Pour tout A ∈ A et B ∈ A,
A ⊆ B ⇒ P (A) ≤ P (B) (1.7)
{i} := ωi , i = 1, · · · , 6
8
et ont la même probabilité pi de se réaliser
1
pi = P ({i}) = P (ωi ) = , i = 1, · · · , n,
6
X6 6
X1
P (ωi ) = = 1.
6
i=1 i=1
Alors si A est l’événement ”le résultat est pair”, A = {2, 4, 6} = {2} ∪ {4} ∪ {6} et
card(A) 3
P (A) = = ,
card(Ω) 6
et on a donc :
6
[ 6
X 6
X 1
1 = P (Ω) = P ( ωi ) = P (ωi ) = = 1.
6
i=1 i=1 i=1
Pour tout A ∈ A,
card(A) card(A)
P (A) = = .
card(Ω) N
Le calcul de telles probabilités fait appel à l’analyse combinatoire.
9
expériences dont les nombres de résultats possibles sont respectivement n1 et n2 . Alors à
l’issue des 2 expériences il y a n1 × n2 résultats possibles. Prenons un exemple pour bien
comprendre le principe multiplicatif. Soit 10 femmes qui possèdent chacune 3 filles, alors il
existe 10 × 3 = 30 couples ”mère-fille” différents.
Il est possible de généraliser ce principe à r ≥ 2 expériences.
Théorème 2.2.
– Le nombre de permutations (c’est à dire le nombre de façons d’arranger, de plaçer, de
choisir) de n objets distinguables est
n! = n × (n − 1) × ... × 1.
Théorème 2.3.
– Le nombre d’arrangements de r éléments choisis parmi n sans répétitions est noté Arn : il
y a n choix à la première étape, n−1 choix à la deuxième étape, n−2 choix à la troisième
étape,... , n − (r + 1) choix à la r−ième étape. Le résultat est donc n(n − 1)...(n − r + 1),
c’est le nombre d’injections d’un ensemble à r éléments dans un ensemble à n éléments
n!
Arn = n(n − 1) · · · (n − r + 1) =
(n − r)!
10
3 Probabilité conditionnelle
Exemple introductif
On choisit au hasard (c’est à dire selon une probabilité uniforme) un(e) étudiant(e) dans
une classe de 30 élèves (card(Ω) = 30). On considère les événements A =”la personne est
une fille” et B =”la personne a eu la moyenne au dernier partiel”. On a vu précédemment
que
card(A) card(B) card(A∩B)
P (A) = 30 , P (B) = 30 et P (A ∩ B) = 30 .
On sait que l’on a choisi une fille (événement A), quelle est alors la probabilité qu’elle ait
la moyenne au dernier partiel (événement B). Pour que B ait lieu, il faut que l’issue ω
appartienne à l’événement A ∩ B. Donc la probabilité que ”la personne a eu la moyenne
au dernier partiel” sachant que ”la personne est une fille” est égale au nombre de cas
favorables sur le nombre de cas possibles
card(A ∩ B)
,
card(A)
soit si P (A) 6= 0
card(A ∩ B) card(A ∩ B) 30 P (A ∩ B)
= × = .
card(A) 30 card(A) P (A)
P (A ∩ B)
P (B|A) = PA (B) = .
P (A)
Définition 3.1 :
Soit (Ω, A, P ) un espace de probabilité et A un événement de probabilité non nulle (P (A) 6=
0). On appelle probabilité conditionnelle d’un événement B ∈ A sachant A et l’on note
P (B|A) (ou PA (B)) le nombre défini par
P (A ∩ B)
P (B|A) = PA (B) = .
P (A)
Notons que l’application B 7→ P (B|A) définie sur A est une probabilité sur (Ω, A) portée
par A. Autrement dit, on peut énoncer le théorème suivant :
11
1. P (A ∩ B) ≥ 0 et (A ∩ B) ⊂ A donc par (1.7),
P (A ∩ B)
P (B|A) = ≥ 0,
P (A)
P (A ∩ B) P (A)
P (B|A) = ≤ = 1.
P (A) P (A)
2. Comme (A ∩ Ω) = A,
P (A ∩ Ω) P (A)
P (Ω|A) = = = 1.
P (A) P (A)
3. Soient (Bi )i∈N des événements tels que ∀i 6= j, Bi ∩ Bj = ∅, on a par la Propriété 1.1
S S
que A ∩ ( i∈N Bi ) = i∈N (A ∩ Bi )
S S
[ P (A ∩ ( i∈N Bi )) P ( i∈N (A ∩ Bi )
P ( Bi |A) = =
P (A) P (A)
i∈N
X P (A ∩ Bi ) X
= = P (Bi |A).
P (A)
i∈N i∈N
Définition 3.2 :
Soit un espace de probabilité (Ω, A, P ), on appelle système complet d’événements (s.c.e.)
de A, toute partition dénombrable de Ω formée d’événements non impossibles, c’est à dire
tel que pour tout I ⊂ N
– ∀i ∈ I, P (Ai ) 6= 0.
S
– i∈I Ai = Ω.
– Ai ∩ Aj = ∅, ∀(i, j) ∈ I 2 et i 6= j, on dit que les événements Ai s’excluent mutuel-
lement.
Exemple 6
Soit A ∈ A un événement tel que P (A) 6= 0, alors (A, Ac ) forme un s.e.c. et tout événement
B ∈ A peut s’écrire
B = (B ∩ A) ∪ (B ∩ Ac ),
où (B ∩ A) et (B ∩ Ac ) sont deux événements incompatibles. Ainsi par la propriété de
σ−additivité (1.4) et par définition de la probabilité conditionnelle (Définition 3.1) on a
P (B) = P ((B ∩ A) ∪ (B ∩ Ac )) = P (B ∩ A) + P (B ∩ Ac )
= P (B|A)P (A) + P (B|Ac )P (Ac ).
12
Théorème 3.2 (Formule des probabilité totales généralisée). Soient un espace de
probabilité (Ω, A, P ), et (Ai )i∈I un système complet d’événements (s.c.e.) de A, alors pour
tout B ∈ A
X
P (B) = P (B|Ai )P (Ai ). (1.8)
i∈I
P
Preuve : Comme (Ai )i∈I un s.e.c, P (B) = i∈I P (B|Ai )P (Ai ) et
P (B ∩ Ai )
P (Ai |B) = .
P (B)
3.3 Indépendance
Dans la plupart des cas, la probabilité P (B|A) est différente de la probabilité P (B), c’est
à dire P (B|A) 6= P (B). En d’autres termes, la réalisation ou non de l’événement A influe
sur la réalisation de B. Prenons l’exemple du lancer de deux dés et notons A =”la somme
des deux dés est paire” et B =”la somme des deux dés est supérieure ou égale à 4”. Il
est trivial de voir que si A s’est réalisé, la probabilité de B sachant que A s’est réalisé est
différente (ici plus petite) de la probabilité de B. On dira que les événements A et B sont
dépendants. Que sont alors deux événements indépendants ? Intuitivement ceux sont des
événements tels que la réalisation de l’un n’influe pas sur la réalisation de l’autre, c’est à
dire :
P (B ∩ A)
P (B|A) = P (B) ⇔ = P (B) ⇔ P (B ∩ A) = P (A)P (B).
P (A)
Définition 3.3 :
Deux événements A et B sont indépendants ssi P (B ∩ A) = P (A)P (B).
13
De même pour les autres cas.
Définition 3.4 :
Des événements A1 , · · · , An sont mutuellement indépendants ssi, pour tout ensemble
d’indices J ⊂ {1, 2, · · · , n},
\ Y
P Aj = P (Aj ).
j∈J j∈J
4 Exercices
Exercice 1.1.
Une petite communauté se compose de 10 hommes et de leurs fils, chaque homme ayant
3 fils. Si on veut désigner un couple ”père-fils” pour une randonnée, combien y a t il de
couples possibles ?
Exercice 1.2.
1) Combien de plaques minéralogiques à sept caractères peut on former si les 3 premiers
caractères sont des lettres et les 4 derniers des chiffres ?
2) Si on ne veut pas que les caractères soient en double ?
Exercice 1.3.
1) Combien existe t-il d’arrangements ordonnés des lettres A, B, C sans répétition ?
2) Combien peut on former d’arrangements différents avec les lettres PEPPER ?
3) Dans un tournois d’échec, il y a 10 participants : 4 russes, 3 américains, 2 anglais, et 1
brésilien. Dans le classement on ne peut lire que la nationalité des joueurs, à combien de
classements une liste de nationalités correspond t-elle ?
4) Combien de groupes de 3 objets peut-on construire en tirant parmi les 5 lettres A,B,C,D,E.
5) De combien de façon peut-on asseoir en rang 3 garçons et 3 filles ? Considérer les cas où
les filles (resp. les garçons) sont ou non distinguables entres elles (resp. eux).
Exercice 1.4.
Parmi 1000 billets de loterie, 10 sont gagnants, les autres sont perdants. J’en achète 5.
Quelle est la probabilité qu’il y ait deux billets gagnants ?
Exercice 1.5.
Quel est l’événement le plus probable : avoir un six au moins une fois quand on lance quatre
fois un dé ou obtenir au moins une fois un double six en lançant 24 fois une paire de dés ?
Exercice 1.6.
Soit une urne U contenant 24 boules de trois couleurs différentes : 12 boules rouges, 7 boules
vertes et 5 boules bleues.
14
Chapitre 2
1 Exemple introductif
Considérons une pièce de monnaie non truquée, c’est à dire que la probabilité d’avoir pile
est la même que la probabilité d’avoir face et vaut 1/2. On effectue n lancers de cette pièce
et on s’intéresse au nombre de fois où face est apparu. On modélise l’expérience comme
suit :
– L’espace des possibles est Ω = {P, F }n , le cardinal de Ω vaut 2n .
– Un résultat possible est une suite ω = (P, P, F, P, F, · · · , P ) = (ωi )i=1,··· ,n de longueur n.
– La pièce n’étant pas truquée, chacune de ces suites à la même probabilité p = 21n de se
réaliser, on a équiprobabilité.
Ainsi si l’on s’intéresse à la probabilité de l’événement ”avoir 1 fois face sur n = 4 lancers”,
cette probabilité vaut par équiprobabilité :
1 1 1 1 4
P (F, P, P, P ) + P (P, F, P, P ) + P (P, P, F, P ) + P (P, P, P, F ) =
4
+ 4 + 4 + 4 = 4.
2 2 2 2 2
On imagine assez bien que si le nombre n de lancers est plus grand et/ou que l’on s’intéresse
à des événements comme ”avoir k > 1 fois face sur n lancers”, il serait trop long d’écrire
tous les événements élémentaires. Introduisons alors la notion de variable aléatoire.
17
2 Définition d’une variable aléatoire discrète
Définition 2.1 :
Soit (Ω, A, P ) un espace de probabilité et soit (E, F) un espace de probabilisable, on ap-
pelle variable aléatoire (v.a.) définie sur (Ω, A, P ) à valeurs dans (E, F) toute application
X mesurable de (Ω, A) sur (E, F), c’est à dire telle que ∀B ∈ E, son image réciproque
X −1 (B) = {X ∈ B} ∈ A, de sorte que X −1 (B) est donc un événement.
Exemple 7
Prenons l’exemple du lancer de deux dés, l’ensemble Ω = {1, · · · , 6}2 , A = P(Ω). Soit
ω = (ω1 , ω2 ) le résultat de l’expérience, où ω1 et ω2 sont respectivement les résultats du
lancer du dé 1 et du dé 2. Soit X la somme des deux dés, c’est à dire X(ω) = ω1 + ω2 .
L’événement ”la somme des deux dés est 3 ” peut être écrit :
{X = 3} = {ω ∈ Ω, X(ω) = 3} = X −1 {3}.
Remarques :
- Dans le cadre des v.a. discrètes, on considère toujours Ω dénombrable, ainsi X(Ω) =
{xi , i ∈ I}, avec I ⊂ N
- Pour P une probabilité, on a
X
P (X = xi ) = 1.
xi ,i∈I
Définition 2.2 :
On appelle fonction de répartition (f.d.r.) d’une v.a X la fonction F définie sur R par
F (x) = P (X ≤ x).
Lorsque X est une v.a. discrète, c’est à dire qu’elle ne prend qu’un nombre dénombrable de
valeurs {xi , i ∈ I}, avec I ⊆ N, la f.d.r. F de X s’écrit :
X
F (x) = P (X ≤ x) = P (X = xi )Ixi ≤x .
i∈I
18
1. F est une application définie sur R à valeurs dans l’intervalle [0, 1].
2. F est continue à droite.
3. F est une fonction croissante et pour une v.a. discrète F est une fonction en escalier.
4. lim F (x) = 1 (on note F (+∞) = 1).
x→+∞
5. lim F (x) = 0 (on note F (−∞) = 0).
x→−∞
Définition 2.3 :
Soit X une v.a. discrète, on appelle espérance mathématique (ou moyenne) de X la quantité
X
E(X) = xi P (X = xi ).
i∈I
De plus, si Ω ⊆ N
+∞
X
E(X) = iP (X = i),
i=0
Exemple 8
On lance un dé non truqué, l’ensemble Ω = {1, · · · , 6}, A = P(Ω). Soit X le chiffre apparu
lors du lancer (ici E = Ω), c’est à dire X peut prendre les valeurs 1, · · · , 6 et P la probabilité
uniforme sur Ω alors
+∞
X 6
X 1 1 1 7
E(X) = iP (X = i) = iP (X = i) = 1. + 2. + · · · + 6. = .
6 6 6 2
i=0 i=1
Proposition 1
Pour toute application h de E sur R, h(X) est une v.a. discrète et
X
E(h(X)) = h(xi )P (X = xi ).
i∈I
De plus, si Ω ⊆ N
+∞
X
E(h(X)) = h(i)P (X = i),
i=0
à condition que cette quantité E(h(X)) existe, pour h mesurable bornée par exemple.
19
Exemple 9
Prenons l’exemple d’un lancer d’une pièce non truquée, l’ensemble Ω = {pile, f ace} . Soit
X la v.a. :
X(ω) = 1 si ω = f ace,
X(ω) = 0 si ω = pile.
1
Ainsi pour P la probabilité uniforme P (X = 1) = P (X = 0) = 2 et h(t) = t2
1
E(h(X)) = E(X 2 ) = 02 .P (X = 0) + 12 .P (X = 1) = ,
2
1
E(X) = E(X) = 0.P (X = 0) + 1.P (X = 1) = .
2
Définition 2.4 :
Soit X une v.a. dicrète de moyenne E(X) = m < ∞ et telle que E(X 2 ) < ∞, on appelle
variance de X la quantité notée
X
V ar(X) = E((X − E(X))2 ) = E((X − m)2 ) = (xi − m)2 P (X = xi )
i∈I
X
2 2 2 2
= E(X ) − (E(X)) = E(X ) − m = x2i P (X = xi ) − m2 .
i∈I
De plus, si Ω ⊆ N
+∞
X
V ar(X) = E((X − E(X))2 ) = E((X − m)2 ) = (i − m)2 P (X = i)
i=0
+∞
X
= E(X 2 ) − (E(X))2 = E(X 2 ) − m2 = i2 P (X = i) − m2 .
i=0
Exemple 10
Reprenons l’exemple précédent du lancer d’une pièce non truquée, la variance de X vaut
1 1 1
V ar(X) = E(X 2 ) − (E(X))2 = − ( )2 = .
2 2 4
1 2 1 1
2
V ar(X) = E((X − E(X)) ) = (0 − ) .P (X = 0) + (1 − )2 .P (X = 1) = .
2 2 4
- Soit X une variable aléatoire dont la variance est bien définie alors
V ar(aX + b) = a2 V ar(X).
20
3 Exemples classiques de loi de probabilité sur N
3.1 Loi uniforme
Définition 3.1 :
On dit que X suit une loi Uniforme sur {1, · · · , n} et on note X ∼ U({1, · · · , n}) si pour
tout k ∈ {1, · · · , n},
1
P (X = k) = .
n
(n+1) (n+1)(n−1)
Alors E(X) = 2 et V ar(X) = 12 .
Définition 3.2 :
On dit que X suit une loi de Bernoulli de paramètre p ∈]0, 1[ et on note X ∼ B(p), la v.a.
X qui ne prend que deux valeurs 1 ou 0, et telle que :
P (X = 1) = p et P (X = 0) = 1 − p.
Alors E(X) = p et V ar(X) = p(1 − p).
21
3.3 Loi Binomiale
Imaginons que l’on s’intéresse au nombre de fois où un événement A de probabilité P (A) =
p 6= 0 s’est réalisé au cours de n expériences indépendantes et identiques (ex : lancer une
pièce truquée n fois et A = {pile}). Posons X la v.a. égale au nombre de fois où A s’est
réalisé au cours des n expériences, alors X est une v.a. discrète à valeurs dans {0, 1, · · · , n}.
Définition 3.3 :
On dit que X suit une loi Binomiale de paramètres n ∈ N et p ∈]0, 1[ et on note X ∼ B(n, p),
la v.a. X qui prend ses valeurs dans {0, 1, · · · , n}, et telle que ∀k ∈ {0, 1, · · · , n}
P (X = k) = Cnk pk (1 − p)n−k .
Remarquons que la v.a. X peut être vue comme la somme de n v.a. (Z1 , · · · , Zn ) indépendantes
de Bernoulli de paramètre p, c’est à dire pour n v.a. i.i.d. telles que Zi ∼ B(p), ∀i = 1, · · · , n :
n
X
X= Zi .
i=1
Théorème 3.1. Si X est une v.a. discrète de loi Binomiale B(n, p) alors Z = n − X est
également une v.a. discrète de loi Binomiale mais de paramètre (n, 1 − p) :
Z ∼ B(n, 1 − p)
λk e−λ
P (X = k) = .
k!
Alors E(X) = λ et V ar(X) = λ.
22
On peut calculer E(X), E(X 2 ) et V ar(X) comme suit :
∞
X ∞
X ∞
X
λk e−λ λk−1
E(X) = kP (X = k) = k = e−λ λ = e−λ λeλ = λ,
k! (k − 1)!
k=0 k=0 k=0
∞
X X∞ ∞
X X ∞
λk e−λ −λ λk λ`+1
E(X 2 ) = k 2 P (X = k) = k2 =e k = e−λ (` + 1)
k! (k − 1)! `!
k=0 k=0 k=1 `=0
∞
X ∞
X ∞
X ∞
X
−λ λ`+1 −λ λ`+1 −λ 2 λ`−1 −λ λ`
= e ` +e =e λ +e λ = e−λ λ2 eλ + e−λ λeλ
`! `! ` − 1! `!
`=1 `=0 `=1 `=0
2
= λ + λ,
V ar(X) = E(X 2 ) − (E(X))2 = λ2 + λ − λ2 = λ.
Définition 3.5 :
On dit que X suit une loi Géométrique de paramètre p ∈]0, 1[ et on note X ∼ G(p), la v.a.
X qui prend ses valeurs dans N∗ , et telle que ∀k ∈ N∗
P (X = k) = p(1 − p)k−1 .
1 1−p
Alors E(X) = p et V ar(X) = p2
.
P
En remarquant que ∞ k 1 2
k=0 p = 1−p pour p ∈]0, 1[, on peut calculer E(X), E(X ) et V ar(X)
comme suit :
∞
X ∞
X X∞
k−1
E(X) = kP (X = k) = kp(1 − p) =p k(1 − p)k−1
k=1 k=1 k=1
∞
!
∂ X ∂ 1 p 1
= p − (1 − p)k =p − = 2 = ,
∂p ∂p p p p
k=0
∞
X ∞
X ∞
X ∞
X
E(X 2 ) = k 2 P (X = k) = k 2 p(1 − p)k−1 = p k(k − 1)(1 − p)k−1 + p k(1 − p)k−1
k=1 k=1 k=1 k=1
∞ ∞
!
X ∂2 X 1
= p(1 − p) k(k − 1)(1 − p)k−2 + E(X) = p(1 − p) (1 − p)k +
∂p2 p
k=2 k=0
1 ∂2
1 ∂ 1 1 2 1 2 1
= p(1 − p) 2 + = p(1 − p) − 2 + = p(1 − p) + = 2− ,
∂p p p ∂p p p p3 p p p
2 1 1 1−p
V ar(X) = E(X 2 ) − (E(X))2 = 2 − − 2 = .
p p p p2
23
et l’on s’intéresse à X le nombre de boules blanches tirées au cours de ces n tirages, alors
X est une v.a. discrète à valeurs dans {0, 1, · · · , n}. Notons p = NN1 et q = 1 − p = N −N
N
1
alors N1 = pN et N − N1 = qN .
Définition 3.6 :
On dit que X suit une loi Hypergéométrique de paramètres (n, p, N ) où p ∈]0, 1[ et on note
X ∼ H(n, p, N ), la v.a. X qui prend ses valeurs dans {max (0, n − qA), · · · , min (pA, n)},
avec pN et qN des entiers et telle que ∀k ∈ {0, 1, · · · , n}
k C n−k
CpN qN
P (X = k) = n .
CN
−n
Alors E(X) = np et V ar(X) = npq N
N −1 .
Définition 4.1 :
Soit (Ω, A, P ) et soient deux v.a. discrètes X et Y à valeurs dans (E, F), l’application
V = (X(ω), Y (ω)) = (X, Y ) définie sur Ω est appelée couple aléatoire discret ou vecteur
aléatoire discret à valeurs dans E 2 et est de dimension 2.
Exemple 11
On lance 2 dés non truqué,
– Soit Y = le nombre de chiffres impairs apparus lors du lancer des 2 dés. Clairement, on
peut avoir 0 chiffre impair ou 1 chiffre impair ou 2 chiffres impairs. Ainsi, le support de
Y , c’est à dire les valeurs possibles de Y sont
.
– Soit X= la somme des 2 chiffres apparus sur les dés. Ainsi, le support de X est
Définition 4.2 :
Soit V un vecteur aléatoire discret, on appelle loi de probabilité ou distribution de probabilité
du vecteur aléatoire discret V la donnée de l’ensemble {(vk , P (V = vk )), k ∈ K}, d’éléments
de E 2 × [0, 1] telle que
24
P
P (V = vk ) ∈ [0, 1] et k∈K P (V = vk ) = 1.
Exemple 12
Reprennons l’exemple précédent P (V = (2, 0)) = P (X = 2, Y = 0), il faut comprendre
cette probabilité comme la probabilité que X = 2 et Y = 2. On remarque que X = 2 si et
seulement si le chiffre 1 apparait sur les 2 dés. De plus, Y = 0 si sur chacun des 2 dés apparait
un chiffre pair, il existe 9 possibilités. En revanche il n’existe aucune possibilité pour que
ces 2 événements se réalisent en même temps. Donc P (V = (2, 0)) = P (X = 2, Y = 0) = 0.
pij = P ({X = xi } ∩ {Y = yj }) = P (X = xi , Y = yj ).
Posons V = (X, Y ), remarquons que pij 6= 0 ssi (xi , yj ) ∈ (X(Ω), Y (Ω)) = V (Ω).
Définition 4.3 :
On appelle loi de probabilité jointe de deux v.a. X et Y (ou du vecteur aléatoire discret
V = (X, Y )) l’ensemble {(xi , yj ), pij , i ∈ I, j ∈ J}.
Connaissant la loi jointe du couple (X, Y ), on peut en déduire les lois de X ou de Y , que
l’on appelle lois marginales.
Définition 4.4 :
On appelle loi marginale de X et loi marginale de Y , les ensembles {xi , PX (xi ), i ∈ I} et
{yi , PY (yi ), j ∈ J} où
X X
pi· = PX (xi ) = P (X = xi ) = pij = P (X = xi , Y = yj ),
j∈J j∈J
X X
p·j = PY (yi ) = P (Y = yj ) = pij = P (X = xi , Y = yj ).
i∈I i∈I
4.2 Indépendance
Définition 4.5 :
Deux v.a. discrètes X : Ω → {xi , i ∈ I} et Y : Ω → {yj , j ∈ J}, avec I, J ⊆ N sont
indépendantes ssi pour tous i et j,
P ({X = xi } ∩ {Y = yj }) = P (X = xi , Y = yj ) = P (X = xi )P (Y = yj ).
25
Définition 4.6 :
On dit que les n v.a. discrètes, {Xi , }i∈I sont (mutuellement) indépendantes, ssi pour tout
ensemble d’indices J ⊆ I et tous xj appartenant aux valeurs possibles de Xj , j ∈ J
\ Y
P {Xj = xj } = P (Xj = xj ).
j∈J j∈J
Propriétés 4.1 :
Soient X, Y , Z trois v.a. discrètes admettant des variances finies alors
a) Symétrie : Cov(X, Y ) = Cov(Y, X).
b) Cov(X, X) = V ar(X).
c) Pour tout réels a, b, c et d : Cov(aX + b, cY + d) = ac Cov(X, Y ).
d) Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z).
e) Soit X1 , · · · , Xn des v.a. discrètes de variance finie alors
n
! n
X X X
V ar Xi = V ar(Xi ) + 2 Cov(Xi , Xj ).
i=1 i=1 i<j
Propriétés 4.2 :
a) Si X et Y sont deux variables aléatoires discrètes indépendantes dont l’espérance est
bien définie alors
E(XY ) = E(X)E(Y ).
b) Soient X et Y deux variables aléatoires indépendantes d’espérance finie alors
Cov(X, Y ) = 0.
26
c) Soient X et Y deux variables aléatoires indépendantes dont les variances sont bien définies
alors
V ar(X + Y ) = V ar(X) + V ar(Y ).
Preuve :
a) Comme X et Y sont indépendantes, on a par définition que
P (X = xi , Y = yj ) = P (X = xi )P (Y = yj ).
Ainsi
X X
E(XY ) = xi yj P (X = xi , Y = yj ) = xi yj P (X = xi )P (Y = yj )
i∈I,j∈J i∈I,j∈J
X X
= xi P (X = xi ) yj P (Y = yj ) = E(X)E(Y ).
i∈I j∈J
Exemple 13
Soit X une v.a. de loi Binomiale B(n, p), on a vu précédemment que la v.a. X peut être
vue comme la somme de n v.a. (Z1 , · · · , Zn ) indépendantes de Bernoulli de paramètre p,
c’est à dire pour n v.a. i.i.d. telles que Xi ∼ B(p), ∀i = 1, · · · , n :
n
X
X= Zi .
i=1
27
Cov(X, Y )
ρ(X, Y ) = p p .
V ar(X) V ar(Y )
Alors
|ρ(X, Y )| ≤ 1.
De plus, si X et Y sont en relation affine, c’est à dire il existe deux réels a et b tels que
Y = aX + b alors,
p p
V ar(Y ) = a2 V ar(X), donc V ar(Y ) = |a| V ar(Y ),
Donc,
aV ar(X)
ρ(X, Y ) = = sign(a).
|a|V ar(X)
Ce qui signifie que le coefficient de corrélation linéaire est en valeur absolue égal à 1, avec
pour signe, le signe de a.
La valeur du coefficient de corrélation linéaire, (qui dépend de la loi jointe des deux v.a.),
nous renseigne donc sur l’existence d’une éventuelle relation affine entre ces deux v.a.
Définition 4.9 :
On appelle loi conditionnelle de Y sachant {X = xi } la probabilité définie sur Y (Ω) par
P (Y = yj , X = xi ) pij
Pxi (yj ) = P (Y = yj |X = xi ) = = .
P (X = xi ) pi
Définition 4.10 :
On appelle espérance conditionnelle de Y sachant {X = xi }, l’espérance de Y pour la loi
conditionnelle de Y sachant {X = xi } :
X X
EX=xi (Y ) = E(Y |X = xi ) = yj Pxi (yj ) = yj P (Y = yj |X = xi )
j∈J j∈J
X P (Y = yj , X = xi ) X pij
= yj = yj .
P (X = xi ) pi
j∈J j∈J
28
Chapitre 3
1 Généralités
Nous considérons maintenant le cas où la quantité aléatoire d’intérêt peut prendre toutes
les valeurs d’un intervalle de R (donc une infinité de valeurs). Par exemple, si X représente
le temps passé au chômage par un individu, X peut prendre (une infinité) n’importe quelle
valeur entre 0 et 45 ans.
Définition 1.1 :
Une variable aléatoire continue X est une fonction qui à chaque résultat d’une expérience
aléatoire associe un nombre réel. Autrement dit X(Ω) = I où I est un intervalle de R.
Exemple 14
Loi uniforme sur [0, 1]
Soit U une variable aléatoire à valeur dans l’intervalle [0, 1] et ce de manière uniforme. Au-
trement dit, toutes les valeurs de l’intervalle [0, 1] ont la même probabilité d’être obtenues.
De façon évidente, si x ∈
/ [0, 1] on a P (U = x) = 0.
Que vaut cette probabilité ponctuelle si x ∈ [0, 1] ? L’intervalle [0, 1] contient une infinité de
valeurs qui se partagent donc la probabilité 1 en une infinité de probabilités ponctuelles. Si
elles ont toutes la même probabilité, elles doivent donc avoir chacune une probabilité nulle.
Par conséquent,
∀x ∈ [0, 1], P (U = x) = 0
Ainsi, contrairement au cas des variables aléatoires discrètes, on ne peut pas décrire de
manière satisfaisante la loi de probabilité d’une v.a continue en considérant les probabilités
ponctuelles. La notion de fonction de répartition permet de le faire.
Définition 1.2 :
34
On appelle fonction de répartition d’une v.a continue X la fonction F définie sur R
par :
F (x) = P (X ≤ x).
Propriétés
Par définition, F vérifie les propriétés suivantes :
1. F est une application définie sur R à valeurs dans l’intervalle [0,1].
2. F est croissante .
3. lim F (x) = 1 (on note F (+∞) = 1) et lim F (x) = 0 (on note F (−∞) = 0)
x→+∞ x→−∞
4. Si X ne se concentre pas sur des valeurs spécifiques de R alors on admettra que F est
continue.
5. F est dérivable presque partout (sauf éventuellement en un nombre fini de points).
Le point 2 est dû au fait que si x augmente alors on “englobe” plus de valeurs dans le calcul
donc la probabilité tend vers 1 si x tend vers l’infini. De la même façon, si x diminue, on
“englobe” toujours moins de valeurs dans le calcul et la probabilité tend vers 0.
Caractérisation
• F caractérise la loi de probabilité de X. Autrement dit, si deux variables aléatoires réelles
ont même fonction de répartition, alors elles ont même loi (et réciproquement).
• Réciproquement, si F est une fonction réelle vérifiant les propriétés 1 à 5 précédentes
alors on dira qu’elle est une fonction de répartition et on peut montrer qu’il existe une
variable aléatoire X ayant F pour fonction de répartition.
Exemple 15
Loi uniforme sur [0, 1]
Reprenons la variable aléatoire U définie précédemment. Sa fonction de répartition FU est :
0 si x < 0,
FU (x) = x si 0 ≤ x ≤ 1,
1 si x > 1.
Définition 1.3 :
Soit X une variable aléatoire dont la loi de probabilité est caractérisée par la fonction de
répartition F . Si F est dérivable, on note f sa dérivée. f est appelée densité de probabilité
de X.
35
F est la primitive de f s’annulant en −∞ et on note
Z x
F (x) = f (t)dt.
−∞
R +∞
Des propriétés de F , il résulte que f est positive et −∞ f (t)dt = 1.
Caractérisation
• La densité de probabilité f caractérise aussi la loi de X.
• Toute fonction f vérifiant les 3 points suivants :
1. f (x) ≥ 0, pour tout x ∈ R,
2. f est continue presque partout,
R +∞
3. −∞ f (t)dt = 1,
est appelée densité de probabilité.
Remarque 1 :
Si X est une variable aléatoire de densité de probabilité f alors X(Ω) = {x ∈ R, f (x) > 0}
est appelé le support de la densité.
36
Proposition 2
Soient X et Y deux variables aléatoires continues, alors le couple (X, Y ) est une application
de Ω dans R2 . Les variables X et Y sont indépendantes ssi la loi du couple (X, Y ) est le
produit des lois de X et de Y , c’est à dire ssi, la loi du couple (X, Y ) admet pour fonction
de répartition :
Proposition 3
Soit X une variable aléatoire de densité de probabilité f définie sur R . Pour toute appli-
cation ϕ, l’espérance de la v.a. Y = ϕ(X) est :
Z
E(Y ) = E(ϕ(X)) = ϕ(x)f (x)dx.
R
37
à condition que ces quantités existent, pour ϕ bornée par exemple.
f(x)
f(x)
( 1
1 b −a
1 si x ∈ [a, b],
b−a I[a,b] (x)
f (x) = = b−a
0 sinon.
a+b
E(X) = 2 .
(b−a)2
V (X) = 12 .
a 0 b xx
φ(x) = √1 exp − 21 x2 .
2π
E(X) = 0.
V (X) = 1.
0 x
38
Valeurs remarquables :
· P (−1.645 < T < 1.645) = 0, 90.
· P (−1.96 < T < 1.96) = 0, 95.
· P (−3.05 < T < 3.05) = 0, 998.
Les autres valeurs seront lues dans la table statistique.
On a : E(X) = m et V (X) = σ 2 .
Nous avons tracé les densités de différentes lois normales sur la figure 3.1.
Remarque 2 :
Seule la loi N (0, 1) est tabulée, ainsi tout calcul de probabilité relatif à X de loi N (m, σ)
nécessite de centrer et réduire la variable X c’est-à-dire de se ramener à la variable
T = X−m σ de loi N (0, 1).
N(5,0.7)
0.5
0.4
N(0,1)
densité
0.3
0.2
0.1
N(5,1)
N(0,2)
0.0
-5 0 5 10
39
(Sous condition d’existence de l’espérance).
Cependant, dans certains cas nous avons besoin de connaı̂tre la loi de probabilité de Y =
ϕ(X). Nous proposons une méthode permettant de calculer la fonction de répartition et
d’en déduire la densité de probabilité de Y .
Soit X une v.a. continue, prenant ses valeurs dans un intervalle de R noté I. Soit G la
fonction de répartition de Y = ϕ(X) et g sa densité de probabilité. On suppose que ϕ est
dérivable et strictement monotone I. Elle réalise donc une bijection de I dans ϕ(I) et admet
une fonction réciproque notée ϕ−1 . Nous distinguons deux cas, selon que ϕ est croissante
ou décroissante sur I.
De plus,
1
g(y) = − F 0 ◦ ϕ−1 (y).
ϕ0 ◦ ϕ−1 (y)
Remarque 3 :
On notera que g(y) = 0 pour tout y n’appartenant pas à ϕ(I).
Exemple 16
Loi uniforme et transformation exponentielle
On suppose que U suit une loi uniforme sur [0, 1] et on pose Y = exp U , (ϕ(x) = ex ). Alors
on a
I = U (Ω) = [0, 1] et ϕ(I) = Y (Ω) = [1, e].
Par conséquent, (
0 si y < 1,
G(y) =
1 si y > e.
Soit y ∈ [1, e], on a
G(y) = P (Y ≤ y) = P (eU ≤ y) = P (U ≤ ln y) = ln y,
40
4 Somme de variables aléatoires continues
On s’intéresse maintenant à la somme de variables aléatoires continues et indépendantes.
Démonstration. Admis.
Corollaire 4.1. Toute transformée linéaire de v.a. normales est normale et toute combi-
naison linéaire de v.a. normales indépendantes est normale. Plus précisément, soient X1
et X2 deux v.a. indépendantes de loi normale, respectivement N (m1 , σ1 ), N (m2 , σ2 ), et a
et b deux nombres réels, alors :
1. aX1 suit une loi normale N (am1 , |a|σ1 ).
2. X1 + a suit une loi normale N (a + m1 , σ1 ).
p
3. X1 + X2 suit une loi normale N (m1 + m2 , σ12 + σ22 ).
p
4. aX1 + bX2 suit une loi normale N (am1 + bm2 , a2 σ12 + b2 σ22 ).
Démonstration. Admis.
H(n, p, N ) ≈ B(n, p)
41
Proposition 4
En pratique, si (n/N < 0.1) peut approximer la loi Hypergéométrique de paramètres
(n, p, N )
k C n−k
CN p Nq
P (X = k) = n
CN
par une loi Binomiale de paramètres (n, p)
P (X = k) = Cnk pk q n−k ,
avec q = 1 − p.
B(n, p) ≈ P(np)
Proposition 5
En pratique, si ( n ≥ 50 et p < 0.1 ) ou si ( n ≥ 50 et p > 0.9 ), on peut approximer la
loi Binomiale de paramètres (n, p)
P (X = k) = Cnk pk q n−k ,
(np)k e−np
P (X = k) = .
k!
√
B(n, p) ≈ N (np, npq)
Proposition 6
En pratique, si (n ≥ 50 et p ∈]0.4, 0.6[ ) ou si (n ≥ 50 et npq > 18 ) on peut approximer
la loi Binomiale de paramètres (n, p)
P (X = k) = Cnk pk q n−k ,
avec q = (1 − p) par une loi Normale de moyenne np et de variance npq (c’est à dire
√
d’écart-type npq) dont la densité est
1 1
fX (x) = √ exp(− (x − np)2 ).
2πnpq 2npq
√
P(λ) ≈ N (λ, λ))
42
Proposition 7
En pratique, si (λ ≥ 18), on peut approximer la loi de Poisson de paramètre λ
λk e−λ
P (X = k) =
k!
√
par une loi Normale de moyenne λ et de variance λ (c’est à dire d’écart-type λ) dont la
densité est
1 1
fX (x) = √ exp(− (x − λ)2 ).
2πλ 2λ
L’approximation de lois discrètes par une loi continue soulève une question importante.
Dans le cadre ”discret”, les probabilités se concentrent en des points (∃k tel que P (X =
k) 6= 0) alors que dans le cadre ”continu” les probabilités assignent 0 en tout point (∀k
P (X = k) = 0). Il nous faut alors faire une correction de continuité comme suit :
Soit X une v.a. discète que l’on approxime par une N (m, σ). Soit Φ la fonction de répartion
de la gaussienne centrée réduite N (0, 1) alors
k + 0.5 − m k − 0.5 − m
P (X = k) = P (k − 0.5 < X < k + 0.5) ≈ Φ( ) − Φ( ).
σ σ
5.4 Récapitulatif
λ≥18 N(λ,√λ)
Poiss(λ)
Bin(n,p)
n≥50 ou n≥50
et et
0.4<p<0.6 npq≥18
n≥50
et ou n≥50
p<0.1 ou p>0.9
et
np>5 et nq>5
N(np,√(npq))
Poiss(np)
6 Exercices
Exercice 3.1
Soit U une variable aléatoire de loi uniforme sur [−1, 1].
1. Donner l’expression de sa fonction de densité. Tracer son graphe.
2. Calculer sa fonction de répartition.
3. Calculer l’espérance et la variance de U .
43