Vous êtes sur la page 1sur 49

UNIVERSITE DE DOUALA

Faculté des Sciences

Département de Mathématiques et Informatique


Licence 1 Mathématiques
MAT 142

PROBABILITES ET
STATISTIQUES I

Année Académique 2019/2020

Dr DONFACK-KOMMOGNE Véronique
PROGRAMME

I PROBABILITES
1. Analyse combinatoire
2. Probabilités sur les ensembles finis
3. Variables aléatoires discrètes
4. Variables aléatoires continues
II STATISTIQUES
1. Statistique à une dimension
2. Calcul des paramètres d’une variable statistique
3. Statistiques à deux dimension
4. Les séries chronologiques

1
Table des matières

1 Analyse combinatoire 5
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Les arrangements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Les permutations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Les combinaisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Les dérrangements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Probabilités sur les ensembles finis 8


2.1 Espace probabilisable fini . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 Anneau de Boole et Algèbre de Boole . . . . . . . . . . . . . . . . . 8
2.1.2 Espace probabilisable et expérience aléatoire . . . . . . . . . . . . . 9
2.1.3 Composition d’évènements . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Espace probabilisé fini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Notion de probabilité et propriétés . . . . . . . . . . . . . . . . . . 10
2.2.2 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.3 Evènements indépendants . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.4 Théorème de BAYES . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Variables Aléatoires 14
3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1.1 Définition et exemples . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1.2 Loi de probabilité d’une variable aléatoire réelle . . . . . . . . . . . 14
3.1.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.4 Caractéristiques d’une variable aléatoire réelle . . . . . . . . . . . . 17
3.2 Lois discrètes usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.1 Loi binomiale de paramètres n, p(n ∈ N∗ et p ∈ [0, 1]) . . . . . . . . 18
3.2.2 Loi de Poisson de paramètre λ : P(λ) . . . . . . . . . . . . . . . . . 18

4 Variables Aléatoires absolument continues 20


4.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.2 Loi normale ou loi de LAPLACE-GAUSS . . . . . . . . . . . . . . . . . . . 20
4.2.1 Définition et changement de variable . . . . . . . . . . . . . . . . . 20
4.2.2 Lecture et utilisation de la table de Π . . . . . . . . . . . . . . . . . 21
4.2.3 Approximation de la loi binomiale et de la loi de Poisson par une
loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3 Loi uniforme et loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3.1 Loi uniforme : sur un intervalle . . . . . . . . . . . . . . . . . . . . 22

2
4.3.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5 Statistique à une dimension 25


5.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.1.1 Concepts de base de la statistique . . . . . . . . . . . . . . . . . . . 25
5.1.2 Les différents types de variable . . . . . . . . . . . . . . . . . . . . 26

6 CALCUL DES PARAMETRES D’UNE VARIABLE STATISTIQUE 28


6.1 Les caractéristiques de tendance centrale . . . . . . . . . . . . . . . . . . . 29
6.1.1 Le mode ou valeur modale . . . . . . . . . . . . . . . . . . . . . . . 29
6.1.2 La médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.1.3 La moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
6.1.4 Généralisation de la notion de moyenne . . . . . . . . . . . . . . . . 31
6.2 Les caractéristiques de dispersion . . . . . . . . . . . . . . . . . . . . . . . 32
6.2.1 La variance et l’écart-type . . . . . . . . . . . . . . . . . . . . . . . 32
6.2.2 Coéfficient de variation . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.2.3 L’étendue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.2.4 L’écart inter-quartiles . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.2.5 Moments centrés et non centrés . . . . . . . . . . . . . . . . . . . . 33

7 Distributions Statistique à deux variabes 34


7.1 Présentations générales d’un tableau à double entrée . . . . . . . . . . . . 34
7.2 Distributions marginales et conditionnelles . . . . . . . . . . . . . . . . . . 35
7.2.1 Distributions marginales et caractéristiques marginales . . . . . . . 35
7.2.2 Distributions et caractéristiques conditionnelles . . . . . . . . . . . 36
7.3 Caractéristiques globales d’une distribution à deux caractères . . . . . . . . 37
7.3.1 Les types de liaison . . . . . . . . . . . . . . . . . . . . . . . . . . 37
7.3.2 Courbes de regressions et droites de regressions . . . . . . . . . . . 38

8 LES SERIES CHRONOLOGIQUES 41


8.1 Introduction et définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
8.2 Eléments constitutifs d’une série chronologique . . . . . . . . . . . . . . . . 42
8.3 Les modèles de décomposition . . . . . . . . . . . . . . . . . . . . . . . . . 43
8.3.1 Modèle additif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
8.3.2 Modèle multiplicatif . . . . . . . . . . . . . . . . . . . . . . . . . . 44
8.4 Analyse de la tendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
8.4.1 Moyennes Mobiles Simple . . . . . . . . . . . . . . . . . . . . . . . 44
8.4.2 Moyennes Mobiles centrées . . . . . . . . . . . . . . . . . . . . . . . 46
8.4.3 La prévision : interpolation linéaire . . . . . . . . . . . . . . . . . . 47

3
PROBABILITES

4
Chapitre 1

Analyse combinatoire

1.1 Introduction
L’analyse combonatoire est la science du dénombrement ou comptage des disposi-
tions que l’on peut former à l’aide des éléments d’un ensemble fini. Un problème de
dénombrement des dispositions que l’on peut former à l’aide des éléments d’un ensemble
fini exige :
1- Le nombre total d’objets : Dans le cas où il y a des classes d’objets indiscernables,
il faut indiquer le nombre de classe et le nombre de répétition dans chaque classe.
2- Déterminer la nature et le nombre d’éléments dans la disposition : Pour cela, on
distingue les dispositions ordonnées, non ordonnées, semi-ordonnées d’une part, avec ou
sans répétition d’autre part. Les plus classiques sont :
- Les arrangements avec ou sans répétition.
-Les permutations avec ou sans répétition.
- Les combinaisons avec ou sans répétitions.
- Les dérangements
Dans la suite, Ω est un ensemble de n objets deux à deux discernables : Ω = {ω1 , ω2 , ..., ωn }.

1.2 Les arrangements


a) Avec répétition :

Définition 1.1 On appelle arrangement avec répétition de p éléments choisis parmi les
n éléments de Ω, toute disposition ordonnéé, avec repétition éventuellement de p éléments
0
d’entre les n éléments. On note Anp .

Le nombre d’arrangement avec répétition est égal à np .

Remarque 1.1 Du fait des repétitions, p peut être supérieur à n.

Exemple 1.1 Soient E et F deux ensembles de cardinaux p et n respectivement. Déterminons


le nombre d’application de E vers F. Une application de E → F est obtenu en associant
à chaque élément de E, une image unique dans F. Or, pour chacun des p éléments de E,
on a n choix possibles de son image dans F ; donc np choix possibles de l’ensemble des
images des éléments de E; i.e. np applications possibles de E → F.

5
b) Sans répétition :

Définition 1.2 On appelle arrangement sans repétition ou simplement arrrangement de


p éléments choisi parmi les n éléments de Ω, toute disposition ordonnée sans repétition
de p de ces éléments. On note Apn le nombre d’arrangements de n objets p à p.

Remarque 1.2 Tout arrangement sans repétition de n objets p à p est un arrangement


0 0
avec repétition de p de ces objets ; d’où Apn < Anp et pour p = 1, A1n = An1 .
Un arrangement de p objets pris parmi n n’est possible que si p ≤ n. On montre
que Apn = n(n − 1)(n − 2)...(n − p + 1). En utilisant la notation factorille n (n!), on a
n!
Apn = (n−p)! .

Exemple 1.2 Nombre d’application injective d’un ensemble à p éléments vers un en-
semble à n éléments. On constate que pour que l’application soit injective, il faut que l’on
ait p ≤ n.

1.3 Les permutations


a) Sans répétition :

Définition 1.3 On appelle permutation sans repétition ou simplement permutation des


éléments de Ω, toute disposition ordonnée et sans repétition de l’ensemble des n éléments.

Remarque 1.3 1) Deux permutations ne sont distinctes que par l’ordre des n objets qui
les composent. On a évidemment Pn = Ann = n!.
2) Une permutation sans répéttion de n éléments est une application bijective d’un en-
semble de n éléments vers un ensemble de n éléments.

b) Avec répétition :

Définition 1.4 Soit une collection de n éléments formée de p groupes discernables d’éléments
indiscernables {a, a...a}, {b, b...b}, ..., {s, s...s} avec α, β, ..., λ éléments respectivement tels
que α + β + ... + λ = n.
On appelle permutation avec repétition de ces n éléments, toute disposition ordonnée
0 0
de l’ensemble des n éléments. On note Pn (α, β, ..., λ). On montre que Pn (α, β, ..., λ) =
n!
α!β!...!λ!
.

Exemple 1.3 1) Combien de mots peut-on former avec toutes les lettres du mot ” ana-
nas” ?
Un tel mot est une permutation avec répétition de 6 lettres réparties en 3 classes de 3, 2, 1
0 6!
éléments. P6 (3, 2, 1) = 3!2!1! .
2) Parmi ces mots, combien commencent et se terminent par n ? Ecrire un tel mot revient
à : placer les deux n dans leurs positions et permuter avec repétition les 4 autres lettres
0 4!
des deux classes. P4 (3, 1) = 3!1! .

6
1.4 Les combinaisons
a) Sans répétition :
Définition 1.5 On appelle combinaison de p éléments choisi parmi les n éléments de Ω,
toute disposition non ordonnée et sans repétition de p éléments choisi parmi ples n éléments
de l’ensemble. On note cpn le nombre de telle combinaison. On note cpn = Ap!n = p!(n−p)! n!
.
Remarque 1.4 a) Deux combinaisons sont différentes par la nature des éléments, quelque
soit l’ordre.
b) Propriétés des nombres cpn : cpn = cnn−p ; cnn = 1; c1n = n; cpn = cpn−1 + cp−1 0
n−1 ; cn = 1.
n
c) ∀a, b ∈ R, (a + b)n = ckn ak bn−k .
P
k=0

Exemple 1.4 Déterminer le coéficient de x3 y 4 dans le dévéloppement de (2x − 7y)7 .


7 X7
k k 7−k
7 7
ck7 2k (−7)7−k xk y 7−k . Le terme
P
(2x − 7y) = [(2x) + (−7y)] = c7 (2x) (−7y) =
k=0 k=0
de cette somme correspondant à k = 3 est c37 23 (−7)7−3 x3 y 4 . Le coéficient de x3 y 4 dans le
dévéloppement de (2x − 7y)7 est c37 23 (−7)4 .
b) Avec répétition :
Définition 1.6 On appelle combinaison avec répétition de p éléments choisis parmi les n
toute disposition non ordonnée avec répétition événtuellement de p éléments choisis parmi
0 0 0
les n éléments de Ω. Soit cnp le nombre de telles combinaisons. cnp = P(n−1)+p (n − 1, p) =
n−1+p
(n−1)!p!
.
Exemple 1.5 Un ascenceur dessert 15 étages et s’arrête obligatoirement à tous les étages.
Au rez-de-chaussé 10 personne entrent dans cet ascenceur. Personne d’autre ne montera
au cours de la montée de l’ascenceur. Combien ya-t-il de possibilités de descente en tout
en supposant les 2 hypothèses suivantes ?
a) On ne tient pas compte de la personne qui descend (les personnes sont indiscernables)
b) On tient compte de la personne qui descend à un niveau
Solution :a) Une possibilité de descente avec H1 est un rangement de 10 dans les 15
cases(étages).(Partage de 10 indiscernables à 15 étudiants). Ainsi, le nombre de possibilités
0
de descente est le nombre de rangement de 10 personnes dans les 15 cases. On a c1510 =
0 24!
P(15−1)+10 (14, 10) = 14!10! .
b) Avec la deuxième hypothèse, une possibilité de descente peut être représentée par une
application d’un ensemble à 10 éléments dans un ensemble à 15 éléments. Ainsi, le nombre
de possibilités de descente est le nombre d’application de E10 dans E15 , soit 1510 .

1.5 Les dérrangements


Définition 1.7 1) Soit E un ensemble de n éléments discernables. E = {1, 2, ..., n}.
Une permutation de E est une bijection de E vers E. σ(i) est la position de i dans la
permutation
2) On appelle derrangement toute permutation vérifiant ∀i, σ(i) 6= i. Parmi les n! permu-
Pn (−1)k
tations possibles, le nombre de dérrangements est Dn = n! .
k=0 k!

7
Chapitre 2

Probabilités sur les ensembles finis

2.1 Espace probabilisable fini


2.1.1 Anneau de Boole et Algèbre de Boole
Dans tout le chapitre, Ω est un ensemble fini non vide.
Définition 2.1 1) Soit B un ensemble non vide de parties de Ω. B est un anneau de
Boole des parties de Ω si les deux conditions suivantes sont vérifiées :
i) ∀A, B ∈ B, A − B ∈ B.
ii) ∀A, B ∈ B, A ∪ B ∈ B.
2) Soit A un ensemble non vide de parties de Ω. A est une algèbre (tribu) de Boole de Ω
si les deux connditions suivantes sont vérifiées :
i) A est un anneau de Boole.
ii) Ω ∈ A.
Quelques propriétés :
Proposition 2.1 1) Tout anneau de Boole B de parties de Ω possède les 3 propriétés
suivantes :
i) ∅ ∈ B.
ii) B est stable pour l’intersection finie.
ii) B est stable pour la différence symétrique.
2) Soit A un anneau de Boole de Ω. A est une algèbre de Boole de Ω si et seulement
si A stable pour la complémentation, c-à-d, ∀A ∈ A, CΩA ∈ A.
Preuve : 1) Soit B un anneau de parties de Ω.
- Montrons que ∅ ∈ Ω. Comme B 6= ∅, alors ∃A ∈ P(Ω), A ∈ B, et comme B est stable
pour la différence, on a A − A = ∅ ∈ B.
- Montrons que B est stable pour l’intersection, c-à-d, ∀A, B ∈ B, A ∩ B ∈ B. Soit
A, B ∈ B. A ∩ B = A − (A − B). Comme A − B, A ∈ B, alors A ∩ B ∈ B car B est un
anneau.
- Montrons que B est stable pour la différence symétrique. Soit A, B ∈ B, A∆B = (A −
B) ∪ (B − A).
2) Soit A un anneau de Boole. Montrons que (A algèbre) ⇔ (∀A ∈ A, CΩA ∈ A).
⇒) Supposons que A est un algèbre et soit A ∈ A. Montrons que CΩA ∈ A. Nous avons
CΩA = Ω − A. Comme A est une algèbre, alors Ω ∈ A. Or A est stable pour la différence

8
, d’où Ω − A = CΩA ∈ A.
⇐) Supposons que A est stable pour la complémentation et montrons que A est une
algèbre. Comme A est un anneau, il reste à montrer que Ω ∈ A. Comme A est un
anneau, alors ∅ ∈ A. Et comme A est stable pour la complémentation, alors CΩ∅ = Ω ∈ A.

Exemple 2.1 Soit Ω un ensemble non vide : P(Ω) est une algèbre de parties Ω.

Définition 2.2 Soit R ⊆ P(Ω). 1) L’ensemble de anneaux des parties de Ω contenant R


est non vide.
L’intersection de tous les anneaux contenant R est un anneau appelé anneau engendré
par R : c’est le plus petit anneau de parties de Ω contenant R.
2) L’ensemble des algèbres de parties de Ω contenant R est non vide. L’intersection de
tous les algèbres contenant R est une algèbre appelée algèbre engendrée par R; c’est la
plus petite algèbre des parties de Ω contenant R.

Exemple 2.2 Soit Ω = {a, b, c, d}.


1) Déterminer l’algèbre engendrée par {a, b} et l’algèbre engendrée par {d}.

Solution : Soit A({a, b}) =< {a, b} > cette algèbre. A({a, b}) ⊆ P(Ω). A({a, b}) =
{{a, b}, {c, d}, {a, b, c, d}, ∅}.

2.1.2 Espace probabilisable et expérience aléatoire


Définition 2.3 Un espace probabilisable fini est un couple (Ω, A) où Ω est un ensemble
non vide et fini et A est une algèbre de parties de Ω.

On peut classer schématiquement les expériences en deux groupes :les expériences déterministes
et les expériences aléatoires.
- Dans une expérience déterministe, lorsqu’on réalise à plusieurs reprises le même ensemble
de conditions, c’est toujours le même résultat qui est observé.
- Dans une expérience aléatoire E, si l’on réalise à plusieurs reprise le même ensemble
de conditions, le résultat observé peut varier sans que l’on puisse déterminer la nature
de la cause de cette variation. La seule certitude avant l’expérience est que le résultat
observé sera un élément d’un ensemble de résultat possible. Notons par Ω l’ensemble des
résultats possibles de l’expérience ou l’univers des possibles. Chaque résultat possible est
un évènement élémentaire représenté par un singleton de Ω.
Un évènement est un sous-ensemble de Ω représenté par l’ensemble des évènements
élémentaires qui le réalisent.
La tribu ou l’algèbre de Boole A de Ω associée à E représente l’ensemble des évènements
envisagés à l’issue de l’expérience : dans la pratique, A = P(Ω) ou A =< R > où R
est une famille fondamentale d’évènement associée à E : (Ω, A) est l’espace probabilisable
associé à l’expérience E.
Réciproquement, à tout espace probabilisable (Ω, A), on peut associer une expérience
aléatoire dont l’unuvers des possibles est Ω et A c’est < R > avec R la famille fondamen-
tale retenue.

Exemple 2.3 Le lancé d’un dé cubique à 6 faces.

9
2.1.3 Composition d’évènements
Soit une expérience aléatoire E à laquelle on a associé l’espace probabilisable fini (Ω, A).
A c’est l’ensemble des évènements associés à E. Les opérations de A sont applicables aux
évènements.

Définition 2.4 Soit A et B des évènements associés à E. 1) L’opération ”ou” : l’évènement


” A ou B” noté A ∪ B est celui qui est réalisé si et seulement si A est réalisé ou B est
réalisé.
2) L’opération ”et” : L’évènement ”A et B” noté A ∩ B est celui qui est réalisé si et
seulement si A et B sont simultanément réalisés.
3) Négaion ”non” : L’évènement ”non A noté A = CΩA est celui qui est réalisé si et
seulement si A n’est pas réalisé.

2.2 Espace probabilisé fini


2.2.1 Notion de probabilité et propriétés
Définition 2.5 1) Soit (Ω, A) un espace probabilisable fini. On appelle Probabilité (ou
mesure de probabilité) sur (Ω, A) toute application p : A → R vérifiant les trois condi-
tions suivantes :

i) ∀A ∈ A, p(A) ≥ 0;
ii) ∀A, B ∈ A, A ∩ B = ∅ ⇒ p(A ∪ B) = p(A) + p(B);
iii) p(Ω) = 1.
2) Soit p une probabilité sur l’espace probalisable fini (Ω, A). (Ω, A, p) est un espace pro-
babilisé fini.

Interprétation Soit (Ω, A, p) un espace probabilisé fini et A ∈ A. p(A) est l’expres-


sion quantitative des chances de réalisation de l’évènement A asssociée à une expérience
aléatoire E dont (Ω, A) est une représentation.

Propriété 2.1 Soient A, B ∈ A.


i) p(A) = 1 − p(A);
ii) p(∅) = 0;
iii) B ⊆ A ⇒ p(B) ≤ p(A);
iv) 0 ≤ p(A) ≤ 1.

Preuve : i) Soit A ∈ A, A = CΩA ∈ A. Comme A ∩ A = ∅, alors p(A ∪ A) = p(A) + p(A).


Or, A ∪ A = Ω et p(Ω) = 1. D’où p(A) = 1 − p(A).
ii) Utilisons i) en prenant A = Ω. Ω = ∅. Donc, p(Ω) = 1 − p(Ω), c-à-d, p(∅) = 1 − 1 = 0.
iii) Soient A, B ∈ A tel que B ⊆ A. Montrons que p(B) ⊆ p(A). Nous avons A =
B ∪ (A − B).p(A) = p(B ∪ (A − B)) = p(B) + p(A − B) car B ∩ (A − B) = ∅. D’où
p(A) − p(B) = p(A − B) ≥ 0.
iv) Soit A ∈ A Montrons que 0 ≤ p(A) ≤ 1. En appliquant iii), on a p(∅) ≤ p(A) ≤ p(Ω),
c-à-d,0 ≤ p(A) ≤ 1. 

10
Théorème 2.1 Théorème des probabilités composées
∀A, B ∈ A, p(A ∪ B) = p(A) + p(B) − p(A ∩ B).

Preuve : Soit A, B ∈ A. Montrons p(A ∪ B) = p(A) + p(B) − p(A ∩ B). Nous avons :
A = (A − B) ∪ (A ∩ B), B = (B − A) ∪ (A ∩ B), A ∪ B = (A − B) ∪ (B − A) ∪ (A ∩ B).

p(A ∪ B) = p[(A − B) ∪ (B − A) ∪ A ∩ B)] = p(A − B) + p(B − A) + p(A ∩ B). (2.1)

Déterminons p(A−B) et p(B −A). Comme A = (A−B)∪(A∩B) et (A−B)∩(A∩B) = ∅,


alors p(A) = p(A − B) + p(A ∩ B) d’où

p(A − B) = p(A) − p(A ∩ B). (2.2)

De même, comme B = (B − A) ∪ (A ∩ B) et (B − A) ∩ (A ∩ B) = ∅, alors p(B) =


p(B − A) + p(A ∩ B) d’où

p(B − A) = p(B) − p(A ∩ B). (2.3)

(2.2), (2.3) et (2.1) donnent p(A ∪ B) = p(A) + p(B) − p(A ∩ B). 

Définition 2.6 On dit qu’il ya équiprobabilité si tout les évènements élémentaires ont la
même probabilité.

Remarque 2.1 1. Dans le cas d’équiprobabilité, la détermination d’une probabilité se


ramène à 2 problèmes de dénombrement.
2. On suppose que les évènements sont équiprobables chaque fois que l’on utilise une
expréssion telle que : dé non pipé, tirer au hasard, boule indiscernable au toucher,
ect...

Exemple 2.4 On lance en l’air 3 pièces de monnaie identiques non truquées et l’on
observe le nombre de ”pile” obtenu.
a) définir Ω l’ensemble de tous les nombres de ”pile” obtenus.
b) Calculer les probabilités associées à chaque évènement élémentaire de Ω.
C) Calculer la probabilité d’obtenir 3 ”piles” ou 3 ”faces”.

2.2.2 Probabilité conditionnelle


Exemple introductif La composition d’un amphi de 200 étudiants dans une univer-
sité est la suivante :
-130 étudiants sont des filles ;
-100 étudiants habitent dans leurs famille ;
-Parmi ces 100 étudiants qui habitent leur famille, 80 sont des filles.
On choisit au hasard 1 étudiant ; et on s’interesse aux évènements suivant :
A :“l’étudiant habite dans sa famille” ;
B : “ L’étudiant est une fille” ;
C : ” L’étudiant est une fille qui habite sa famille”.

1. Déterminer leurs probabilités.

11
2. Sachant que l’étudiant est une fille, déterminer la probabilité pour qu’elle habite sa
famille.
Solution Il y’a équiprobabilité des évènements élémentaires.
Ω = ensemble des 200 étudiants. CardΩ = 200.
1- p(A) = nomb cas favorables
nomb cas possibles
= 100200
.
nomb cas favorables 130
p(B) = nomb cas possibles = 200 .
p(C) = p(A ∩ B) = nomb cas favorables
nomb cas possibles
80
= 200 .
2- p(A/B) = p(A∩B)
p(B)
80
= 200 130
× 200 = 13080
.
50
3- p(A/B) = 1 − p(A/B) = 130 .
Si l’on sait au préalable que l’étudiant choisi est une fille , alors l’ensemble de référence
ou l’univers est plus restreint : il est constitué de 130 filles. Et la probabilité qu’il habite
80
chez ses parents sachant qu’elle est une fille est réalisée : on remarque : p(A/B) = 130 =
p(A∩B
p(B)
.

Théorème 2.2 (Des probabilités conditionnelles) Soit (Ω, A, p) un espace probabilisé fini
et A un évènement tel que p(A) 6= 0. La probabilité de B sachant que A est réalisé est
p(B/A) = p(A∩B)
p(A)
.

Exemple 2.5 On considère 2 évènements A et B tel que p(A) = 13 , p(B) = 1


2
et p(A ∩
B) = 14 .
Calculer p(A ∪ B), p(A/B) et p(B/A).
7 p(A∩B)
Solution : p(A ∪ B) = p(A) + p(B) − p(A ∩ B) = 12
; p(A/B) = p(B)
= 12 ; p(B/A) =
p(A∩B)
p(A)
= 34 .

2.2.3 Evènements indépendants


Il peut arriver que l’information apportée par la réalisation ou la non-réalisation de
l’évènement B ne modifie pas la probabilité de réalisation de A : p(A/B) = p(A). On dit
que A et B sont indépendants.
Définition 2.7 Soit (Ω, A, p) un espace probabilisé fini et A, B ∈ A. A et B sont p-
indépendants si p(A ∩ B) = p(A) × p(B).

Proposition 2.2 Soit (Ω, A, p) un espace probabilisé fini et A, B ∈ A.


Si A et B sont p-indépendants,alors :
i) A et B sont p-indépendants.
ii) A et B sont indépendants.
iii) A et B sont p-indépendants.

Preuve : Soit A, B ∈ A tel que A et B sont p-indépendants.


i) Montrons que A et B sont p-indépendants, c-à-d, p(A ∩ B) = p(A) × p(B).
A = A ∩ Ω = A ∩ (B ∪ B) = (A ∩ B) ∪ (A ∩ B).
(A ∩ B) ∩ (A ∩ B) = ∅. D’où p(A) = p[(A ∩ B) ∪ (A ∩ B)] = p(A ∩ B) + p((A ∩ B)
= P (A) × p(B) + p(A ∩ B) car A et B sont p-indépendants. Ainsi, p(A ∩ B) = p(A) −
P (A) × p(B) = p(A) × [1 − p(B)] = p(A) × p(B) car p(B) = 1 − p(B). En conclusion, A
et B sont p-indépendants.

12
2.2.4 Théorème de BAYES
Définition 2.8 Soit (Ω, A, p) un espace probabilisé fini. On appelle système complet d’évènement
B1 , B2 , ..., Bn la famille satisfaisant les conditions suivantes :
i)∀i ∈ {1, 2, ..., n}, Bi 6= ∅
ii) ∀i, j ∈ {1, 2, ..., n}, i 6= j ⇒ Bi 6= Bj .
Sn
iii) Bi = Ω.
i=1

Théorème 2.3 Soit (Ω, A, p) un espace probabilisé fini et B1 , B2 , ..., Bn un système d’évènement
complet d’évènement vérifiant p(Bi ) 6= 0. Alors ∀A ∈ A tel que p(A) 6= 0.
p(Bi )×p(A/Bi )
p(Bi /A) = P n .
p(Bj ) × p(A/Bj )
j=1

Preuve : Soit (Ω, A, p) un espace probabilisé fini et B1 , B2 , ..., Bn un système d’évènement


complet d’évènement tel que ∀i ∈ {1, .., n}, on a p(Bi ) 6= 0. et A ∈ A tel que p(A) 6= 0.
p(Bi )×p(A/Bi )
Montrons que ∀ ∈ {1, .., n}, p(Bi /A) = P n .
p(Bj ) × p(A/Bj )
j=1

Soit i ∈ {1, .., n}.

p(Bi ∩ A) p(Bi ) × p(A/Bi )


=
p(Bi /A) = . (2.4)
p(A) p(A)
n
S n
S
Or, A = A∩Ω = A∩( Bj ). D’où p(A) = p(A∩( Bj )). Comme A∩B1 , A∩B2 , ..., A∩Bn
j=1 j=1
sont 2 à 2 disjoints.
n X n n
X
S
p( (A ∩ Bj )) = p(A ∩ Bj ) = p(Bj ) × p(A/Bj ).
j=1 j=1 j=1

Exemple 2.6 Trois machines A,B et C produisent respectivement 40%, 35% et 25% du
nombre total des comprimés fabriqués par un laboratoire pharmaceutique. Chacune de ces
machines produit respectivement 5, 6 et 3% de comprimés défectueux.
1. On prend un comprimé au hasard. Quelle est la probabilité qu’il soit défectueux ?
2. On prend un comprimé au hasard, on constate qu’il est défectueux. Quelle est la
probabilité qu’il ait été produit par la machine A ?

Solution : p(A) = 0, 4, p(B) = 0, 35, p(C) = 0, 25.

Soit D l’évènement : ”Comprimé défectueux”

p(D/A) = 0, 05, p(D/B) = 0, 06, p(D/C) = 0, 03.

a)Calcul de p(D) : A, B, c constituent un système complet d’évènement. D = D ∩ Ω =


D ∩ [A ∪ B ∪ C] = (D ∩ A) ∪ (D ∩ B) ∪ (D ∩ C). p(D) = p[(D ∩ A) + (D ∩ B) + (D ∩ C)])
(car, D ∩ A, D ∩ B, D ∩ C sont 2 à 2 disjoints). D’où p(D) = p(A) × p(D/A) + p(B) ×
p(D/B) + p(C) × p(D/C).
p(A∩D) p(A)×p(D/A)
b)Calcul de p(A/D) : p(A/D) = p(D)
= p(D)
.

13
Chapitre 3

Variables Aléatoires

3.1 Généralités
3.1.1 Définition et exemples
Soit (Ω, A, p) un espace probabilisé fini
Définition 3.1 Soit X : Ω → R une application. X est une variable aléatoire réelle si
elle vérifie la condition suivante : ∀x ∈ R, X −1 ({x}) ∈ A.
Remarque 3.1 Cette définition n’est plus valable lorsque Ω est infini.
Convention d’écriture : Pour X une variable aléatoire réelle et x ∈ R :
i) On écrit ”(X = x)00 au lieu de X −1 ({x}).
ii) On écrit ”(X < x)00 au lieu de ω ∈ Ω, X(ω) < x.
Exemple 3.1 On jette simultanément 2 dés discernables D1 et D2 et on observe les
chiffres marqués sur les faces supérieures.
1) Définir un évènement élémentaire ou un résultat possible ωij où i est le numéro observé
sur D1 et j le numéro observé sur D2 .
Ω→R
2) Soit l’application X : Montrons que X est une variable aléatoire.
ωij 7→ i + j
Solution : 1) évènement élémentaire = ωij = (i, j) où i ∈ {1, 2, 3, 4, 5, 6} et j ∈
{1, 2, 3, 4, 5, 6}. Ω = {(i, j), i ∈ {1, 2, 3, 4, 5, 6}, j ∈ {1, 2, 3, 4, 5, 6}}.
Ω→R
2) Montrons que X : est une v.a.r sur (Ω, P(Ω)) c’est-à-dire montrons que
ωij 7→ i + j
∀x ∈ R, X −1 ({x}) = {ωij ∈ Ω, X(ωij ) = x} = {(i, j) ∈ Ω, i + j = x} ∈ P(Ω).
1er cas : Si x ∈ / {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}, alors X −1 ({x}) = ∅ ∈ P(Ω).
2e cas : Si x ∈ {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}, alors X −1 ({x}) = {(i, j) ∈ Ω, i + j = x} est
un sous-ensemble non vide de Ω. Ainsi, X −1 ({x}) ∈ P(Ω).

3.1.2 Loi de probabilité d’une variable aléatoire réelle


Théorème 3.1 Soit (Ω, A, p) un espace probabilisé fini et X une v.a sur (Ω, A). L’ap-
P(X(Ω)) → [0, 1]
plication PX : est une probabilité sur (X(Ω), P(X(Ω))) ap-
A 7→ PX (A) = P [X −1 (A)]
pelée loi de probabilité de X ou distribution de probabilité de X. Elle sera notée PX et
PX (A) = p[X −1 (A)].

14
Preuve

Remarque 3.2 Pour définir la loi de probabilité de X, il suffit de connaitre p(X =


x), ∀x ∈ X(Ω).(probabilité pour que X prenne la valeur x) car pour tout A = {a1 , a2 , ..., an } ⊆
n n
X(Ω), pX (A) = p[X −1 (A)] = p[X −1 ( {ai }) car A = {ai }. Or, X −1 (A ∪ B) =
S S
i=1 i=1
n n
X
X −1 (A) ∪ X −1 (B). Ainsi, pX (A) = p( p[X −1 ({ai })], car les X −1 ({ai } sont
S
{ai }] =
i=1 i=1
deux à deux disjoints.

Exemple 3.2 Déterminer la loi de probabilité de la variable aléatoire réelle X définie à


l’exemple précédent.

Solution :l’ensemble des valeurs possibles de X X(Ω) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.
La loi de probabilité pX est déterminée par le calcul des réels p(X = x) où x ∈ X(Ω).
La remarque et l’exemple précédents expliquent pourquoi nous parlerons de la loi de
probabilité de la v.a.r X sans définir de façon explicite X. Ce qui nous conduit à la
remarque suivante :

Remarque 3.3 Généralisation


1) Une prmière façon de généraliser la loi de probabilité qui xi 7→ p(X = xi ) pour i ∈
{1, 2, ..., n} est de considérer
P une suite (xn )n∈N à laquelle on associe la loi de probabilité
xn 7→ pn avec pn ≥ 0 et pn = 1. On obtient une loi discrète infinie.
n∈N
2) D’autres lois de probabilité peuvent être définies par l’intermédiaire d’une densité de
R→R
probabilité c’est-à-dire une application f : on obtient une loi continue et
x 7→ f (x) ≥ 0;
+∞
R
f (t)dt = 1.
−∞

3.1.3 Fonction de répartition


Définition 3.2 Soit X une v.a.r sur (Ω, A, p). La fonction de répartition FX de X est
R→R
l’application FX :
x 7→ FX (x) = p(X < x).

Proposition 3.1 Soit FX une fonction de répartitioon d’une v.a.r.


1) ∀x ∈ R, 0 ≤ FX (x) ≤ 1.
2) lim FX (x) = 0 et lim FX (x) = l.
x→−∞ x→+∞
3) FX est non décroissante et continue à gauche.
Supposons que X(Ω) = {x1 , x2 , ..., xn }
i) p(X = xi ) = FX (xi+1 ) − FX (xi )
ii) Supposons que x1 < x2 < ... < xn . On a :
∀i ∈] − ∞, x1 ], FX (x) = 0,
∀x ∈]x1 , x2 ], FX (x) = p(X = x1 );
. . .
. . .
. . .

15
i−1
P
∀x ∈]xi−1 , xi ], FX (x) = p(X = xk );
. . k=1 .
. . .
. . .
n−1
P
∀x ∈]xn−1 , xn ], FX (x) = p(X = xk );
k=1
∀x > xn , FX (x) = 1.
La représentation graphique de la fonction de répartition est la courbe cumulative de X.
C’est une courbe en escalier.

Exemple 3.3 Une urne contient 6 boules numérotées de 1 à 6. On tire simultanément


2 boules de l’urne, on supppose que les tirages sont équiprobables. On désigne par X la
v.a.r qui à tout tirage associe le plus grand des nombres portés par les 2 boules.
1) Déterminer l’ensemble des valeurs possibles de X.
2) Déterminer la loi de probabilité de X. 3) Déterminer et tracer la fonction de répartition
de X. P
4) Vérifier que p(X = xk ) = 1.

Solution : Soit Ω l’univers associé à cette epreuve. cardΩ = C62 .


1) X(Ω) = {2, 3, 4, 5, 6}.
2) Loi de probabilité de X.
C2 1
p(X = 2) = C22 = 15 ; p(X = 3) = C22 = 15
2
; p(X = 4) = C32 = 15
3
;
6 6 6
4 4 5 5
p(X = 5) = C 2 = 15 ; p(X = 6) = C 2 = 15 .
6 6
3) Fonction de répartition de X. Soit F la fonction de répartition de X :

∀i ∈] − ∞, 2], F (x) = 0;

1
∀x ∈]2, 3], FX (x) = p(X = 2) = 15
;

1 2 3
∀x ∈]3, 4], FX (x) = p(X = 2) + p(X = 3) = 15
+ 15
= 15
,

1 2 3 6
∀x ∈]4, 5], FX (x) = p(X = 2) + p(X = 3) + p(X = 4) = 15
+ 15
+ 15
= 15
;

1 2 3 4 10
∀x ∈]5, 6], FX (x) = p(X = 2)+p(X = 3)+p(X = 4)+p(X = 5) = 15
+ 15 + 15 + 15 = 15
;

∀x > 6, FX (x) = p(X = 2) + p(X = 3) + p(X = 4) + p(X = 5) + p(X = 6) =


1 2 3 4 5
15
+ 15 + 15 + 15 + 15 = 1.
P 1 2 3 4 5 15
4) p(X = xk ) = + + + + += = 1.
15 15 15 15 15 15
Exercice 3.1 A) La loi de probabilité d’une v.a.r X est donnée par le tableau suivant :

x -2 -1 0 1 2 3
P(X=x) 0.1 0.1 0.2 0.2 0.3 ?
i) Déterminer p(X = 3).

16
ii) Déterminer F (X).

B)Une société de prévention routière semble avoir dans une région une statistique peu
enviable quant au nombre d’accidents de voiture. L’information du tableau ci-dessous a
été remise au gérant de la société par le comité de sécurité sur le nombre d’accidents en
1ere journée et ceci pour une période de 250 jours.

nbre d’accidents en 1ere journée 0 1 2 3 4 5 6


nbre de jours 34 68 66 45 24 9 4
1) Déterminer la loi de probabilité de la v.a. X = nombre d’accidents en 1ere journée
ainsi que sa fonction de répartition F.

2) Quelle est la probabilité qu’on observe au moins 3 accidents en une journée ?

3) Le responsable du comité de sécurité précise “95 chances sur 100 pour qu’au plus
3 accidents se produisent en 1 journée”. Est-ce que cette affirmation vous semble juste ?
Justifier.

4) Quelles sont les chances sur 100 qu’on observe plus de 4 accidents en 1ere journée ?

3.1.4 Caractéristiques d’une variable aléatoire réelle


Espérance mathématique = moyenne arithmétique
Elle est notée X = E(X).
 P
 xi p(X = xi ) si X est discrète
E(X) = xi ∈X(Ω)
R +∞ .

−∞
xf (x)dx si X est continue

Remarque 3.4 Si en calculant E(X) par l’une des deux formules, on ne trouve pas un
réel, alors on conclut que cette v.a. n’admet pas d’espérance mathématique.

Variance de X : V ar(X) = σ 2 (X) = σX 2

2
 P
 x2i p(X = xi ) − X si X est discrète
V ar(X) = xi ∈X(Ω) .
R +∞ 2 2
x f (x)dx − X si X est continue

−∞ p
Ecart-type de X : σX = V ar(X)
Mode : M0 est le réel de X(Ω) vérifiant : p(X = M0 ) = maximum.
N.B. Dans le cas où X est continue, M0 est un maximum de la densité de f .
Quantilles d’ordre α(α ∈ [0, 1]) : Qα
Qα est le réel de X(Ω) vérifiant FX (Qα ) = α. α généralement exprimé en %.
Cas particuliers
1) Si α = 12 = 50%, alors Q 1 = Me = médiane (2ème quartile).
2
25
2) Si α = 100 , alors Q 25 = Q25 est le 1er quartile.
100
75
3) Si α = 100 , alors Q 75 = Q75 est le 3e quartile.
100
α = p(X < Qα ) est le % d’observation dont les valeurs sont plus petites que Qα .

17
Proposition 3.2 Soit X et Y 2 v.a.r. sur (Ω, A)
E(aX + b) = aE(X) + b, avec a, b ∈ R.
V ar(aX + b) = α2 V ar(X).
σ(aX + b) =| α | σ(X).

3.2 Lois discrètes usuelles


3.2.1 Loi binomiale de paramètres n, p(n ∈ N∗ et p ∈ [0, 1])
Définition 3.3 Elle est notée B(n, p). X(Ω) = {0, 1, 2, 3, ..., n}. Pour x ∈ X(Ω), p(X =
x) = f (x) = fx = Cnx px (1 − p)n−x .

Proposition 3.3 1) Pour x ∈ {0, 1, ..., n − 1}, fx+1


fx
= n−x . p .
x+1 1−p
2) Pour x ∈ {1, 2, ..., n}, fx−1
fx
x
= n−x+1 . 1−p
p
.
3) Le mode M0 de B(n, p) est tout élément de X(Ω) = {0, 1, 2, ..., n} vérifiant np − q ≤
M0 ≤ np + p (avec q = 1 − p).

4) X = nP, V ar(X) = npq, σ(X) = npq.

Conditions d’application de la loi binomiale On considère une expérience qui


donne 2 éventualités seulement E1 = succès et E2 = échec. On suppose que la probabilité
d’obtenir E1 est p et celle d’obtenir E2 est q = 1 − p. On répète n fois cette expérience et
les n répétitions sont indépendantes.
Soit X une v.a.r. égale au nombre de succès obtenus à l’issue des n répétitions. Dans
ces conditions, X ,→ B(n, p).

3.2.2 Loi de Poisson de paramètre λ : P(λ)


Définition 3.4 On dit q’une v.a.r. X suit une loi de Poisson de paramètre réel λ > 0,
notée X ,→ P(λ) si elle prend les valeurs entières dont les probabilités de réalisation sont
x
définies par : ∀x ∈ N, p(X = x) = fx = e−λ . λx! .

Remarque 3.5 La loi de Poisson se rencontre dans les approximations de la loi bino-
miale. c’est pourquoi elle permet de modéliser des comptages d’évènements rares, c’est-à-
dire des évènements ayant une faible probabilité de réalisation : maladies rares, accidents
mortels rares, pannnes, radioactivté...

Proposition 3.4 1)Pour x ∈ N, fx+1


fx
λ
= x+1 et fx−1
fx
= λx .
2)Mode =M0 : M0 ∈ N et λ − 1 ≤ M0 ≤ λ.
3)E(X) = V ar(X) = λ.

Théorème 3.2 Approximation de la loi binomiale par la loi de Poisson. Soit une loi
binomiale B(n, p). Si lorsque n → +∞ , p → 0, alors np → cte = λ. Ainsi, fx =
x
Cnx px q n−x → e−λ . λx! .

Preuve
Dans la pratique, on remplace B(n, p) par P(λ) si n > 20, p ≤ 0, 1 et np ≤ 5.

18
Exemple 3.4 Selon les statistiques d’une européennes, le nombre de noyades acciden-
telles en un an est de 2 pour 100000 habitants.
1) Déterminer la loi de probabilité correspondant à la variablé concernée.
2) Quelle est la probabilité, pour une ville de 2000000 habitants, de n’avoir aucune noyade
durant une année ? d’avoir une noyade ?
3) Avec quelle loi peut-on approximer les probabilités de la loi précédentes ?
2
Solution 1) Soit p la probabilité de noyade d’une personne dans cette ville. p = 100000 =
2.10−5 . Notons X le nombre de personnes de la ville qui se sont noyées durant cette année.
Comme les individus ont des risques indépendants les uns des autres, nous en déduisons
que X ,→ B(200000, 2.10−5 ).
0
2)Les probabilités recherchées sont : p(X = 0) = C200000 p0 q 200000 et p(X = 1) = C200000
1
p1 q 200000−1 .
3) n = 200000 > 20, p = 2.10−5 < 0, 1, np = 4 < 5, donc on peut approximer X par la loi
de Poisson P(4).

19
Chapitre 4

Variables Aléatoires absolument


continues

4.1 Généralités
- Soit (Ω, A, p) un espace probabilisé et X une v.a.r. sur (Ω, A) (si Ω est infini, X
est une v.a.r. si ∀x ∈ R, X −1 (] − ∞, x[) ∈ A; si Ω est fini, X est une v.a.r. si ∀x ∈
R, X −1 ({x}) ∈ A).
- La fonction de répartition de X (dans le cas où Ω est fini ou infini) est
R→R
F :
x 7→ FX (x) = p(X < x) = p[X −1 (] − ∞, x[)].
- ∀a, b ∈ R, p(a ≤ X ≤ b) = F (b) − F (a).

Définition 4.1 La loi de X est dite absolument continue s’il existe uneR fonction f : R →
x
R+ continue sur un ouvert O et nulle sur O telle que ∀x ∈ R, F (x) = −∞ f (t)dt.

Conséquence1) Lorsque X est une v.a.r. absolument continue, alors p(a < X < b) =
Rb
a
f (t)dt = p(a ≤ x < b) = p(a < X ≤ b) = p(a ≤ X ≤ b).
2) f est appelée densité de probabilité de X
0
3) Si f est continue en x0 , alors f (x0 ) = F (x0 ).
La loi d’une v.a.r. absolument continue est définie par son ensemble de valeurs et sa
densité de probabilité.

4.2 Loi normale ou loi de LAPLACE-GAUSS


Cette loi est notée N (m, σ)

4.2.1 Définition et changement de variable


La loi de Laplace-Gauss ou loi normale de paramètres m, σ est définie par :
-X =R
1 x−m 2
- ∀ ∈ R, f (x) = σ√12π exp− 2 ( σ ) .

Proposition 4.1 1) Mode = m √ = E(X) = X.


2
2) V ar(X) = σ et ecart-type = σ.

20
Vocabulaire 1) Si la moyenne d’une loi est égale à 0, on dit qu’elle est centrée.
2) Si la variance d’une loi est égale à 1, on dit qu’elle est réduite.
Changement de variable Si X ,→ N (m, σ), alors en posant τ = X−m σ
, on constate
que : - E(τ ) = E( X−m
σ
) = E( X
σ
− m
σ
) = 1
σ
E(X) − m
σ
= m
σ
− m
σ
= 0.

- V ar(τ ) = V ar( σ1 X − m
σ
) = 1
σ2
V ar(X) = 1.

X−m
Conclusion Si X ,→ N (m, σ), alors τ = σ
,→ N (0, 1) qui est la loi normale
centrée réduite :
X = R.
1 2
sa densité f (t) = √12π exp− 2 t .
La représentation graphique de f :

Soit Π la fonction de répartition de τ .


Définition 4.2 La fonction cumulative (ou de répartition)
Z t de la loi normale centrée
Rt 1 1 2
réduite est définie par : ∀t ∈ R, Π(t) = −∞ f (u)du = √ exp− 2 u du = p(τ < t).
−∞ 2π
Propriété 4.1 Π(−t) = 1 − Π(t).

4.2.2 Lecture et utilisation de la table de Π


Exemple 4.1 Soit X ,→ N (m, σ). Exprimons p(X < x) en fonction de Π.

Solution : Posons τ = X−m


σ
, on a :
X < x ⇔ X − m < x − m ⇔ X−m σ
< x−m
σ
⇔τ < x−m
σ
.

x−m
Ainsi, p(X < x) = p(τ < σ
) = Π( x−m
σ
).

Exemple 4.2 Déterminons t > 0 tel que p(−t ≤ τ ≤ t) = 0, 90 où τ ,→ N (0, 1).

Solution : Déterminons t.
1) Exprimons p(−t ≤ τ ≤ t) en fonction de Π. p(−t ≤ τ ≤ t) = p(τ ≤ t) − p(τ ≤
−t) = p(τ < t) − p(τ < −t) = Π(t) − Π(−t) = Π(t) − (1 − Π(t)) = 2Π(t) − 1.

21
Ainsi, p(−t ≤ τ ≤ t) = 2Π(t) − 1.
0,90+1
2) Déterminons t : p(−t ≤ τ ≤ t) = 0, 90 ⇒ 2Π(t)−1 = 0, 90 ⇒ Π(t) = 2
= 0, 950.
D’où t = 1, 65

Exemple 4.3 X ,→ N (5, 2). Calculer p(X < 9), p(X ≥ 8, 36), p(6 < X < 8).

4.2.3 Approximation de la loi binomiale et de la loi de Poisson


par une loi normale
1) Soit B(n, p) une loi binomiale telle que p n’est ni proche de 0, ni proche de 1 et

n → +∞. Si ces trois conditions sont vérifiées, alors B(n, p) ≈ N (np, npq) où q = 1 − p.
Dans la pratique, si (np ≥ 5 et p ≤ 12 )ou (n(1 − p) ≥ 5 et p > 12 ) ou (np ≥ 20 et

n(1 − p) ≥ 20), alors B(n, p) ≈ N (np, npq).
1
NB : Cette approximation est d’autant meilleur que p et q sont voisin √ de 2 .
2) Soit P(m) une loi de Poisson. Si m → +∞, alors √ P(m) ≈ N (m, m).
Dans la pratique, si m ≥ 1, alors P(m) ≈ N (m, m).
Notion de correction par continuité Lorsqu’on passe d’une v.a.r. discrète (loi
binomiale ou loi de Poisson) à une v.a.r. absolument continue, on effectue une correction
par continuité (cc) pour le calcul des probabilités. C’est-à-dire p(a ≤ X ≤ b) = p(a − 12 ≤
X ≤ b + 21 ).

Exemple 4.4 Soit X ,→ B(200; 0, 45).


1) Calculer X, V ar(X) et σX .
2) Calculer les probabilités p(X ≥ 100), p(X = 90) et p(80 ≤ X ≤ 120).

Solution
p 1) X = 200 × 0, 45 = 90; V ar(X) = X × q = 90 × 0, 55 = 49, 5; σx =
V ar(X) = 7, 03.
2) Comme p = 0, 45 < 0, 5 et np = 90 ≥ 5, alors B(200; 0, 45) ≈ N (90; 7, 03).
p(X ≥ 100) = p(100 ≤ X ≤ 200) = p(99, 5 ≤ X ≤ 200, 5)
Posons τ = X−90
7,03
: on a 99, 5 ≤ X ≤ 200, 5 ⇔ 1, 351 ≤ τ ≤ 15, 718.
p(X ≥ 100) = p(1, 351 ≤ τ ≤ 15, 718) = p(τ ≤ 15, 715) − p(τ ≤ 1, 351) = τ (15, 718) −
τ (1, 351) = 1 − 0, 9115 = 0, 0885. Ainsi, p(X ≥ 100) ' 0, 0885.

4.3 Loi uniforme et loi exponentielle


4.3.1 Loi uniforme : sur un intervalle
Définition 4.3 La loi uniforme sur [a, b] est définie par :
X = [a,b],
1
f (x) = b−a .
0 ailleurs

a+b (b−a)2
Proposition 4.2 Soit X une loi uniforme sur [a, b]. Alors E(X) = 2
, V ar(X) = 12
.

22
4.3.2 Loi exponentielle
Définition 4.4 Une v.a.r. X suit une loi exponentielle de paramètre λ si :
X = R,
0 si x < 0
f (x) = .
λ exp(−λx) si x ≥ 0
1
λ= β
(β > 0).

Proposition 4.3 E(X) = β = σX et V ar(X) = β 2 .

Remarque 4.1 En fiabilité, λ est le taux moyen de défaillance et β est le temps entre 2
défaillances.

Exercice 4.1 Une machine fabrique des tubes en série dont le diamètre X est reparti
selon la loi normale de moyenne 20cm et d’écart-type 1, 5mm.
1) Calculer la probabilité pour qu’une pièce prise au hasard ait un diamètre compris
entre 19, 75cm et20, 25cm.
2) Quel intervalle de centre 20cm peut-on garantir avec une probabilité de 0, 95 ?

Exercice 4.2 Durant une heure de pointe, un autobus circule toute les 15 minutes sur
un certain parcours. Ne sachant pas l’horaire des autobus, une personne se présente à un
arrêt d’autobus sur ce parcours et ceci durant l’heure de pointe. Soit X la v.a. continue
représentant le temps d’attente en minute que l’on suppose uniformément distribué sur
l’intervalle [0, 15].
a) Préciser l’expression de la loi de probabilité de X.
b) Quelle est la probabilité qu’une personne doive attendre entre 5 et 10 minutes ?
c) Quelle est la probabilité qu’une personne doive attendre au moins 12 minutes ?

23
STATISTIQUES

24
Chapitre 5

Statistique à une dimension

5.1 Généralités
5.1.1 Concepts de base de la statistique
Définition 5.1 1. Population ou univers statistique : ensemble (au sens mathématique
du terme) concerné par une étude statistique.On parle parfois de champ de l’étude.
C’est l’ensemble des unités observées.
2. Individu ou unité statistique : Tout élément de la population.
3. Echantillon : Tout sous-ensemble de la population sur lequel sont effectivement
réalisés les observations.
4. Taille de l’échantillon (n) : cardinal du sous ensemble correspondant.
5. Enquête (statistique) : opération consistant à observer (ou mesurer, ou question-
ner,...) l’ensemble des individus d’un échantillon.
6. Recensement : enquête dans laquelle l’échantillon observé est la population tout
entière (enquête exhaustive).
7. Sondage : enquête dans laquelle l’échantillon observé est un sous-ensemble strict de
la population (enquête non exhaustive).
8. Sondage : enquête dans laquelle l’échantillon observé est un sous-ensemble strict de
la population (enquête non exhaustive).
9. Variable (statistique) : c’est une application X définie sur la population et observée
sur l’échantillon.
En fait c’est une application définie sur l’échantillon. X est une caractéristique (âge,
salaire, sexe,...). Si la variable est à valeurs dans R, elle est dite quantitative (âge,
salaire, taille,...) ; sinon elle est dite qualitative (sexe, catégorie socio profession-
nelle, couleurs des yeux,....) Modalité : c’est une valeur prise par la variable sur un
ou plusieurs individus.
10. Données (statistiques) : c’est l’ensemble des individus observés (échantillon), des
variables considérées, et des observations de ces variables sur ces individus. Elles
sont en général présentées sous forme de tableau (individus en lignes et variables en
colonnes) et stockées dans un fichier informatique. Lorsque le tableau ne comporte
que des nombres, il correspond à la notion mathématique de matrice.

25
5.1.2 Les différents types de variable
Une variable peut être qualitative ou quantitative.

Variable qualitative
Par définition, les modalités ne sont pas des valeurs numériques, mais des caractéristiques.
Lorsque ces modalités sont naturellement ordonnées (par exemple la mention au bac
dans une population d’étudiants), la variable est dite ordinale. Dans le cas contraire (par
exemple, la profession dans une population de personnes actives) la variable est dite no-
minale.
-Le type d’observation : les modalités.
- le tableau de présentations des données :

modalités Effectif fréquence

- Absence de fonction de répartition


- Types de diagrammes : diagramme par tuyaux d’orgue (diagramme à bande) et
diagramme à secteur (représentation en camembert).

Variable quantitative
Il existe 2 types de variables quantitatives : les variables quantitatives discrètes et les
variables quantitatives continues.
variable quantitative discrète
En général c’est une variable ne prenant que des valeurs entières (plus rarement décimales).
Le nombre de modalités d’une telle variable est souvent faible (sauf exeption moins d’une
vingtaine). Citons, par exemple, le nombre d’enfants dans une population de familles,
le nombre d’années d’étude après le bac dans une population d’étudiants, le nombre de
voitures assurées par jour par une compagnie d’assurances.
-L’ensemble des valeurs est donc fini ou infini dénombrable.
- le tableau de présentations des données :

val obs (xi ) Effectif fréquence

- Fonction de répartition : en escalier


- Types de diagrammes : diagramme en bâton (effectif ou fréquence) et diagramme
intégal (fréquence cumulée).
Variable quantitative continue
Les modalités ne sont pas des valeurs précises, mais des intervalles réels. Cela signifie
que le sous ensemble de R des valeurs possibles de la variable étudiée a été divisé en n
intervalles contigües appelés classes. En général, les deux raisons principales qui peuvent
amener à considérer comme continue une variable quantitative sont le grand nombre
d’observations distinctes (un traitement en discret sera dans ce cas peu commode) et le
caractère ”sensible” d’une variable (il est moins génant de demander à des individus leur
classe de salaire que leur salaire précis). Cela signifie que les modalités de la variable
apparaı̂ssent soit d’abord sous forme discrète et ensuite elles sont regroupées en classes

26
de valeurs possibles, soit directement sous forme d’intervalles (classes). Nous noterons
[e0 ; e1 ], [e1 ; e2 ], ..., [en−1 ; en ] les classes considérées. Les nombres ei−1 et ei sont appelés les
bornes de la i‘eme classe ; ci = ei−12+ei est le centre de cette classe et ai = ei − ei−1
l’amplitude de la classe.
-Les valeurs observées sont réparties en classes.
-Le tableau de présentations des données :

classe([ei−1 ; ei ]) Effectif fréquence

- Fonction de répartition : F telle que sa courbe passe par les points d’abscisses ei .
- Types de diagrammes : histogramme (effectif ou fréquence) et diagramme intégal
(courbe de F ).
Exemple 5.1 – Exemple 1
Lors d’un contrôle d’une chaı̂ne de médicaments, on s’interesse au nombre X de
comprimés défectueux dans un lot. L’étude de 200 lots a donné les résultats sui-
vants :

nbre de comp défect par lot 0 1 2 3 4 5


nbre de lot 75 53 39 23 9 1
- Population : ensemble des 200 lots de comprimés.
-Individu : 1 lot de comprimé
-Caractère étudié : nbre de comprimé défectueux
1) Construire le diagramme en bâton de X.
2) Définir sa fonction de répartition.
3) Déduire la coube cumulative de X.
– Exemple 2
Le service de maternité s’intérroge sur le poids X de naissance des nouveaux nés ?
Pour répondre à cette question, les poids en grammes de 100 nouveaux-nés sont dans
le tableau suivant :

classes en g [2000,2500[ [2500,3000[ [3000,4000[ [4000,4500[ [4500,5000[ total


Effectifs 6 22 34 31 7 100
1)Dessiner l’histogramme de X.
2) Définir sa fonction de répartition.
3) Dessiner le diagramme intégral ou la courbe cumulative.
– Exemple 3
Une crème dermatoligique est testée sur 1 échantillon de 150 femmes également
réparties en 3 groupes en fonctions de leur type de peau : mate ; normale ou claire.
On s’interesse à d’éventuelles réactions allergiques à la crème en fonction du type
de peau.

type de peau mate normale clair


nbre d’allergie 3 7 13
Donner la représentation graphique en camembert des réaction allergique en fonction
du type de peau.

27
Chapitre 6

CALCUL DES PARAMETRES


D’UNE VARIABLE STATISTIQUE

NB : Il s’agit ici d’un caractère quantitatif


Dans ce chapitre, nous considérons une population de taille n décrit suivant la variable
statistique X définie par ses p valeurs possibles x1 , x2 , ..., xp .
La représentation graphique d’une distribution statistique, a permis de dégager l’allure
génerale de la série observée. En rapprochant les graphiques représentant les distributions
de 2 ou plusieurs caractères, on peut éffectuer des comparaisons entre celles-ci ; comparai-
sons qui auraient été bien difficiles à la simple lecture des tableaux. Néanmoins, la com-
paraison devient difficile si elle porte sur un grand nombre de distributions statistiques. Il
faut donc trouver d’autres methodes permettant de telles comparaisons. De l’examen de
la représentation graphique d’une distribution statistique, l’oeil retire 2 impressions : - la
première est une impression au centre, qui concerne les valeurs de la variable situées au
centre de la distribution : ce sont les caractéristiques de tendance centrale. - la deuxième
est relative à la fluctuation des observations autour de la tendance centrale : c’est la dis-
persion de la série. On peut donc définir deux caractéristiques (une de tendance centrale et
une de dispersion) d’une série statistique, pour resumer assez complètement l’information
contenue dans celle-ci.
Yule (statisticien britannique) a donné les propriétés souhaitables que doit présenter
une bonne caractéristique de tendance centrale ou de dispersion ; elle doit :
1. être définie de façon objective ; c’est à dire 2 personnes différentes doivent aboutir
au même resultat numérique. Ceci tend à exclure les définitions géometriques au profit
des définitions algébriques.
2. dépendre de toutes les observations, de façon à caractériser réellement toute la série.
3. avoir une interprêtation concrète, simple et immédiate.
4. être simple à calculer ; ceci conduit à utiliser quelques fois une caractéristique
théoriquement moins bonne qu’une autre, mais plus facile à calculer.
5. se prêter aisément au calcul algébrique ; c’est-à-dire avoir de bonnes propriétés de
déduction dans certains cas.
6. être peu sensible aux fluctuations d’échantillonnage.

28
6.1 Les caractéristiques de tendance centrale
Trois caractéristiques sont généralement utilisées : le mode, la médiane et la moyenne
arithmétique (ou simplement moyenne).

6.1.1 Le mode ou valeur modale


Le mode d’une distribution statistique est la valeur de la variable qui a la plus grande
fréquence. Détermination pratique :
1. Lorsque la variable est discrète, le mode est défini avec précision.
2.Lorque la variable est continue, on définit la classe modale comme la classe dont la
fréquence moyenne par unité d’amplitude est la plus élévée. Mais ces valeurs dépendent
beaucoup du découpage choisi. Donc la détermination du mode dans ce cas est moins
précise.

Remarque 6.1 Certaine distributions peuvent présenter plusieurs modes ou plusieurs


classes modales ; on distingue alors les distributions unimodales et les distributions pluri-
modales.

6.1.2 La médiane
La médiane d’une distribution statistique est toute solution de l’équation FX (x) = 12
. Si on suppose les observations rangées par valeurs croissantes des modalités, la médiane
est la valeur qui divise l’effectif en 2 parties égales.

Remarque 6.2 1 La médiane peut ne pas exister (l’équation FX (x) = 0.5 n’admet pas
toujours une solution).
2. la médiane peut exister et ne pas être unique.
3. Si la variable est continue et FX est strictement croissante, la médiane existe et est
unique.
Détermination pratique :
• Cas d’une variable discrète. En général FX (x) = 0.5 n’a pas de solution. On distingue
2 cas :

Premier cas : ∀xi , FX (xi ) 6= 0.5. Dans ce cas, on convient de dire que la médiane est
la valeur xi telle que FX (xi ) < 12 < FX (xi+1 ) c’est à dire f1 + f2 + ... + fi−1 < 12 <
f1 + f2 + ... + fi .
Deuxième cas : ∃xi tel que FX (xi ) = 0.5. Dans ces conditions, ∀x ∈ [xi , xi+1 [, FX (xi ) =
0.5. [xi , xi+1 [ est appelé intervalle médian.
• Cas d’une variable continue. En général, l’équation FX(x) = 0.5 a une racine unique ;
sa résolution n’est pas commode, et on se contente dans un premier temps, de situer la
médiane dans une classe appelée classe mediane. L’estimation de la valeur précise de la
médiane est ensuite obtenue par interpolation linéaire à l’intérieur de la classe médiane.
(ei−1 , ei ) est la classe mediane si FX (ei−1 ) < 12 < FX (ei ). Par interpolation linéaire, on a :
M − ei−1 ei − ei−1 M − ei−1 ei − ei−1
= ⇔ =
FX (M ) − FX (ei−1 ) FX (ei ) − FX (ei−1 ) 0.5 − Fi−1 Fi − Fi−1

29
d’où l’on tire
(0.5 − Fi−1 )
M = ei−1 + (ei − ei−1 )
fi
ou encore
( n2 − nFi−1 )
M = ei−1 + (ei − ei−1 ) .
ni
Notion de quantile et applications : On se donne une valeur α ∈]0, 1[ et on
recherche xα tel que FX (xα ) = α. La valeur xα qui n’est pas nécessairement unique est
appelée quantile (ou fractile) d’ordre α de la série. Les quantiles les plus utilisés sont
associés à des valeurs particulières de α. Ainsi la médiane est le quantile d’ordre 12 . On
appelle premier quartile (noté en général Q1 ), le quantile d’ordre 14 , et troisième quartile
(noté Q3 ) celui d’ordre 43 . Le deuxième quartile (Q2 ) est donc confondu avec la mediane.
D’autres quantiles d’usage courant sont les quintiles, les déciles et les centiles.

6.1.3 La moyenne
La moyenne du caratère X est le réel noté X̄, défini par
p p
1X X
X̄ = n i xi = f i xi
n k=1 k=1

Cette formule est directement applicable aux variables statistiques discrètes. Dans le
cas d’une variable continue, on remplace la classe (ei−1 , ei ) par son centre ci = ei−12+ei .
Donc p p
1X X
X̄ = n i ci = f i ci
n k=1 k=1

Remarque 6.3 On utilise généralement les effectifs pour calculer X̄ car les fréquences
peuvent introduire des erreurs de calcul.

Interpêtation : La moyenne du caractère X est la modalité que l’on aurait si on suppose


que tous les individus présentent la même modalité ; c’est donc le meilleur resumé de
l’ensemble des modalités du caractère. Le lecteur pourra montrer que X est la valeur la
plus proche de toutes les modalités du caractère au sens de la norme Euclidienne (voir
propriétés algebriques de la moyenne).
Propriétés algébriques de la moyenne
1. Changement de variable. Si Y = aX + b où a et b sont 2 réels, alors Ȳ = aX̄ + b.
Dans certains cas, le calcul direct de X̄ à partir des modalités xi du caractère X peut être
lourd. Dans ces conditions, pour simplifier les calculs, l’on peut effctuer un changement
de variable X 0 = X−b a
où a et b sont judicieusement choisis de sorte que le calcul de X̄ 0
puisse s’effectuer facilement. De X̄ 0 , on déduit X̄ = aX̄ 0 + b.
p
2. X̄ = n1
P
fi (xi − X̄) = 0. En d’autres termes, la moyenne des écarts par rapport à la
k=1
moyenne est égale à 0.
p
1
fi (xi − a)2 . Donc X̄ est la valeur la
P
3. La moyenne X̄ minimise la fonction Q(a) = n
k=1
plus proche des modalités de la variable X, au sens de la distance Euclidienne.

30
6.1.4 Généralisation de la notion de moyenne
Soit ϕ une fonction continue et monotone sur le segment [x1 , xp ] des modalités du
Pp
caractère X. La ϕ-moyenne de X est la quantité Mϕ telle que ϕ(Mϕ ) = fi ϕ(xi ).
k=1

Exemple 6.1 Moyenne d’ordre r. C’est la ϕ-moyenne pour l’application ϕ(x) = xr . C’est
donc Mr tel que
p
X
r
(Mr ) = fi x i r
k=1

Cas particuliers : - Pour r = 1,


p
X
M1 = fi xi = X̄.
k=1

C’est la moyenne arithmétique.


- Pour r = 2, on a
p
X
2
(M2 ) = f i xi 2
k=1

donc v
u p
uX
M2 = t fi xi 2 = Q.
k=1

M2 est en général notée Q. Q est appelé moyenne quadratique.


- Pour r = -1 p
X
(M−1 )−1 = fi xi −1 ,
k=1

d’où
1
M−1 = p = H.
P 1
fi
k=1 xi
H est appelé moyenne harmonique. Moyenne géometrique : C’est la ϕ-moyenne pour
l’application ϕ(x) = lnx. Donc c’est G tel que
p p
X Y
lnG = fi lnxi = ln( x i fi )
k=1 k=1

d’où p
Y
G= x i fi .
k=1

Remarque 6.4 1- La plus recommandée des moyennes que nous venons de proposer est
la moyenne arithmétique X̄. Cependant les autres moyennes (en l’occurence les moyennes
géométriques et harmoniques) sont adaptées à des cas particuliers précis.

2- On a H ≤ G ≤ X̄ ≤ Q, avec égalité ssi les xi sont égaux.

31
6.2 Les caractéristiques de dispersion
6.2.1 La variance et l’écart-type
• La variance du caractère X, est le réel noté σX 2 défini par
p p
2 1X 2
X 2
σX = ni (xi − X̄) = fi (xi − X̄) .
n k=1 k=1

• L’écart-type de X est σX , la racine carrée de la variance.


Interprêtation : La variance de X est la moyenne des carrés des écarts à la moyenne.
L’écart-type est la moyenne quadratique des écarts à la moyenne ; c’est un nombre exprimé
dans la même dimension que X : c’est donc une sorte de distance moyenne des observations
à leur moyenne X̄.
Formule utilisée dans les calculs :
p
2 1X 2
σX = ni (xi − X̄)
n k=1

p
1X 2
= ni (xi 2 − 2xi X̄ + X̄)
n k=1
p
1 X
= [( ni xi 2 ) − 2nX̄ 2 + nX̄ 2 ]
n k=1
p
1X
= ni xi 2 − X̄ 2 .
n k=1
Cette formule est directement applicable aux variables statistiques discrètes. Dans le
cas d’une variable continue, on remplace la classe (ei−1 , ei ) par son centre ci = ei−12+ei .
Propriétés de la variance : Comme la moyenne, elle satisfait assez bien l’ensemble
des conditions de Yule. Elle est moins sensible aux fluctuations d’échantillonnage et
possède de bonnes propriétés algébriques.
Changement de variable : Si Y = aX + b, alors σY 2 = a2 σX 2 donc σY = |a|σX .

6.2.2 Coéfficient de variation


C’est une caractéristique de dispersion relative. Il permet de comparer, les dispersions
des distributions qui ne sont pas exprimées dans la même unité, ou des distributions dont
les ordres de grandeur sont très differents. Il est défini par CV = σX̄X . C’est donc un
nombre sans unité.

6.2.3 L’étendue
C’est la différence entre la plus grande et la plus petite des valeurs observées. e =
xk − x1 .

32
6.2.4 L’écart inter-quartiles
C’est la différence entre le troisième quartile et le premier quartile : Q3−Q1 L’intervalle
(Q1, Q3) est appelé intervalle inter-quartiles. C’est donc l’intervalle qui contient 50% des
observations, en laissant 25% à gauche et 25% à droite.

6.2.5 Moments centrés et non centrés


Moment non centré d’ordre r : C’est la quantité
p
X
mr = f i xi r .
k=1

Moment d’ordre r par rapport à a : C’est la quantité


p
X
r
µa = fi (xi − a)r .
k=1

Moment centré d’ordre r : C’est


p
X
µr = fi (xi − X̄)r .
k=1

On a :mr = (Mr )r
m0 = 1; m1 = X̄; m2 = σX 2 + m1 2 ;
µ0 = 1; µ1 = 0; µ2 = σX 2 .
Fonction génératrice des moments (FGM)
FGM non centrés : c’est la fonction m(t) définie par :
p
X
m(t) = fi etxi .
k=1

FGM centrés : c’est la fonction µ(t) définie par :


p
X
µ(t) = fi et(xi −X̄) .
k=1

Remarque 6.5 1- La fonction m(t) est souvent appelée fonction génératrice des moments
de la variable statistique X. Cette fonction caractérise la loi statistique (ou distribution)
de X dans la population.
2- La variable statistique X peut être considérée comme une v.a.r dont la loi de proba-
bilité est donnée par le tableau de fréquences de X. Dans ces conditions, on a X̄ = E(X)
espérance mathématique de X et m(t) = E(e(tX) ).

33
Chapitre 7

Distributions Statistique à deux


variabes

7.1 Présentations générales d’un tableau à double


entrée
Soit une population P, constituée de n individus sur chacun desquels on a fait une
observation concernant simultanément les variables X et Y . X et Y peuvent être tous les
deux qualitatifs, ou l’un qualitatif et l’autre quantitatif ou touts deux quantitatifs.

Définition 7.1 La distribution statistique à deux variables relative au couple (X, Y ) est
définie par la donnée :
- les p valeurs possibles de X : x1 , x2 , ..., xp ;
-les q valeurs possibles de Y : y1 , y2 , ..., yq ;
- des p × q effectifs correspondant aux observations (X = xi ; Y = yj ) notée nij .

Tableau à Double entrée (contingence)

X/Y y1 ... yj ... yq T


x1 n11 ... n1j ... n1q n1.
... ... ... ... ... ... ...
xi ni1 ... nij ... niq ni.
... ... ... ... ... ... ...
xp np1 ... npj ... npq np.
T n.1 ... n.j ... n.q n
Notations
q
:
P
- ni. = nij est l’effectif de la modalité xi ;
j=1
ni.
- fi. = n
est la fréquence de ces individus ;
p
P
- n.j = nij est l’effectif de la modalité yj ;
i=1
n.j
- f.j = n
est la fréquence de ces individus ;

34
nij
- fij = n
est la fréquence des individus qui ont les modalités xi et yj ;
p P
P q
- n = n.. = nij est l’effectif total de la population étudiée.
i=1 j=1
N.B. Dans toute la suite, nous considérons que X et Y sont des variables quantita-
tives.

7.2 Distributions marginales et conditionnelles


7.2.1 Distributions marginales et caractéristiques marginales
La dernière colonne du tableau ci-dessus qui contient les effectifs ni. correspondant à
chaque valeur xi de la variable X, est la distribution marginale de X.

Modalités de X effectifs
x1 n1.
... ...
xi ni.
... ...
xp np.
T n
Les caractéristiques marginales de X sont :
p
- X̄ = n1
P
ni. xi est la moyenne marginale de X ;
i=1
p
2 1
− X̄)2 est la variance marginale de X.
P
- σX = n
ni. (xi
i=1
D’une façon analogue, la dernière ligne du tableau à double entrée qui contient les
effectifs n.j correspondant à chaque modalité yj de la variable Y , est la distribution mar-
ginale de Y .
Modalités de Y effectifs
y1 n.1
... ...
yj n.j
... ...
yq n.q
T n
Les caractéristiques marginales de Y sont :
q
- Ȳ = n1
P
n.j yj est la moyenne marginale de Y ;
j=1
q
- σY 2 = 1
− Ȳ )2 est la variance marginale de Y .
P
n
n.j (yj
j=1

Remarque 7.1 Si X (resp. Y) est une variable continue, xi (resp. yj ) est choisi, par
convention, égal au centre de la classe correspondante, comme pour le calcul de la moyenne
et de l’écart-type des distributions à une variable.

35
7.2.2 Distributions et caractéristiques conditionnelles
La colonne j du tableau de contingence décrit la répartition selon la variable X, des
n.j individus présentant la modalité yj de la variable Y. Chaque colonne ainsi désignée,
constitue une distribution conditionnelle de X lié par Y = yj .

X/Y = yj x1 ... xi ... xp T


ef f ectif s n1j ... nij ... npj n.j
Il y a donc q distributions conditionnelles de X. Les caractéristiques de la variable
conditionnelle X/Y = yj sont :
p
- x¯j = n1.j
P
nij xi est la j ème moyenne conditionnelle de X ;
i=1
p
2 1
nij (xi − x¯j )2 .
P
- σXj = n.j
i=1
De façon analogue, la ligne i du tableau de contingence décrit la répartition selon la
variable Y, des ni. individus présentant la modalité xi de la variable X. Chaque colonne
ainsi désignée, constitue une distribution conditionnelle de Y lié par X = xi .

Y /X = xi y1 ... yj ... yq T
ef f ectif s ni1 ... nij ... niq ni.
Il y a donc p distributions conditionnelles de Y. Les caractéristiques de la variable
conditionnelle Y /X = xi sont :
q
- ȳi = n1i.
P
nij yj est la i ème moyenne conditionnelle de Y ;
j=1
q
- σyi 2 = 1
nij (yj − ȳi )2 .
P
ni.
j=1
Relations entre caractéristiques marginales et conditionnelles
q
- X̄ = n1
P
n.j x¯j .
j=1
p
1
P
- Ȳ = n
ni. ȳi .
i=1
La moyenne marginale est donc égale à la moyenne des moyennes conditinnelles.

Exercice Trouver la relation entre la variance et les variances conditionnelles.

La variance marginale est donc égale à la somme de la moyenne des variances condition-
nelles, et de la variance des moyennes conditionnelles. On constate alors que la dispersion
de la distribution marginale resulte de deux facteurs :
- La dispersion de chacune des distributions conditionnelles autour de leurs moyennes,
et
- La dispersion des moyennes conditionnelles entre elles.

36
7.3 Caractéristiques globales d’une distribution à deux
caractères
Le calcul des distributions marginales et conditionnelles a permis de reduire une distri-
bution à deux dimensions à un ensemble de distributions à une seule dimension, que l’on
peut représenter graphiquement et résumer numériquement par leurs caractéristiques de
tendance centrale et de dispersion. Cependant, il n’est pas possible de caractériser ainsi,
de façon satisfaisante, toute l’information contenue dans une distribution à deux variables.
La représentation graphique de ces distributions, met en effet, en évidence, une nouvelle
notion : celle de dépendance statistique ou corrélatiopn entre les variables observées. Il se
pose alors deux problèmes :
- étudier la forme de la liaison statistique qui existe entre les deux variables : ceci
conduit à la détermination des courbes de régression.
- mesurer l’intensité de cette liaison par un indice approprié : selon le cas, l’indice
permettant de mesurer le dégré de liaison est le rapport de corrélaion ou le coéfficient de
corrélation linéaire.

7.3.1 Les types de liaison


Soient X et Y deux variables observées dans une population P comme indiqué dans le
tableau de contingence
Indépendance de X et Y : Les caractères X et Y sont indépendants si fij =
fi. × f.j , ∀i = 1, ..., p, ∀j = 1, ..., q.
Dans ces conditions, les lois conditionnelles sont identiques à la loi marginale cor-
respondante. Il s’en suit que la connaissance de la valeur prise par l’une des variables,
n’apporte aucune information supplémentaire sur la distribution de l’autre.
L’indépendance est reciproque.

Liaison fonctionnelle : Il y a une liaison fonctionnelle de X vers Y, si la connaissance


de la modalité xi d’un individu pour X, permet de connaı̂tre sans ambigüité la modalité
yj du même individu pour Y.
La liaison fonctionnelle n’est pas réciproque.

Dépendance statistique ou corrélation : Le caractère Y est en corrélation avec le


caractère X, si la connaisance de la modalité xi d’un ndividu pour le caractère X, apporte
une information suppémentaire sur les valeurs susceptibles d’être prises par Y.
La corrélation n’est pas réciproque.

Pour illustrer cette notion de corrélation, prenons un exemple simple. Supposons que
l’on étudie la population de yaoundé du point de vue de deux caractères, X le quartier
d’habitation et Y le revenu de l’habitant. Si nous savons qu’un habitant réside à Bastos,
ceci donne déjà une information sur le niveau de son revenu. Cependant, on ne peut pas
dire exactement le montant de ce revenu (l’information n’est pas totale) ; en revanche, on
peut savoir si ce revenu est plus ou moins élévé (l’information n’est pas nulle). Donc Y
est en corrélation avec X.

37
7.3.2 Courbes de regressions et droites de regressions
Il existe deux courbes de regression : la courbe de regression de Y en X et la courbe
de regression de X en Y.

Définition 7.2 1) (Courbe de regression de Y en X). C’est la courbe représentative des


variations de la fonction définie par :xi → ȳi moyenne de la variable conditionnelle Y /X =
xi ;
2) (Courbe de regression de X en Y). C’est la courbe représentative des variations de
la fonction définie par : yj → x¯j moyenne de la variable conditionnelle X/Y = yj .

En générale, ces courbes de regression représent des fonctions complexes et non exploi-
tables. A cet effet, on procède à un ajustement.
Pour ajuster, on choisit une famille de fonctions simples (polynomiales le souvent)
dans laquelle on détermine la fonction dont la représentation graphique est la ”plus proche
possible“ au sens des moindres carrés du nuage de points.
Concrètement : A chaque individu présentant les modalités xi de X et yj de Y, on
fait correspondre le point Pij du plan de coordonnées (xi , yj ). L’ensemble des points Pij
ainsi obtenu est appelé nuage de points. A chaque xi correspond une distribution de la
variable Y : c’est la distribution conditionnelle de Y lié par X = xi , Y /X = xi .
Problème : Quelle est la courbe la plus proche du nuage de points ? Soit y = ϕ(x)
l’équation de cette courbe. La distribution conditionnelle Y /X = xi est :

Y /X = xi y1 ... yj ... yq T
ef f ectif s ni1 ... nij ... niq ni.
Lorsqu’on remplace les points Pij (xi , yj ), j = 1, ..., q par le point Qi (xi , ϕ(xi )), on commet
une erreur que l’on convient de mesurer par
q q
X
2 1X
fij (yj − ϕ(xi )) = nij (yj − ϕ(xi ))2 .
j=1
n j=1

L’erreur totale lorsqu’on remplace tout le nuage de points par les points de la courbe
y = ϕ(x) est alors
p q p q
X X
2 1 XX
fij (yj − ϕ(xi )) = nij (yj − ϕ(xi ))2 = ∆(ϕ).
i=1 j=1
n i=1 j=1

On souhaite en fait faire le remplacement avec la plus petite erreur possible. Donc
nous cherchons ϕ qui minimise ∆(ϕ).

Remarque 7.2 1) En remplaçant les points Pij par les points Qi , on a en fait décidé de
consever les xi observés et de n’introduire l’erreur que sur les yj : l’écart entre Pij et Qi
est mesurée parallèlement à l’axe des ordonnées.
2) ∆(ϕ) est appelé critère des moindres carrés, car on minimise la somme des carrés
des écarts. De ce fait, la courbe de regression de Y en X est aussi appelée courbe des
moindres carrés.

38
Dans le cadre de ce cours, nous nous limiterons à l’ajustement linéaire.

Ajustement linéaire, droites des moindres carrés


Etant donné le nuage de points obtenu, nous cherchons la droite la plus proche de ce
nuage. Soit y = ax + b l’équation de cette droite. L’erreur que l’on commet en remplaçant
les Pi j par les Qi est dans ce cas
p q
X X
∆(a, b) = fij (yj − axi − b)2
i=1 j=1

Il faut déterminer a et b de sorte que ∆(a, b) soit minimum.


Détermination de a et b : Pour cela on résoud le système d’équations
(
a∆(a,b)
=0 (1)
aa
a∆(a,b) (7.1)
ab
=0 (2)

p P
q p q p q p q
P X X X X X X
(2) ⇔ −2 fij (yj − axi − b)) = 0 ⇔ fij yj − a fij xi − fij b =
i=1 j=1 i=1 j=1 i=1 j=1 i=1 j=1
q p
X X
0⇔ f.j yj − a fi. xi − b = 0 ⇔ Ȳ − aX̄ = b. (3)
j=1 i=1

Donc si D est la droite des moindres carrés, elle passe par le point (X̄, Ȳ ) centre de
gravité du nuage. En remplaçant b par sa valeur dans ∆(a, b) et en résolvant (1), on
obtient : p P q
P
fij (xi − X̄)(yj − Ȳ )
i=1 j=1
a=
σX 2

Ainsi, la droite de regression de Y en X est déterminée par :


 p P q
fij (xi − X̄)(yj − Ȳ )
P

i=1 j=1
a= σX 2
pente de la droite et (7.2)
b = Ȳ − aX̄

Par analogie, la droite de regréssion de X en Y est déterminée par :


 p P q
fij (xi − X̄)(yj − Ȳ )
P

0 i=1 j=1
a = σY 2
pente de la droite et (7.3)
0 0
b = X̄ − a Ȳ

p P
P q
Définition 7.3 i) cov(X, Y ) = fij (xi − X̄)(yj − Ȳ ) est appelé covariance de X et
i=1 j=1
Y.
cov(X,Y )
ii) r = σX σY
est appelé coéfficient de corrélation de X et de Y.

Exercice d’application

39
Soit la distribution statistique à deux variables définie par le tableau suivant :

X/Y −1 0 1 2 ni.
0 0 5 0 0 5
1 4 3 2 1 10
n.j 4 8 2 1 15

1) Déterminer les distributions marginales associées à cette série.

2) Déterminer les différentes distribution conditionnelles de X lié par Y = yj et de Y


lié par X = xi pour tout i et pour tout j.

3) Calculer les moyennes marginales et les variances marginales.

4) Calculer les moyennes conditionnelles et les variances conditionnellles pour tout i


et pour tout j.

5)Calculer la covariance du couple (X, Y ) et le coéfficient de corrélation r.

6) Déterminer les équations des droites de regréssion de Y en X et de X en Y.

7) Construire le nuage de point et placer le point moyen dans un repère (O, i, j), et
construire les droites ci-dessus.

40
Chapitre 8

LES SERIES CHRONOLOGIQUES

8.1 Introduction et définitions


Définition 8.1 Une série chronologique est une série statistique à deux variables dont
l’une, le temps, est reporté sur l’axe des abcisses ou une suite ordonnée d’observations
d’une grandeur chiffrée au cours du temps.

Le but de l’étude est de décrire, prévoir, expliquer un phénomène évoluant au cours


du temps.
Nous supposons que les observations sont éffectuées à intervalle de temps constant.
Notation : - N est le nombre total d’observations ;
- les observations sont ordonnées et repérées par un indice t = 1, ..., N ;
- la tème obsevation est notée Yt .

Exemple 8.1 Le tableau ci-dessous donne le nombre de vente par timestre de l’entrepise
CARREFOUR

Numéro du trimestre Ventes


1990 1 860
2 794
3 1338
4 1148
1991 1 1096
2 1021
3 1705
4 1505
1992 1 1436
2 1363
3 2319
4 2047

N = 12; Y6 = 1021.

41
Représentation graphique : On trace la ligne brisée reliant les valeurs de Yt en fonction
du temps (t).

8.2 Eléments constitutifs d’une série chronologique


- Tendance à long terme(Trend) : notée Tt , traduit l’évolution globale du phénomène.
Elle traduit le comportement ” moyen” de la série.

On remarque sur le graphique une tendance à l’augmentation du chiffre


d’affaire.

- Mouvement saisonnier (variations saisonnières) : noté St , représente les fluc-


tuations périodiques dues au rythme des saisons, à des facteurs humains (fêtes, jours
fériés...),... Cette composante est périodique de période p.

• p = 4 : série trimestrielle
• p = 12 : série mensulle
Avec p facteurs saisonniers, on caractérise le mouvement saisonnier.

L’influence des facteurs saisonniers sur une année est nulle.

On remarque sur le graphique que le chiffre d’affaires augmente chaque


annéee aux 2ème et 3ème trimestres, il baisse aux 1er et 4ème trimsetres.

- Les irrégularités ou mouvement résiduel : noté Et , fluctuations irrégulières et


imprévisibles dues à des pertubations non permanentes. On les suppose de faible ampli-
tude et de moyenne nulle.

42
- Les pertubations : variations ponctuelles de fortes amplitude dues à des grèves,
des conditions météorologiques exceptionnelles, un crash financier,... On les repère gra-
phiquement. Il faut les enlever avant toute étude statistique.

Dans la suite, on suppose qu’il n’ya pas de perturbations.

8.3 Les modèles de décomposition


8.3.1 Modèle additif
Les différentes composantes Tt , St , Et sont supposées indépendantes et s’ajoutent les
unes aux autres :

Yt = Tt + St + Et .(A)
L’amplitude de la composante saisonnière et du mouvement résiduel reste constante au
cours du temps. Ceci se traduit graphiquement par des fluctuations autour de la tendance
d’amplitude constante.
Hypothèses : Pour des raisons d’unicité d’écriture de la décomposition (A), on suppose
que :
p n
X X
Sj = 0; Et = 0.
j=1 t=1

Ainsi, on est assuré que les composantes St , Et sont centrées et donc toute l’information
concernant la tendance c’est-à-dire le comportement”moyen” est uniquement contenu dans
la composante Tt .

43
8.3.2 Modèle multiplicatif

Yt = Tt × St × Et .(B)
Dans ce modèle, l’amplitude de la composante saisonnière et du mouvement résiduel
n’est plus constante au cours du temps : elles varient au cours du temps proportionnelle-
ment à la tendance Tt .
Hypothèses : Pour assurer la cohérence de l’écriture de la décomposition (B), on
suppose que :
p n
X 1X
Sj = p ; Et = 1.
j=1
n t=1

8.4 Analyse de la tendance


8.4.1 Moyennes Mobiles Simple
La série des moyennes mobiles d’ordre k, notée Mk (t), est la série des moyennes de k
observations consécutives et elles prend ses valeurs aux dates moyenn es correspondantes.
Plus précisément, on calcule les moyennes de k termes consécutifs pour les dates :
t1 + t2 + ....tk t2 + t3 + ....tk+1 tn−k + tn−k+1 + ....tn
, puis ... jusqu’à
k k k
et pour la variable d’intérêt :
y1 + y2 + ....yk y2 + y3 + ....yk+1 yn−k + yn−k+1 + ....yn
, puis ... jusqu’à .
k k k
Remarque 8.1 1) Si k est impair : k = 2m + 1, la série moyenne mobile est cal-
culée aux mêmes instants que les observations initiales (t = 2, 3, 4, ..., 11). En revanche,
lorsque k est pair : k = 2m, la moyenne mobile est calculée entre les dates d’observa-
tion(t=1.5 ;2.5 ;... ;11.5)
2) On perd (k − 1) observations avec une moyenne mobile d’ordre k.

• Si k est impair k = 2m + 1
m
1 X
Mk (t) = yt+i
k i=−m

• Si k est pair k = 2m
m
1 X
Mk (t) = yt+i
k i=−m

44
Exemple 8.2 Calcul d’une moyenne mobile d’ordre 3 des ventes de l’entreprise CAR-
REFOUR.

Numéro du trimestre Ventes date Moy. mobile M3 (t)


1990 1 860
2 794 2 997,33
3 1338 3 1093,33
4 1148 4 1194
1991 1 1096 5 1088,33
2 1021 6 1274
3 1705 7 1410,33
4 1505 8 1548,66
1992 1 1436 9 1434,66
2 1363 10 1706
3 2319 11 1909,66
4 2047

Exemple 8.3 Calcul des moyennes mobiles simple d’ordre 4 des ventes de l’entreprise
CARREFOUR.
0 0
Numéro du trimestre Ventes date Moy. mobile t M4 (t )
1990 1 860
2 794
3 1338 2.5 1035
4 1148 3.5 1094
1991 1 1096 4.5 1150.5
2 1021 5.5 1242.5
3 1705 6.5 1331.75
4 1505 7.5 1416.75
1992 1 1436 9.5 1502.25
2 1363 10.5 1655.75
3 2319 11.5 1791.25
4 2047

Remarque 8.2 1) Si k est impair : k = 2m + 1, la série moyenne mobile est cal-


culée aux mêmes instants que les observations initiales (t = 2, 3, 4, ..., 11). En revanche,
lorsque k est pair : k = 2m, la moyenne mobile est calculée entre les dates d’observa-
tion(t=1.5 ;2.5 ;... ;11.5)

45
8.4.2 Moyennes Mobiles centrées
On a vu qu’une moyenne mobile d’ordre pair se calcule à des dates qui ne coincident
pas avec les dates des observations. Si l’on veut comparer la série lissée avec la série
initiale, on a besoin d’avoir les valeurs pour les mêmes dates d’oservations. On définit les
moyennes mobiles centrées pour pallier à cet inconvénient des moyennes mobiles simples
d’ordre pair.
Ainsi, on définit la série des moyennes mobiles centrées d’ordre k = 2m, notée M C k (t),
0
à partir de la moyenne mobile simple d’ordre pair Mk (t ) par
0 0 m−1
Mk (t ) + Mk (t + 1) 1 xt−m X xt+m
M C k (t) = = [ + xt+i + ].
2 k 2 i=−m+1
2

Exemple 8.4 Calcul des moyennes mobiles centrées d’ordre 4 des ventes de l’entreprise
CARREFOUR.

Numéro du trimestre Ventes date Moy. mobile Moy mobile simple M C 4 (t)
1990 1 860
2 794
3 1338 2.5 1035 1064,5
4 1148 3.5 1094 1122.25
1991 1 1096 4.5 1150.5 1196.5
2 1021 5.5 1242.5 1287.12
3 1705 6.5 1331.75 1374.25
4 1505 7.5 1416.75 1459.5
1992 1 1436 9.5 1502.25 1578.85
2 1363 10.5 1655.75 1723.5
3 2319 11.5 1791.25
4 2047

Remarque 8.3 M C 4 (1), M C 4 (2), M C 11 (t) et M C 12 (t) n’existent pas.

Si la période du mouvement saisonnier est p, on approxime le Trend par la


moyenne mobile d’ordre p.
Tt = Mp (t).

Exemple 8.5 Calcul du Trend des ventes de l’entreprise CARREFOUR.

46
Numéro du trimestre Ventes Trend
1990 1 860
2 794
3 1338 1064,5
4 1148 1122.25
1991 1 1096 1196.5
2 1021 1287.12
3 1705 1374.25
4 1505 1459.5
1992 1 1436 1578.85
2 1363 1723.5
3 2319
4 2047

8.4.3 La prévision : interpolation linéaire


Comment à partir des valeurs du Trend, peut-on prévoir ses valeurs futures ?
Si les points sont à peut près alignés, on peut faire de l’interpolation linéaire.

cov(T̄t , t)
T̄t = at + b où a= , b = T̄t − at̄.
V (t)
cov(T̄t , t)
Le coéfficient de corrélation linéaire : = .
σ(Tt ) × σ(t)

Exemple 8.6 Calcul du Trend des ventes de l’entreprise CARREFOUR.

Numéro du trimestre Ventes Trend T rend2 T rend × t


1990 1 860
2 794
3 1338 1064,5 1133160 3194
4 1148 1122.25 1259445 4489
1991 1 1096 1196.5 1431612 5983
2 1021 1287.12 1656678 7723
3 1705 1374.25 1888563 9620
4 1505 1459.5 2130140 11676
1992 1 1436 1578.85 2492767 14210
2 1363 1723.5 2970452 17235
3 2319
4 2047

3 + 4 + 5 + 6 + 7 + 8 + 9 + 10
t̄ = = 6.5
8
10801
T̄t = = 1350
8
14.95 × 106
V (Tt ) = − 1350 ' 46309
8

47
9 + 16 + ... + 100
V (t) = − 6.5 ' 5.25
8
74.1 × 103
cov(Tt , t) ' 350 × 6.5 ' 488
8 1
488 ventes
a= ' 93( )
5.25 trimestre
b = 1350 − 93 × 6.5 ' 746(ventes)
488
r=√ ' 0.99
46309 × 5.25
Tt ' 93t + 745.5
avec une très bonne approximtion, car r ' 0.99.

T13 = 93 × 13 + 745.5 ' 1954(ventes)

48

Vous aimerez peut-être aussi