Vous êtes sur la page 1sur 62

Module: Statistiques inférentielles

———————–
Poly de Cours - S3
———————–
Version du 29 novembre 2012

Université Paul Sabatier - Toulouse 3


IUT de Toulouse 3 A
Département GEA PONSAN

Clement Rau
clement.rau@iut-tlse3.fr
Table des matières

1 Définitions de base - Dénombrements 6


1.1 Opérations ensemblistes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.2 Réunion d’ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.3 Intersection d’ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.4 Complémentaire d’un ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.5 Inclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.6 Opérations ensemblistes et Opérations logiques . . . . . . . . . . . . . . . . . 7
1.2 Ensemble fini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.2 Cardinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.3 Cardinal d’un produit cartésien . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Dénombrements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Nombre de partie d’un ensemble fini . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2 La notion de p-listes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.3 Les arrangements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.4 Les combinaisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.5 Formule du binôme de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2 Probabilités pour un Univers Discret 14


2.1 Ensembles, Univers, événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Probabilités d’événements – Équiprobabilité . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.1 Probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.2 Equiprobabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3 Variable aléatoire discrète 24


3.1 Variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.1 Définition générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.2 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.3 Variables aléatoires continues . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Loi d’une variable aléatoire discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2
TABLE DES MATIÈRES 3

3.2.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26


3.3 Paramètres d’une loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.1 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.2 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.3 Propriétés de l’espérance et de la variance . . . . . . . . . . . . . . . . . . . . 29
3.4 Couple de variables aléatoires discretes . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.2 Lois marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4.3 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.4 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.5 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.5 Lois discrètes usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5.1 Loi uniforme sur {1, . . . , n} . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5.2 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.5.3 Loi binomiale B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.5.4 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.6 Approximation d’une loi de Poisson par une Binomiale . . . . . . . . . . . . . . . . . 37

4 Variables aléatoires continues, loi normale 40


4.1 Loi d’une variable aléatoire continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.2 Problématique de la notion de loi dans le cas continu . . . . . . . . . . . . . . 40
4.1.3 Fonction de répartition et loi à densité . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Lois à densité classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.2 Lois exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3 La loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1 Loi normale centrée réduite N (0, 1) . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.2 Loi normale générale N (µ, σ) . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4 La Loi normale comme limite en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.5 Lois dérivées de la loi Normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.5.1 Loi du Khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.5.2 Loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5 Une introduction aux Théorémes limite en Probabilités 48


5.1 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1.1 Un premier pas : Loi faible des grands nombres . . . . . . . . . . . . . . . . . 48
5.1.2 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.3 Quelques applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.3.1 Marcheur dans Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.3.2 Intervalle de confiance lors d’élections . . . . . . . . . . . . . . . . . . . . . . 51
5.3.3 Introduction aux tests statistiques (le test du Chi 2) . . . . . . . . . . . . . . 52
TABLE DES MATIÈRES 4

6 Annexe 59
6.1 Tables Loi Normale N (0; 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.2 Table loi du Chi 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Introduction

Tandis que la statistique peut être assimilée à une analyse, parfois très précise, de données et
est basée sur des valeurs connues, le but de la théorie des probabilités est de modéliser au mieux
les issues éventuelles d’expériences futures (en ne se basant en général sur les résultats d’études
statistiques). Contrairement à la plupart des autres branches des mathématiques, elle repose for-
tement sur la notion d’incertitude et est ainsi consacrée à l’étude de phénomènes aléatoires. Les
probabilités permettent d’évaluer les degrés de prévision d’événements possibles mais non certains,
et introduisent une notion intermédiaire entre ”sûr” et ”impossible”. Cette théorie ne permet pas
de ”prédire” ce qu’il peut se passer sur une expérience aléatoire ”isolée”, parcontre si l’on répéte
cette expérience de manière indépendante et un grand nombre de fois, la théorie permet de ”cer-
ner” certaines quantités. Les probabilités permettent ainsi l’établissement de critères objectifs de
mesure de l’incertitude qui conduisent parfois à des paradoxes célèbres saluant les défaillances de
notre intuition cartésienne dans ce domaine. Un autre avantage de cette théorie est qu’elle offre
un cadre naturel d’analyse pour des systèmes trop complexes pour que l’on puisse en saisir tous
les éléments (grandes populations, systèmes de particules, ordinateurs, comportements collectifs,
marchés boursiers etc.). Ainsi, la connaissance, même parfaite, d’un échantillon de population ne
peut conduire à une certitude totale, mais seulement à une incertitude qui peut être estimée et
quantifiée en terme de probabilités.
Ces notes de cours restant bien évidemment perfectibles, je remercie toute personne me rappor-
tant des coquilles, erreurs ou commentaires.

5
Chapitre 1

Définitions de base -
Dénombrements

Le formalisme probabiliste, tel qu’il est établi aujourd’hui, décrit les issues possibles de tout
phénomène, aléatoire ou non, en termes ensemblistes, dont nous rappelons brièvement ici la signi-
fication.

1.1 Opérations ensemblistes


1.1.1 Généralités
Les ensembles seront principalement notés à l’aide de lettres majuscules A, B, C, D etc., tan-
dis que les objets qui les composent, ses éléments, seront désignés par des lettres minuscules
i, j, k, l, x, y etc. Pour signifier l’appartenance d’un élément i à un ensemble A, on dit parfois que
”i est dans A”, on le note i ∈ A. Si au contraire un élément i n’appartient pas à A, on note i ∈ / A.

1.1.2 Réunion d’ensembles


La réunion de deux ensembles A et B, notée A ∪ B, est l’ensemble constitué des éléments de
A et des éléments de B. On a toujours A ∪ ∅ = ∅ ∪ A = A.

Propriété 1 (Commutativité)

A∪B =B∪A

Propriété 2 (Associativité)

A ∪ (B ∪ C) = (A ∪ B) ∪ C := A ∪ B ∪ C

1.1.3 Intersection d’ensembles


L’intersection de deux ensembles A et B, notée A ∩ B, est l’ensemble constitué des éléments
étant à la fois dans A et dans B. On a toujours A ∩ ∅ = ∅ ∩ A = ∅.

6
CHAPITRE 1. DÉFINITIONS DE BASE - DÉNOMBREMENTS 7

Lorsque A et B n’ont aucun élément en commun, on dit qu’ils sont disjoints et on note A∩B =
∅.

Propriété 3 (Commutativité)

A∩B =B∩A

Propriété 4 (Associativité)

A ∩ (B ∩ C) = (A ∩ B) ∩ C := A ∩ B ∩ C

Propriété 5 (Distributivité)

A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)

1.1.4 Complémentaire d’un ensemble


Soit Ω un ensemble et A une partie de Ω. Le complémentaire de A dans Ω, noté Ω \ A, ou
A lorsqu’il n’y a pas d’ambiguité sur Ω (ou encore Ac ), est l’ensemble constitué des éléments de Ω
qui ne sont pas éléments de A. On appelle aussi parfois ”Ω privé de A” l’ensemble Ω \ A.
Par ailleurs, on a toujours A ∪ A = Ω et A ∩ A = ∅.

Propriété 6 (Lois de Morgan)

A∪B =A∩B (1.1)


A∩B =A∪B (1.2)

1.1.5 Inclusion
Si tous les éléments d’un ensemble A sont aussi éléments d’un autre ensemble B, on dit que ”A
est inclus dans B” et on le note A ⊂ B. On dit aussi que ”A est un sous-ensemble de B”.
On a toujours
A ⊂ A ∪ B; A ∩ B ⊂ A; A ∩ B ⊂ A ∪ B; ∅ ⊂ A.

1.1.6 Opérations ensemblistes et Opérations logiques


On peut dès à présent noter le lien entre ces opérations et les opérations (ou connecteurs)
logiques ”OU”, ”ET” et ”NON” :
– Un élément de A ∪ B est un élément qui appartient à A ”OU” à B.
– Un élément de A ∩ B est un élément qui appartient à A ”ET” à B.
– Un élément de A est un élément qui n’appartient PAS à A.

Attention 1 Le connecteur logique OU mentionné correspond à un ”ou inclusif” : A ∪ B est


l’ensemble des éléments qui sont dans A, ou dans B mais qui peuvent être dans les 2.
CHAPITRE 1. DÉFINITIONS DE BASE - DÉNOMBREMENTS 8

1.2 Ensemble fini


1.2.1 Définitions
Définition 1 On appelle ensemble fini un ensemble ayant un nombre fini d’éléments distincts.

Définition 2 Le nombre d’éléments d’un ensemble fini A est appelé cardinal de A, noté card [A].

Exemple 1 E = {a, b, c} et card [E] = 3.

1.2.2 Cardinal
Propriété 7 Soient A et B deux ensembles finis quelconques,

card [A ∪ B] = card [A] + card [B] − card [A ∩ B] .

Si A et B sont disjoints, c’est-à-dire que A ∩ B = alors,

card [A ∪ B] = card [A] + card [B] .

Corollaire 1 Soit A est un sous ensemble de E.


 
card Ā = card [E] − card [A]

1.2.3 Cardinal d’un produit cartésien


Définition 3 Soient E et F deux ensembles, le produit cartésien noté E × F est l’ensemble de
tous les couples (x; y) où x est élément de E et y élément de F .

Attention 2 E × F est différent de F × E.

Théorème 1 Si E et F sont finis, on a :

card [E × F ] = card [E] × card [F ]

1.3 Dénombrements
Dans le cadre d’un ensemble fini E, la problématiques consiste en :
– la constitution des collections d’ensembles ou d’applications ayant une caractéristique com-
mune (cas favorable),
– comptabiliser le nombre d’objets constituant cette collection.
Le dénombrement ne s’applique qu’à des ensembles finis et fait intervenir deux critères fonda-
mentaux pour la constitution et la distinction des objets a denombrer : la répétition et l’ordre.

Définition 4 (Répétition) Lors de la constitution des collections, chaque élément de E peut etre
utilisé plusieurs fois.

Définition 5 (Ordre) Pour distinguer deux collections, on peut tenir compte de l’ordre des éléments
qui les composent.

Remarque 1 Si l’on autorise la répétition on doit nécessairement faire intervenir l’ordre.


CHAPITRE 1. DÉFINITIONS DE BASE - DÉNOMBREMENTS 9

1.3.1 Nombre de partie d’un ensemble fini


Propriété 8 Soit En un ensemble contenant n éléments. Il y a 2n parties disctincts de E.

Démonstration :
Il existe diverses démonstrations de cette propriétés. On peut par exemple utiliser un arbre et faire
une correspondance entre une feuille et une partie. On peut également utiliser la formule du binôme
de Nenwton...

1.3.2 La notion de p-listes


Définition 6 Soit En un ensemble contenant n éléments. Une p-liste d’éléments de En , est une
liste ordonnée de p éléments de En avec répétitions possible.

Propriété 9 (Expression du nombre de p-listes) Le nombre de p-liste distinctes est égal à np .

Exemple 2 Considérons l’ensemble E = {1, 2, 3, A, B} correspondant aux différentes touches d’un


clavier de digicode dont le code est une succession de 3 caractères issus de E. Combien y-a-t-il de
code différents ?

Ce sont les 3-listes de E il y en a 53 soit 125.

1.3.3 Les arrangements


Considérons En un ensemble fini contenant n éléments différents et p un entier naturel inférieur
ou égal à n.

Définition 7 Un arrangement à p éléments de En est un échantillon ordonné sans remise de p


éléments différents de En .

Propriété 10 (Expression du nombre d’arrangements) Le nombre d’arrangements à p éléments


de En noté Apn est égal à :

Apn = n × (n − 1) × (n − 2) × · · · × (n − p + 1)

Démonstration :
Pour le premier élément, on a n choix possibles. Le premier étant fixé, pour le deuxième élément,
on a (n − 1) choix possibles le tirage étant sans remise. Le premier et le deuxième étant fixés pour
le troisième élément, on a (n − 2) choix possibles... et ainsi de suite jusqu’au pième élément, pour
lequel on a [n − (p − 1)] = n − p + 1 choix possible. On a donc bien

n × (n − 1) × (n − 2) × · · · × (n − p + 1)

arrangements à p éléments de En .

J
CHAPITRE 1. DÉFINITIONS DE BASE - DÉNOMBREMENTS 10

Définition 8 On appelle factorielle n le produit des n premiers entier :

n! = n × (n − 1) × (n − 2) × · · · × 1

avec la convention 0! = 1.

Propriété 11
n!
Apn =
(n − p)!
Démonstration :

n × (n − 1) × · · · × (n − p + 1) × (n − p) · · · × 1
n × (n − 1) × (n − 2) × · · · × (n − p + 1) = ,
(n − p) × · · · × 1
n!
= .
(n − p)!
J

Remarque 2 n! est une touche de la plupart des calculatrices.

Exemple 3 Un joueur se demande combien il peut écrire de grilles différentes de tiercé pour une
course de 16 chevaux. Il y a 16 possibilités pour le premier, 15 pour le second et 14 pour le troisième.
On n’accepte pas les répétitions et on tient compte de l’odre, il s’agit d’arrangements et on a donc
A316 = 16 × 15 × 14 = 3360 possibilités.

Définition 9 (Les permutations) Une permutation de En est un échantillon ordonné sans


remise des n éléments différents pris dans En . C’est donc le cas particulier d’un arrrangement de
n éléments de En .

Propriété 12 Le nombre de permutations de En est donc égal à :

Pn = n!

Exemple 4 Si le joueur de tiercé a précedemment choisi les 3 chevaux qu’il va jouer mais ne sait
pas dans quel ordre il va les placer, il a 3 ! choix possibles c’est à dire 3 × 2 × 1 = 6 possibilités de
tiercé.

1.3.4 Les combinaisons


Soit En un ensemble fini contenant n éléments différents et p un entier naturel inférieur ou égal
à n.

Définition 10 Une combinaison à p éléments de En est un échantillon non ordonné sans remise
de p éléments différents de En . C’est un sous ensemble à p éléments de En . Dans une combinaison
de p éléments, les p éléments sont distincts et non ordonnés.

Propriété 13 (Expression du nombre de combinaisons) Le nombre de combinaisons à p éléments


de En noté Cnp est égal à :
n!
Cnp =
p! (n − p)!
CHAPITRE 1. DÉFINITIONS DE BASE - DÉNOMBREMENTS 11

Démonstration :
On considère les p premiers éléments de En . Avec ces p éléments on peut former p! arrangements
et ces p! arrangements donnent une seule combinaison or on peut former Apn arrangements avec les
Ap
n éléments de En . on a donc p!n combinaisons différentes de En .
J

Remarque 3 – Si p = 0 alors on a une seule combinaison à zéro élément : la partie vide.


– Si p = n alors on a une seule combinaison à n éléments de En : la partie En .
– Si p = 1 alors on a n combinaisons à un élément de En , les n sous-ensembles à un élément
deEn .

Exemple 5 Nous avons vu ci-dessus avec l’exemple du joueur de tiercé que quand on a choisi sans
ordre une partie de 3 éléments parmi 16, il reste 3 ! = 6 manières d’ordonner cette partie. Par
exemple si on choisit la partie (2,7,9) on peut lui associer les 6 permutations : (2,7,9), (2,9,7),
(7,2,9), (7,9,2), (9,2,7) et (9,7,2). En d’autres termes il est possible de regrouper les arrangements
par paquets de 6 correspondant à la même partie. Le nombre d’arrangements (ordonnés) de 3
éléments parmi 16 est donc égal à 6 fois le nombre de combinaisons (non ordonnées) de 3 éléments
parmi 16. On a donc une application du ”Principe des bergers” :

3 A316
C16 = .
3!
Propriété 14 (Formules de calcul)

Cnp = Cnn−p
p−1 p
Cnp = Cn−1 + Cn−1

Démonstration :

1. Choisir les p éléments que l’on veut dans un ensemble de n éléments revient exactement à
choisir les n − p éléments que l’on ne veut pas, d’où le résultat. Mathématiquement, on a :
n!
Cnn−p = ,
(n − p)![n − (n − p)]!
n!
= ,
p!(n − p)!
= Cnp .

2. Soit E une ensemble de n élément. Soit A l’un de ces éléments. Pour choisir p éléments de
p−1
E, je peux soit prendre A et en choisir p-1 autres parmi les n-1 restants (j’ai alors Cn−1
p
possibilités), soit laisser A et en prendre p autres parmi les n − 1 restants (j’ai alors Cn−1
possibilités). D’où le résultat. Mathématiquement, on a
p−1 p (n − 1)! (n − 1)!
Cn−1 + Cn−1 = + ,
(p − 1)!(n − p)! (p)!(n − p − 1)!
p(n − 1)! (n − p)(n − 1)!
= + ,
p!(n − p)! p!(n − p)!
(p + n − p)(n − 1)!
= ,
p!(n − p)!
= Cnp .
CHAPITRE 1. DÉFINITIONS DE BASE - DÉNOMBREMENTS 12

J
p
Remarque 4 Quand n > 2 il est plus rapide de calculer Cnn−p que Cnp . Par exemple :

2 30
C32 = C32 ,
2 32 × 31
C32 = ,
2×1
30 32 × 31 × · · · × 4 × 3
C32 = .
30 × 29 × · · · × 2 × 1

Triangle de Pascal

Les formules de calcul ci-dessus nous donne une méthode de calcul des combinatoire par récurrence
appelé triangle de pascal :

1.3.5 Formule du binôme de Newton


Théorème 2 Soient a et b deux réels :
n
X
(a + b)n = Cnk ak bn−k .
k=0

Démonstration :
Par récurrence sur n.

Pour n = 0 la propriété est immédiate puisque 1 = 1.

Supposons la propriété vraie pour n et regardons si elle est vraie pour n + 1.


CHAPITRE 1. DÉFINITIONS DE BASE - DÉNOMBREMENTS 13

(a + b)n+1 = (a + b)n (a + b)
= a(a + b)n + b(a + b)n
n
X n
X
= Cnk ak bn−k + b Cnk ak bn−k
k=0 k=0
Xn Xn
= Cnk ak+1 bn−k + Cnk ak bn−k+1
k=0 k=0

On considère maintenant k 0 = k + 1, on a :
n+1 n
X 0 0 0 X
(a + b)n+1 = Cnk −1 ak bn−k +1 + Cnk ak bn−k+1
k0 =1 k=0
n n
X 0 0 0 X
= an+1 + Cnk −1 ak bn−k +1 + Cnk ak bn−k+1 + bn+1
k0 =1 k=1
Xn
= an+1 + Cnk−1 + Cn ak bn−k+1 + bn+1
k


k=1
Xn
= an+1 + k
Cn+1 ak bn−k+1 + bn+1
k=1
n+1
X
k
= Cn+1 ak bn−k+1 .
k=0

La propriété est donc vraie pour n + 1. Par le principe de raisonnement par récurrence, la propriété
est vraie pour tout entier n.

Remarque 5 On peut également démontrer cette propriété de manière ”ensembliste”, en develop-


pant et en s’intéressant au nombre de terme en ak bn−k ...

J
Chapitre 2

Probabilités pour un Univers


Discret

2.1 Ensembles, Univers, événements


Le formalisme probabiliste est une branche relativement nouvelle des mathématiques qui se
base donc sur la théorie des ensembles. Dans cette théorie, les issues des expériences dont on
veut évaluer les chances relatives sont formalisées en termes d’événements dont la réalisation est
l’aboutissement d’un ensemble de causes antérieures. Le hasard est parfois vu comme l’ensemble de
ces causes que l’on ne peut pas maı̂triser, qui sont alors dites aléatoires. Dans le cas de systèmes
physiques complexes, elles sont souvent le reflet de notre ignorance.

Définition 11 Les événements sont des ensembles que l’on manipule à l’aide d’opérations en-
semblistes élémentaires et qui représentent les issues possibles de l’expérience aléatoire considérée.

Définition 12 On parle d’événement élémentaire lorsqu’il s’agit du résultat d’une expérience


aléatoire menant à une solution unique, et l’ensemble des événements élémentaires forment ce que
l’on nomme l’univers des possibles, ou tout simplement l’univers noté Ω.

Les événements non-élémentaires dont on peut vouloir évaluer les chances ou probabilités sont
exprimés en termes d’opérations ensemblistes de réunions, d’intersections, ou de complémentaires.
Ces opérations correspondent également aux opérations logiques OU, ET et NON. Ainsi, si l’on
considère deux événements (élémentaires ou non) représentés par les ensembles A et B, l’événement
consistant à obtenir A OU B est représenté par l’ensemble A ∪ B, qui est la réunion de A et de B.
De même, l’événement consistant à obtenir A ET B sera représenté par l’intersection A ∩ B, tandis
que la négation de l’événement A sera son complémentaire Ac ou A. Cette négation est l’événement
qui consiste à ne pas obtenir A.

Exemple 6 (jet d’un dé à six faces) L’univers est Ω = {1, 2, 3, 4, 5, 6}, avec pour événements
élémentaires :

”obtenir un 1” noté {1}, ”obtenir un 2” noté {2},...,”obtenir un 6”= {6}.

14
CHAPITRE 2. PROBABILITÉS POUR UN UNIVERS DISCRET 15

Tous les événements dont on calculera la probabilité peuvent être obtenus par manipulations en-
semblistes des événements élémentaires précédents. Par exemple, l’événement ”obtenir un résultat
pair” consiste à obtenir un 2, un 4 ou un 6 et sera noté au choix

{2, 4, 6} = {2} ∪ {4} ∪ {6}.

L’écriture en termes d’événements élémentaires sera primordiale pour les calculs de probabilités et
permet de représenter un très grands nombre d’événements. On notera par exemple

”obtenir un resultat ≤ 3” = {1, 2, 3} = {1} ∪ {2} ∪ {3}.

De même, l’événement ”obtenir un résultat pair, (et) inférieur ou égal à 3” sera noté

{2, 4, 6} ∩ {1, 2, 3} = {2}.

Le contraire d’un événement A correspond à son événement complémentaire noté

Ac ou A.

Pour l’exemple précédent, ”ne pas obtenir un nombre pair” sera noté

{2, 4, 6} = {2, 4, 6}c = Ω \ {2, 4, 6} = {1, 2, 3}.

Tout événement impossible est représenté par l’ensemble vide ∅ et deux événements A et B
sont dits incompatibles ou disjoints si A ∩ B = ∅, tandis que l’ensemble Ω lui-même est qualifié
d’événement certain. Lorsque cet univers est fini ou infini dénombrable, on parle de probabilités
discrètes et de probabilités continues dans le cas contraire.

2.2 Probabilités d’événements – Équiprobabilité


2.2.1 Probabilités
Définition 13 La probabilité associée à une expérience aléatoire est une fonction qui à un événement
associe un nombre réel compris entre 0 et 1, sa probabilité :

P : P(Ω) −→ [0, 1]
A 7−→ P[A]

où P(Ω) est l’ensemble de toutes les parties possibles de l’univers Ω (i.e. l’ensemble de tous les
événements possibles de l’expérience aléatoire concernée).

Une probabilité est d’abord construite par une évaluation des probabilités des événements
élémentaires. Lorsqu’il y en a un nombre fini x1 , . . . , xn , et donc pour un univers Ω = {x1 , . . . , xn }
de cardinal n, on obtient à l’aide des statistiques ou parfois à l’aide d’hypothèses réalistes, une
famille de nombres (pi )i=1..n compris entre 0 et 1 et tels que pour chaque événement élémentaire
Ai =”obtenir i”,
pi = P[Ai ] ∈ [0, 1].
On étend ensuite cette probabilité sur tous les événements possibles en respectant les règles
intuitives élémentaires suivantes érigées en axiomes :
CHAPITRE 2. PROBABILITÉS POUR UN UNIVERS DISCRET 16

Définition 14 (Axiomes des probabilités)

– Evénement certain : P[Ω] = 1.


– Evénement impossible : P[∅] = 0
– Additivité : Si A et B sont des événements incompatibles, i.e. A ∩ B = ∅,

P[A ∪ B] = P[A] + P[B].

La somme des probabilités des événements élémentaires doit ainsi être égale à 1 :
X
pi = 1.
i

Propriété 15 Pour des événements non disjoints, l’additivité devient

P[A ∪ B] = P[A] + P[B] − P[A ∩ B].

En revanche, on n’a pas en général d’expression pour la probabilité de l’intersection. En parti-


culier, on n’a pas de factorisation du type P[A ∩ B] = P[A] · P[B]. Lorsque cela sera le cas, on dira
que les événements A et B sont indépendants.

2.2.2 Equiprobabilités
Définition 15 Les événements élémentaires sont dits équiprobables, si toutes les probabilités
élémentaires pi sont identiques. Cette hypothèse est en général émise à partir d’études statistiques
l’indiquant, souvent par simple soucis de bon sens, et parfois seulement grâce au calculs des proba-
bilités élémentaires à l’aide de calculs combinatoires (dits ”de dénombrements”).

En cas d’équiprobabilité, et seulement dans ce cas, on pourra évaluer la probabilité d’un événement
A par
Card(A)
P[A] =
Card(Ω)
c’est à dire le rapport du nombre de cas favorables sur le nombre de cas possibles.

Attention 3 C’est loin d’être le cas en général.

Exemple 7 Revenons à l’exemple de l’expérience du jet d’un dé à six faces, les événements élémentaires
sont notés Ai pour i = 1, . . . , 6 et l’hypothèse d’équiprobabilité, émise lorsque le dé n’est ni truqué,
ni faussé, conduit aux mêmes probabilités élémentaires
1
pi = P[Ai ] = P[obtenir i] =
6
puisque la taille de l’univers des événements élémentaires est de 6 et que chaque événement élémentaire
Ai est un singleton (i.e. un ensemble restreint à un élément).

Définition 16 On dit qu’une famille d’événements (Ai )i∈I forme une partition de l’univers lors-
qu’ils sont disjoints (Ai ∩ Aj = ∅, ∀i 6= j ∈ I) et qu’ils recouvrent Ω (∪i∈I Ai = Ω).

Propriété 16 L’ensemble des événements élémentaires forment une partition particulière de l’uni-
vers Ω.
CHAPITRE 2. PROBABILITÉS POUR UN UNIVERS DISCRET 17

En appliquant la règle d’additivité et l’axiome de l’événement certain , on obtient la formule


suivante, valide pour toute ”probabilité”, i.e. lorsque les axiomes des probabilités sont vérifiés (Et
donc pas seulement en cas d’équiprobabilité) :

Théorème 3 (Formule des probabilités totales (I) ) Pour toute partition (Ai )i∈I , et tout événement
B, on a : X
P[B] = P[B ∩ Ai ]. (2.1)
i∈I

Démonstration :
Comme ∪i∈I Ai = Ω, on a ∪i∈I (B ∩ Ai ) = B et les événements Ai ∩ B et Aj ∩ B sont disjoints pour
j 6= i. Par conséquent, on a :

P[B] = P[∪i∈I (B ∩ Ai )],


X
= P[B ∩ Ai ].
i∈I

Exemple 8 Dans le cas d’un jet de dé, la partition élémentaire de l’univers en

Ω = ∪6i=1 {i} = {1} ∪ {2} ∪ {3} ∪ {4} ∪ {5} ∪ {6}

donne par exemple


1 1 1
p1 + p2 + p3 + p4 + p5 + p6 = + + · · · + = 1.
6 6 6
Exemple 9 Un autre exemple de partition est donné par la paire {A, B} et les événements A =”obtenir
un résultat pair et B=”obtenir un résultat impair”. On a en effet A ∪ B = Ω et A ∩ B = ∅, et on
peut vérifier la formule des probabilités totales

P[A] + P[B] = 1
3 1 3
puisque P[A] = p2 + p4 + p6 = 6 = 2 et P[B] = p1 + p2 + p3 = 6 = 12 .

Cette propriété est également générale et permet d’obtenir que pour toute probabilité P, la
probabilité du complémentaire d’un événement A.

Propriété 17
P[A] = 1 − P[A]

Démonstration :
{A, A} est une partition de Ω.

Exemple 10 – Probabilité de tirer ”au moins 2” en lancant les dés.

A = {X ≥ 2} = {X = 2} ∪ {X = 3} ∪ {X = 4} ∪ {X = 5} ∪ {X = 6},
Ā = {X = 1}
5 5
P[A] = 1 − P[A] = 1 − =
6 6
CHAPITRE 2. PROBABILITÉS POUR UN UNIVERS DISCRET 18

– Probabilité de tirer au moins une fois pile en lancant n fois une piece.

A = { 1 fois pile ou 2 fois pile ou ... n fois pile },


Ā = {0 fois pile } = {n fois face}
1
P[A] = 1 − P[A] = 1 − n
2
Avec de telles propriétés, on vérifie aisément qu’une probabilité possède une propriété de mo-
notonie par inclusion :

Propriété 18
A ⊂ B =⇒ P[A] ≤ P[B].

Si A est inclus dans B, on dit parfois que A implique B, et il est alors intuitif que la probabilité
de A est inférieure à celle de B (B sera toujours réalisé lorsque A le sera, et sa probabilité ne pourra
être que supérieure ou égale).

2.3 Indépendance
Une hypothèse primordiale en théorie des probabilités est l’hypothèse d’indépendance. Elle est
parfois réaliste ou simplificatrice selon les expériences.

Définition 17 On dit que deux événements A et B sont indépendants lorsque

P[A ∩ B] = P[A] · P[B]. (2.2)

La seule manière de prouver l’indépendance est de prouver cette formule d’une manière ou d’une
autre, le plus souvent en calculant les diverses probabilités impliquées dans (2.2).

Remarque 6 Le mot indépendance utilisé doit être compris dans le sens où l’obtention de l’un n’a
aucune influence sur l’obtention de l’autre. On verra ceci plus clairement avec la notion de proba-
bilités conditionnelles. Parfois, cette indépendance est une hypothèse pour simplifier les modèles ou
pour suivre une intuition.

Exemple 11 Considérons par exemple deux jets de dés successifs. Une hypothèse naturelle consiste
à considérer ces événements comme étant indépendants de manière à pouvoir écrire que pour les
événements A : ”obtenir un six au 1er jet” et B=”obtenir un six au 2e jet”
1 1 1
P[A ∩ B] = P[A] · P[B] = · =
6 6 36
de sorte que, sous l’hypothèse d’indépendance des deux jets, la probabilité d’obtenir un double six
1
est évaluée à 36 ≈ 0.00278, soit environ 2.78%.
On peut également découvrir que deux événements issus de la même expérience aléatoire sont
indépendants. Pour l’expérience d’un seul jet de dé, on constate pour les événements A=”obtenir
un jet ≤ 4” et B=”obtenir un jet pair”, on a P[A] = 23 , P[B] = 12 ,

1
P[A ∩ B] = P[{2, 4}] =
3
CHAPITRE 2. PROBABILITÉS POUR UN UNIVERS DISCRET 19

et
2 1 1
P[A] · P[B] = · = .
3 2 3
Ces événements sont donc indépendants, puisque l’on constate l’égalité P[A ∩ B] = P[A] · P[B],
reflétant ainsi l’idée que savoir que l’on a un résultat impair n’influence pas les chances d’obtenir
un résultat inférieur ou égal à 4. Si par contre on considère C=”obtenir un jet ≤ 3”, les événements
B et C ne sont pas indépendants car
1
P[B ∩ C] = P[{2}] =
6
et
1 1 1
P[B] · P[C] = · = .
2 2 4
Intuitivement, cela se justifie par un lien entre C et B : il y a moins d’éléments pairs (donc ”de
B”) en dessous de 3 (donc ”dans C”) que dans l’univers.

Exemple 12 Une autre situation usuelle d’application de l’hypothèse d’indépendance est fourni
par des tirages au sort successifs avec ou sans remise. Lorsque le tirage est effectué avec remise
du premier élément tiré au sort, on se retrouve dans une situation identique lors du second tirage
au sort et le résultat du premier n’influence en rien celui du second. On considère donc que deux
tirages successifs avec remise sont indépendants. Lorsque le tirage est au contraire effectué sans
remise, l’élément tiré lors du premier tirage ne peut plus être tiré lors du second, diminuant par
exemple les probabilités d’obtenir un élément partageant avec lui certaines propriétés. Les résultats
des deux tirages sont liés et on considère donc que deux tirages successifs sans remise ne sont pas
indépendants.

2.4 Probabilités conditionnelles


Lorsque les événements ne sont pas indépendants, la probabilité de l’un n’est pas la même selon
que l’autre est réalisé ou non.

Exemple 13 On pourra prendre l’exemple de la pluie et du vent. Il y a plus de chances qu’il pleuve
s’il y a du vent plutôt qu’en absence de vent.

Définition 18 Si P[B] 6= 0 alors on appelle probabilité conditionnelle de A sachant B :

P[A ∩ B]
P[A|B] = .
P[B]

Attention 4 Il convient de ne pas confondre P[A|B] et P[A ∩ B]

P[A|B] évalue les chances d’obtenir A lorsque l’on sait que B est réalisé tandis que P[A ∩ B]
évalue les chances de voir A et B de se réaliser simultanément. Dans le 1er cas, on évalue les chances
de A sur une sous population, celle pour laquelle B est réalisée, et on pondère la probabilité de
l’intersection en fonction de la taille de B : plus B est important, i.e. plus P[B] est grand, plus A∩B
a des chances de se réaliser, ceci quelle que soit l’importance de A. En comparant la probabilité
d’avoir A ET B avec celle d’avoir B, on obtient un nombre P[A|B] entre 0 et 1 qui évalue les
CHAPITRE 2. PROBABILITÉS POUR UN UNIVERS DISCRET 20

chances que A soit réalise sachant que B est réalisé. Lorsque B est fixé, cela détermine une nouvelle
probabilité

PB : P(Ω) −→ [0, 1]
A 7−→ PB [A] := P[A|B].

Il s’agit d’une probabilité car elle vérifie les axiomes des probabilités. Les deux notations P[A|B]
et PB [A] sont équivalentes et seront utilisées en fonction des circonstances. En particulier, lorsqu’il
s’agit d’utiliser les axiomes des probabilités (pour par exemple utiliser l’additivité), on préfèrera la
notation PB .

La connaissance des probabilités conditionnelles permet d’obtenir une expression pour la pro-
babilité de l’intersection :

Propriété 19 Pour tous événements A et B on a :

P[A ∩ B] = P[A|B]P[B]
= P[B|A]P[A].

Exemple 14 – En lancant un dé, la probabilité de tirer 4 sachant que l’on a un nombre pair
est :
1
P[4|pair] =
3
1/6 2
=
1/2 6
– Dans un jeu de 32 carte, la probabilité de tirer un roi sachant que l’on a tirer un coeur est
de :
1
P[roi|coeur] =
8
1/32 1
=
8/32 8
Exemple 15
1
P[4 ET pair] = P[4] =
6
1 1 1
P[4|pair] × P[pair] = × =
3 2 6
1 1
P[pair|4] × P[4] = 1 × =
6 6

Propriété 20 (Formule de Bayes) Si P[A] 6= 0, alors on a :


P[A|B]P[B]
P[B|A] = . (2.3)
P[A]
Exemple 16 On consière la population d’un pays. Cette population est composée de 47% d’hommes
et de 53% de femmes. Parmi les femmes, 40% sont blondes. Parmi les hommes, 30% sont blonds.
On prend une personne au hasard. Quelle est la probabilité des évenements suivants :
CHAPITRE 2. PROBABILITÉS POUR UN UNIVERS DISCRET 21

1. Quelle est la probabilité que ce soit une femme ?


2. Quelle est la probabilité que ce soit un homme ?
3. Quelle est la probabilité que ce soit une femme blonde ?
4. Quelle est la probabilité que ce soit un homme blond ?
5. Quelle est la probabilité que ce soit une femme, sachant que cette personne est blonde ?
6. Quelle est la probabilité que ce soit une blonde, sachant que cette personne est une femme ?
Pour résoudre ce problème, on peut utiliser un schéma ou un tableau. Commencons en utilisant
un schéma, et en considérant un ensemble de 10 000 personnes. Sur ces 10000 personnes, il ya 5
300 femmes et 4 700 hommes. Sur les 4 700 hommes, 30% sont blonds, soit 1410 hommes blonds.
Sur les 5 300 femmes, 40% sont blondes, soit 2120 femmes blondes. On a donc le schéma suivant :

On retrouve ces résultats par un tableau :


homme femme
blond 0, 47 × 0, 3 = 0, 141 0, 53 × 0, 4 = 0, 212 0,353
pas blond 0, 47 × 0, 7 = 0, 329 0, 53 × 0, 6 = 0, 318 0,647
0,47 0,53 1
On peut maintenant répondre aux questions :
1. Quelle est la probabilité que ce soit une femme ?
Il y a 53% de femmes, soit une probabilité de 0,53.
2. Quelle est la probabilité que ce soit un homme ?
Il y a 47% d’hommes, soit une probabilité de 0,47.
3. Quelle est la probabilité que ce soit une femme blonde ?
Il y a 2120 femmes blondes sur 10 000 personnes, soit une probabilité de 0,212.
4. Quelle est la probabilité que ce soit un homme blond ?
Il y a 1 410 hommes blonds sur 10 000 personnes, soit une probabilité de 0,141.
5. Quelle est la probabilité que ce soit une femme, sachant que cette personne est blonde ?
Il y a 2 120 femmes blondes sur 3 530 personnes blondes, soit une probabilité de 2120
3530 ∼ 0, 6.
On pouvait aussi le calculer en utilisant la formule :
P[f emme ∩ blonde] 0, 212
P[f emme/blonde] = = ∼ 0, 6 (2.4)
P[blond] 0, 3530
CHAPITRE 2. PROBABILITÉS POUR UN UNIVERS DISCRET 22

6. Quelle est la probabilité que ce soit une blonde, sachant que cette personne est une femme ?
2120
Il y a 2 120 femmes blondes sur 5 300 femmes, soit une probabilité de 5300 = 0, 4.
On pouvait aussi le calculer en utilisant la formule :

P[f emme ∩ blonde] 0, 212


P[f emme/blonde] = = ∼ 0, 4 (2.5)
P[f emme] 0, 53

On retrouve bien les 40% de l’énoncé.

Les probabilités conditionnelles permettent également d’obtenir une seconde forme de la formule
des probabilités totales :

Théorème 4 (Formule des probabilités totales (I) ) Pour toute partition (Ai )i∈I , et tout événement
B, on a : X
P[B] = P[B ∩ Ai ]. (2.6)
i∈I

Propriété 21 (Formule des probabilités totales (II)) Pour toute partition (Ai )i∈I , et tout
événement B, on a : X
P[B] = P[B|Ai ] P[Ai ]. (2.7)
i∈I

Remarque 7 En couplant la formule de Bayes et la formule des probabilités totales (II) à la par-
tition (A, Ā), on obtient version très utile en pratique de la formule de Bayes suivante :

Si P[A] 6= 0, alors on a :

P[A|B]P[B]
P[B|A] = . (2.8)
P[A|B]P[B] + P[A|B]P[B]

La formule de Bayes est très importante et utile en probabilités car elle permet de tromper de
mauvaises intuitions dues à une vision trop équiprobable du monde.

Remarque 8 On peut voir qu’il s’agit de comprendre la formule de Bayes comme une moyenne
pondérée et que nos intuitions sont souvent mises à mal lorsque l’un des événement du condition-
nement (B ou A) est relativement rare.

Exemple 17 On estime qu’une personne ayant correctement révisé ses cours pour cet examen a
une probabilité de 20% d’échouer à l’examen. En revanche, on estime qu’une personne n’ayant pas
révisé ses cours a une probabilité de 60% d’échouer à cet examen.
On sait aussi que 50% des personnes ont correctement révisé leurs cours et 50% n’ont pas correc-
tement révisé leurs cours.

Une personne passe deux fois de suite cet examen et échoue par deux fois mais affirme pourtant
avoir parfaitement réviser. Est-ce plausible ?

Appelons E l’événement ”echouer 2 fois” , A l’événement ”la personne a révisé ses cours ”.
La probabilité de ”E sachant A” est P[E|A] = (0, 20)2 = 0, 04. La probabilité de ”E sachant Ā” est
P[E|Ā] = (0, 60)2 = 0, 36.
CHAPITRE 2. PROBABILITÉS POUR UN UNIVERS DISCRET 23

A priori, on suppose que la personne qui a échoué 2 fois à l’examen a correctement révisé avec une
probabilité de 0,50. On a donc P(A) = P(B) = 0, 50. La formule de Bayes donne alors :

P[B|A]P[A]
P[A|B] =
P[B|A]P[A] + P[B|Ā]P[Ā]

Probabilité d’avoir réviser sachant que l’on a échoué 2 fois = 0,10. Probabilité de ne pas avoir
réviser sachant que l’on a échoué 2 fois = 0,90. Il y a donc une probabilité de 0,90 que la personne
n’a pas révisé. Ce qu’elle dit est peu plausible !
Chapitre 3

Variable aléatoire discrète

3.1 Variable aléatoire


3.1.1 Définition générale
Définition 19 On appelle variable aléatoire le résultat d’une épreuve aléatoire lorsque l’issue
de celle-ci peut être représentée par un nombre.

Une variable aléatoire est généralement désignée par une lettre majuscule X, Y, etc. et peut
également être définie en tant qu’application depuis l’univers Ω dans R
X : Ω −→ R
ω 7−→ X(ω)
en considérant ω ∈ Ω comme une réalisation particulière de l’épreuve en question. L’ensemble des
valeurs numériques prises par X est pour cette raison noté X(Ω), puisqu’il s’agit de l’image de Ω
par X.

3.1.2 Variables aléatoires discrètes


Définition 20 On appelle variable aléatoire discrète une variable aléatoire qui ne prend que
des valeurs ponctuelles (”isolées”).

Exemple 18 – Résultat d’un jet de dé. Le résultat X est une variable aléatoire
X : Ω 3 ω 7−→ X(ω)
à valeur dans X(Ω) = {1, 2, 3, 4, 5, 6}
– Lancer de 2 pièces de monnaies identiques dont l’issue est P (pour pile) et F (pour face).
L’univers
Ω = {P P, P F, F P, F F }
n’est pas composé de grandeur numériques mais on peut par exemple s’intéresser au nombre
de fois où face (F) est apparu, définissant ainsi une variable aléatoire X : Ω −→ {0, 1, 2} ⊂ R
définie par le tableau

24
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 25

Ω PP PF FP FF
X 0 1 1 2

Cette application ne prenant qu’un nombre fini de valeurs, la variable aléatoire X est discrète
avec X(Ω) = {0, 1, 2}.

Les évènements {X = xi } (xi étant une valeur possible de X), engendrés par les différentes va-
leurs prises par une variable aléatoire constituent les évènements élémentaires de X. Les évènements
élémentaires de l’exemple précédent seront ainsi notés {X = 0} (”Aucun face n’a été tiré”), {X = 1}
(”Un face a été tiré”) et {X = 2} (”Deux faces ont été tirés”).
On définit donc naturellement des variables aléatoires en associant un nombre à chaque évènement
élémentaire. Comme on le verra, l’étude systématique des variables aléatoires fournit un cadre
théorique d’étude des phénomènes aléatoires.

3.1.3 Variables aléatoires continues


Définition 21 On appelle variable aléatoire continue une variable aléatoire dont l’ensemble
des valeurs est R ou une réunion d’intervalles de R.

Exemple 19 – Durée de vie d’une ampoule éléctrique : Bien que n’étant pas éternelle, on
considère souvent qu’une ampoule éléctrique peut avoir n’importe quelle durée de vie et qu’elle
peut tomber en panne ou ne pas tomber en panne à tout moment. Aucune durée n’est exclue et
la variable X qui la représente est une variable aléatoire continue dont l’ensemble des valeurs
est R+ = [0, +∞[. D’une manière plus réaliste, les ampoules ont une durée de vie maximale
D et X est une variable aléatoire continue à valeurs dans l’intervalle X(Ω) = [0, D], mais la
durée maximale étant souvent inconnue, on considère généralement X(Ω) = R∗+ .
– Étude de la taille dans une population donnée : Si on considère sur une population de taille
N dont on note ti la taille de chaque individu i (i = 1, . . . , N ), la variable X qui dénote la
taille d’un individu de la population pris au hasard, l’ensemble des valeurs prises par X est
l’ensemble discret X(Ω) = {t1 , t2 , . . . , tN }. Néanmoins, la taille d’un individu pouvant a priori
prendre toute valeur réelle positive, on considère pour étudier des populations en général que
X peut également prendre toutes les valeurs réelles et est donc une variable continue à valeurs
dans R+ (ou dans un sous-intervalle si on veut considérer une taille maximale).

Dans la suite de ce chapitre, on ne considerera que des variables aléatoires discrètes.

3.2 Loi d’une variable aléatoire discrète


3.2.1 Définition
Définition 22 La loi d’une variable aléatoire discrète X est une probabilité PX définie sur
ses évènements élémentaires par l’application

PX : X(Ω) −→ [0, 1]
x 7−→ PX (x) := P[{X = x}].
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 26

On note invariablement P[{X = x}], P[X = x], PX (x) ou p(x) la probabilité que X prenne
la valeur x. On vérifie aisément que cette application est bien une probabilité dont l’univers est
l’ensemble X(Ω) des valeurs prises par X.

Exemple 20 Si on reprend l’exemple d’un dé à six faces équilibrées, et que X représente le résultat
d’un jet, on a X(Ω) = {1, 2, 3, 4, 5, 6} et directement

PX [X(Ω)] = PX [{1, 2, 3, 4, 5, 6}] = P[X ∈ {1, 2, 3, 4, 5, 6}] = 1.

De même, l’axiome de l’évènement impossible (PX [∅] = 0) et de l’additivité pour des évènements
disjoints sont vérifiés. Donner la loi d’une variable aléatoire revient alors à donner les probabilités
des évènements élémentaires qu’elle induit, et on présente souvent ces données sous forme d’un
tableau, en notant d’une manière générale X(Ω) = (xi )i=1,...,N = (x1 , x2 , . . . , xN ) pour une variable
aléatoires à N valeurs possibles (qui ne sont pas forcément 1, 2, . . . , N ),

X x1 x2 ... xN
PX p1 p2 ... pN

où l’on note respectivement p1 = PX (1) = P[X = 1], p2 = PX (2) = P[X = 2], . . . , pN = PX (N ) =
P[X = N ]. Ce tableau peut se représenter graphiquement par un diagramme en bâtons.

Exemple 21 Ω = {P P, F P, P F, F F }, X = nombre de ”Face”

x 0 1 2
PX (x) 1/4 1/2 1/4

3.2.2 Fonction de répartition


Définition 23 Une loi de probabilité est souvent définie à partir de sa fonction de répartition
F :

F : R −→ [0, 1]
x 7−→ F (x) = P[X ≤ x]

parfois également appelée fonction cumulative car on cumule les probabilités de toutes les valeurs
inférieures ou égales à x.
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 27

Dans le cas discret, il suffit d’additionner les probabilités élémentaires :

F (xi ) = P[X ≤ xi ] = P[X = x1 ] + · · · + P[X = xi ] = p1 + p2 + · · · + pi .

Propriété 22 Si X est une variable aléatoire discrète de fonction de répartition F , alors on a les
propriétés suivantes :
– F est une fonction en escalier avec limx→−∞ F (x) = 0 et limx→+∞ F (x) = 1.
– F est une fonction croissante.
– Pour tous a, b ∈ R et a < b,

F (b) − F (a) = P[a < X ≤ b].

La croissance se déduit de ce dernier point puisque si a < b, F (b) − F (a) = P[a < X ≤ b] ∈ [0, 1]
est en particulier positif.

Exemple 22 Dans l’exemple du nombre de ”Face” en 2 lancers, on obtient la courbe en escalier


suivante :

3.3 Paramètres d’une loi


3.3.1 Espérance mathématique
Définition 24 L’espérance mathématique E[X] d’une variable aléatoire X joue le rôle dévolu
à la moyenne en statistiques : elle correspond à la valeur moyenne espérée par un observateur lors
d’une réalisation de la variable aléatoire X. Les valeurs prises par cette variable sont pondérées par
les probabilités des évènements élémentaires de sorte que l’on définit
N
X N
X
E[X] = p i · xi = xi · P[X = xi ]
i=1 i=1

lorsque X peut prendre N valeurs différentes x1 , . . . , xN avec comme probabilités élémentaires


pi = P[X = xi ].
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 28

Exemple 23 Lors du lancer de 2 pièces, le nombre de ”face” moyen ou espéré correspond à


l’espérance mathématique de la variable aléatoire X déja introduite, donnée par
1 1 1
E[X] = ·0+ ·1+ ·2=1
4 2 4
Propriété 23 Si X est une variable aléatoire discrète et f une fonction à valeurs réelles définie
sur X(Ω), alors Y = f (X) est aussi une variable aléatoire définie sur le même espace de probabilité
Ω. Connaissant la loi de X, on peut alors déterminer la loi de Y .

Exemple 24 Par exemple, si Y = X 2 , on a PY (y) = P[Y = y] = 0 pour y < 0, et pour y ≥ 0,



PY (y) = P[Y = y] = P[|X| = y]
√ √
= P[{X = y} ∪ {X = − y}]
√ √
= P[{X = y}] + P[{X = − y}]
√ √
= PX ( y) + PX (− y)

On peut déterminer l’espérance de Y à partir de sa loi, mais également directement à partir de


celle de X grâce à la formule X
E[f (X)] = f (x)PX (x).
x∈X(Ω)

Remarque 9 L’espérance E[X] n’est qu’un indicateur moyen et ne peut caractériser la loi une
variable aléatoire à lui tout seul.

3.3.2 Variance
Pour décrire plus précisément le comportement de X, sans pour autant caractériser complètement
la loi de X, on peut s’intéresser aux écarts de X par rapport à cette moyenne. Cependant, si on
considère simplement la différence X − E[X], on obtient un écart moyen E[X − E[X]] = 0 (par
linéarité de l’espérance, voir 3.3). On pourrait considérer la valeur moyenne de |X − E[X]| mais on
préfère considérer la moyen de (X − E[X])2 , plus pertinente mathématiquement.

Définition 25 La variance mesure ainsi la déviation moyenne autour de la moyenne espérée


E[X], et est définie par
N
 2  X 2
V[X] = E X − E[X] = pi · xi − E[X] .
i=1

Propriété 24 (formule de Koenig) Elle est toujours positive puisqu’il s’agit de l’espérance d’un
carré.
On a l’expression suivante :
V[X] = E[X 2 ] − (E[X])2 . (3.1)

Définition 26 Pour mesurer la dispersion d’une variable aléatoire X, on considère souvent en


statistiques l’écart-type, lié à la variance par :
p
σX = V(X). (3.2)
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 29

Exemple 25 Lorsque X est le nombre de face obtenu lors du lancer de 2 pièces équilibrées, la
variance est
1 1 1 1
V[X] = · (0 − 1)2 + · (1 − 1)2 + · (2 − 1)2 = .
4 2 4 2
Le lien entre la variance et le dispersion moyenne autour de la moyenne peut être explicité grâce
à l’inégalité de Bienaymé-Tchebychev (cf (3.5)).

3.3.3 Propriétés de l’espérance et de la variance


Propriété 25 (Linéarité de l’espérance) Si X et Y sont deux variables aléatoires définies sur
le même univers Ω et a, b deux réels,

E[aX + bY ] = aE[X] + bE[Y ]. (3.3)

En particulier, E[aX] = aE[X].

Propriété 26 (Non-linéarité de la variance) Pour toute variable aléatoire X et a, b ∈ R

V(aX + b) = a2 V[X].

Propriété 27 (Inégalité de Markov) Soit X une variable aléatoire positive d’espérance finie,
alors pour tout a > 0
1
P[X ≥ a] ≤ E[X]. (3.4)
a
Propriété 28 (Inégalité de Bienaymé-Tchebychev) Soit X une variable aléatoire réelle de
variance finie, alors pour tout a > 0
1
P[| X − E[X] |≥ a] ≤ V(X). (3.5)
a2

3.4 Couple de variables aléatoires discretes


3.4.1 Définition
Définition 27 Un couple aléatoire discret est un couple (X, Y ) de variables aléatoires définies
sur le même univers Ω et à valeurs dans

X(Ω) × Y (Ω) = {(x, y) : x ∈ X(Ω), y ∈ Y (Ω)}.

Par la suite, on notera {X = x, Y = y} pour désigner l’évènement élémentaire {X = x} ∩ {Y =


y}.

Définition 28 On appelle loi de probabilité ou loi jointe de (X, Y ), l’application PXY de


X(Ω) × Y (Ω) dans [0, 1] qui à chaque couple d’évènements élémentaires (x, y) associe la proba-
bilité
PXY (x, y) = P[X = x, Y = y].

Dans la pratique, ces probabilités jointes sont données à l’aide d’un tableau à double entrée
dont les lignes correspondent au valeurs possibles xi ∈ X(Ω) prises par X, les colonnes à celles
yi ∈ Y (Ω) prises par Y , et l’élèment de la ligne i et colonne j à la probabilité jointe PXY (xi , yj ) :
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 30

X|Y y1 y2 ... yj ... yN


x1 PXY (x1 , y1 ) PXY (x1 , y2 ) PXY (x1 , yj ) PXY (x1 , yN )
x2 PXY (x2 , y1 ) PXY (x2 , y2 ) PXY (x2 , yj ) PXY (x2 , yN )
...
xi PXY (xi , y1 ) PXY (xi , yj ) PXY (xi , yN )
...
xn PXY (xn , y1 ) PXY (xn , yj ) PXY (xn , yN )

Exemple 26 Une urne contient 3 boules numérotées {1, 2, 3}. On tire successivement, sans remise
et équiprobablement deux boules de l’urne. Soit X et Y les numéros obtenus aux 1er et 2nd tirages.
Les résultats du 2nd dépendent trivialement de ceux du 1er. Pour déterminer la loi du couple, on
utilise les probabilités conditionnelles pour écrire

PXY (x, y) = P[X = x, Y = y] = P[Y = y | X = x] · P[X = x].

La loi du couple est alors donnée par le tableau suivant

x|y 1 2 3
1 0 1/6 1/6
2 1/6 0 1/6
3 1/6 1/6 0
D’une manière générale, on peut calculer l’espérance d’une fonction f des deux variables X et
Y grâce à la loi du couple en écrivant
X
E[f (X, Y )] = f (x, y) · PXY (x, y).
(x,y)∈X(Ω)×Y (Ω)

3.4.2 Lois marginales


Il se peut que connaissant la loi du couple on ne veuille s’intéresser qu’à une seule de ses
coordonnées : on parlera alors de loi marginale.

Définition 29 Soit (X, Y ) un couple aléatoire discret. On appelle loi marginale de X l’applica-
tion PX de X(Ω) dans [0, 1] définie pour tout x ∈ X(Ω) par
X
PX (x) = P[X = x] = PXY (x, y).
y∈Y (Ω)

On définit de manière analogue la loi marginale de Y .

Exemple 27 Dans l’exemple précédent, la loi marginale de X est ainsi obtenue en sommant les
lignes du tableau de la loi jointe, et est donnée par le tableau

x 1 2 3
PX (x) 1/3 1/3 1/3
tandis que l’on obtient la loi marginale de Y en sommant les colonnes :

y 1 2 3
PY (y) 1/3 1/3 1/3
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 31

3.4.3 Covariance
Définition 30 Soit (X, Y ) un couple aléatoire discret. On appelle covariance de (X, Y ), notée
Cov(X, Y ), le nombre réel

Cov(X, Y) = E[(X − E(X)) · (Y − E(Y)]. (3.6)

On peut également la calculer à l’aide d’une formule de type Koenig :

Cov(X, Y) = E[XY] − E[X] · E[Y].

Elle permet de quantifier un lien entre les 2 variables marginales X et Y via le coefficient de
corrélation ρXY donné lorsque σX et σY sont non nulles par :
Cov(X, Y)
ρXY = . (3.7)
σX σY
Ce coefficient de corrélation est très utile pour déterminer le lien entre deux caractères en
statistiques descriptives.

3.4.4 Indépendance
Les lois marginales se calculent simplement à partir de la loi du couple. Par contre, il est en
général impossible de calculer la loi du couple à partir de ses lois marginales. Le cas simple de
variables aléatoires réelles indépendantes permet cependant de retrouver la loi du couple mais c’est
loin d’être le cas en général.

Définition 31 Soit (X, Y ) un couple aléatoire discret. On dit que les variables aléatoires X et Y
sont indépendantes lorsque tous leurs évènements élémentaires le sont deux à deux, i.e.

∀(x, y) ∈ X(Ω) × Y (Ω), PXY (x, y) = PX (x) · PY (y).

Dans ce cas, les variables sont également non corrélées, c’est à dire que ρXY = Cov(X, Y ) = 0.
La réciproque est fausse en général.

Propriété 29 Si X et Y sont deux variables aléatoires indépendantes, alors

E[XY ] = E[X] · E[Y ],


V[X + Y ] = V[X] + V[Y ] = V[X − Y ].

La réciproque est fausse : deux variables aléatoires vérifiant une des relatione précédentes,
peuvent ne pas être indépendantes. (exo : fabriquer un contre ex)

3.4.5 Lois conditionnelles


Définition 32 Soit (X, Y ) un couple aléatoire discret. On appelle loi conditionnelle de X sa-
chant Y , l’application pX|Y de X(Ω) dans [0, 1] définie pour tout (x, y) ∈ X(Ω) × Y (Ω) par

PXY (x, y)
pX|Y [x | y] = P[X = x | Y = y] = .
PY (y)
On définit de manière analogue la loi conditionnelle de Y sachant X.
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 32

Exemple 28 Dans l’exemple précédent, la loi conditionnelle de Y sachant que le chiffre 1 a été
tiré au premier tirage est donnée par le tableau suivant :

y 1 2 3
PY |X [y | 1] 0 1/2 1/2

On peut également calculer la loi du couple (la loi jointe) à partir des lois conditionnelles en
toutes circonstances, et en particulier qu’il y ait indépendance ou non, grâce au théorème suivant.

Théorème 5 Soit (X, Y ) un couple aléatoire discret. La formule des probabilités composées permet
d’écrire

PXY (x, y) = PX (x) · PY |X (y | x) si PX (x) 6= 0


PXY (x, y) = PX (y) · PX|Y (x | y) si PX (y) 6= 0
0 sinon.

En particulier, lorsque X et Y sont indépendantes, les probabilités conditionnelles se confondent


avec les lois jointes : PX|Y (x | y) = PX (x) et PY |X (y | x) = PY (y).

3.5 Lois discrètes usuelles


On considère une variable aléatoire discrète X sur un univers quelconque Ω. Lorsque X prend n
valeurs, l’ensemble X(Ω) des valeurs prises par X est désigné par (xi )i=1...n , i.e. (x1 , x2 , . . . , xi , . . . , xn ),
, et (xi )i∈N lorsque X en prend une infinité. Le comportement aléatoire de X peut être très différent
selon les phénomènes étudiés, et toute forme de loi est a priori envisageable. Cependant, certains
paramètres objectifs de caractérisation (moyenne, dispersion, etc.) permettent de dégager des com-
portements récurrents et des familles de lois qui permettent une modélisation approchée raisonnable
de la plupart des phénomènes alétoires courants. Nous décrivons ici les lois discrètes les plus im-
portantes, à travers certains exemples de modèlisations.

3.5.1 Loi uniforme sur {1, . . . , n}


Elle modélise des situations d’équiprobabilité.

Définition 33 On dit qu’une variable aléatoire X suit une loi uniforme discrète lorsqu’elle
prend ses valeurs dans {1, . . . , n} avec des probabilités élémentaires identiques. Puisque la somme
des ces dernières doit valoir 1, on en déduit qu’elles doivent toutes être égales à un 1/n :
1
∀k = 1 . . . n, P[X = k] = .
n
On note également ces probabilités pk , p(k) ou PX (k). Ces probabilités élémentaires sont en parti-
culier indépendantes de la modalité k.

Propriété 30 (Espérance et variance) On calcule aisément


n+1
E[X] = ,
2
2
n −1
V[X] = .
12
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 33

Démonstration :


1 1 1 1
E[X] = 1. + 2. + 3. + · · · + +n. ,
n n n n
n
1 X
= . k,
n
k=1
1 n(n + 1)
= . ,
n 2
n+1
= .
2
Pn
k=1 k = n(n+1)
2 est la somme des premiers termes d’une suite arithmétique de raison 1 de
premier terme 1.

1 1 1 1
E[X 2 ] = 12 . + 22 . + 32 . + · · · + +n2 . ,
n n n n
n
1 X 2
= . k ,
n
k=1
1 n(n + 1)(2n + 1)
= . ,
n 6
(n + 1)(2n + 1)
= .
6
Pn n(n+1)(2n+1)
k=1 k2 = 6 est un résultat classique qui se démontre par récurrence.

V[X] = E[X 2 ] − (E[X])2 ,


(n + 1)(2n + 1) (n + 1)2
= − ,
6 4
2n + 1 n + 1
= (n + 1) − ,
6 4
 
4n + 2 − 3n − 3
= (n + 1) ,
12
n−1
= (n + 1) ,
12
n2 − 1
= .
12
J

Exemple 29 X = résultat d’un jet de dé à six faces non-pipé.


Les n = 6 modalités possibles, x1 = 1, x2 = 2, x3 = 3, x4 = 4, x5 = 5, x6 = 6, ont toutes pour
probabilité élémentaire 1/6 :
1
∀k = 1 . . . 6, PX (k) = P[X = k] =
6
et on peut calculer E[X] = 72 ; V[X] = 35
12 .
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 34

3.5.2 Loi de Bernoulli


Définition 34 Cette loi est celle de toute variable aléatoire X modélisant une expérience dont
l’issue ne possède que deux alternatives de type ”succès ou échec”, ”vrai ou faux”, ”marche ou
arrêt”, pile ou face”, etc. Un succès est représenté par l’évènement {X = 1} tandis que X = 0
correspond à un échec X(Ω) = {0; 1}. Puisque l’on a P[X = 0] = 1 − P[X = 1], la loi de X
ne dépend que d’un paramètre (la probabilité de succès) ; on parle alors de la loi de Bernoulli de
paramètre p caractérisée par

P[X = 1] = p,
P[X = 0] = 1 − p.

Propriété 31 (Espérance et variance)

E[X] = p,
V[X] = p(1 − p).

3.5.3 Loi binomiale B(n, p)


Définition 35 La loi binomiale est la loi de probabilité d’une variable aléatoire représentant une
série d’épreuves de Bernoulli possédant les propriétés suivantes :
– Chaque épreuve donne lieu à deux éventualités exclusives de probabilités constantes p et q =
1 − p.
– Les épreuves répétées sont indépendantes les unes des autres.
– La variable aléatoire X correspondante prend pour valeur le nombre de succès dans une suite
de n épreuves.

Deux paramètres, le nombre d’épreuves (identiques mais indépendantes) répétées n et la pro-


babilité p de succès dans lépreuve de Bernoulli en question caractérisent cette loi. Lors d’une telle
expérience, on dit que X suit une binomiale B(n, p), à valeurs dans X(Ω) = {1, 2, . . . , n}.

Exemple 30 Le nombre X de ”Pile” obtenus au cours de n lancers indépendants d’une pièce


équilibrée est une variable aléatoire discrète, à valeurs dans {0, 1} et suivant une loi binomiale
B(n, p) avec p = 21 , puisque la probabilité de succès est celle d’obtenir un pile, i.e. 12 .

Théorème 6 On a par ailleurs

X = X1 + · · · + Xk + · · · + Xn

où les Xk sont des variables aléatoires de Bernoulli indépendantes de paramètre p, correspondant
au succès d’une seule épreuve de pile ou face.

Exemple 31 Le nombre de boules rouges extraites au cours de n tirages successifs avec remise
(pour assurer l’indépendance) d’une boule dans une urne contenant des boules rouges et blanches
dans des proportions p et q = 1 − p est une variable aléatoire suivant une loi binomiale B(n, p).
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 35

Pour déterminer les probabilités des événements élémentaires d’une variable aléatoire suivant
une loi binomiale, il nous faut tout d’abord déterminer le nombre de possibilités d’obtenir k succès
au cours de n épreuves. Il s’agit de déterminer le nombre de combinaisons (non ordonnées) de k
objets pris parmi n, avec bien sûr k ≤ n. Les combinaisons sont non ordonnées car seul importe
d’avoir k objets (succès pour nous) et non pas à quel(s) tirage(s) ces succès ont eu lieu. On connaı̂t
le nombre de possibilités de k succès et n échec, (Cnk ) il suffit de les multiplier par les probabilités
de succès et d’échec pour obtenir la loi binomiale. On a donc :

Propriété 32 Les probabilités élémentaires d’une variable aléatoire X suivant une loi binomiale
B(n, p) sont données pour tout nombre de succès k = 1 . . . n par :

P[X = k] = Cnk · pk · (1 − p)n−k .

Remarque 10 On a bien, en utilisant la formule du binome,


n
X n
X
P[X = k] = Cnk · pk · (1 − p)n−k
k=0 k=0

=1

Propriété 33 (Espérance et variance)

E[X] = np,
V[X] = np(1 − p).

Démonstration :
On a l’écriture X = X1 + X2 + · · · + Xk + · · · + Xn , ou les Xk sont n variables aléatoires de Bernoulli
indépendantes. On a en effet par linéarité de l’espérance

E[X] = E[X1 ] + E[X2 ] + · · · + E[Xk ] + · · · + E[Xn ] = n · E[X1 ] = n · p

et par indépendance des variables aléatoires (Xk )k=1...n

V[X] = V[X1 ] + V[X2 ] + · · · + V[Xk ] + · · · + V[Xn ] = n · V[X1 ] = n · p · (1 − p)

Exemple 32 1. Un atelier comporte 10 machines identiques. Chaque machine a une probabilité


p = 0.01 de tomber en panne à un moment dans la journée. Lorsque l’on suppose que les
machines tombent en panne de manière indépendantes, la variable aléatoire X désignant le
nombre de machines en panne à un moment donné dans la journée suit une loi B(10, 0.01).
Le nombre moyen de pannes par jour est donc E[X] = 10 · 0.01 = 0.1, la variance étant
V[X] = 10 · 0.01 · 0.99 = 0.099.
2. Une machine qui a une probabilité p = 0.01 de tomber en panne dans la journée est amenée à
fonctionner pendant 20 jours consécutifs. Alors, en supposant l’indépendance des pannes, i.e.
si l’on considère qu’après chaque panne la machine est restaurée à l’identique, X suit une loi
B(20, 0.01).
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 36

3.5.4 Loi de Poisson


Lorsque le nombre d’épreuves n devient très important, la manipulation de la loi binomiale
devient elle très fastidieuse et est parfois remplacée en première approximation par son homologue
asymptotique, la loi de Poisson (théorème 7). Celle-ci évalue le nombre aléatoire d’évènements de
même probabilité pendant une durée donnée. Elle peut modèliser par exemple le nombre d’appels
reçus par un standard téléphonique, le nombre de voyageurs se présentant à un guichet dans la
journée, etc. Pour des raisons tues ici, elle s’exprime à l’aide de la fonction exponentielle et dépend
d’un paramètre λ > 0, qui correspond au nombre moyen d’occurence du phénomène observé pendant
la durée donnée. Plus formellement :

Définition 36 Une variable aléatoire X suit une loi de Poisson de paramêtre λ > 0, notée
P(λ) lorsque X(Ω) = N et pour tout k ∈ N

λk
PX (k) = P[X = k] = e−λ
k!
Propriété 34
λ
P[X = k + 1] = P[X = k]
k+1
On admettra que :

Propriété 35 (Espérance et variance)

E[X] = λ,
V[X] = λ.

Exemple 33 Si on sait qu’en général un standard téléphonique reçoit 20 appels dans la journée
et que l’on peut modéliser le nombre aléatoire d’appels par une loi de Poisson, on pourra calculer
la probabilité d’avoir k appels, pour tout k, à l’aide des formules données par une loi de Poisson
P(20).

Remarque 11 Dans la pratique, des tables donnant les probabilités élémentaires pour différentes
valeurs du paramètre sont disponibles et utilisées.

Propriété 36 Si X1 et X2 sont deux variables aléatoires indépendentes suivant respectivement des


lois de Poisson P(λ1 ) et P(λ2 ), alors X = X1 + X2 suit une loi de Poisson P(λ1 + λ2 )

Démonstration :

λk11
P[X1 = k1 ] = e−λ1
k1 !
k2
λ
P[X2 = k2 ] = e−λ2 2
k2 !
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 37

k
X
P[X1 + X2 = k] = P[{X1 = i} ∩ {X2 = k − i}]
i=0
k
X
= P[{X1 = i}] P[{X2 = k − i}]
i=0
k
X λi1 −λ2 λk−i
= e−λ1 e 2

i=0
i! (k − i)!
k
−(λ1 +λ2 )
X λi λk−i
1 2
=e
i=0
i! (k − i)!
k
1 X k!
= e−(λ1 +λ2 ) λi λk−i
k! i=0 i!(k − i)! 1 2
k
1 X i i k−i
= e−(λ1 +λ2 ) C λ λ
k! i=0 n 1 2
(λ1 + λ2 )k
= e−(λ1 +λ2 )
k!

3.6 Approximation d’une loi de Poisson par une Binomiale


La loi de Poisson est souvent utilisée comme approximation de certaines lois binomiales pour
de grands échantillons, i.e. des lois binomiales correspondant à des grands nombres n d’épreuves
de Bernoulli. Il y a bien sûr quelques restrictions dont nous tairons ici les justifications théoriques,
et le paramètre de la loi approximante doit être choisi de sorte que l’espérance soit celle de la loi
binomiale approximée.

Définition 37 On dit qu’une suite de variables aléatoires (Xn : n ∈ N) convergence en loi vers
la variable aléatoire X si et seulement si on a, pour tout événement A :

P[Xn ∈ A] → P[X ∈ A]
n→∞

L
On notera Xn −→ X.
n→∞

Remarque 12 Si les variables (Xn : n ∈ N) et X sont discrètes alors il suffit que pour tout x ∈ R,

P[Xn = x] → P[X = x]
n→∞

Théorème 7 Soient Xn ∼ B(n, p), Y ∼ P(µ). Alors on a :


L
Xn −→ Y
n→∞, p→0, np=µ

Preuve : exercice ! ! ! (rappel limn (1 + nx )n = ex .)

Exemple 34
Conparaison des fonctions de répartitions d’une loi B(100, 0.1) et de celle d’une loi P(10).
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 38

Remarque 13 Dans la pratique, on considère que l’approximation est bonne lorsque

n ≥ 30, p ≤ 0.1 et n · p < 15

Exemple 35 (Utilisation du théorème de convergence en loi) Considérons X ∼ B(100, 0.1)


et Y ∼ P(10). Nous sommes sous les hypothèses du théorème 7 (n = 100 ≥ 30, p = 0.1,
n · p = 10 < 15). Ce théorème nous assure que :

P[X = 5] = P[Y = 5]

Le premier terme de l’égalité est :

5
P[X = 5] = C100 0.195 0.95
= 0, 034

Le résultat a été trouvé par informatique la plupart des calculatrices étant incapable de le calculer
contrairement à l’autre terme :
105
P[Y = 5] = exp(−10)
5!
= 0, 037

Exemple 36
Conparaison des fonctions de répartitions d’une loi B(100, 0.5) et de celle d’une loi P(50).
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 39

Remarque 14 Il existe d’autres résultats de convergence en loi notamment le théorème de la limite


centrale 9 page 46.
Chapitre 4

Variables aléatoires continues, loi


normale

4.1 Loi d’une variable aléatoire continue


4.1.1 Définitions
Définition 38 On appelle variable aléatoire continue une variable aléatoire dont l’ensemble
des valeurs est R ou une réunion d’intervalles de R.

4.1.2 Problématique de la notion de loi dans le cas continu


Sa loi, c’est à dire la description des valeurs probables de X (avec quantification de ces probabi-
lités) est plus brièvement qualifiée de loi continue. La description d’une loi continue diffère de celles
des lois discrètes puisque pour une variable aléatoire continue X, la probabilité que X prenne une
valeur bien précise x PX (x) = P[X = x] est nulle. Il y a en effet une infinité de valeurs dans R ou
dans un intervalle, et au regard de toutes ces valeurs précises, le poids de la valeur particulière est
tellement insignifiant qu’il en est nul ! Il n’est ainsi pas possible de définir la loi de X par la donnée
des probabilités des événements élémentaires. Par contre, il est possible de déduire les probabilités
que X prenne ses valeurs dans une partie de R à partir de la fonction de répartition qui vaut dans
ce cas continu
F (x) = P[X ≤ x] = P[X < x].

4.1.3 Fonction de répartition et loi à densité


On considère une variable aléatoire X de fonction de répartition FX

F (x) = P[X ≤ x].

Propriété 37 On a les propriétés suivantes :


– F est une continue,
– limx→−∞ F (x) = 0 et limx→+∞ F (x) = 1,
– F est une fonction croissante,

40
CHAPITRE 4. VARIABLES ALÉATOIRES CONTINUES, LOI NORMALE 41

– Pour tous a, b ∈ R et a < b,

F (b) − F (a) = P[a < X ≤ b].

Le défaut de la fonction de répartition (que ne possède pas la notion de loi des variables aléatoires
discrètes) est qu’elle ne fait pas apparaı̂tre l’additivité des probabilités. Fort du parallèle que l’on
peut faire entre probabilités et surfaces, il est très avantageux de restreindre l’étude à une classe de
variables aléatoires dites à densité.

Définition 39 Une variable aléatoire possède une densité si Fx est dérivable. La dérivée notée
fX est appelée densité de probabilité de la variable aléatoire X.

Propriété 38 De ce fait,
Z b
P[a ≤ X ≤ b] = fX (t)dt,
a
et la probabilité de trouver X dans un intervalle [a, b] donné apparaı̂t comme l’aire d’une partie du
graphique située entre la courbe de la densité fX et l’axe des abscisses.

Remarque 15 Dans les applications, il n’est pas nécéssaire de calculer ces aires à l’aide de calculs
car des tables de lois recapitulant les valeurs principales existent.

Propriété 39 La donnée d’une densité f permet donc de décrire complètement notre variable
aléatoire en caractérisant sa loi grâce aux propriétés suivantes :
– ∀x ∈ R, f (x) ≥ 0.
– Z +∞
f (x)dx = 1.
−∞
– Z b
P[a < X ≤ b] = F (b) − F (a) = f (x)dx.
a

4.2 Lois à densité classiques


4.2.1 Loi uniforme
Cette loi modélise un phénomène uniforme sur un intervalle donné.
Définition 40 La v.a. X suit une loi uniforme sur l’intervalle borné [a; b] si elle a une densité f
constante sur cet intervalle et nulle en dehors. Elle est notée U([a; b]). Sa densité est alors,
(
1/(b − a) si x ∈ [a; b],
f (x) =
0 sinon
Cette loi est l’équivalent continue de la loi discréte equirépartie. Son espérance est E[X] = (b − a)/2
et sa variance est V ar(X) = (b − a)2 /12.
Le résultat suivant permet d’éviter des calculs fastidieux pour déterminer la probabilité uniforme
d’un intervalle.
Propriété 40 Si X est une v.a de loi uniforme sur [a; b] alors pour tout intervalle I de R :
l([a; b] ∩ I)
P(X ∈ I) = ,
l([a; b])
où l(J) désigne la longueur de l’intervalle J (ex : l([a ;b])=b-a).
CHAPITRE 4. VARIABLES ALÉATOIRES CONTINUES, LOI NORMALE 42

4.2.2 Lois exponentielles


Définition 41 Soit α un réel strictement positif. La v.a X suit une loi exponentielle de paramètre
α, notée E(α), si elle admet pour densité :

f (x) = αe−αx 1[0;+∞[ (x).

Son espérance est E(X) = 1/α et sa variance est var(X) = 1/α2 . Les lois exponentielles sont
souvent utilisées pour modéliser des temps d’attente ou des durées de vie. Par exemple, les temps
d’attente à partir de maintenant du prochain tremblement de terre, de la prochaine panne d’un
appareil, de la prochaine désintégration dans un réacteur nucléaire suivent des lois exponentielles.
Le paramètre α désigne alors l’inverse du temps d’attente moyen.

4.3 La loi normale


4.3.1 Loi normale centrée réduite N (0, 1)
Définition

La loi normale, ou loi normale centrée réduite est la loi la plus connue des probabilités, parfois
sous le vocable loi de Laplace-Gauss et caractérisée par une célèbre ”courbe en cloche”.

Définition 42 La loi normale centrée réduite est une la loi continue, d’une v.a. X à valeurs
dans X(Ω) = R tout entier, définie à partir de la densité
1 −x2
f (x) = √ e 2

Il n’existe par contre pas d’expression simple de sa fonction de répartition autre que la formule
intégrale Z a
∀a ∈ R, F (a) = f (t)dt
−∞

Il s’agit de l’aire de la surface située sous la courbe et à gauche de l’axe vertical x = a (Voir la
figure 4.1 page 43).

Remarque 16 Dans les pratiques, les probabilités d’événements de v.a. suivant une loi normales
sont répertoriées dans des tables facilement manipulables.

Paramètres

Un calcul intégral plus élaboré donne :

Propriété 41 (Espérance et variance)

E[X] = 0,
V[X] = 1.
CHAPITRE 4. VARIABLES ALÉATOIRES CONTINUES, LOI NORMALE 43

Figure 4.1 – A gauche : Densité de probabilité de la loi N (0, 1), à droite sa fonction de
répartition.

4.3.2 Loi normale générale N (µ, σ)


Définition

Définition 43 Il s’agit d’une modification ”spatiale” de la Loi normale : la forme en cloche de la


densité est la propriété principale de la famille des lois normales, qui peuvent éventuellement être
translatée pour devenir assymétrique d’espérance non nulle µ, ou dilatée ou contractée autour de
la moyenne en jouant sur la variance σ 2 (Voir la figure 4.2 page 44). La densité est modifiée en
1 −(x−µ)2
f (x) = √ e 2σ2
σ 2π
L’usage d’un changement de variable t = (x−µ)σ permet de se ramener à un calcul d’intégrale à
partir de la loi N (0, 1), ce qui nous permettra de consulter les tables existant pour la loi standard
précédente. On a le théorème suivant :
Théorème 8 Soit X une variable aléatoire de loi normale N (µ, σ) et Z la variable aléatoire définie
par
X −µ
Z=
σ
suit une loi normale centrée réduite N (0, 1).

Paramètres

Le changement de variable donne aussi :

Propriété 42 (Espérance et variance)

E[X] = µ,
V[X] = σ 2 .
CHAPITRE 4. VARIABLES ALÉATOIRES CONTINUES, LOI NORMALE 44

Figure 4.2 – Densité de probabilité de la loi normale N (1; 0, 5).

Manipulation de la loi normale

Remarque 17 On notera Φ la fonction de répartition de la loi normale centrée réduite N (0, 1).

On utilise les valeurs de Φ(a) tabulées et le changement de variable pour calculer les valeurs de
la fonction de répartition F d’une loi normale générale.

Exemple 37 Considérons X une v. a. qui suit une loi N (6, 2) et Z une v.a. de loi N (0, 1), on a
par exemple

FX (7) = P[X ≤ 7]
X − 6 7 − 6
=P ≤
2 2
 1
=P Z≤
2
1

2
= 0.6915.

Les valeurs ne sont tabulées que pour des valeurs de a positives, mais on s’en sort à l’aide de la
propriété suivante de le fonction de répartition Φ de la loi normale :

Propriété 43 Soit Z une v.a. de loi N (0, 1) ; on a alors

Φ(−a) = 1 − Φ(a)

et en particulier Φ(0) = 21 . On a par ailleurs

P[| Z |≤ a] = 2 · Φ(a) − 1
CHAPITRE 4. VARIABLES ALÉATOIRES CONTINUES, LOI NORMALE 45

Exemple 38 –
X − 6 1 − 6
P[X > 1] = P >
2 2
 −5 
=P Z>
2
5

2
= 0.9938.


 
P[4 ≤ X ≤ 8] = P − 1 ≤ Z ≤ 1
 
= P | Z |≤ 1
= 2Φ(1) − 1
= 0.6826.

Remarque 18 En utilisant les techniques précédentes, on constate tout d’abord que la loi normale
N (m, σ) est une loi symétrique autour de l’axe médian x = µ. On a ainsi 50% des individus au
dessus de la moyenne et 50% en dessous. C’est loin d’être le cas en général bienque notre intuition
nous pousse souvent à le croire, participant à une intuition probabiliste erronée.

Exemple 39 Cette loi permet aussi de mieux appréhender le lien entre variance et dispersion :
dans un intervalle [m − σ, m + σ] de longueur 2σ et centré autour de la moyenne, on peut calculer
qu’il y a 68% des individus, lorsque qu’une v.a. suit une loi N (m, σ) :

P[m − σ ≤ X ≤ m + σ] = 0.68

On établit aussi la règle des ”3 σ” : 95% d’un échantillon représentatif d’une loi normale N (m, σ)
est approximativement situé entre m − 2σ et m + 2σ. Plus exactement,

P[m − 1.96σ ≤ X ≤ m + 1.96σ] = 0.95

et on a mème 99, 7% des individus entre m − 3σ et m + 3σ :

P[m − 3σ ≤ X ≤ m + 3σ] = 0.997

Autrement dit, lorsque l’on a une variable aléatoire qui suit une loi normale N (m, σ), on est ”pra-
tiquement sûr” que la valeur se situera entre m − 3σ et m + 3σ.

Sommes de v.a. normales indépendentes

Propriété 44 Soit X1 et X2 deux v.a. indépendentes de lois respectives N (µ1 , σ1 ) et N (µ2 , σ2 ).


p
Alors X1 + X2 suit une loi normale N (µ1 + µ2 , σ12 + σ22 ) et X1 − X2 suit une loi N (µ1 −
p
µ2 , σ12 + σ22 ).

4.4 La Loi normale comme limite en loi


L’importance de la Lois Normale est due à son apparition comme loi limite de nombreux
phénomènes, à travers par exemple le célèbre Théorème de la limite centrale.
CHAPITRE 4. VARIABLES ALÉATOIRES CONTINUES, LOI NORMALE 46

Théorème 9 Soit X1 , X2 , . . . une suite de variables aléatoires définies sur le même espace de pro-
babilité, suivant la même loi L et indépendantes. Supposons que l’espérance µ et l’écart-type σ de
L existent et soient finis (σ 6= 0).

Considérons la somme Sn = X1 + ... + Xn . Alors l’espérance de Sn est nµ et son écart-type vaut



nσ. Alors
Sn − nµ
Zn = √
σ n
converge vers la loi normale centrée réduite N (0; 1) lorsque n tend vers l’infini.

Corollaire 2 (Théorème de laplace) C’est notamment le cas pour une loi de bernoulli b(p) et
dans ce cas, Sn n’est autre que la loi binomiale B(n; p) qui vérifie bien les hypothèses. On a :

Sn − np L
√ −→ U
npq n→∞

avec U ∼ N (0; 1).

Dans la pratique, on considère que l’approximation est bonne lorsque

n ≥ 30, p ≥ 0.1 et n · p > 15

Figure 4.3 – Illustration du Théorème de la limite centrale.

Exemple 40 (Utilisation du Théorème de la limite centrale) Considérons X ∼ B(100, 0.4)


et U ∼ N (0; 1). On cherche à évaluer
P[X ≤ 45].
CHAPITRE 4. VARIABLES ALÉATOIRES CONTINUES, LOI NORMALE 47

Pour ce faire, il suffit d’écrire :


X − 40 45 − 40
P[X ≤ 45] = P[ √ ≤√ ]
100 · 0, 4 · 0, 6 100 · 0, 4 · 0, 6
X − 40
= P[ √ ≤ 1, 02]
100 · 0, 4 · 0, 6
il est facile de voir que les deux événements sont identiques et donc que les deux probabilités sont
égales. Maintenant, il suffit de dire que nous sommes sous les hypothèses du théorème 2 (n = 100 ≥
30, p = 0.4, n · p = 40 > 15) et que ce dernier nous assure que :
X − 40
P[X ≤ 45] = P[ √ ≤ 1, 02]
100 · 0, 4 · 0, 6

= P[U ≤ 1, 02]

Par informatique on trouve (la plupart des calculatrices étant incapable de le calculer et aucun
étudiant assez courageux pour calculer les 46 termes de la somme...) :
45
X
i
P[X = 5] = C100 0.4i 0.6100−i
i=0

= 0, 869

Une lecture dans la table nous permet d’affirmer que :

P[U ≤ 1, 02] = 0, 849

Ce qui est une très bonne approximation.

4.5 Lois dérivées de la loi Normale


Parfois d’autres lois que la loi normale sont utiles dans les approximations (cf. les calculs d’inter-
valle de confiance, de test). Ce sont les lois de Student et du χ2 (lire khi-deux). Ces lois dépendent
d’un paramètre n entier, appelé degré de liberté (d.d.l.). De même que pour la loi normale N (0; 1),
on disposera de tables pour ces lois.

4.5.1 Loi du Khi-deux


Définition 44 Soient X1 , ..., Xn des v.a indépendantes de même loi N (0; 1). Posons χ2 = i=1...n Xi2 ,
P

par définition la v.a. χ2 suit une loi du khi-deux à n degré de liberté (abréviation d.d.l.). On note
χ2 (n) cette loi.

Quelques Propriétés :
- χ2 ≥ 0, cette loi n’est donc pas symétrique,
- χ2 admet une densité,
- E(χ2 ) = n et var(χ2 ) = 2n

4.5.2 Loi de Student


Définition 45 Soient X ∼ N (0; 1) et Y ∼ χ2 (n). Posons T = √X . Alors T suit une loi de
Y /n
Student à n degré de liberté et on la note T (n).
Chapitre 5

Une introduction aux Théorémes


limite en Probabilités

”En essayant continuellement, on finit par réussir. Donc plus ça rate, plus on a de chances que
ça marche.”

5.1 Loi des grands nombres


La loi des grands nombres est la formulation rigoureuse des faits intuitifs suivants : si on lance
un  grand  nombre de fois une pièce en l’air, il y aura en moyenne 50% de piles (et donc aussi
50% de face). Précisons cette remarque. On joue n fois au pile ou face, avec proba p de tomber sur
pile. Pour 1 ≤ i ≤ n on pose Xi = 1{pile} , alors :
P
i=1..n Xi nb de piles
= .
n n
Et il semble assez naturel que lorsque n est grand le rapport nb de piles/n tende vers la proba de
tomber sur pile, c’est à dire précisément p = E(X1 ). Ainsi dans ce cas particulier, il semble que
lorsque n grand, P
i=1..n Xi
→ E(X1 ).
n
De même, si on lance un  grand  nombre de fois un dè à 6 faces en l’air, il y aura en moyenne
1/6 ème des faces qui seront, par exemple, des 4 (si la pièce et le dè sont équilibrés). Il existe
deux versions de la LGN qui correspondent à deux modes de convergence : la faible où on énonce
la convergence en ”probabilité”’ et la forte avec la convergence ”presque sûre.” (cf. paragraphes
suivant pour définition de ces modes de convergence)

5.1.1 Un premier pas : Loi faible des grands nombres


Théorème 10 Soit (Xn )n∈N? une suite de v.a. réelles deux à deux indépendantes et de même loi
tel que E(X12 ) < ∞. Alors,
1 X
∀ > 0 lim P( | Xi − E(X1 )| >  ) = 0
n n i=1..n

48
CHAPITRE 5. UNE INTRODUCTION AUX THÉORÉMES LIMITE EN PROBABILITÉS 49

Ce type de convergence s’appelle la convergence en probabilité. Autrement dit, la moyenne arithmétique


de X1 , ..., Xn converge en probabilité vers l’espérance de X1 . Ce résultat peut etre ”facilement”
prouvé à l’aide de l’inégalité de l’inégalité de Bienaymé Tchebychev (cf. feuille d’exos), ce qui
donne une esquisse d’intuition de la véracité de ces propriétés, aux plus motivés d’entre vous.

5.1.2 Loi forte des grands nombres


Il existe une version de la loi des grands nombres pour la convergence presque sûre, on parle de
la loi forte (car la convergence presque sûre est plus forte que celle en probabilité.)

Théorème 11 Soit (Xn )n∈N? une suite de v.a. réelles deux à deux indépendantes et de même loi
tel que E(|X1 |) < ∞. Alors,
1 X
pour presque tout ω, lim Xi = E(X1 ).
n n
i=1..n

On parle de convergence presque sûre (p.s en abrégé). Cela signifie que pour presque chaque
réalisation ω, la quantité moyenne arithmétique des Xi converge vers E(X1 ). Attention, la ”vi-
tesse” de convergence dépend du ω. On admet ce Théorème (LGN) fondamental dont les preuves
sont beaucoup plus complexes que celles de sa version faible.

Exemple 41 Appliquer la loi des grands nombres au jeu du pile ou face. Pour i = 1..n, posez
Xi = 1{pile} .

Exemple 42 Application : estimation d’une proportion inconnue. On se propose d’estimer le pa-


ramètre p inconnu d’une loi de Bernoulli en observant un grand nombre de fois un phénoméne
aléatoire de loi de Bernoulli(p), c’est à dire en observant les valeurs d’une suite de v.a. Xi
indépendantes et de loi de Bernoulli(p). Considèrons une urne comportant des boules rouges en
proportion inconnue p et des boules vertes (en proportion 1 − p). D’aprés la LGN, un grand nombre
de tirages de boules dans l’urne donnera une estimation de la proportion p en comptant (la fréquence
du) nombre de boules rouges ainsi tirées.
Seulement, quel est le nombre raisonnable de boules à tirer pour avoir une réponse assez précise ?
Pour répondre à cette question, on peut fabriquer un intervalle dans lequel on est certain que le
paramètre p se trouve avec une certaine probabilité. On appelle un tel intervalle, un intervalle de
confiance. L’inégalité de Bienaymé Tchebychev (cf. feuille d’exos) permet de donner un intervalle
(exo). [ le paragraphe suivant (avec le TCL) donne également un intervalle]

Exemple 43 (Sondage) : Avant le second tour d’une élection, opposant les candidats D et G,
un institut de sondage interroge au hasard 1000 personnes dans la rue. On note p la proportion
d’électeurs décidés à voter pour G dans la population totale et on suppose l’échantillon de personnes
intérrogées représentatif. Dans l’échantillon sondé, cette proportion est égale à 0, 54. A l’aide de
Bienaymé Tchebychev, proposer un intervalle de confiance pour p avec un risque d’erreur de 5%.
Faut il augmenter la taille de l’échantillon pour répondre à la question ?

5.2 Théorème central limite


P
On sait maintenant que sous certaines conditions, la moyenne arithmétique X̄n = i Xi /n, de
v.a. indépendantes ayant la meme lois converge vers l’espérance. On sait donc que X̄n − E(X1 )
CHAPITRE 5. UNE INTRODUCTION AUX THÉORÉMES LIMITE EN PROBABILITÉS 50

tend vers 0. On aimerait aller à l’ordre supérieur et connaitre ”la vitesse” de convergence vers 0.
Le (TCL) Théorème central limite répond à la question :

Théorème 12 Soit (Xn )n≥1 une suite de v.a. réelles indépendantes et de même loi, de moyenne
m et d’écart type σ. Notons
X1 + ... + Xn
X̄n =
n
et Zn les v.a. associées centrées réduites :

n(X̄n − m)
Zn = .
σ
Alors pour tout intervalle [a; b], on a :
Z b
1 2
lim P(Zn ∈ [a; b]) = P(Y ∈ [a; b]) = √ e−t /2
dt,
n 2π a

où Y suit une N (0; 1). √


n(X̄n −m)
On dit que la loi de la v.a. Zn = σ converge en loi vers une normale centreé réduite
N (0; 1).

Autrement dit les sommes renormalisées se comportent asymptotiquement comme la loi normale.
De façon générale, l’écart entre les moyennes arithmétiques et l’espérance (écart qui tend vers 0
par la LGN) se comporte aprés normalisation comme la loi normale (ou bien encore en notant que
X̄n − m = n1 i=1..n (Xi − m), la moyenne des écarts (renormalisée) ”tend” vers une Gaussienne.)
P

Connaissant la densité de la loi normale, on peut le ”lire” intuitivement comme suit. Si n est
assez grand alors Zn est très probablement compris entre -3 et 3 (la probabilité est 0.9973). Soit
encore :
X1 + ... + Xn 3σ 3σ
− E(X1 ) ∈ [− √ ; √ ],
n n n
avec grosse probabilité.

Remarque 19
1. Quelque soit la loi des Xi (moment d’ordre 1 fini), les sommes renormalisées convergent vers
une meme loi limite, la loi Normale, ce qui explique le nom de cette loi et son caractère
universel.

2. Le n est nécessaire ! Prendre Xi ∼ N (0; 1) et regarder les variances des 2 termes.
3. En pratique, lorsque l’on considère un grand nombre de v.a. indépendantes et de même loi
X1 , ..., Xn , on approxime leur somme Sn ou leur moyenne X̄n par des variables normales
suivantes :
√  √ 
Sn ∼ N nm; nσ et X̄n ∼ N m; σ/ n ,

où m = E(X1 ) et σ 2 = var(X1 ).


4. Si l’on prend Xi ∼ Bernoulli(p), on retrouve qu’une Binomiale approche une Normale. [On
a donc deux approximations possibles pour les lois binomiales B(n; p) : celle par une loi de
Poisson
 P(np) lorsque
 n est grand, p petit et np de l’ordre de quelques unités et celle par
p
N np; np(1 − p) lorsque n est grand. Seule la pratique permet de décider laquelle des
deux est la meilleure approximation. ]
CHAPITRE 5. UNE INTRODUCTION AUX THÉORÉMES LIMITE EN PROBABILITÉS 51

Le TCL est fondamental en statistique pour l’obtention d’intervalles de confiance. Il est à l’ori-
gine de beaucoup d’approximation de lois et permet de se ramener à la loi normale pour laquelle
on dispose de tables des valeurs.

5.3 Quelques applications


5.3.1 Marcheur dans Z
Soit un marcheur aléatoire (imaginez un bonhomme ivrogne) qui se déplace sur l’axe Z en
sautant aléatoirement à chaque unité de temps (à chaque seconde par exemple) sur un de ces 2
voisins (droite ou gauche). Notons Xi sa position à l’instant i. On suppose que le marcheur débute
à l’origine à t = 0, c’est à dire X0 = 0.

On a les relations suivantes : pour tout i ≥ 0,

Xi+1 = Xi + i ,

où les i ∈ {−1, +1} avec P( = −1) = P( = +1) = 1/2.
On applique le TCL aux i (qui sont indépendants, de meme lois). On a : E(i ) = 0 et var(i ) = 1.
Xn
On obtient que pour n grand, la loi de √ n
s’approxime par une N (0; 1). Ainsi, connaissant la forme
de la densité de la normale, on déduit qu’avec grosse probabilité le marcheur se trouve dans la boule

de centre 0 et de rayon n, au bout d’un temps n.

5.3.2 Intervalle de confiance lors d’élections


Deux candidats A et B sont en course pour une éléction. Soit p la probabilité de gens votant
pour A. A l’issue d’un sondage sur n personnes, on se propose de donner un intervalle de confiance
dans lequel p doit se trouver avec un(certain pourcentage α.
1 si la personne i vote pour A
Pour 1 ≤ i ≤ n, posons Xi = |x| =
0 sinon.
Les Xi sont indépendants et suivent des loi de Bernoulli de paramètre p inconnu. On a E(X1 ) = p
et V ar(X1 ) = p(1 − p). Le TCL autorise l’approximation (en loi) suivante pour n grand :
P
Xi
r
n
( i − p) ∼ N (0; 1) .
p(1 − p) n

D’où, pour tout  > 0, on a :


P
Xi
r
n i
P(| ( − p)| < ) ≈ P(|Y | < ),
p(1 − p) n
CHAPITRE 5. UNE INTRODUCTION AUX THÉORÉMES LIMITE EN PROBABILITÉS 52

où Y ∼ N (0; 1) .
C’est à dire que l’on est certain avec le taux α = P(|Y | < ) que ,
r r
p(1 − p) p(1 − p)
p ∈ [X̄n −  ; X̄n +  ]
n n
Si l’on veut par exemple donner une fourchette pour p avec un taux α = 0, 95, on choisit  = 1, 96
( cf. table de la loi normale). Ainsi avec 95%, on peut affirmer que,
1, 96 1, 96
p ∈ [X̄n − √ ; X̄n + √ ]
2 n 2 n

(On a utilisé le fait que pour p ∈ [0; 1], p(1 − p) ≤ 1/4 ) De cette dernière expression, on remarque
que si l’on augmente la taille n de l’échantillon, l’intervalle (de confiance) se ”resserre”, ce qui
permet de lever éventuellement un indetermination dans le cas où 1/2 ∈ [X̄n − 21,96 √ ; X̄n + 1,96
n
√ ].
2 n

5.3.3 Introduction aux tests statistiques (le test du Chi 2)


Cette section ne représente qu’un survol de la théorie des tests.

Introduction générale

L’une des fonctions des statistiques est de proposer, à partir d’observations d’un phénomène
aléatoire (ou modélisé comme tel) une estimation d’un des paramètres du phénomène. C’est pas
exemple le but recherché dans la construction d’intervalles de confiance. Les statistiques servent
aussi à prendre des décisions. Peut on considérer qu’un médicament est plus efficace qu’un placebo ?
Le nombre de consultations de Google par seconde suit il une loi de Poisson ? Les gènes pilotant
la couleur des yeux et ceux des cheveux sont ils sur les mêmes chromosomes ? Il y a deux points
communs (au moins) à toutes ces questions : leurs réponses sont des oui-non et le phénomène sous-
jacent est aléatoire. Les tests statistiques vont permettre d’apporter une réponse à des questions
manichéennes en contrôlant l’aléa inhérent à la situation.
En statistiques, les deux éventualités sont appelées des hypothèses et sont notées H0 (hypothèse
nulle) et H1 (hypothèse alternative). Souvent H1 sera le contraire de H0 . Dans tous les cas, le
postulat est qu’une et une seule des deux hypothèses est vraie.

Un test statistique est un algorithme qui conduit à ne pas rejetter H0 ou rejetter H0 à partir des
observations du phénomène. L’idée de base des tests, est de trouver une statistique (une fonction
des observations) dont on connait la loi (ou qui s’approxime par une loi connue) si H0 est vraie et
qui ne se comporte pas de la même manière selon que H0 ou H1 est vraie.
( le ”qui s’approxime par une loi connue” dans la phrase précédente, est en général une conséquence
du TCL. On devine ainsi l’importance capitale de ce Théorème dans cette théorie.)
Il y a deux grands types de tests : les tests paramétriques et les tests non paramétriques (exemple :
test du χ2 ). Un test non paramétrique teste une propriété (indépendance ou pas, homgénéité ou
pas ). Un test paramétrique consiste à vérifier si une caractéristique d’une population, que l’on
notera θ, satisfait une hypothèse que l’on pose a priori, appelée hypothèse nulle H0 . Il s’agit donc
de tester un paramètre. Elle est en général de la forme H0 : θ = θ0 ou H0 : θ > θ0 ou encore
H0 : θ < θ0 . Comme pour les intervalles de confiance, on a besoin pour cela d’un échantillon dont
les valeurs sont celles prises par n v.a. X1 , ..., Xn indépendantes de même loi.
CHAPITRE 5. UNE INTRODUCTION AUX THÉORÉMES LIMITE EN PROBABILITÉS 53

Un premier exemple

On suppose que la taille d’une population suit une loi Gaussienne N µ; σ 2 . On connait σ 2
mais la valeur µ est inconnue. Certaines circonstances aménent à formuler la question suivante :
la moyenne théorique µ est-elle égale à une certaine valeur µ0 ? Pour cela, on désire faire le test
suivant :H0 : µ = µ0  contre H1 : µ 6= µ0 .
Soit un échantillon X1 , ..., Xn des tailles de n personnes de la population. H0 implique que

Xi ∼ N µ0 ; σ 2 . Ainsi, pour n grand, le TCL donne alors que la v.a.

n
Un := (X̄n − µ0 ) ∼ N (0; 1) .
σ
Vu l’allure de la densité de la normale centrée réduite, on définit une zone rejet Rα de la forme
Rα =] − ∞; −tα [∪] − tα ; +∞[ où le nombre tα est donné par la table N (0; 1) de la v.a. U avec

P(|U | > tα ) = α

Si on choisit α = 0, 05, on a tα = 1, 96 d’aprés la table N (0; 1). Et si choisit α = 0, 1, on a


tα = 1, 645.
Il reste alors à calculer la valeur u de U à partir de l’échantillon et à décider en fonction de
l’appartenance de u à Rα ou non.
(
si u ∈ Rα on rejette H0 avec un risque d’erreur α %
si u ∈
/ Rα on ne rejette pas H0 avec un risque d’erreur α %

Le test du χ2

Toujours selon le meme schéma, sous une certaine hypothèse H0 , on construit ”une statistique”
(fonction des observations) qui doit tendre vers une loi connue. Dans le test du χ2 , la convergence
de la ”statistique trouvée” n’est pas une conséquence ”immédiate” du TCL mais c’est dans le meme
esprit que celle çi se prouve (d’où la place de ce test dans cette section).
Le test du khi-deux concerne uniquement les lois discrètes, mais on peut l’utiliser aussi pour des
échantillons continus regroupés en classes. Le modèle de base est toujours un échantillon (X1 , ..., Xn )
d’une loi inconnue. Les classes, notées c1 , ..., ck , sont une partition de l’ensemble des valeurs pos-
sibles. L’hypothèse à tester porte sur les probabilités des classes, pour lesquelles on se donne des
valeurs théoriques Ptheo (c1 )..., Ptheo (ck ).

H0 : ∀i = 1, ..., k, P(Xi ∈ ci ) = Ptheo (ci ).

Sous l’hypothèse H0 la distribution empirique de l’échantillon sur les classes doit être proche de
la distribution théorique. La distribution empirique (observée) Pobs est celle des fréquences de
l’échantillon dans les classes :
1 X Nombre de Xi tombant dans la classe cj
Pobs (cj ) = 1{c } (Xi ) = .
n i=1...n j n

On mesure l’adéquation de la distribution empirique à la distribution théorique par la distance du


khi-deux.
CHAPITRE 5. UNE INTRODUCTION AUX THÉORÉMES LIMITE EN PROBABILITÉS 54

Définition 46 On appelle distance du khi-deux de Ptheo par rapport à Pobs , et on note Dχ2 (Ptheo , Pobs ),
la quantité :
X (Ptheo (ci ) − Pobs (ci ))2
Dχ2 (Ptheo , Pobs ) =
Ptheo (ci )
i=1...k

La ”distance” du khi-deux est donc une moyenne pondérée d’écarts quadratiques entre les
valeurs de Ptheo et Pobs . Ce n’est pas une distance au sens usuel du terme, puisqu’elle n’est même
pas symétrique. La loi de probabilité de Dχ2 (Ptheo , Pobs ) n’a pas d’expression explicite en général.
On utilise le résultat suivant :

Propriété 45 Sous l’hypothèse H0 , la loi de la variable aléatoire nDχ2 (Ptheo , Pobs ) converge quand
n tend vers l’infini, vers la loi du khi-deux de paramètre k-1.

Si l’hypothèse H0 est fausse, alors la variable nDχ2 (Ptheo , Pobs ) tend vers l’infini ( appliquer k fois
la loi des grands nombres, on obtient un terme linéaire en n). En pratique, la statistique du test
du khi-deux se calcule sous la forme suivante :

X (ntheo (ci ) − nobs (ci ))2


U = nDχ2 = ,
ntheo (ci )
i=1...k

où
• ntheo (ci ) est l’effectif théorique de la classe ci , à savoir le produit nPtheo (ci ),
• nobs (ci ) est l’effectif observé de la classe ci .

On peut distinguer trois types de test du χ2 :


1. le test du χ2 d’adéquation à une loi de probabilité sur un ensemble fini. Est il raisonnable de
penser que les résultats que j’observe sont des réalisations i.i.d d’une loi (p1 , p1 , ..., pk ) sur un
ensemble {1, 2, ..., k}. Exemple, H0 :  le caractére X suit-il une loi particulière ? ,
2. le test χ2 d’homogénéité de plusieurs échantillons : deux médicaments ont-ils le même effet
(guérison, état stationnaire...) sur la population atteinte ? Exemple, H0 :  le caractére X
suit-il la même loi dans deux populations données ?  ,
3. le test du χ2 d’indépendance. H0 :  les caractéres X et Y sont-ils indépendants ? 

Ces trois tests ont un principe commun qui est le suivant : on répartit les observations dans k
classes dont les effectifs sont notés n1,obs , ..., nk,obs . L’hypothèse H0 permet de calculer les effectifs
théoriques, notés n1,theo , ..., nk,theo (ni,theo represente l’effectif théorique dans la classe i). On rejette
H0 si les effectifs observés sont trop différents des effectifs théoriques. Pour cela on donc utilise la
statistique de test décrite précédement :

(ni,obs − ni,theo )2
P
U = i=1..k .
ni,theo

Fait 1 : Le point central est que grace à la propriété 45, on peut prouver que lorsque la taille de
l’échantillon augmente, la statistique U tend vers la loi d’un χ2 (k − 1 − m) où k est le nombre de
classes et m est le nombre de paramètres estimées nécessaires au calcul des effectifs théoriques (les
Ni doivent être supérieur à 5).
CHAPITRE 5. UNE INTRODUCTION AUX THÉORÉMES LIMITE EN PROBABILITÉS 55

Figure 5.1 – Densité de la loi d’un χ2 (à plus de 3 paramètres).

Il faut donc s’assurer que les effectifs théoriques sont plus grands que 5 et faire des regroupe-
ments de classes si besoin est. A partir de là, on calcule la zone de rejet unilatérale Rα = [tα,+∞ ][
au risque α en déterminant tα dans la table de la loi χ2 (k − 1 − m) par P(U > tα ) = α. La règle
décision est la suivante :

 si u = i=1..k (ni,obs −ni,theo )2 appartient à R , on rejette H
P

ni,theo α 0
P 2
 si u = i=1..k (ni,obs −ni,theo ) n’appartient pas à Rα , on accepte H0
ni,theo

Remarque 20
1. Contrairement aux autres tests, les tests du χ2 n’exigent pas de formuler l’hypothèse alternative
H1 , qui correspond à la négation de H0 .
2. Les effectifs théoriques doivent être supérieurs à 5. Si ce n’est pas le cas, il faut regrouper des
classes.
3. Dans la statistique U = χ2 (k − 1 − m), on manipule des effectifs et non des pourcentages.

Exemple A : Adéquation à une loi

Exemple a
Un croisement entre roses rouges et blanches a donné en seconde génération des roses rouges, roses
et blanches. Sur un échantillon de taille 600, on a trouvé les résultats suivants :
Couleur Effectif
rouges 141
roses 315
blanches 144
Peut on affirmer que les résultats sont conformes aux lois de Mendel ?
Il s’agit de tester H0 : prouges = pblanches = 0.25, proses = 0.5 par exemple au risque α = 0.05.
On dresse alors le tableau suivant :
couleur effectifs observés Ni effectifs théoriques ni,theo
rouges 141 0.25 × 600
roses 315 0.5 × 600
blanches 144 0.25 × 600
Ici, on a k = 3 classes et m = 0 (aucun paramètre à estimer pour pouvoir calculer les effectifs
CHAPITRE 5. UNE INTRODUCTION AUX THÉORÉMES LIMITE EN PROBABILITÉS 56

théoriques) donc k − 1 − m = 2. On calcule ensuite Rα =]tα ; +∞[ ) l’aide de la table du χ2 (2) et


on obtient t = 5, 991. Enfin, on calcule :

(141 − 150)2 (315 − 300)2 (144 − 150)2


u = U (ω) = + + = 1.53 ∈
/ Rα .
150 300 150
On propose le non rejet de l’hypothèse : on ne peut pas dire que les observations contre- disent la
loi de Mendel.
Exemple b :
On observe le nombre X d’accidents journaliers sur une période de 50 jours dans une certaine ville.
On obtient :
Nombre d’accidents Nombre de jours
0 21
1 18
2 7
3 3
4 1
On constate que X̄ = 0.9 et que var(X) = 0, 97. Peut on affirmer que X suit une loi de Poisson au
risque α = 0.05 ?
Soit H0 : ” X suit une loi de Poisson de paramètre 0.9”, on dresse donc le tableau suivant :
Nombre d’accidents Nombre de jours Nombre de jours théorique
0 21 50 × e−0.9 = 20.330
1 18 50 × e−0.9 × 0.9 = 18.295
au moins 2 11 50 × (1 − e−0.9 (1 + 0.9)) = 11.376
On a regroupé les 3 dernières classes pour avoir un effectif théorique supérieur à 5 dans la dernière
classe. Dans cet exemple, on a k = 3 classes et m = 1 paramètre estimé (à savoir le paramètre
λ = X̄ = 0.9 de la loi de Poisson) nécessaire au calcul des effectifs théoriques. Donc k −1−m = 1 est
le nombre de d.d.l de U ; On calcule alors Rα = [tα ; +∞[ à l’aide de χ2 (1) et on obtient tα = 3.841.
Pour finir, on calcule

(21 − 20.33)2 (18 − 18.295)2 (11 − 11.376)2


u = U (ω) = + + = 0.039 ∈
/ Rα .
20.33 18.295 11.376
Et donc on ne rejette pas H0 au risque d’erreur 0.05.

Exemple B : Indépendance

Soient Y et Z deux v.a. à valeur respectivement dans {1, ..., r} et {1, ..., s}. La loi de (Y, Z)
est donnée par une matrice P = (pi,j )1≤i≤r, 1≤j≤s à coefficients positifs dont la somme vaut 1,
pi,j = P(Y = i, Z = j). Notons pour 1 ≤ i ≤ r et 1 ≤ j ≤ s,

pi. = P(Y = i) = pi,1 + pi,2 + ... + pi,s et p.j = P(Z = j) = p1,j + p2,j + ... + pr,j .

Les v.a. Y et Z sont indépendantes si et seulement si, pour tous i et j, on a : pi,j = pi. p.j

Soient un échantillon (Y1 , Z1 ), ..., (Yn , Zn ) de ces v.a, on définit alors les v.a. suivantes :

Ni,j = card{l ∈ [1; n]; (Yl , Zl ) = (i, j)}, Ni. = Ni,1 + ... + Ni,s et N.j = N1,j + ... + Nr,j .

Le fait 1 donne la propriété suivante :


CHAPITRE 5. UNE INTRODUCTION AUX THÉORÉMES LIMITE EN PROBABILITÉS 57

Propriété 46 Avec les notations ci-dessus,


(
X X (Ni,j − Ni. N.j )2 → χ2 ((r − 1)(s − 1)) en loi si Y et Z indépendantes,
n
Un = Ni. N.j
i=1..r j=1..s n
→ +∞ p.s sinon.

quand n tend vers l’infini.

Remarque 21 avec les notations du fait 1, on a içi : k = rs et m = r − 1 + s − 1 (puisque la


donnée des r − 1 premiers coefficients de la loi de Y donne le dernier et idem pour Z et que la
donnée des lois marginales d’une loi, détermine la loi du couple). Ainsi, k − m − 1 = (r − 1)(s − 1).

Exemple c (Yeux et cheveux...)


Depuis la terrasse d’un café ensoleillée, un statisticien en plein travail a noté les couleurs des yeux
et des cheveux de 124 passants.
PP
PP Cheveux
PP blonds brun roux noir
Yeux PP
P
bleus 25 9 7 3
gris 13 17 7 10
marrons 7 13 5 8

Les deux critéres sont ils indépendants au niveau 5% ?


Soient les 2 v.a. Y : Ω → {bleu, gris, noir} et Z : Ω → {blond, brun, roux, noir}.
on notera i = 1 [resp. 2, 3] pour bleu [resp. gris, noir], et j = a [resp. b, c, d] pour blond [resp. brun,
roux,noir]. On calcule les Ni. et N .j. On a :
N1. = nombre total de personnes ayant les yeux bleus = 25 + 9 + 7 + 3 = 44, et de même N2. =
47, N3. = 33 puis N.a = nombre total de personnes ayant les cheveux blonds = 45, et N.b =
39, N.c = 19, N.d = 21.
P
Enfin, on vérifie que l’effectif total n vaut bien 124 avec par exemple i Ni. (= 124). On peut alors
construire le tableau des effectifs théoriques Ni. N.j /n.

PP
PP Cheveux
PP blonds brun roux noir
Yeux PP
P
bleus 44 × 45/124 ' 15, 97 13, 84 6, 74 7, 45
gris 17, 05 14, 78 7, 2 7, 96
marrons 11, 98 10, 38 5, 06 5, 59

Figure 5.2 – Tableau des effectifs théoriques

(25−15,97)2 (9−13,84)2 (8−5,59)2


On calcule alors la statistique Un = 15,97 + 13,84 + ... + 5,59 (prop 46) et on trouve

Un ' 15, 08.

La table du χ2 (6) (cf. Annexe) donne P(χ2 (6) > 12.59) ' 0.05 (au risque 5%) et donc on rejette
l’hypothèse d’indépendance de la couleur des yeux et de la couleur des cheveux.
CHAPITRE 5. UNE INTRODUCTION AUX THÉORÉMES LIMITE EN PROBABILITÉS 58

Exemple C : Homegénéité

Les test du χ2 permettent aussi de tester l’homogénéité de plusieurs échantillons. On étudie un


caractère pouvant prendre k valeurs A1 , A2 , ..., Ak (ou k modalités, ou à valeurs dans k classes).
On dispose de l échantillons E1 , E2 , ..., El différents. Pour tout i ∈ {1, ..., k}, on connaı̂t l’effectif
observé Oi,j de la valeur Ai dans l’échantillon Ej . On souhaite tester :
”H0 : les échantillons sont issus de la même loi ” contre ”H1 : les échantillons n’ont pas même loi.”
On définit,
Oi. = Oi,1 + ... + Oi,l et O.j = O1,j + ... + Ok,j ,

et X X X X
n= Oi,j = Oi. = O.j
i=1..k j=1..l i=1..k j=1..l

Oi. représente l’effectif observé de la valeur Ai parmi la réunion de tous les échantillons et Oj.
représente l’effectif de l’échantillon j.
On a la propriété similaire au fait 1 :

Propriété 47 Avec les notations ci-dessus,


(
X X (Oi,j − Oi. O.j )2 → χ2 ((k − 1)(l − 1)) en loi si H0 vraie
n
Un = Oi. O.j
i=1..k j=1..l n
→ +∞ p.s sinon

quand n tend vers l’infini.

Exemple d (Y a t il un nouvel Omo ?)


On cherche à invalider la reflexion suivante qui affirme que toute les lessive se valent. On utilise
trois lessives appelées A, B et C. Une fois que la machine à laver a effectué son programme, on
classe à la sortie du lavage les vetements en trois catégories : très sale (TS), légérement sale (LS)
et propre (P). On obtient le tableau suivant :

PP
PP Linge
PP TS LS P
Lessive PP
P
A 30 65 205
B 23 56 121
C 75 125 300

Peut on dire au niveau 5% que toutes les lessives sont identiques ?


Chapitre 6

Annexe

59
CHAPITRE 6. ANNEXE 60

6.1 Tables Loi Normale N (0; 1)

Figure 6.1 – Table de la fonction de répartition


CHAPITRE 6. ANNEXE 61

Figure 6.2 – Table de l’inverse de la fonction de réparition.


Lorsque P ≤ 0.5, il faut utiliser la colonne de gauche et la ligne supérieure. (Les fractiles sont
négatifs).
Lorsque P ≥ 0.5, il faut utiliser la colonne de droite et la ligne inférieure. (Les fractiles sont positifs.)
CHAPITRE 6. ANNEXE 62

6.2 Table loi du Chi 2

Vous aimerez peut-être aussi