Poly Stat Inf

Module: Statistiques inférentielles
———————–
Poly de Cours - S3
———————–
Version du 29 novembre 2012
Université Paul Sabatier - Toulouse 3

IUT de Toulouse 3 A
Département GEA PONSAN
Clement Rau
clement.rau@iut-tlse3.fr
Table des matières
1 Définitions de base - Dénombrements 6

1.1 Opérations ensemblistes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.2 Réunion d’ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.3 Intersection d’ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.4 Complémentaire d’un ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.5 Inclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.6 Opérations ensemblistes et Opérations logiques . . . . . . . . . . . . . . . . . 7
1.2 Ensemble fini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.2 Cardinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.3 Cardinal d’un produit cartésien . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Dénombrements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Nombre de partie d’un ensemble fini . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2 La notion de p-listes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.3 Les arrangements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.4 Les combinaisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.5 Formule du binôme de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Probabilités pour un Univers Discret 14

2.1 Ensembles, Univers, événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Probabilités d’événements – Équiprobabilité . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.1 Probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.2 Equiprobabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3 Variable aléatoire discrète 24

3.1 Variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.1 Définition générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.2 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.3 Variables aléatoires continues . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Loi d’une variable aléatoire discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2
TABLE DES MATIÈRES 3
3.2.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.3 Paramètres d’une loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.1 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.2 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.3 Propriétés de l’espérance et de la variance . . . . . . . . . . . . . . . . . . . . 29
3.4 Couple de variables aléatoires discretes . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.2 Lois marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4.3 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.4 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.5 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.5 Lois discrètes usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5.1 Loi uniforme sur {1, . . . , n} . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5.2 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.5.3 Loi binomiale B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.5.4 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.6 Approximation d’une loi de Poisson par une Binomiale . . . . . . . . . . . . . . . . . 37
4 Variables aléatoires continues, loi normale 40

4.1 Loi d’une variable aléatoire continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.2 Problématique de la notion de loi dans le cas continu . . . . . . . . . . . . . . 40
4.1.3 Fonction de répartition et loi à densité . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Lois à densité classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.2 Lois exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3 La loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1 Loi normale centrée réduite N (0, 1) . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.2 Loi normale générale N (µ, σ) . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4 La Loi normale comme limite en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.5 Lois dérivées de la loi Normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.5.1 Loi du Khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.5.2 Loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5 Une introduction aux Théorémes limite en Probabilités 48

5.1 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1.1 Un premier pas : Loi faible des grands nombres . . . . . . . . . . . . . . . . . 48
5.1.2 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.3 Quelques applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.3.1 Marcheur dans Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.3.2 Intervalle de confiance lors d’élections . . . . . . . . . . . . . . . . . . . . . . 51
5.3.3 Introduction aux tests statistiques (le test du Chi 2) . . . . . . . . . . . . . . 52
TABLE DES MATIÈRES 4
6 Annexe 59
6.1 Tables Loi Normale N (0; 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.2 Table loi du Chi 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Introduction
Tandis que la statistique peut être assimilée à une analyse, parfois très précise, de données et
est basée sur des valeurs connues, le but de la théorie des probabilités est de modéliser au mieux
les issues éventuelles d’expériences futures (en ne se basant en général sur les résultats d’études
statistiques). Contrairement à la plupart des autres branches des mathématiques, elle repose for-
tement sur la notion d’incertitude et est ainsi consacrée à l’étude de phénomènes aléatoires. Les
probabilités permettent d’évaluer les degrés de prévision d’événements possibles mais non certains,
et introduisent une notion intermédiaire entre ”sûr” et ”impossible”. Cette théorie ne permet pas
de ”prédire” ce qu’il peut se passer sur une expérience aléatoire ”isolée”, parcontre si l’on répéte
cette expérience de manière indépendante et un grand nombre de fois, la théorie permet de ”cer-
ner” certaines quantités. Les probabilités permettent ainsi l’établissement de critères objectifs de
mesure de l’incertitude qui conduisent parfois à des paradoxes célèbres saluant les défaillances de
notre intuition cartésienne dans ce domaine. Un autre avantage de cette théorie est qu’elle offre
un cadre naturel d’analyse pour des systèmes trop complexes pour que l’on puisse en saisir tous
les éléments (grandes populations, systèmes de particules, ordinateurs, comportements collectifs,
marchés boursiers etc.). Ainsi, la connaissance, même parfaite, d’un échantillon de population ne
peut conduire à une certitude totale, mais seulement à une incertitude qui peut être estimée et
quantifiée en terme de probabilités.
Ces notes de cours restant bien évidemment perfectibles, je remercie toute personne me rappor-
tant des coquilles, erreurs ou commentaires.
5
Chapitre 1
Définitions de base -
Dénombrements
Le formalisme probabiliste, tel qu’il est établi aujourd’hui, décrit les issues possibles de tout
phénomène, aléatoire ou non, en termes ensemblistes, dont nous rappelons brièvement ici la signi-
fication.
1.1 Opérations ensemblistes

1.1.1 Généralités
Les ensembles seront principalement notés à l’aide de lettres majuscules A, B, C, D etc., tan-
dis que les objets qui les composent, ses éléments, seront désignés par des lettres minuscules
i, j, k, l, x, y etc. Pour signifier l’appartenance d’un élément i à un ensemble A, on dit parfois que
”i est dans A”, on le note i ∈ A. Si au contraire un élément i n’appartient pas à A, on note i ∈ / A.
1.1.2 Réunion d’ensembles

La réunion de deux ensembles A et B, notée A ∪ B, est l’ensemble constitué des éléments de
A et des éléments de B. On a toujours A ∪ ∅ = ∅ ∪ A = A.
Propriété 1 (Commutativité)
A∪B =B∪A
Propriété 2 (Associativité)
A ∪ (B ∪ C) = (A ∪ B) ∪ C := A ∪ B ∪ C
1.1.3 Intersection d’ensembles

L’intersection de deux ensembles A et B, notée A ∩ B, est l’ensemble constitué des éléments
étant à la fois dans A et dans B. On a toujours A ∩ ∅ = ∅ ∩ A = ∅.
6
CHAPITRE 1. DÉFINITIONS DE BASE - DÉNOMBREMENTS 7
Lorsque A et B n’ont aucun élément en commun, on dit qu’ils sont disjoints et on note A∩B =
∅.
Propriété 3 (Commutativité)
A∩B =B∩A
Propriété 4 (Associativité)
A ∩ (B ∩ C) = (A ∩ B) ∩ C := A ∩ B ∩ C
Propriété 5 (Distributivité)
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
1.1.4 Complémentaire d’un ensemble

Soit Ω un ensemble et A une partie de Ω. Le complémentaire de A dans Ω, noté Ω \ A, ou
A lorsqu’il n’y a pas d’ambiguité sur Ω (ou encore Ac ), est l’ensemble constitué des éléments de Ω
qui ne sont pas éléments de A. On appelle aussi parfois ”Ω privé de A” l’ensemble Ω \ A.
Par ailleurs, on a toujours A ∪ A = Ω et A ∩ A = ∅.
Propriété 6 (Lois de Morgan)
A∪B =A∩B (1.1)

A∩B =A∪B (1.2)
1.1.5 Inclusion
Si tous les éléments d’un ensemble A sont aussi éléments d’un autre ensemble B, on dit que ”A
est inclus dans B” et on le note A ⊂ B. On dit aussi que ”A est un sous-ensemble de B”.
On a toujours
A ⊂ A ∪ B; A ∩ B ⊂ A; A ∩ B ⊂ A ∪ B; ∅ ⊂ A.
1.1.6 Opérations ensemblistes et Opérations logiques

On peut dès à présent noter le lien entre ces opérations et les opérations (ou connecteurs)
logiques ”OU”, ”ET” et ”NON” :
– Un élément de A ∪ B est un élément qui appartient à A ”OU” à B.
– Un élément de A ∩ B est un élément qui appartient à A ”ET” à B.
– Un élément de A est un élément qui n’appartient PAS à A.
Attention 1 Le connecteur logique OU mentionné correspond à un ”ou inclusif” : A ∪ B est

l’ensemble des éléments qui sont dans A, ou dans B mais qui peuvent être dans les 2.
1.2 Ensemble fini

1.2.1 Définitions
Définition 1 On appelle ensemble fini un ensemble ayant un nombre fini d’éléments distincts.
Définition 2 Le nombre d’éléments d’un ensemble fini A est appelé cardinal de A, noté card [A].
Exemple 1 E = {a, b, c} et card [E] = 3.
1.2.2 Cardinal
Propriété 7 Soient A et B deux ensembles finis quelconques,
card [A ∪ B] = card [A] + card [B] − card [A ∩ B] .
Si A et B sont disjoints, c’est-à-dire que A ∩ B = alors,
card [A ∪ B] = card [A] + card [B] .
Corollaire 1 Soit A est un sous ensemble de E.

card Ā = card [E] − card [A]
1.2.3 Cardinal d’un produit cartésien

Définition 3 Soient E et F deux ensembles, le produit cartésien noté E × F est l’ensemble de
tous les couples (x; y) où x est élément de E et y élément de F .
Attention 2 E × F est différent de F × E.
Théorème 1 Si E et F sont finis, on a :
card [E × F ] = card [E] × card [F ]
1.3 Dénombrements
Dans le cadre d’un ensemble fini E, la problématiques consiste en :
– la constitution des collections d’ensembles ou d’applications ayant une caractéristique com-
mune (cas favorable),
– comptabiliser le nombre d’objets constituant cette collection.
Le dénombrement ne s’applique qu’à des ensembles finis et fait intervenir deux critères fonda-
mentaux pour la constitution et la distinction des objets a denombrer : la répétition et l’ordre.
Définition 4 (Répétition) Lors de la constitution des collections, chaque élément de E peut etre
utilisé plusieurs fois.
Définition 5 (Ordre) Pour distinguer deux collections, on peut tenir compte de l’ordre des éléments
qui les composent.
Remarque 1 Si l’on autorise la répétition on doit nécessairement faire intervenir l’ordre.

1.3.1 Nombre de partie d’un ensemble fini

Propriété 8 Soit En un ensemble contenant n éléments. Il y a 2n parties disctincts de E.
Démonstration :
Il existe diverses démonstrations de cette propriétés. On peut par exemple utiliser un arbre et faire
une correspondance entre une feuille et une partie. On peut également utiliser la formule du binôme
de Nenwton...
1.3.2 La notion de p-listes

Définition 6 Soit En un ensemble contenant n éléments. Une p-liste d’éléments de En , est une
liste ordonnée de p éléments de En avec répétitions possible.
Propriété 9 (Expression du nombre de p-listes) Le nombre de p-liste distinctes est égal à np .
Exemple 2 Considérons l’ensemble E = {1, 2, 3, A, B} correspondant aux différentes touches d’un

clavier de digicode dont le code est une succession de 3 caractères issus de E. Combien y-a-t-il de
code différents ?
Ce sont les 3-listes de E il y en a 53 soit 125.
1.3.3 Les arrangements

Considérons En un ensemble fini contenant n éléments différents et p un entier naturel inférieur
ou égal à n.
Définition 7 Un arrangement à p éléments de En est un échantillon ordonné sans remise de p

éléments différents de En .
Propriété 10 (Expression du nombre d’arrangements) Le nombre d’arrangements à p éléments

de En noté Apn est égal à :
Apn = n × (n − 1) × (n − 2) × · · · × (n − p + 1)
Démonstration :
Pour le premier élément, on a n choix possibles. Le premier étant fixé, pour le deuxième élément,
on a (n − 1) choix possibles le tirage étant sans remise. Le premier et le deuxième étant fixés pour
le troisième élément, on a (n − 2) choix possibles... et ainsi de suite jusqu’au pième élément, pour
lequel on a [n − (p − 1)] = n − p + 1 choix possible. On a donc bien
n × (n − 1) × (n − 2) × · · · × (n − p + 1)
arrangements à p éléments de En .
J
Définition 8 On appelle factorielle n le produit des n premiers entier :
n! = n × (n − 1) × (n − 2) × · · · × 1
avec la convention 0! = 1.
Propriété 11
n!
Apn =
(n − p)!
Démonstration :
n × (n − 1) × · · · × (n − p + 1) × (n − p) · · · × 1
n × (n − 1) × (n − 2) × · · · × (n − p + 1) = ,
(n − p) × · · · × 1
n!
= .
(n − p)!
J
Remarque 2 n! est une touche de la plupart des calculatrices.
Exemple 3 Un joueur se demande combien il peut écrire de grilles différentes de tiercé pour une
course de 16 chevaux. Il y a 16 possibilités pour le premier, 15 pour le second et 14 pour le troisième.
On n’accepte pas les répétitions et on tient compte de l’odre, il s’agit d’arrangements et on a donc
A316 = 16 × 15 × 14 = 3360 possibilités.
Définition 9 (Les permutations) Une permutation de En est un échantillon ordonné sans

remise des n éléments différents pris dans En . C’est donc le cas particulier d’un arrrangement de
n éléments de En .
Propriété 12 Le nombre de permutations de En est donc égal à :
Pn = n!
Exemple 4 Si le joueur de tiercé a précedemment choisi les 3 chevaux qu’il va jouer mais ne sait
pas dans quel ordre il va les placer, il a 3 ! choix possibles c’est à dire 3 × 2 × 1 = 6 possibilités de
tiercé.
1.3.4 Les combinaisons

Soit En un ensemble fini contenant n éléments différents et p un entier naturel inférieur ou égal
à n.
Définition 10 Une combinaison à p éléments de En est un échantillon non ordonné sans remise
de p éléments différents de En . C’est un sous ensemble à p éléments de En . Dans une combinaison
de p éléments, les p éléments sont distincts et non ordonnés.
Propriété 13 (Expression du nombre de combinaisons) Le nombre de combinaisons à p éléments

de En noté Cnp est égal à :
n!
Cnp =
p! (n − p)!
Démonstration :
On considère les p premiers éléments de En . Avec ces p éléments on peut former p! arrangements
et ces p! arrangements donnent une seule combinaison or on peut former Apn arrangements avec les
Ap
n éléments de En . on a donc p!n combinaisons différentes de En .
J
Remarque 3 – Si p = 0 alors on a une seule combinaison à zéro élément : la partie vide.

– Si p = n alors on a une seule combinaison à n éléments de En : la partie En .
– Si p = 1 alors on a n combinaisons à un élément de En , les n sous-ensembles à un élément
deEn .
Exemple 5 Nous avons vu ci-dessus avec l’exemple du joueur de tiercé que quand on a choisi sans
ordre une partie de 3 éléments parmi 16, il reste 3 ! = 6 manières d’ordonner cette partie. Par
exemple si on choisit la partie (2,7,9) on peut lui associer les 6 permutations : (2,7,9), (2,9,7),
(7,2,9), (7,9,2), (9,2,7) et (9,7,2). En d’autres termes il est possible de regrouper les arrangements
par paquets de 6 correspondant à la même partie. Le nombre d’arrangements (ordonnés) de 3
éléments parmi 16 est donc égal à 6 fois le nombre de combinaisons (non ordonnées) de 3 éléments
parmi 16. On a donc une application du ”Principe des bergers” :
3 A316
C16 = .
3!
Propriété 14 (Formules de calcul)
Cnp = Cnn−p
p−1 p
Cnp = Cn−1 + Cn−1
Démonstration :
1. Choisir les p éléments que l’on veut dans un ensemble de n éléments revient exactement à
choisir les n − p éléments que l’on ne veut pas, d’où le résultat. Mathématiquement, on a :
n!
Cnn−p = ,
(n − p)![n − (n − p)]!
n!
= ,
p!(n − p)!
= Cnp .
2. Soit E une ensemble de n élément. Soit A l’un de ces éléments. Pour choisir p éléments de
p−1
E, je peux soit prendre A et en choisir p-1 autres parmi les n-1 restants (j’ai alors Cn−1
p
possibilités), soit laisser A et en prendre p autres parmi les n − 1 restants (j’ai alors Cn−1
possibilités). D’où le résultat. Mathématiquement, on a
p−1 p (n − 1)! (n − 1)!
Cn−1 + Cn−1 = + ,
(p − 1)!(n − p)! (p)!(n − p − 1)!
p(n − 1)! (n − p)(n − 1)!
= + ,
p!(n − p)! p!(n − p)!
(p + n − p)(n − 1)!
= ,
p!(n − p)!
= Cnp .
J
p
Remarque 4 Quand n > 2 il est plus rapide de calculer Cnn−p que Cnp . Par exemple :
2 30
C32 = C32 ,
2 32 × 31
C32 = ,
2×1
30 32 × 31 × · · · × 4 × 3
C32 = .
30 × 29 × · · · × 2 × 1
Triangle de Pascal
Les formules de calcul ci-dessus nous donne une méthode de calcul des combinatoire par récurrence
appelé triangle de pascal :
1.3.5 Formule du binôme de Newton

Théorème 2 Soient a et b deux réels :
n
X
(a + b)n = Cnk ak bn−k .
k=0
Démonstration :
Par récurrence sur n.
Pour n = 0 la propriété est immédiate puisque 1 = 1.
Supposons la propriété vraie pour n et regardons si elle est vraie pour n + 1.

(a + b)n+1 = (a + b)n (a + b)
= a(a + b)n + b(a + b)n
n
X n
X
= Cnk ak bn−k + b Cnk ak bn−k
k=0 k=0
Xn Xn
= Cnk ak+1 bn−k + Cnk ak bn−k+1
k=0 k=0
On considère maintenant k 0 = k + 1, on a :
n+1 n
X 0 0 0 X
(a + b)n+1 = Cnk −1 ak bn−k +1 + Cnk ak bn−k+1
k0 =1 k=0
n n
X 0 0 0 X
= an+1 + Cnk −1 ak bn−k +1 + Cnk ak bn−k+1 + bn+1
k0 =1 k=1
Xn
= an+1 + Cnk−1 + Cn ak bn−k+1 + bn+1
k

k=1
Xn
= an+1 + k
Cn+1 ak bn−k+1 + bn+1
k=1
n+1
X
k
= Cn+1 ak bn−k+1 .
k=0
La propriété est donc vraie pour n + 1. Par le principe de raisonnement par récurrence, la propriété
est vraie pour tout entier n.
Remarque 5 On peut également démontrer cette propriété de manière ”ensembliste”, en develop-

pant et en s’intéressant au nombre de terme en ak bn−k ...
J
Chapitre 2
Probabilités pour un Univers

Discret
2.1 Ensembles, Univers, événements

Le formalisme probabiliste est une branche relativement nouvelle des mathématiques qui se
base donc sur la théorie des ensembles. Dans cette théorie, les issues des expériences dont on
veut évaluer les chances relatives sont formalisées en termes d’événements dont la réalisation est
l’aboutissement d’un ensemble de causes antérieures. Le hasard est parfois vu comme l’ensemble de
ces causes que l’on ne peut pas maı̂triser, qui sont alors dites aléatoires. Dans le cas de systèmes
physiques complexes, elles sont souvent le reflet de notre ignorance.
Définition 11 Les événements sont des ensembles que l’on manipule à l’aide d’opérations en-
semblistes élémentaires et qui représentent les issues possibles de l’expérience aléatoire considérée.
Définition 12 On parle d’événement élémentaire lorsqu’il s’agit du résultat d’une expérience

aléatoire menant à une solution unique, et l’ensemble des événements élémentaires forment ce que
l’on nomme l’univers des possibles, ou tout simplement l’univers noté Ω.
Les événements non-élémentaires dont on peut vouloir évaluer les chances ou probabilités sont
exprimés en termes d’opérations ensemblistes de réunions, d’intersections, ou de complémentaires.
Ces opérations correspondent également aux opérations logiques OU, ET et NON. Ainsi, si l’on
considère deux événements (élémentaires ou non) représentés par les ensembles A et B, l’événement
consistant à obtenir A OU B est représenté par l’ensemble A ∪ B, qui est la réunion de A et de B.
De même, l’événement consistant à obtenir A ET B sera représenté par l’intersection A ∩ B, tandis
que la négation de l’événement A sera son complémentaire Ac ou A. Cette négation est l’événement
qui consiste à ne pas obtenir A.
Exemple 6 (jet d’un dé à six faces) L’univers est Ω = {1, 2, 3, 4, 5, 6}, avec pour événements
élémentaires :
”obtenir un 1” noté {1}, ”obtenir un 2” noté {2},...,”obtenir un 6”= {6}.
14
CHAPITRE 2. PROBABILITÉS POUR UN UNIVERS DISCRET 15
Tous les événements dont on calculera la probabilité peuvent être obtenus par manipulations en-
semblistes des événements élémentaires précédents. Par exemple, l’événement ”obtenir un résultat
pair” consiste à obtenir un 2, un 4 ou un 6 et sera noté au choix
{2, 4, 6} = {2} ∪ {4} ∪ {6}.
L’écriture en termes d’événements élémentaires sera primordiale pour les calculs de probabilités et
permet de représenter un très grands nombre d’événements. On notera par exemple
”obtenir un resultat ≤ 3” = {1, 2, 3} = {1} ∪ {2} ∪ {3}.
De même, l’événement ”obtenir un résultat pair, (et) inférieur ou égal à 3” sera noté
{2, 4, 6} ∩ {1, 2, 3} = {2}.
Le contraire d’un événement A correspond à son événement complémentaire noté
Ac ou A.
Pour l’exemple précédent, ”ne pas obtenir un nombre pair” sera noté
{2, 4, 6} = {2, 4, 6}c = Ω \ {2, 4, 6} = {1, 2, 3}.
Tout événement impossible est représenté par l’ensemble vide ∅ et deux événements A et B
sont dits incompatibles ou disjoints si A ∩ B = ∅, tandis que l’ensemble Ω lui-même est qualifié
d’événement certain. Lorsque cet univers est fini ou infini dénombrable, on parle de probabilités
discrètes et de probabilités continues dans le cas contraire.
2.2 Probabilités d’événements – Équiprobabilité

2.2.1 Probabilités
Définition 13 La probabilité associée à une expérience aléatoire est une fonction qui à un événement
associe un nombre réel compris entre 0 et 1, sa probabilité :
P : P(Ω) −→ [0, 1]
A 7−→ P[A]
où P(Ω) est l’ensemble de toutes les parties possibles de l’univers Ω (i.e. l’ensemble de tous les
événements possibles de l’expérience aléatoire concernée).
Une probabilité est d’abord construite par une évaluation des probabilités des événements
élémentaires. Lorsqu’il y en a un nombre fini x1 , . . . , xn , et donc pour un univers Ω = {x1 , . . . , xn }
de cardinal n, on obtient à l’aide des statistiques ou parfois à l’aide d’hypothèses réalistes, une
famille de nombres (pi )i=1..n compris entre 0 et 1 et tels que pour chaque événement élémentaire
Ai =”obtenir i”,
pi = P[Ai ] ∈ [0, 1].
On étend ensuite cette probabilité sur tous les événements possibles en respectant les règles
intuitives élémentaires suivantes érigées en axiomes :
Définition 14 (Axiomes des probabilités)
– Evénement certain : P[Ω] = 1.

– Evénement impossible : P[∅] = 0
– Additivité : Si A et B sont des événements incompatibles, i.e. A ∩ B = ∅,
P[A ∪ B] = P[A] + P[B].
La somme des probabilités des événements élémentaires doit ainsi être égale à 1 :
X
pi = 1.
i
Propriété 15 Pour des événements non disjoints, l’additivité devient
P[A ∪ B] = P[A] + P[B] − P[A ∩ B].
En revanche, on n’a pas en général d’expression pour la probabilité de l’intersection. En parti-

culier, on n’a pas de factorisation du type P[A ∩ B] = P[A] · P[B]. Lorsque cela sera le cas, on dira
que les événements A et B sont indépendants.
2.2.2 Equiprobabilités
Définition 15 Les événements élémentaires sont dits équiprobables, si toutes les probabilités
élémentaires pi sont identiques. Cette hypothèse est en général émise à partir d’études statistiques
l’indiquant, souvent par simple soucis de bon sens, et parfois seulement grâce au calculs des proba-
bilités élémentaires à l’aide de calculs combinatoires (dits ”de dénombrements”).
En cas d’équiprobabilité, et seulement dans ce cas, on pourra évaluer la probabilité d’un événement
A par
Card(A)
P[A] =
Card(Ω)
c’est à dire le rapport du nombre de cas favorables sur le nombre de cas possibles.
Attention 3 C’est loin d’être le cas en général.
Exemple 7 Revenons à l’exemple de l’expérience du jet d’un dé à six faces, les événements élémentaires
sont notés Ai pour i = 1, . . . , 6 et l’hypothèse d’équiprobabilité, émise lorsque le dé n’est ni truqué,
ni faussé, conduit aux mêmes probabilités élémentaires
1
pi = P[Ai ] = P[obtenir i] =
6
puisque la taille de l’univers des événements élémentaires est de 6 et que chaque événement élémentaire
Ai est un singleton (i.e. un ensemble restreint à un élément).
Définition 16 On dit qu’une famille d’événements (Ai )i∈I forme une partition de l’univers lors-
qu’ils sont disjoints (Ai ∩ Aj = ∅, ∀i 6= j ∈ I) et qu’ils recouvrent Ω (∪i∈I Ai = Ω).
Propriété 16 L’ensemble des événements élémentaires forment une partition particulière de l’uni-
vers Ω.
En appliquant la règle d’additivité et l’axiome de l’événement certain , on obtient la formule

suivante, valide pour toute ”probabilité”, i.e. lorsque les axiomes des probabilités sont vérifiés (Et
donc pas seulement en cas d’équiprobabilité) :
Théorème 3 (Formule des probabilités totales (I) ) Pour toute partition (Ai )i∈I , et tout événement
B, on a : X
P[B] = P[B ∩ Ai ]. (2.1)
i∈I
Démonstration :
Comme ∪i∈I Ai = Ω, on a ∪i∈I (B ∩ Ai ) = B et les événements Ai ∩ B et Aj ∩ B sont disjoints pour
j 6= i. Par conséquent, on a :
P[B] = P[∪i∈I (B ∩ Ai )],

X
= P[B ∩ Ai ].
i∈I
Exemple 8 Dans le cas d’un jet de dé, la partition élémentaire de l’univers en
Ω = ∪6i=1 {i} = {1} ∪ {2} ∪ {3} ∪ {4} ∪ {5} ∪ {6}
donne par exemple

1 1 1
p1 + p2 + p3 + p4 + p5 + p6 = + + · · · + = 1.
6 6 6
Exemple 9 Un autre exemple de partition est donné par la paire {A, B} et les événements A =”obtenir
un résultat pair et B=”obtenir un résultat impair”. On a en effet A ∪ B = Ω et A ∩ B = ∅, et on
peut vérifier la formule des probabilités totales
P[A] + P[B] = 1
3 1 3
puisque P[A] = p2 + p4 + p6 = 6 = 2 et P[B] = p1 + p2 + p3 = 6 = 12 .
Cette propriété est également générale et permet d’obtenir que pour toute probabilité P, la
probabilité du complémentaire d’un événement A.
Propriété 17
P[A] = 1 − P[A]
Démonstration :
{A, A} est une partition de Ω.
Exemple 10 – Probabilité de tirer ”au moins 2” en lancant les dés.
A = {X ≥ 2} = {X = 2} ∪ {X = 3} ∪ {X = 4} ∪ {X = 5} ∪ {X = 6},
Ā = {X = 1}
5 5
P[A] = 1 − P[A] = 1 − =
6 6
– Probabilité de tirer au moins une fois pile en lancant n fois une piece.
A = { 1 fois pile ou 2 fois pile ou ... n fois pile },

Ā = {0 fois pile } = {n fois face}
1
P[A] = 1 − P[A] = 1 − n
2
Avec de telles propriétés, on vérifie aisément qu’une probabilité possède une propriété de mo-
notonie par inclusion :
Propriété 18
A ⊂ B =⇒ P[A] ≤ P[B].
Si A est inclus dans B, on dit parfois que A implique B, et il est alors intuitif que la probabilité
de A est inférieure à celle de B (B sera toujours réalisé lorsque A le sera, et sa probabilité ne pourra
être que supérieure ou égale).
2.3 Indépendance
Une hypothèse primordiale en théorie des probabilités est l’hypothèse d’indépendance. Elle est
parfois réaliste ou simplificatrice selon les expériences.
Définition 17 On dit que deux événements A et B sont indépendants lorsque
P[A ∩ B] = P[A] · P[B]. (2.2)
La seule manière de prouver l’indépendance est de prouver cette formule d’une manière ou d’une
autre, le plus souvent en calculant les diverses probabilités impliquées dans (2.2).
Remarque 6 Le mot indépendance utilisé doit être compris dans le sens où l’obtention de l’un n’a
aucune influence sur l’obtention de l’autre. On verra ceci plus clairement avec la notion de proba-
bilités conditionnelles. Parfois, cette indépendance est une hypothèse pour simplifier les modèles ou
pour suivre une intuition.
Exemple 11 Considérons par exemple deux jets de dés successifs. Une hypothèse naturelle consiste
à considérer ces événements comme étant indépendants de manière à pouvoir écrire que pour les
événements A : ”obtenir un six au 1er jet” et B=”obtenir un six au 2e jet”
1 1 1
P[A ∩ B] = P[A] · P[B] = · =
6 6 36
de sorte que, sous l’hypothèse d’indépendance des deux jets, la probabilité d’obtenir un double six
1
est évaluée à 36 ≈ 0.00278, soit environ 2.78%.
On peut également découvrir que deux événements issus de la même expérience aléatoire sont
indépendants. Pour l’expérience d’un seul jet de dé, on constate pour les événements A=”obtenir
un jet ≤ 4” et B=”obtenir un jet pair”, on a P[A] = 23 , P[B] = 12 ,
1
P[A ∩ B] = P[{2, 4}] =
3
et
2 1 1
P[A] · P[B] = · = .
3 2 3
Ces événements sont donc indépendants, puisque l’on constate l’égalité P[A ∩ B] = P[A] · P[B],
reflétant ainsi l’idée que savoir que l’on a un résultat impair n’influence pas les chances d’obtenir
un résultat inférieur ou égal à 4. Si par contre on considère C=”obtenir un jet ≤ 3”, les événements
B et C ne sont pas indépendants car
1
P[B ∩ C] = P[{2}] =
6
et
1 1 1
P[B] · P[C] = · = .
2 2 4
Intuitivement, cela se justifie par un lien entre C et B : il y a moins d’éléments pairs (donc ”de
B”) en dessous de 3 (donc ”dans C”) que dans l’univers.
Exemple 12 Une autre situation usuelle d’application de l’hypothèse d’indépendance est fourni
par des tirages au sort successifs avec ou sans remise. Lorsque le tirage est effectué avec remise
du premier élément tiré au sort, on se retrouve dans une situation identique lors du second tirage
au sort et le résultat du premier n’influence en rien celui du second. On considère donc que deux
tirages successifs avec remise sont indépendants. Lorsque le tirage est au contraire effectué sans
remise, l’élément tiré lors du premier tirage ne peut plus être tiré lors du second, diminuant par
exemple les probabilités d’obtenir un élément partageant avec lui certaines propriétés. Les résultats
des deux tirages sont liés et on considère donc que deux tirages successifs sans remise ne sont pas
indépendants.
2.4 Probabilités conditionnelles

Lorsque les événements ne sont pas indépendants, la probabilité de l’un n’est pas la même selon
que l’autre est réalisé ou non.
Exemple 13 On pourra prendre l’exemple de la pluie et du vent. Il y a plus de chances qu’il pleuve
s’il y a du vent plutôt qu’en absence de vent.
Définition 18 Si P[B] 6= 0 alors on appelle probabilité conditionnelle de A sachant B :
P[A ∩ B]
P[A|B] = .
P[B]
Attention 4 Il convient de ne pas confondre P[A|B] et P[A ∩ B]
P[A|B] évalue les chances d’obtenir A lorsque l’on sait que B est réalisé tandis que P[A ∩ B]
évalue les chances de voir A et B de se réaliser simultanément. Dans le 1er cas, on évalue les chances
de A sur une sous population, celle pour laquelle B est réalisée, et on pondère la probabilité de
l’intersection en fonction de la taille de B : plus B est important, i.e. plus P[B] est grand, plus A∩B
a des chances de se réaliser, ceci quelle que soit l’importance de A. En comparant la probabilité
d’avoir A ET B avec celle d’avoir B, on obtient un nombre P[A|B] entre 0 et 1 qui évalue les
chances que A soit réalise sachant que B est réalisé. Lorsque B est fixé, cela détermine une nouvelle
probabilité
PB : P(Ω) −→ [0, 1]
A 7−→ PB [A] := P[A|B].
Il s’agit d’une probabilité car elle vérifie les axiomes des probabilités. Les deux notations P[A|B]
et PB [A] sont équivalentes et seront utilisées en fonction des circonstances. En particulier, lorsqu’il
s’agit d’utiliser les axiomes des probabilités (pour par exemple utiliser l’additivité), on préfèrera la
notation PB .
La connaissance des probabilités conditionnelles permet d’obtenir une expression pour la pro-
babilité de l’intersection :
Propriété 19 Pour tous événements A et B on a :
P[A ∩ B] = P[A|B]P[B]
= P[B|A]P[A].
Exemple 14 – En lancant un dé, la probabilité de tirer 4 sachant que l’on a un nombre pair
est :
1
P[4|pair] =
3
1/6 2
=
1/2 6
– Dans un jeu de 32 carte, la probabilité de tirer un roi sachant que l’on a tirer un coeur est
de :
1
P[roi|coeur] =
8
1/32 1
=
8/32 8
Exemple 15
1
P[4 ET pair] = P[4] =
6
1 1 1
P[4|pair] × P[pair] = × =
3 2 6
1 1
P[pair|4] × P[4] = 1 × =
6 6
Propriété 20 (Formule de Bayes) Si P[A] 6= 0, alors on a :

P[A|B]P[B]
P[B|A] = . (2.3)
P[A]
Exemple 16 On consière la population d’un pays. Cette population est composée de 47% d’hommes
et de 53% de femmes. Parmi les femmes, 40% sont blondes. Parmi les hommes, 30% sont blonds.
On prend une personne au hasard. Quelle est la probabilité des évenements suivants :
1. Quelle est la probabilité que ce soit une femme ?

2. Quelle est la probabilité que ce soit un homme ?
3. Quelle est la probabilité que ce soit une femme blonde ?
4. Quelle est la probabilité que ce soit un homme blond ?
5. Quelle est la probabilité que ce soit une femme, sachant que cette personne est blonde ?
6. Quelle est la probabilité que ce soit une blonde, sachant que cette personne est une femme ?
Pour résoudre ce problème, on peut utiliser un schéma ou un tableau. Commencons en utilisant
un schéma, et en considérant un ensemble de 10 000 personnes. Sur ces 10000 personnes, il ya 5
300 femmes et 4 700 hommes. Sur les 4 700 hommes, 30% sont blonds, soit 1410 hommes blonds.
Sur les 5 300 femmes, 40% sont blondes, soit 2120 femmes blondes. On a donc le schéma suivant :
On retrouve ces résultats par un tableau :

homme femme
blond 0, 47 × 0, 3 = 0, 141 0, 53 × 0, 4 = 0, 212 0,353
pas blond 0, 47 × 0, 7 = 0, 329 0, 53 × 0, 6 = 0, 318 0,647
0,47 0,53 1
On peut maintenant répondre aux questions :
1. Quelle est la probabilité que ce soit une femme ?
Il y a 53% de femmes, soit une probabilité de 0,53.
2. Quelle est la probabilité que ce soit un homme ?
Il y a 47% d’hommes, soit une probabilité de 0,47.
3. Quelle est la probabilité que ce soit une femme blonde ?
Il y a 2120 femmes blondes sur 10 000 personnes, soit une probabilité de 0,212.
4. Quelle est la probabilité que ce soit un homme blond ?
Il y a 1 410 hommes blonds sur 10 000 personnes, soit une probabilité de 0,141.
5. Quelle est la probabilité que ce soit une femme, sachant que cette personne est blonde ?
Il y a 2 120 femmes blondes sur 3 530 personnes blondes, soit une probabilité de 2120
3530 ∼ 0, 6.
On pouvait aussi le calculer en utilisant la formule :
P[f emme ∩ blonde] 0, 212
P[f emme/blonde] = = ∼ 0, 6 (2.4)
P[blond] 0, 3530
6. Quelle est la probabilité que ce soit une blonde, sachant que cette personne est une femme ?
2120
Il y a 2 120 femmes blondes sur 5 300 femmes, soit une probabilité de 5300 = 0, 4.
On pouvait aussi le calculer en utilisant la formule :
P[f emme ∩ blonde] 0, 212

P[f emme/blonde] = = ∼ 0, 4 (2.5)
P[f emme] 0, 53
On retrouve bien les 40% de l’énoncé.
Les probabilités conditionnelles permettent également d’obtenir une seconde forme de la formule
des probabilités totales :
Théorème 4 (Formule des probabilités totales (I) ) Pour toute partition (Ai )i∈I , et tout événement
B, on a : X
P[B] = P[B ∩ Ai ]. (2.6)
i∈I
Propriété 21 (Formule des probabilités totales (II)) Pour toute partition (Ai )i∈I , et tout
événement B, on a : X
P[B] = P[B|Ai ] P[Ai ]. (2.7)
i∈I
Remarque 7 En couplant la formule de Bayes et la formule des probabilités totales (II) à la par-
tition (A, Ā), on obtient version très utile en pratique de la formule de Bayes suivante :
Si P[A] 6= 0, alors on a :
P[A|B]P[B]
P[B|A] = . (2.8)
P[A|B]P[B] + P[A|B]P[B]
La formule de Bayes est très importante et utile en probabilités car elle permet de tromper de
mauvaises intuitions dues à une vision trop équiprobable du monde.
Remarque 8 On peut voir qu’il s’agit de comprendre la formule de Bayes comme une moyenne
pondérée et que nos intuitions sont souvent mises à mal lorsque l’un des événement du condition-
nement (B ou A) est relativement rare.
Exemple 17 On estime qu’une personne ayant correctement révisé ses cours pour cet examen a
une probabilité de 20% d’échouer à l’examen. En revanche, on estime qu’une personne n’ayant pas
révisé ses cours a une probabilité de 60% d’échouer à cet examen.
On sait aussi que 50% des personnes ont correctement révisé leurs cours et 50% n’ont pas correc-
tement révisé leurs cours.
Une personne passe deux fois de suite cet examen et échoue par deux fois mais affirme pourtant
avoir parfaitement réviser. Est-ce plausible ?
Appelons E l’événement ”echouer 2 fois” , A l’événement ”la personne a révisé ses cours ”.
La probabilité de ”E sachant A” est P[E|A] = (0, 20)2 = 0, 04. La probabilité de ”E sachant Ā” est
P[E|Ā] = (0, 60)2 = 0, 36.
A priori, on suppose que la personne qui a échoué 2 fois à l’examen a correctement révisé avec une
probabilité de 0,50. On a donc P(A) = P(B) = 0, 50. La formule de Bayes donne alors :
P[B|A]P[A]
P[A|B] =
P[B|A]P[A] + P[B|Ā]P[Ā]
Probabilité d’avoir réviser sachant que l’on a échoué 2 fois = 0,10. Probabilité de ne pas avoir
réviser sachant que l’on a échoué 2 fois = 0,90. Il y a donc une probabilité de 0,90 que la personne
n’a pas révisé. Ce qu’elle dit est peu plausible !
Chapitre 3
Variable aléatoire discrète
3.1 Variable aléatoire

3.1.1 Définition générale
Définition 19 On appelle variable aléatoire le résultat d’une épreuve aléatoire lorsque l’issue
de celle-ci peut être représentée par un nombre.
Une variable aléatoire est généralement désignée par une lettre majuscule X, Y, etc. et peut
également être définie en tant qu’application depuis l’univers Ω dans R
X : Ω −→ R
ω 7−→ X(ω)
en considérant ω ∈ Ω comme une réalisation particulière de l’épreuve en question. L’ensemble des
valeurs numériques prises par X est pour cette raison noté X(Ω), puisqu’il s’agit de l’image de Ω
par X.
3.1.2 Variables aléatoires discrètes

Définition 20 On appelle variable aléatoire discrète une variable aléatoire qui ne prend que
des valeurs ponctuelles (”isolées”).
Exemple 18 – Résultat d’un jet de dé. Le résultat X est une variable aléatoire
X : Ω 3 ω 7−→ X(ω)
à valeur dans X(Ω) = {1, 2, 3, 4, 5, 6}
– Lancer de 2 pièces de monnaies identiques dont l’issue est P (pour pile) et F (pour face).
L’univers
Ω = {P P, P F, F P, F F }
n’est pas composé de grandeur numériques mais on peut par exemple s’intéresser au nombre
de fois où face (F) est apparu, définissant ainsi une variable aléatoire X : Ω −→ {0, 1, 2} ⊂ R
définie par le tableau
24
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 25
Ω PP PF FP FF
X 0 1 1 2
Cette application ne prenant qu’un nombre fini de valeurs, la variable aléatoire X est discrète
avec X(Ω) = {0, 1, 2}.
Les évènements {X = xi } (xi étant une valeur possible de X), engendrés par les différentes va-
leurs prises par une variable aléatoire constituent les évènements élémentaires de X. Les évènements
élémentaires de l’exemple précédent seront ainsi notés {X = 0} (”Aucun face n’a été tiré”), {X = 1}
(”Un face a été tiré”) et {X = 2} (”Deux faces ont été tirés”).
On définit donc naturellement des variables aléatoires en associant un nombre à chaque évènement
élémentaire. Comme on le verra, l’étude systématique des variables aléatoires fournit un cadre
théorique d’étude des phénomènes aléatoires.
3.1.3 Variables aléatoires continues

Définition 21 On appelle variable aléatoire continue une variable aléatoire dont l’ensemble
des valeurs est R ou une réunion d’intervalles de R.
Exemple 19 – Durée de vie d’une ampoule éléctrique : Bien que n’étant pas éternelle, on
considère souvent qu’une ampoule éléctrique peut avoir n’importe quelle durée de vie et qu’elle
peut tomber en panne ou ne pas tomber en panne à tout moment. Aucune durée n’est exclue et
la variable X qui la représente est une variable aléatoire continue dont l’ensemble des valeurs
est R+ = [0, +∞[. D’une manière plus réaliste, les ampoules ont une durée de vie maximale
D et X est une variable aléatoire continue à valeurs dans l’intervalle X(Ω) = [0, D], mais la
durée maximale étant souvent inconnue, on considère généralement X(Ω) = R∗+ .
– Étude de la taille dans une population donnée : Si on considère sur une population de taille
N dont on note ti la taille de chaque individu i (i = 1, . . . , N ), la variable X qui dénote la
taille d’un individu de la population pris au hasard, l’ensemble des valeurs prises par X est
l’ensemble discret X(Ω) = {t1 , t2 , . . . , tN }. Néanmoins, la taille d’un individu pouvant a priori
prendre toute valeur réelle positive, on considère pour étudier des populations en général que
X peut également prendre toutes les valeurs réelles et est donc une variable continue à valeurs
dans R+ (ou dans un sous-intervalle si on veut considérer une taille maximale).
Dans la suite de ce chapitre, on ne considerera que des variables aléatoires discrètes.
3.2 Loi d’une variable aléatoire discrète

3.2.1 Définition
Définition 22 La loi d’une variable aléatoire discrète X est une probabilité PX définie sur
ses évènements élémentaires par l’application
PX : X(Ω) −→ [0, 1]
x 7−→ PX (x) := P[{X = x}].
On note invariablement P[{X = x}], P[X = x], PX (x) ou p(x) la probabilité que X prenne
la valeur x. On vérifie aisément que cette application est bien une probabilité dont l’univers est
l’ensemble X(Ω) des valeurs prises par X.
Exemple 20 Si on reprend l’exemple d’un dé à six faces équilibrées, et que X représente le résultat
d’un jet, on a X(Ω) = {1, 2, 3, 4, 5, 6} et directement
PX [X(Ω)] = PX [{1, 2, 3, 4, 5, 6}] = P[X ∈ {1, 2, 3, 4, 5, 6}] = 1.
De même, l’axiome de l’évènement impossible (PX [∅] = 0) et de l’additivité pour des évènements
disjoints sont vérifiés. Donner la loi d’une variable aléatoire revient alors à donner les probabilités
des évènements élémentaires qu’elle induit, et on présente souvent ces données sous forme d’un
tableau, en notant d’une manière générale X(Ω) = (xi )i=1,...,N = (x1 , x2 , . . . , xN ) pour une variable
aléatoires à N valeurs possibles (qui ne sont pas forcément 1, 2, . . . , N ),
X x1 x2 ... xN
PX p1 p2 ... pN
où l’on note respectivement p1 = PX (1) = P[X = 1], p2 = PX (2) = P[X = 2], . . . , pN = PX (N ) =
P[X = N ]. Ce tableau peut se représenter graphiquement par un diagramme en bâtons.
Exemple 21 Ω = {P P, F P, P F, F F }, X = nombre de ”Face”
x 0 1 2
PX (x) 1/4 1/2 1/4
3.2.2 Fonction de répartition

Définition 23 Une loi de probabilité est souvent définie à partir de sa fonction de répartition
F :
F : R −→ [0, 1]
x 7−→ F (x) = P[X ≤ x]
parfois également appelée fonction cumulative car on cumule les probabilités de toutes les valeurs
inférieures ou égales à x.
Dans le cas discret, il suffit d’additionner les probabilités élémentaires :
F (xi ) = P[X ≤ xi ] = P[X = x1 ] + · · · + P[X = xi ] = p1 + p2 + · · · + pi .
Propriété 22 Si X est une variable aléatoire discrète de fonction de répartition F , alors on a les
propriétés suivantes :
– F est une fonction en escalier avec limx→−∞ F (x) = 0 et limx→+∞ F (x) = 1.
– F est une fonction croissante.
– Pour tous a, b ∈ R et a < b,
F (b) − F (a) = P[a < X ≤ b].
La croissance se déduit de ce dernier point puisque si a < b, F (b) − F (a) = P[a < X ≤ b] ∈ [0, 1]
est en particulier positif.
Exemple 22 Dans l’exemple du nombre de ”Face” en 2 lancers, on obtient la courbe en escalier

suivante :
3.3 Paramètres d’une loi

3.3.1 Espérance mathématique
Définition 24 L’espérance mathématique E[X] d’une variable aléatoire X joue le rôle dévolu
à la moyenne en statistiques : elle correspond à la valeur moyenne espérée par un observateur lors
d’une réalisation de la variable aléatoire X. Les valeurs prises par cette variable sont pondérées par
les probabilités des évènements élémentaires de sorte que l’on définit
N
X N
X
E[X] = p i · xi = xi · P[X = xi ]
i=1 i=1
lorsque X peut prendre N valeurs différentes x1 , . . . , xN avec comme probabilités élémentaires

pi = P[X = xi ].
Exemple 23 Lors du lancer de 2 pièces, le nombre de ”face” moyen ou espéré correspond à

l’espérance mathématique de la variable aléatoire X déja introduite, donnée par
1 1 1
E[X] = ·0+ ·1+ ·2=1
4 2 4
Propriété 23 Si X est une variable aléatoire discrète et f une fonction à valeurs réelles définie
sur X(Ω), alors Y = f (X) est aussi une variable aléatoire définie sur le même espace de probabilité
Ω. Connaissant la loi de X, on peut alors déterminer la loi de Y .
Exemple 24 Par exemple, si Y = X 2 , on a PY (y) = P[Y = y] = 0 pour y < 0, et pour y ≥ 0,

√
PY (y) = P[Y = y] = P[|X| = y]
√ √
= P[{X = y} ∪ {X = − y}]
√ √
= P[{X = y}] + P[{X = − y}]
√ √
= PX ( y) + PX (− y)
On peut déterminer l’espérance de Y à partir de sa loi, mais également directement à partir de

celle de X grâce à la formule X
E[f (X)] = f (x)PX (x).
x∈X(Ω)
Remarque 9 L’espérance E[X] n’est qu’un indicateur moyen et ne peut caractériser la loi une
variable aléatoire à lui tout seul.
3.3.2 Variance
Pour décrire plus précisément le comportement de X, sans pour autant caractériser complètement
la loi de X, on peut s’intéresser aux écarts de X par rapport à cette moyenne. Cependant, si on
considère simplement la différence X − E[X], on obtient un écart moyen E[X − E[X]] = 0 (par
linéarité de l’espérance, voir 3.3). On pourrait considérer la valeur moyenne de |X − E[X]| mais on
préfère considérer la moyen de (X − E[X])2 , plus pertinente mathématiquement.
Définition 25 La variance mesure ainsi la déviation moyenne autour de la moyenne espérée

E[X], et est définie par
N
2 X 2
V[X] = E X − E[X] = pi · xi − E[X] .
i=1
Propriété 24 (formule de Koenig) Elle est toujours positive puisqu’il s’agit de l’espérance d’un
carré.
On a l’expression suivante :
V[X] = E[X 2 ] − (E[X])2 . (3.1)
Définition 26 Pour mesurer la dispersion d’une variable aléatoire X, on considère souvent en

statistiques l’écart-type, lié à la variance par :
p
σX = V(X). (3.2)
Exemple 25 Lorsque X est le nombre de face obtenu lors du lancer de 2 pièces équilibrées, la
variance est
1 1 1 1
V[X] = · (0 − 1)2 + · (1 − 1)2 + · (2 − 1)2 = .
4 2 4 2
Le lien entre la variance et le dispersion moyenne autour de la moyenne peut être explicité grâce
à l’inégalité de Bienaymé-Tchebychev (cf (3.5)).
3.3.3 Propriétés de l’espérance et de la variance

Propriété 25 (Linéarité de l’espérance) Si X et Y sont deux variables aléatoires définies sur
le même univers Ω et a, b deux réels,
E[aX + bY ] = aE[X] + bE[Y ]. (3.3)
En particulier, E[aX] = aE[X].
Propriété 26 (Non-linéarité de la variance) Pour toute variable aléatoire X et a, b ∈ R
V(aX + b) = a2 V[X].
Propriété 27 (Inégalité de Markov) Soit X une variable aléatoire positive d’espérance finie,
alors pour tout a > 0
1
P[X ≥ a] ≤ E[X]. (3.4)
a
Propriété 28 (Inégalité de Bienaymé-Tchebychev) Soit X une variable aléatoire réelle de
variance finie, alors pour tout a > 0
1
P[| X − E[X] |≥ a] ≤ V(X). (3.5)
a2
3.4 Couple de variables aléatoires discretes

3.4.1 Définition
Définition 27 Un couple aléatoire discret est un couple (X, Y ) de variables aléatoires définies
sur le même univers Ω et à valeurs dans
X(Ω) × Y (Ω) = {(x, y) : x ∈ X(Ω), y ∈ Y (Ω)}.
Par la suite, on notera {X = x, Y = y} pour désigner l’évènement élémentaire {X = x} ∩ {Y =

y}.
Définition 28 On appelle loi de probabilité ou loi jointe de (X, Y ), l’application PXY de

X(Ω) × Y (Ω) dans [0, 1] qui à chaque couple d’évènements élémentaires (x, y) associe la proba-
bilité
PXY (x, y) = P[X = x, Y = y].
Dans la pratique, ces probabilités jointes sont données à l’aide d’un tableau à double entrée
dont les lignes correspondent au valeurs possibles xi ∈ X(Ω) prises par X, les colonnes à celles
yi ∈ Y (Ω) prises par Y , et l’élèment de la ligne i et colonne j à la probabilité jointe PXY (xi , yj ) :
X|Y y1 y2 ... yj ... yN

x1 PXY (x1 , y1 ) PXY (x1 , y2 ) PXY (x1 , yj ) PXY (x1 , yN )
x2 PXY (x2 , y1 ) PXY (x2 , y2 ) PXY (x2 , yj ) PXY (x2 , yN )
...
xi PXY (xi , y1 ) PXY (xi , yj ) PXY (xi , yN )
...
xn PXY (xn , y1 ) PXY (xn , yj ) PXY (xn , yN )
Exemple 26 Une urne contient 3 boules numérotées {1, 2, 3}. On tire successivement, sans remise
et équiprobablement deux boules de l’urne. Soit X et Y les numéros obtenus aux 1er et 2nd tirages.
Les résultats du 2nd dépendent trivialement de ceux du 1er. Pour déterminer la loi du couple, on
utilise les probabilités conditionnelles pour écrire
PXY (x, y) = P[X = x, Y = y] = P[Y = y | X = x] · P[X = x].
La loi du couple est alors donnée par le tableau suivant
x|y 1 2 3
1 0 1/6 1/6
2 1/6 0 1/6
3 1/6 1/6 0
D’une manière générale, on peut calculer l’espérance d’une fonction f des deux variables X et
Y grâce à la loi du couple en écrivant
X
E[f (X, Y )] = f (x, y) · PXY (x, y).
(x,y)∈X(Ω)×Y (Ω)
3.4.2 Lois marginales

Il se peut que connaissant la loi du couple on ne veuille s’intéresser qu’à une seule de ses
coordonnées : on parlera alors de loi marginale.
Définition 29 Soit (X, Y ) un couple aléatoire discret. On appelle loi marginale de X l’applica-
tion PX de X(Ω) dans [0, 1] définie pour tout x ∈ X(Ω) par
X
PX (x) = P[X = x] = PXY (x, y).
y∈Y (Ω)
On définit de manière analogue la loi marginale de Y .
Exemple 27 Dans l’exemple précédent, la loi marginale de X est ainsi obtenue en sommant les
lignes du tableau de la loi jointe, et est donnée par le tableau
x 1 2 3
PX (x) 1/3 1/3 1/3
tandis que l’on obtient la loi marginale de Y en sommant les colonnes :
y 1 2 3
PY (y) 1/3 1/3 1/3
3.4.3 Covariance
Définition 30 Soit (X, Y ) un couple aléatoire discret. On appelle covariance de (X, Y ), notée
Cov(X, Y ), le nombre réel
Cov(X, Y) = E[(X − E(X)) · (Y − E(Y)]. (3.6)
On peut également la calculer à l’aide d’une formule de type Koenig :
Cov(X, Y) = E[XY] − E[X] · E[Y].
Elle permet de quantifier un lien entre les 2 variables marginales X et Y via le coefficient de
corrélation ρXY donné lorsque σX et σY sont non nulles par :
Cov(X, Y)
ρXY = . (3.7)
σX σY
Ce coefficient de corrélation est très utile pour déterminer le lien entre deux caractères en
statistiques descriptives.
3.4.4 Indépendance
Les lois marginales se calculent simplement à partir de la loi du couple. Par contre, il est en
général impossible de calculer la loi du couple à partir de ses lois marginales. Le cas simple de
variables aléatoires réelles indépendantes permet cependant de retrouver la loi du couple mais c’est
loin d’être le cas en général.
Définition 31 Soit (X, Y ) un couple aléatoire discret. On dit que les variables aléatoires X et Y
sont indépendantes lorsque tous leurs évènements élémentaires le sont deux à deux, i.e.
∀(x, y) ∈ X(Ω) × Y (Ω), PXY (x, y) = PX (x) · PY (y).
Dans ce cas, les variables sont également non corrélées, c’est à dire que ρXY = Cov(X, Y ) = 0.
La réciproque est fausse en général.
Propriété 29 Si X et Y sont deux variables aléatoires indépendantes, alors
E[XY ] = E[X] · E[Y ],

V[X + Y ] = V[X] + V[Y ] = V[X − Y ].
La réciproque est fausse : deux variables aléatoires vérifiant une des relatione précédentes,
peuvent ne pas être indépendantes. (exo : fabriquer un contre ex)
3.4.5 Lois conditionnelles

Définition 32 Soit (X, Y ) un couple aléatoire discret. On appelle loi conditionnelle de X sa-
chant Y , l’application pX|Y de X(Ω) dans [0, 1] définie pour tout (x, y) ∈ X(Ω) × Y (Ω) par
PXY (x, y)
pX|Y [x | y] = P[X = x | Y = y] = .
PY (y)
On définit de manière analogue la loi conditionnelle de Y sachant X.
Exemple 28 Dans l’exemple précédent, la loi conditionnelle de Y sachant que le chiffre 1 a été
tiré au premier tirage est donnée par le tableau suivant :
y 1 2 3
PY |X [y | 1] 0 1/2 1/2
On peut également calculer la loi du couple (la loi jointe) à partir des lois conditionnelles en
toutes circonstances, et en particulier qu’il y ait indépendance ou non, grâce au théorème suivant.
Théorème 5 Soit (X, Y ) un couple aléatoire discret. La formule des probabilités composées permet
d’écrire
PXY (x, y) = PX (x) · PY |X (y | x) si PX (x) 6= 0

PXY (x, y) = PX (y) · PX|Y (x | y) si PX (y) 6= 0
0 sinon.
En particulier, lorsque X et Y sont indépendantes, les probabilités conditionnelles se confondent

avec les lois jointes : PX|Y (x | y) = PX (x) et PY |X (y | x) = PY (y).
3.5 Lois discrètes usuelles

On considère une variable aléatoire discrète X sur un univers quelconque Ω. Lorsque X prend n
valeurs, l’ensemble X(Ω) des valeurs prises par X est désigné par (xi )i=1...n , i.e. (x1 , x2 , . . . , xi , . . . , xn ),
, et (xi )i∈N lorsque X en prend une infinité. Le comportement aléatoire de X peut être très différent
selon les phénomènes étudiés, et toute forme de loi est a priori envisageable. Cependant, certains
paramètres objectifs de caractérisation (moyenne, dispersion, etc.) permettent de dégager des com-
portements récurrents et des familles de lois qui permettent une modélisation approchée raisonnable
de la plupart des phénomènes alétoires courants. Nous décrivons ici les lois discrètes les plus im-
portantes, à travers certains exemples de modèlisations.
3.5.1 Loi uniforme sur {1, . . . , n}

Elle modélise des situations d’équiprobabilité.
Définition 33 On dit qu’une variable aléatoire X suit une loi uniforme discrète lorsqu’elle
prend ses valeurs dans {1, . . . , n} avec des probabilités élémentaires identiques. Puisque la somme
des ces dernières doit valoir 1, on en déduit qu’elles doivent toutes être égales à un 1/n :
1
∀k = 1 . . . n, P[X = k] = .
n
On note également ces probabilités pk , p(k) ou PX (k). Ces probabilités élémentaires sont en parti-
culier indépendantes de la modalité k.
Propriété 30 (Espérance et variance) On calcule aisément

n+1
E[X] = ,
2
2
n −1
V[X] = .
12
Démonstration :
–
1 1 1 1
E[X] = 1. + 2. + 3. + · · · + +n. ,
n n n n
n
1 X
= . k,
n
k=1
1 n(n + 1)
= . ,
n 2
n+1
= .
2
Pn
k=1 k = n(n+1)
2 est la somme des premiers termes d’une suite arithmétique de raison 1 de
premier terme 1.
–
1 1 1 1
E[X 2 ] = 12 . + 22 . + 32 . + · · · + +n2 . ,
n n n n
n
1 X 2
= . k ,
n
k=1
1 n(n + 1)(2n + 1)
= . ,
n 6
(n + 1)(2n + 1)
= .
6
Pn n(n+1)(2n+1)
k=1 k2 = 6 est un résultat classique qui se démontre par récurrence.
V[X] = E[X 2 ] − (E[X])2 ,

(n + 1)(2n + 1) (n + 1)2
= − ,
6 4
2n + 1 n + 1
= (n + 1) − ,
6 4

4n + 2 − 3n − 3
= (n + 1) ,
12
n−1
= (n + 1) ,
12
n2 − 1
= .
12
J
Exemple 29 X = résultat d’un jet de dé à six faces non-pipé.

Les n = 6 modalités possibles, x1 = 1, x2 = 2, x3 = 3, x4 = 4, x5 = 5, x6 = 6, ont toutes pour
probabilité élémentaire 1/6 :
1
∀k = 1 . . . 6, PX (k) = P[X = k] =
6
et on peut calculer E[X] = 72 ; V[X] = 35
12 .
3.5.2 Loi de Bernoulli

Définition 34 Cette loi est celle de toute variable aléatoire X modélisant une expérience dont
l’issue ne possède que deux alternatives de type ”succès ou échec”, ”vrai ou faux”, ”marche ou
arrêt”, pile ou face”, etc. Un succès est représenté par l’évènement {X = 1} tandis que X = 0
correspond à un échec X(Ω) = {0; 1}. Puisque l’on a P[X = 0] = 1 − P[X = 1], la loi de X
ne dépend que d’un paramètre (la probabilité de succès) ; on parle alors de la loi de Bernoulli de
paramètre p caractérisée par
P[X = 1] = p,
P[X = 0] = 1 − p.
Propriété 31 (Espérance et variance)
E[X] = p,
V[X] = p(1 − p).
3.5.3 Loi binomiale B(n, p)

Définition 35 La loi binomiale est la loi de probabilité d’une variable aléatoire représentant une
série d’épreuves de Bernoulli possédant les propriétés suivantes :
– Chaque épreuve donne lieu à deux éventualités exclusives de probabilités constantes p et q =
1 − p.
– Les épreuves répétées sont indépendantes les unes des autres.
– La variable aléatoire X correspondante prend pour valeur le nombre de succès dans une suite
de n épreuves.
Deux paramètres, le nombre d’épreuves (identiques mais indépendantes) répétées n et la pro-

babilité p de succès dans lépreuve de Bernoulli en question caractérisent cette loi. Lors d’une telle
expérience, on dit que X suit une binomiale B(n, p), à valeurs dans X(Ω) = {1, 2, . . . , n}.
Exemple 30 Le nombre X de ”Pile” obtenus au cours de n lancers indépendants d’une pièce

équilibrée est une variable aléatoire discrète, à valeurs dans {0, 1} et suivant une loi binomiale
B(n, p) avec p = 21 , puisque la probabilité de succès est celle d’obtenir un pile, i.e. 12 .
Théorème 6 On a par ailleurs
X = X1 + · · · + Xk + · · · + Xn
où les Xk sont des variables aléatoires de Bernoulli indépendantes de paramètre p, correspondant
au succès d’une seule épreuve de pile ou face.
Exemple 31 Le nombre de boules rouges extraites au cours de n tirages successifs avec remise
(pour assurer l’indépendance) d’une boule dans une urne contenant des boules rouges et blanches
dans des proportions p et q = 1 − p est une variable aléatoire suivant une loi binomiale B(n, p).
Pour déterminer les probabilités des événements élémentaires d’une variable aléatoire suivant
une loi binomiale, il nous faut tout d’abord déterminer le nombre de possibilités d’obtenir k succès
au cours de n épreuves. Il s’agit de déterminer le nombre de combinaisons (non ordonnées) de k
objets pris parmi n, avec bien sûr k ≤ n. Les combinaisons sont non ordonnées car seul importe
d’avoir k objets (succès pour nous) et non pas à quel(s) tirage(s) ces succès ont eu lieu. On connaı̂t
le nombre de possibilités de k succès et n échec, (Cnk ) il suffit de les multiplier par les probabilités
de succès et d’échec pour obtenir la loi binomiale. On a donc :
Propriété 32 Les probabilités élémentaires d’une variable aléatoire X suivant une loi binomiale
B(n, p) sont données pour tout nombre de succès k = 1 . . . n par :
P[X = k] = Cnk · pk · (1 − p)n−k .
Remarque 10 On a bien, en utilisant la formule du binome,

n
X n
X
P[X = k] = Cnk · pk · (1 − p)n−k
k=0 k=0
=1
E[X] = np,
V[X] = np(1 − p).
Démonstration :
On a l’écriture X = X1 + X2 + · · · + Xk + · · · + Xn , ou les Xk sont n variables aléatoires de Bernoulli
indépendantes. On a en effet par linéarité de l’espérance
E[X] = E[X1 ] + E[X2 ] + · · · + E[Xk ] + · · · + E[Xn ] = n · E[X1 ] = n · p
et par indépendance des variables aléatoires (Xk )k=1...n
V[X] = V[X1 ] + V[X2 ] + · · · + V[Xk ] + · · · + V[Xn ] = n · V[X1 ] = n · p · (1 − p)
Exemple 32 1. Un atelier comporte 10 machines identiques. Chaque machine a une probabilité

p = 0.01 de tomber en panne à un moment dans la journée. Lorsque l’on suppose que les
machines tombent en panne de manière indépendantes, la variable aléatoire X désignant le
nombre de machines en panne à un moment donné dans la journée suit une loi B(10, 0.01).
Le nombre moyen de pannes par jour est donc E[X] = 10 · 0.01 = 0.1, la variance étant
V[X] = 10 · 0.01 · 0.99 = 0.099.
2. Une machine qui a une probabilité p = 0.01 de tomber en panne dans la journée est amenée à
fonctionner pendant 20 jours consécutifs. Alors, en supposant l’indépendance des pannes, i.e.
si l’on considère qu’après chaque panne la machine est restaurée à l’identique, X suit une loi
B(20, 0.01).
3.5.4 Loi de Poisson

Lorsque le nombre d’épreuves n devient très important, la manipulation de la loi binomiale
devient elle très fastidieuse et est parfois remplacée en première approximation par son homologue
asymptotique, la loi de Poisson (théorème 7). Celle-ci évalue le nombre aléatoire d’évènements de
même probabilité pendant une durée donnée. Elle peut modèliser par exemple le nombre d’appels
reçus par un standard téléphonique, le nombre de voyageurs se présentant à un guichet dans la
journée, etc. Pour des raisons tues ici, elle s’exprime à l’aide de la fonction exponentielle et dépend
d’un paramètre λ > 0, qui correspond au nombre moyen d’occurence du phénomène observé pendant
la durée donnée. Plus formellement :
Définition 36 Une variable aléatoire X suit une loi de Poisson de paramêtre λ > 0, notée
P(λ) lorsque X(Ω) = N et pour tout k ∈ N
λk
PX (k) = P[X = k] = e−λ
k!
Propriété 34
λ
P[X = k + 1] = P[X = k]
k+1
On admettra que :
E[X] = λ,
V[X] = λ.
Exemple 33 Si on sait qu’en général un standard téléphonique reçoit 20 appels dans la journée
et que l’on peut modéliser le nombre aléatoire d’appels par une loi de Poisson, on pourra calculer
la probabilité d’avoir k appels, pour tout k, à l’aide des formules données par une loi de Poisson
P(20).
Remarque 11 Dans la pratique, des tables donnant les probabilités élémentaires pour différentes
valeurs du paramètre sont disponibles et utilisées.
Propriété 36 Si X1 et X2 sont deux variables aléatoires indépendentes suivant respectivement des

lois de Poisson P(λ1 ) et P(λ2 ), alors X = X1 + X2 suit une loi de Poisson P(λ1 + λ2 )
Démonstration :
λk11
P[X1 = k1 ] = e−λ1
k1 !
k2
λ
P[X2 = k2 ] = e−λ2 2
k2 !
k
X
P[X1 + X2 = k] = P[{X1 = i} ∩ {X2 = k − i}]
i=0
k
X
= P[{X1 = i}] P[{X2 = k − i}]
i=0
k
X λi1 −λ2 λk−i
= e−λ1 e 2
i=0
i! (k − i)!
k
−(λ1 +λ2 )
X λi λk−i
1 2
=e
i=0
i! (k − i)!
k
1 X k!
= e−(λ1 +λ2 ) λi λk−i
k! i=0 i!(k − i)! 1 2
k
1 X i i k−i
= e−(λ1 +λ2 ) C λ λ
k! i=0 n 1 2
(λ1 + λ2 )k
= e−(λ1 +λ2 )
k!
3.6 Approximation d’une loi de Poisson par une Binomiale

La loi de Poisson est souvent utilisée comme approximation de certaines lois binomiales pour
de grands échantillons, i.e. des lois binomiales correspondant à des grands nombres n d’épreuves
de Bernoulli. Il y a bien sûr quelques restrictions dont nous tairons ici les justifications théoriques,
et le paramètre de la loi approximante doit être choisi de sorte que l’espérance soit celle de la loi
binomiale approximée.
Définition 37 On dit qu’une suite de variables aléatoires (Xn : n ∈ N) convergence en loi vers
la variable aléatoire X si et seulement si on a, pour tout événement A :
P[Xn ∈ A] → P[X ∈ A]
n→∞
L
On notera Xn −→ X.
n→∞
Remarque 12 Si les variables (Xn : n ∈ N) et X sont discrètes alors il suffit que pour tout x ∈ R,
P[Xn = x] → P[X = x]
n→∞
Théorème 7 Soient Xn ∼ B(n, p), Y ∼ P(µ). Alors on a :

L
Xn −→ Y
n→∞, p→0, np=µ
Preuve : exercice ! ! ! (rappel limn (1 + nx )n = ex .)
Exemple 34
Conparaison des fonctions de répartitions d’une loi B(100, 0.1) et de celle d’une loi P(10).
Remarque 13 Dans la pratique, on considère que l’approximation est bonne lorsque
n ≥ 30, p ≤ 0.1 et n · p < 15
Exemple 35 (Utilisation du théorème de convergence en loi) Considérons X ∼ B(100, 0.1)

et Y ∼ P(10). Nous sommes sous les hypothèses du théorème 7 (n = 100 ≥ 30, p = 0.1,
n · p = 10 < 15). Ce théorème nous assure que :
∼
P[X = 5] = P[Y = 5]
Le premier terme de l’égalité est :
5
P[X = 5] = C100 0.195 0.95
= 0, 034
Le résultat a été trouvé par informatique la plupart des calculatrices étant incapable de le calculer
contrairement à l’autre terme :
105
P[Y = 5] = exp(−10)
5!
= 0, 037
Exemple 36
Conparaison des fonctions de répartitions d’une loi B(100, 0.5) et de celle d’une loi P(50).
Remarque 14 Il existe d’autres résultats de convergence en loi notamment le théorème de la limite

centrale 9 page 46.
Chapitre 4
Variables aléatoires continues, loi

normale
4.1 Loi d’une variable aléatoire continue

4.1.1 Définitions
Définition 38 On appelle variable aléatoire continue une variable aléatoire dont l’ensemble
des valeurs est R ou une réunion d’intervalles de R.
4.1.2 Problématique de la notion de loi dans le cas continu

Sa loi, c’est à dire la description des valeurs probables de X (avec quantification de ces probabi-
lités) est plus brièvement qualifiée de loi continue. La description d’une loi continue diffère de celles
des lois discrètes puisque pour une variable aléatoire continue X, la probabilité que X prenne une
valeur bien précise x PX (x) = P[X = x] est nulle. Il y a en effet une infinité de valeurs dans R ou
dans un intervalle, et au regard de toutes ces valeurs précises, le poids de la valeur particulière est
tellement insignifiant qu’il en est nul ! Il n’est ainsi pas possible de définir la loi de X par la donnée
des probabilités des événements élémentaires. Par contre, il est possible de déduire les probabilités
que X prenne ses valeurs dans une partie de R à partir de la fonction de répartition qui vaut dans
ce cas continu
F (x) = P[X ≤ x] = P[X < x].
4.1.3 Fonction de répartition et loi à densité

On considère une variable aléatoire X de fonction de répartition FX
F (x) = P[X ≤ x].
Propriété 37 On a les propriétés suivantes :

– F est une continue,
– limx→−∞ F (x) = 0 et limx→+∞ F (x) = 1,
– F est une fonction croissante,
40
CHAPITRE 4. VARIABLES ALÉATOIRES CONTINUES, LOI NORMALE 41
– Pour tous a, b ∈ R et a < b,
F (b) − F (a) = P[a < X ≤ b].
Le défaut de la fonction de répartition (que ne possède pas la notion de loi des variables aléatoires
discrètes) est qu’elle ne fait pas apparaı̂tre l’additivité des probabilités. Fort du parallèle que l’on
peut faire entre probabilités et surfaces, il est très avantageux de restreindre l’étude à une classe de
variables aléatoires dites à densité.
Définition 39 Une variable aléatoire possède une densité si Fx est dérivable. La dérivée notée
fX est appelée densité de probabilité de la variable aléatoire X.
Propriété 38 De ce fait,
Z b
P[a ≤ X ≤ b] = fX (t)dt,
a
et la probabilité de trouver X dans un intervalle [a, b] donné apparaı̂t comme l’aire d’une partie du
graphique située entre la courbe de la densité fX et l’axe des abscisses.
Remarque 15 Dans les applications, il n’est pas nécéssaire de calculer ces aires à l’aide de calculs
car des tables de lois recapitulant les valeurs principales existent.
Propriété 39 La donnée d’une densité f permet donc de décrire complètement notre variable
aléatoire en caractérisant sa loi grâce aux propriétés suivantes :
– ∀x ∈ R, f (x) ≥ 0.
– Z +∞
f (x)dx = 1.
−∞
– Z b
P[a < X ≤ b] = F (b) − F (a) = f (x)dx.
a
4.2 Lois à densité classiques

4.2.1 Loi uniforme
Cette loi modélise un phénomène uniforme sur un intervalle donné.
Définition 40 La v.a. X suit une loi uniforme sur l’intervalle borné [a; b] si elle a une densité f
constante sur cet intervalle et nulle en dehors. Elle est notée U([a; b]). Sa densité est alors,
(
1/(b − a) si x ∈ [a; b],
f (x) =
0 sinon
Cette loi est l’équivalent continue de la loi discréte equirépartie. Son espérance est E[X] = (b − a)/2
et sa variance est V ar(X) = (b − a)2 /12.
Le résultat suivant permet d’éviter des calculs fastidieux pour déterminer la probabilité uniforme
d’un intervalle.
Propriété 40 Si X est une v.a de loi uniforme sur [a; b] alors pour tout intervalle I de R :
l([a; b] ∩ I)
P(X ∈ I) = ,
l([a; b])
où l(J) désigne la longueur de l’intervalle J (ex : l([a ;b])=b-a).
4.2.2 Lois exponentielles

Définition 41 Soit α un réel strictement positif. La v.a X suit une loi exponentielle de paramètre
α, notée E(α), si elle admet pour densité :
f (x) = αe−αx 1[0;+∞[ (x).
Son espérance est E(X) = 1/α et sa variance est var(X) = 1/α2 . Les lois exponentielles sont
souvent utilisées pour modéliser des temps d’attente ou des durées de vie. Par exemple, les temps
d’attente à partir de maintenant du prochain tremblement de terre, de la prochaine panne d’un
appareil, de la prochaine désintégration dans un réacteur nucléaire suivent des lois exponentielles.
Le paramètre α désigne alors l’inverse du temps d’attente moyen.
4.3 La loi normale

4.3.1 Loi normale centrée réduite N (0, 1)
Définition
La loi normale, ou loi normale centrée réduite est la loi la plus connue des probabilités, parfois
sous le vocable loi de Laplace-Gauss et caractérisée par une célèbre ”courbe en cloche”.
Définition 42 La loi normale centrée réduite est une la loi continue, d’une v.a. X à valeurs
dans X(Ω) = R tout entier, définie à partir de la densité
1 −x2
f (x) = √ e 2
2π
Il n’existe par contre pas d’expression simple de sa fonction de répartition autre que la formule
intégrale Z a
∀a ∈ R, F (a) = f (t)dt
−∞
Il s’agit de l’aire de la surface située sous la courbe et à gauche de l’axe vertical x = a (Voir la
figure 4.1 page 43).
Remarque 16 Dans les pratiques, les probabilités d’événements de v.a. suivant une loi normales
sont répertoriées dans des tables facilement manipulables.
Paramètres
Un calcul intégral plus élaboré donne :
E[X] = 0,
V[X] = 1.
Figure 4.1 – A gauche : Densité de probabilité de la loi N (0, 1), à droite sa fonction de
répartition.
4.3.2 Loi normale générale N (µ, σ)

Définition
Définition 43 Il s’agit d’une modification ”spatiale” de la Loi normale : la forme en cloche de la

densité est la propriété principale de la famille des lois normales, qui peuvent éventuellement être
translatée pour devenir assymétrique d’espérance non nulle µ, ou dilatée ou contractée autour de
la moyenne en jouant sur la variance σ 2 (Voir la figure 4.2 page 44). La densité est modifiée en
1 −(x−µ)2
f (x) = √ e 2σ2
σ 2π
L’usage d’un changement de variable t = (x−µ)σ permet de se ramener à un calcul d’intégrale à
partir de la loi N (0, 1), ce qui nous permettra de consulter les tables existant pour la loi standard
précédente. On a le théorème suivant :
Théorème 8 Soit X une variable aléatoire de loi normale N (µ, σ) et Z la variable aléatoire définie
par
X −µ
Z=
σ
suit une loi normale centrée réduite N (0, 1).
Paramètres
Le changement de variable donne aussi :
E[X] = µ,
V[X] = σ 2 .
Figure 4.2 – Densité de probabilité de la loi normale N (1; 0, 5).
Manipulation de la loi normale
Remarque 17 On notera Φ la fonction de répartition de la loi normale centrée réduite N (0, 1).
On utilise les valeurs de Φ(a) tabulées et le changement de variable pour calculer les valeurs de
la fonction de répartition F d’une loi normale générale.
Exemple 37 Considérons X une v. a. qui suit une loi N (6, 2) et Z une v.a. de loi N (0, 1), on a
par exemple
FX (7) = P[X ≤ 7]
X − 6 7 − 6
=P ≤
2 2
1
=P Z≤
2
1
=Φ
2
= 0.6915.
Les valeurs ne sont tabulées que pour des valeurs de a positives, mais on s’en sort à l’aide de la
propriété suivante de le fonction de répartition Φ de la loi normale :
Propriété 43 Soit Z une v.a. de loi N (0, 1) ; on a alors
Φ(−a) = 1 − Φ(a)
et en particulier Φ(0) = 21 . On a par ailleurs
P[| Z |≤ a] = 2 · Φ(a) − 1
Exemple 38 –
X − 6 1 − 6
P[X > 1] = P >
2 2
−5
=P Z>
2
5
=Φ
2
= 0.9938.
–

P[4 ≤ X ≤ 8] = P − 1 ≤ Z ≤ 1

= P | Z |≤ 1
= 2Φ(1) − 1
= 0.6826.
Remarque 18 En utilisant les techniques précédentes, on constate tout d’abord que la loi normale
N (m, σ) est une loi symétrique autour de l’axe médian x = µ. On a ainsi 50% des individus au
dessus de la moyenne et 50% en dessous. C’est loin d’être le cas en général bienque notre intuition
nous pousse souvent à le croire, participant à une intuition probabiliste erronée.
Exemple 39 Cette loi permet aussi de mieux appréhender le lien entre variance et dispersion :
dans un intervalle [m − σ, m + σ] de longueur 2σ et centré autour de la moyenne, on peut calculer
qu’il y a 68% des individus, lorsque qu’une v.a. suit une loi N (m, σ) :
P[m − σ ≤ X ≤ m + σ] = 0.68
On établit aussi la règle des ”3 σ” : 95% d’un échantillon représentatif d’une loi normale N (m, σ)
est approximativement situé entre m − 2σ et m + 2σ. Plus exactement,
P[m − 1.96σ ≤ X ≤ m + 1.96σ] = 0.95
et on a mème 99, 7% des individus entre m − 3σ et m + 3σ :
P[m − 3σ ≤ X ≤ m + 3σ] = 0.997
Autrement dit, lorsque l’on a une variable aléatoire qui suit une loi normale N (m, σ), on est ”pra-
tiquement sûr” que la valeur se situera entre m − 3σ et m + 3σ.
Sommes de v.a. normales indépendentes
Propriété 44 Soit X1 et X2 deux v.a. indépendentes de lois respectives N (µ1 , σ1 ) et N (µ2 , σ2 ).

p
Alors X1 + X2 suit une loi normale N (µ1 + µ2 , σ12 + σ22 ) et X1 − X2 suit une loi N (µ1 −
p
µ2 , σ12 + σ22 ).
4.4 La Loi normale comme limite en loi

L’importance de la Lois Normale est due à son apparition comme loi limite de nombreux
phénomènes, à travers par exemple le célèbre Théorème de la limite centrale.
Théorème 9 Soit X1 , X2 , . . . une suite de variables aléatoires définies sur le même espace de pro-
babilité, suivant la même loi L et indépendantes. Supposons que l’espérance µ et l’écart-type σ de
L existent et soient finis (σ 6= 0).
Considérons la somme Sn = X1 + ... + Xn . Alors l’espérance de Sn est nµ et son écart-type vaut

√
nσ. Alors
Sn − nµ
Zn = √
σ n
converge vers la loi normale centrée réduite N (0; 1) lorsque n tend vers l’infini.
Corollaire 2 (Théorème de laplace) C’est notamment le cas pour une loi de bernoulli b(p) et
dans ce cas, Sn n’est autre que la loi binomiale B(n; p) qui vérifie bien les hypothèses. On a :
Sn − np L
√ −→ U
npq n→∞
avec U ∼ N (0; 1).
Dans la pratique, on considère que l’approximation est bonne lorsque
n ≥ 30, p ≥ 0.1 et n · p > 15
Figure 4.3 – Illustration du Théorème de la limite centrale.
Exemple 40 (Utilisation du Théorème de la limite centrale) Considérons X ∼ B(100, 0.4)

et U ∼ N (0; 1). On cherche à évaluer
P[X ≤ 45].
Pour ce faire, il suffit d’écrire :

X − 40 45 − 40
P[X ≤ 45] = P[ √ ≤√ ]
100 · 0, 4 · 0, 6 100 · 0, 4 · 0, 6
X − 40
= P[ √ ≤ 1, 02]
100 · 0, 4 · 0, 6
il est facile de voir que les deux événements sont identiques et donc que les deux probabilités sont
égales. Maintenant, il suffit de dire que nous sommes sous les hypothèses du théorème 2 (n = 100 ≥
30, p = 0.4, n · p = 40 > 15) et que ce dernier nous assure que :
X − 40
P[X ≤ 45] = P[ √ ≤ 1, 02]
100 · 0, 4 · 0, 6
∼
= P[U ≤ 1, 02]
Par informatique on trouve (la plupart des calculatrices étant incapable de le calculer et aucun
étudiant assez courageux pour calculer les 46 termes de la somme...) :
45
X
i
P[X = 5] = C100 0.4i 0.6100−i
i=0
= 0, 869
Une lecture dans la table nous permet d’affirmer que :
P[U ≤ 1, 02] = 0, 849
Ce qui est une très bonne approximation.
4.5 Lois dérivées de la loi Normale

Parfois d’autres lois que la loi normale sont utiles dans les approximations (cf. les calculs d’inter-
valle de confiance, de test). Ce sont les lois de Student et du χ2 (lire khi-deux). Ces lois dépendent
d’un paramètre n entier, appelé degré de liberté (d.d.l.). De même que pour la loi normale N (0; 1),
on disposera de tables pour ces lois.
4.5.1 Loi du Khi-deux

Définition 44 Soient X1 , ..., Xn des v.a indépendantes de même loi N (0; 1). Posons χ2 = i=1...n Xi2 ,
P
par définition la v.a. χ2 suit une loi du khi-deux à n degré de liberté (abréviation d.d.l.). On note
χ2 (n) cette loi.
Quelques Propriétés :
- χ2 ≥ 0, cette loi n’est donc pas symétrique,
- χ2 admet une densité,
- E(χ2 ) = n et var(χ2 ) = 2n
4.5.2 Loi de Student

Définition 45 Soient X ∼ N (0; 1) et Y ∼ χ2 (n). Posons T = √X . Alors T suit une loi de
Y /n
Student à n degré de liberté et on la note T (n).
Chapitre 5
Une introduction aux Théorémes

limite en Probabilités
”En essayant continuellement, on finit par réussir. Donc plus ça rate, plus on a de chances que
ça marche.”
5.1 Loi des grands nombres

La loi des grands nombres est la formulation rigoureuse des faits intuitifs suivants : si on lance
un grand nombre de fois une pièce en l’air, il y aura en moyenne 50% de piles (et donc aussi
50% de face). Précisons cette remarque. On joue n fois au pile ou face, avec proba p de tomber sur
pile. Pour 1 ≤ i ≤ n on pose Xi = 1{pile} , alors :
P
i=1..n Xi nb de piles
= .
n n
Et il semble assez naturel que lorsque n est grand le rapport nb de piles/n tende vers la proba de
tomber sur pile, c’est à dire précisément p = E(X1 ). Ainsi dans ce cas particulier, il semble que
lorsque n grand, P
i=1..n Xi
→ E(X1 ).
n
De même, si on lance un grand nombre de fois un dè à 6 faces en l’air, il y aura en moyenne
1/6 ème des faces qui seront, par exemple, des 4 (si la pièce et le dè sont équilibrés). Il existe
deux versions de la LGN qui correspondent à deux modes de convergence : la faible où on énonce
la convergence en ”probabilité”’ et la forte avec la convergence ”presque sûre.” (cf. paragraphes
suivant pour définition de ces modes de convergence)
5.1.1 Un premier pas : Loi faible des grands nombres

Théorème 10 Soit (Xn )n∈N? une suite de v.a. réelles deux à deux indépendantes et de même loi
tel que E(X12 ) < ∞. Alors,
1 X
∀ > 0 lim P( | Xi − E(X1 )| > ) = 0
n n i=1..n
48
CHAPITRE 5. UNE INTRODUCTION AUX THÉORÉMES LIMITE EN PROBABILITÉS 49
Ce type de convergence s’appelle la convergence en probabilité. Autrement dit, la moyenne arithmétique

de X1 , ..., Xn converge en probabilité vers l’espérance de X1 . Ce résultat peut etre ”facilement”
prouvé à l’aide de l’inégalité de l’inégalité de Bienaymé Tchebychev (cf. feuille d’exos), ce qui
donne une esquisse d’intuition de la véracité de ces propriétés, aux plus motivés d’entre vous.
5.1.2 Loi forte des grands nombres

Il existe une version de la loi des grands nombres pour la convergence presque sûre, on parle de
la loi forte (car la convergence presque sûre est plus forte que celle en probabilité.)
Théorème 11 Soit (Xn )n∈N? une suite de v.a. réelles deux à deux indépendantes et de même loi
tel que E(|X1 |) < ∞. Alors,
1 X
pour presque tout ω, lim Xi = E(X1 ).
n n
i=1..n
On parle de convergence presque sûre (p.s en abrégé). Cela signifie que pour presque chaque
réalisation ω, la quantité moyenne arithmétique des Xi converge vers E(X1 ). Attention, la ”vi-
tesse” de convergence dépend du ω. On admet ce Théorème (LGN) fondamental dont les preuves
sont beaucoup plus complexes que celles de sa version faible.
Exemple 41 Appliquer la loi des grands nombres au jeu du pile ou face. Pour i = 1..n, posez
Xi = 1{pile} .
Exemple 42 Application : estimation d’une proportion inconnue. On se propose d’estimer le pa-

ramètre p inconnu d’une loi de Bernoulli en observant un grand nombre de fois un phénoméne
aléatoire de loi de Bernoulli(p), c’est à dire en observant les valeurs d’une suite de v.a. Xi
indépendantes et de loi de Bernoulli(p). Considèrons une urne comportant des boules rouges en
proportion inconnue p et des boules vertes (en proportion 1 − p). D’aprés la LGN, un grand nombre
de tirages de boules dans l’urne donnera une estimation de la proportion p en comptant (la fréquence
du) nombre de boules rouges ainsi tirées.
Seulement, quel est le nombre raisonnable de boules à tirer pour avoir une réponse assez précise ?
Pour répondre à cette question, on peut fabriquer un intervalle dans lequel on est certain que le
paramètre p se trouve avec une certaine probabilité. On appelle un tel intervalle, un intervalle de
confiance. L’inégalité de Bienaymé Tchebychev (cf. feuille d’exos) permet de donner un intervalle
(exo). [ le paragraphe suivant (avec le TCL) donne également un intervalle]
Exemple 43 (Sondage) : Avant le second tour d’une élection, opposant les candidats D et G,
un institut de sondage interroge au hasard 1000 personnes dans la rue. On note p la proportion
d’électeurs décidés à voter pour G dans la population totale et on suppose l’échantillon de personnes
intérrogées représentatif. Dans l’échantillon sondé, cette proportion est égale à 0, 54. A l’aide de
Bienaymé Tchebychev, proposer un intervalle de confiance pour p avec un risque d’erreur de 5%.
Faut il augmenter la taille de l’échantillon pour répondre à la question ?
5.2 Théorème central limite

P
On sait maintenant que sous certaines conditions, la moyenne arithmétique X̄n = i Xi /n, de
v.a. indépendantes ayant la meme lois converge vers l’espérance. On sait donc que X̄n − E(X1 )
tend vers 0. On aimerait aller à l’ordre supérieur et connaitre ”la vitesse” de convergence vers 0.
Le (TCL) Théorème central limite répond à la question :
Théorème 12 Soit (Xn )n≥1 une suite de v.a. réelles indépendantes et de même loi, de moyenne
m et d’écart type σ. Notons
X1 + ... + Xn
X̄n =
n
et Zn les v.a. associées centrées réduites :
√
n(X̄n − m)
Zn = .
σ
Alors pour tout intervalle [a; b], on a :
Z b
1 2
lim P(Zn ∈ [a; b]) = P(Y ∈ [a; b]) = √ e−t /2
dt,
n 2π a
où Y suit une N (0; 1). √

n(X̄n −m)
On dit que la loi de la v.a. Zn = σ converge en loi vers une normale centreé réduite
N (0; 1).
Autrement dit les sommes renormalisées se comportent asymptotiquement comme la loi normale.
De façon générale, l’écart entre les moyennes arithmétiques et l’espérance (écart qui tend vers 0
par la LGN) se comporte aprés normalisation comme la loi normale (ou bien encore en notant que
X̄n − m = n1 i=1..n (Xi − m), la moyenne des écarts (renormalisée) ”tend” vers une Gaussienne.)
P
Connaissant la densité de la loi normale, on peut le ”lire” intuitivement comme suit. Si n est
assez grand alors Zn est très probablement compris entre -3 et 3 (la probabilité est 0.9973). Soit
encore :
X1 + ... + Xn 3σ 3σ
− E(X1 ) ∈ [− √ ; √ ],
n n n
avec grosse probabilité.
Remarque 19
1. Quelque soit la loi des Xi (moment d’ordre 1 fini), les sommes renormalisées convergent vers
une meme loi limite, la loi Normale, ce qui explique le nom de cette loi et son caractère
universel.
√
2. Le n est nécessaire ! Prendre Xi ∼ N (0; 1) et regarder les variances des 2 termes.
3. En pratique, lorsque l’on considère un grand nombre de v.a. indépendantes et de même loi
X1 , ..., Xn , on approxime leur somme Sn ou leur moyenne X̄n par des variables normales
suivantes :
√ √
Sn ∼ N nm; nσ et X̄n ∼ N m; σ/ n ,
où m = E(X1 ) et σ 2 = var(X1 ).

4. Si l’on prend Xi ∼ Bernoulli(p), on retrouve qu’une Binomiale approche une Normale. [On
a donc deux approximations possibles pour les lois binomiales B(n; p) : celle par une loi de
Poisson
P(np) lorsque
n est grand, p petit et np de l’ordre de quelques unités et celle par
p
N np; np(1 − p) lorsque n est grand. Seule la pratique permet de décider laquelle des
deux est la meilleure approximation. ]
Le TCL est fondamental en statistique pour l’obtention d’intervalles de confiance. Il est à l’ori-
gine de beaucoup d’approximation de lois et permet de se ramener à la loi normale pour laquelle
on dispose de tables des valeurs.
5.3 Quelques applications

5.3.1 Marcheur dans Z
Soit un marcheur aléatoire (imaginez un bonhomme ivrogne) qui se déplace sur l’axe Z en
sautant aléatoirement à chaque unité de temps (à chaque seconde par exemple) sur un de ces 2
voisins (droite ou gauche). Notons Xi sa position à l’instant i. On suppose que le marcheur débute
à l’origine à t = 0, c’est à dire X0 = 0.
On a les relations suivantes : pour tout i ≥ 0,
Xi+1 = Xi + i ,
où les i ∈ {−1, +1} avec P( = −1) = P( = +1) = 1/2.
On applique le TCL aux i (qui sont indépendants, de meme lois). On a : E(i ) = 0 et var(i ) = 1.
Xn
On obtient que pour n grand, la loi de √ n
s’approxime par une N (0; 1). Ainsi, connaissant la forme
de la densité de la normale, on déduit qu’avec grosse probabilité le marcheur se trouve dans la boule
√
de centre 0 et de rayon n, au bout d’un temps n.
5.3.2 Intervalle de confiance lors d’élections

Deux candidats A et B sont en course pour une éléction. Soit p la probabilité de gens votant
pour A. A l’issue d’un sondage sur n personnes, on se propose de donner un intervalle de confiance
dans lequel p doit se trouver avec un(certain pourcentage α.
1 si la personne i vote pour A
Pour 1 ≤ i ≤ n, posons Xi = |x| =
0 sinon.
Les Xi sont indépendants et suivent des loi de Bernoulli de paramètre p inconnu. On a E(X1 ) = p
et V ar(X1 ) = p(1 − p). Le TCL autorise l’approximation (en loi) suivante pour n grand :
P
Xi
r
n
( i − p) ∼ N (0; 1) .
p(1 − p) n
D’où, pour tout > 0, on a :

P
Xi
r
n i
P(| ( − p)| < ) ≈ P(|Y | < ),
p(1 − p) n
où Y ∼ N (0; 1) .
C’est à dire que l’on est certain avec le taux α = P(|Y | < ) que ,
r r
p(1 − p) p(1 − p)
p ∈ [X̄n − ; X̄n + ]
n n
Si l’on veut par exemple donner une fourchette pour p avec un taux α = 0, 95, on choisit = 1, 96
( cf. table de la loi normale). Ainsi avec 95%, on peut affirmer que,
1, 96 1, 96
p ∈ [X̄n − √ ; X̄n + √ ]
2 n 2 n
(On a utilisé le fait que pour p ∈ [0; 1], p(1 − p) ≤ 1/4 ) De cette dernière expression, on remarque
que si l’on augmente la taille n de l’échantillon, l’intervalle (de confiance) se ”resserre”, ce qui
permet de lever éventuellement un indetermination dans le cas où 1/2 ∈ [X̄n − 21,96 √ ; X̄n + 1,96
n
√ ].
2 n
5.3.3 Introduction aux tests statistiques (le test du Chi 2)

Cette section ne représente qu’un survol de la théorie des tests.
Introduction générale
L’une des fonctions des statistiques est de proposer, à partir d’observations d’un phénomène
aléatoire (ou modélisé comme tel) une estimation d’un des paramètres du phénomène. C’est pas
exemple le but recherché dans la construction d’intervalles de confiance. Les statistiques servent
aussi à prendre des décisions. Peut on considérer qu’un médicament est plus efficace qu’un placebo ?
Le nombre de consultations de Google par seconde suit il une loi de Poisson ? Les gènes pilotant
la couleur des yeux et ceux des cheveux sont ils sur les mêmes chromosomes ? Il y a deux points
communs (au moins) à toutes ces questions : leurs réponses sont des oui-non et le phénomène sous-
jacent est aléatoire. Les tests statistiques vont permettre d’apporter une réponse à des questions
manichéennes en contrôlant l’aléa inhérent à la situation.
En statistiques, les deux éventualités sont appelées des hypothèses et sont notées H0 (hypothèse
nulle) et H1 (hypothèse alternative). Souvent H1 sera le contraire de H0 . Dans tous les cas, le
postulat est qu’une et une seule des deux hypothèses est vraie.
Un test statistique est un algorithme qui conduit à ne pas rejetter H0 ou rejetter H0 à partir des
observations du phénomène. L’idée de base des tests, est de trouver une statistique (une fonction
des observations) dont on connait la loi (ou qui s’approxime par une loi connue) si H0 est vraie et
qui ne se comporte pas de la même manière selon que H0 ou H1 est vraie.
( le ”qui s’approxime par une loi connue” dans la phrase précédente, est en général une conséquence
du TCL. On devine ainsi l’importance capitale de ce Théorème dans cette théorie.)
Il y a deux grands types de tests : les tests paramétriques et les tests non paramétriques (exemple :
test du χ2 ). Un test non paramétrique teste une propriété (indépendance ou pas, homgénéité ou
pas ). Un test paramétrique consiste à vérifier si une caractéristique d’une population, que l’on
notera θ, satisfait une hypothèse que l’on pose a priori, appelée hypothèse nulle H0 . Il s’agit donc
de tester un paramètre. Elle est en général de la forme H0 : θ = θ0 ou H0 : θ > θ0 ou encore
H0 : θ < θ0 . Comme pour les intervalles de confiance, on a besoin pour cela d’un échantillon dont
les valeurs sont celles prises par n v.a. X1 , ..., Xn indépendantes de même loi.
Un premier exemple

On suppose que la taille d’une population suit une loi Gaussienne N µ; σ 2 . On connait σ 2
mais la valeur µ est inconnue. Certaines circonstances aménent à formuler la question suivante :
la moyenne théorique µ est-elle égale à une certaine valeur µ0 ? Pour cela, on désire faire le test
suivant :H0 : µ = µ0 contre H1 : µ 6= µ0 .
Soit un échantillon X1 , ..., Xn des tailles de n personnes de la population. H0 implique que

Xi ∼ N µ0 ; σ 2 . Ainsi, pour n grand, le TCL donne alors que la v.a.
√
n
Un := (X̄n − µ0 ) ∼ N (0; 1) .
σ
Vu l’allure de la densité de la normale centrée réduite, on définit une zone rejet Rα de la forme
Rα =] − ∞; −tα [∪] − tα ; +∞[ où le nombre tα est donné par la table N (0; 1) de la v.a. U avec
P(|U | > tα ) = α
Si on choisit α = 0, 05, on a tα = 1, 96 d’aprés la table N (0; 1). Et si choisit α = 0, 1, on a

tα = 1, 645.
Il reste alors à calculer la valeur u de U à partir de l’échantillon et à décider en fonction de
l’appartenance de u à Rα ou non.
(
si u ∈ Rα on rejette H0 avec un risque d’erreur α %
si u ∈
/ Rα on ne rejette pas H0 avec un risque d’erreur α %
Le test du χ2
Toujours selon le meme schéma, sous une certaine hypothèse H0 , on construit ”une statistique”
(fonction des observations) qui doit tendre vers une loi connue. Dans le test du χ2 , la convergence
de la ”statistique trouvée” n’est pas une conséquence ”immédiate” du TCL mais c’est dans le meme
esprit que celle çi se prouve (d’où la place de ce test dans cette section).
Le test du khi-deux concerne uniquement les lois discrètes, mais on peut l’utiliser aussi pour des
échantillons continus regroupés en classes. Le modèle de base est toujours un échantillon (X1 , ..., Xn )
d’une loi inconnue. Les classes, notées c1 , ..., ck , sont une partition de l’ensemble des valeurs pos-
sibles. L’hypothèse à tester porte sur les probabilités des classes, pour lesquelles on se donne des
valeurs théoriques Ptheo (c1 )..., Ptheo (ck ).
H0 : ∀i = 1, ..., k, P(Xi ∈ ci ) = Ptheo (ci ).
Sous l’hypothèse H0 la distribution empirique de l’échantillon sur les classes doit être proche de
la distribution théorique. La distribution empirique (observée) Pobs est celle des fréquences de
l’échantillon dans les classes :
1 X Nombre de Xi tombant dans la classe cj
Pobs (cj ) = 1{c } (Xi ) = .
n i=1...n j n
On mesure l’adéquation de la distribution empirique à la distribution théorique par la distance du

khi-deux.
Définition 46 On appelle distance du khi-deux de Ptheo par rapport à Pobs , et on note Dχ2 (Ptheo , Pobs ),
la quantité :
X (Ptheo (ci ) − Pobs (ci ))2
Dχ2 (Ptheo , Pobs ) =
Ptheo (ci )
i=1...k
La ”distance” du khi-deux est donc une moyenne pondérée d’écarts quadratiques entre les
valeurs de Ptheo et Pobs . Ce n’est pas une distance au sens usuel du terme, puisqu’elle n’est même
pas symétrique. La loi de probabilité de Dχ2 (Ptheo , Pobs ) n’a pas d’expression explicite en général.
On utilise le résultat suivant :
Propriété 45 Sous l’hypothèse H0 , la loi de la variable aléatoire nDχ2 (Ptheo , Pobs ) converge quand
n tend vers l’infini, vers la loi du khi-deux de paramètre k-1.
Si l’hypothèse H0 est fausse, alors la variable nDχ2 (Ptheo , Pobs ) tend vers l’infini ( appliquer k fois
la loi des grands nombres, on obtient un terme linéaire en n). En pratique, la statistique du test
du khi-deux se calcule sous la forme suivante :
X (ntheo (ci ) − nobs (ci ))2

U = nDχ2 = ,
ntheo (ci )
i=1...k
où
• ntheo (ci ) est l’effectif théorique de la classe ci , à savoir le produit nPtheo (ci ),
• nobs (ci ) est l’effectif observé de la classe ci .
On peut distinguer trois types de test du χ2 :

1. le test du χ2 d’adéquation à une loi de probabilité sur un ensemble fini. Est il raisonnable de
penser que les résultats que j’observe sont des réalisations i.i.d d’une loi (p1 , p1 , ..., pk ) sur un
ensemble {1, 2, ..., k}. Exemple, H0 : le caractére X suit-il une loi particulière ? ,
2. le test χ2 d’homogénéité de plusieurs échantillons : deux médicaments ont-ils le même effet
(guérison, état stationnaire...) sur la population atteinte ? Exemple, H0 : le caractére X
suit-il la même loi dans deux populations données ? ,
3. le test du χ2 d’indépendance. H0 : les caractéres X et Y sont-ils indépendants ?
Ces trois tests ont un principe commun qui est le suivant : on répartit les observations dans k
classes dont les effectifs sont notés n1,obs , ..., nk,obs . L’hypothèse H0 permet de calculer les effectifs
théoriques, notés n1,theo , ..., nk,theo (ni,theo represente l’effectif théorique dans la classe i). On rejette
H0 si les effectifs observés sont trop différents des effectifs théoriques. Pour cela on donc utilise la
statistique de test décrite précédement :
(ni,obs − ni,theo )2
P
U = i=1..k .
ni,theo
Fait 1 : Le point central est que grace à la propriété 45, on peut prouver que lorsque la taille de
l’échantillon augmente, la statistique U tend vers la loi d’un χ2 (k − 1 − m) où k est le nombre de
classes et m est le nombre de paramètres estimées nécessaires au calcul des effectifs théoriques (les
Ni doivent être supérieur à 5).
Figure 5.1 – Densité de la loi d’un χ2 (à plus de 3 paramètres).
Il faut donc s’assurer que les effectifs théoriques sont plus grands que 5 et faire des regroupe-
ments de classes si besoin est. A partir de là, on calcule la zone de rejet unilatérale Rα = [tα,+∞ ][
au risque α en déterminant tα dans la table de la loi χ2 (k − 1 − m) par P(U > tα ) = α. La règle
décision est la suivante :

 si u = i=1..k (ni,obs −ni,theo )2 appartient à R , on rejette H
P
ni,theo α 0
P 2
 si u = i=1..k (ni,obs −ni,theo ) n’appartient pas à Rα , on accepte H0
ni,theo
Remarque 20
1. Contrairement aux autres tests, les tests du χ2 n’exigent pas de formuler l’hypothèse alternative
H1 , qui correspond à la négation de H0 .
2. Les effectifs théoriques doivent être supérieurs à 5. Si ce n’est pas le cas, il faut regrouper des
classes.
3. Dans la statistique U = χ2 (k − 1 − m), on manipule des effectifs et non des pourcentages.
Exemple A : Adéquation à une loi
Exemple a
Un croisement entre roses rouges et blanches a donné en seconde génération des roses rouges, roses
et blanches. Sur un échantillon de taille 600, on a trouvé les résultats suivants :
Couleur Effectif
rouges 141
roses 315
blanches 144
Peut on affirmer que les résultats sont conformes aux lois de Mendel ?
Il s’agit de tester H0 : prouges = pblanches = 0.25, proses = 0.5 par exemple au risque α = 0.05.
On dresse alors le tableau suivant :
couleur effectifs observés Ni effectifs théoriques ni,theo
rouges 141 0.25 × 600
roses 315 0.5 × 600
blanches 144 0.25 × 600
Ici, on a k = 3 classes et m = 0 (aucun paramètre à estimer pour pouvoir calculer les effectifs
théoriques) donc k − 1 − m = 2. On calcule ensuite Rα =]tα ; +∞[ ) l’aide de la table du χ2 (2) et

on obtient t = 5, 991. Enfin, on calcule :
(141 − 150)2 (315 − 300)2 (144 − 150)2

u = U (ω) = + + = 1.53 ∈
/ Rα .
150 300 150
On propose le non rejet de l’hypothèse : on ne peut pas dire que les observations contre- disent la
loi de Mendel.
Exemple b :
On observe le nombre X d’accidents journaliers sur une période de 50 jours dans une certaine ville.
On obtient :
Nombre d’accidents Nombre de jours
0 21
1 18
2 7
3 3
4 1
On constate que X̄ = 0.9 et que var(X) = 0, 97. Peut on affirmer que X suit une loi de Poisson au
risque α = 0.05 ?
Soit H0 : ” X suit une loi de Poisson de paramètre 0.9”, on dresse donc le tableau suivant :
Nombre d’accidents Nombre de jours Nombre de jours théorique
0 21 50 × e−0.9 = 20.330
1 18 50 × e−0.9 × 0.9 = 18.295
au moins 2 11 50 × (1 − e−0.9 (1 + 0.9)) = 11.376
On a regroupé les 3 dernières classes pour avoir un effectif théorique supérieur à 5 dans la dernière
classe. Dans cet exemple, on a k = 3 classes et m = 1 paramètre estimé (à savoir le paramètre
λ = X̄ = 0.9 de la loi de Poisson) nécessaire au calcul des effectifs théoriques. Donc k −1−m = 1 est
le nombre de d.d.l de U ; On calcule alors Rα = [tα ; +∞[ à l’aide de χ2 (1) et on obtient tα = 3.841.
Pour finir, on calcule
(21 − 20.33)2 (18 − 18.295)2 (11 − 11.376)2

u = U (ω) = + + = 0.039 ∈
/ Rα .
20.33 18.295 11.376
Et donc on ne rejette pas H0 au risque d’erreur 0.05.
Exemple B : Indépendance
Soient Y et Z deux v.a. à valeur respectivement dans {1, ..., r} et {1, ..., s}. La loi de (Y, Z)
est donnée par une matrice P = (pi,j )1≤i≤r, 1≤j≤s à coefficients positifs dont la somme vaut 1,
pi,j = P(Y = i, Z = j). Notons pour 1 ≤ i ≤ r et 1 ≤ j ≤ s,
pi. = P(Y = i) = pi,1 + pi,2 + ... + pi,s et p.j = P(Z = j) = p1,j + p2,j + ... + pr,j .
Les v.a. Y et Z sont indépendantes si et seulement si, pour tous i et j, on a : pi,j = pi. p.j
Soient un échantillon (Y1 , Z1 ), ..., (Yn , Zn ) de ces v.a, on définit alors les v.a. suivantes :
Ni,j = card{l ∈ [1; n]; (Yl , Zl ) = (i, j)}, Ni. = Ni,1 + ... + Ni,s et N.j = N1,j + ... + Nr,j .
Le fait 1 donne la propriété suivante :

Propriété 46 Avec les notations ci-dessus,

(
X X (Ni,j − Ni. N.j )2 → χ2 ((r − 1)(s − 1)) en loi si Y et Z indépendantes,
n
Un = Ni. N.j
i=1..r j=1..s n
→ +∞ p.s sinon.
quand n tend vers l’infini.
Remarque 21 avec les notations du fait 1, on a içi : k = rs et m = r − 1 + s − 1 (puisque la

donnée des r − 1 premiers coefficients de la loi de Y donne le dernier et idem pour Z et que la
donnée des lois marginales d’une loi, détermine la loi du couple). Ainsi, k − m − 1 = (r − 1)(s − 1).
Exemple c (Yeux et cheveux...)

Depuis la terrasse d’un café ensoleillée, un statisticien en plein travail a noté les couleurs des yeux
et des cheveux de 124 passants.
PP
PP Cheveux
PP blonds brun roux noir
Yeux PP
P
bleus 25 9 7 3
gris 13 17 7 10
marrons 7 13 5 8
Les deux critéres sont ils indépendants au niveau 5% ?

Soient les 2 v.a. Y : Ω → {bleu, gris, noir} et Z : Ω → {blond, brun, roux, noir}.
on notera i = 1 [resp. 2, 3] pour bleu [resp. gris, noir], et j = a [resp. b, c, d] pour blond [resp. brun,
roux,noir]. On calcule les Ni. et N .j. On a :
N1. = nombre total de personnes ayant les yeux bleus = 25 + 9 + 7 + 3 = 44, et de même N2. =
47, N3. = 33 puis N.a = nombre total de personnes ayant les cheveux blonds = 45, et N.b =
39, N.c = 19, N.d = 21.
P
Enfin, on vérifie que l’effectif total n vaut bien 124 avec par exemple i Ni. (= 124). On peut alors
construire le tableau des effectifs théoriques Ni. N.j /n.
PP
PP Cheveux
PP blonds brun roux noir
Yeux PP
P
bleus 44 × 45/124 ' 15, 97 13, 84 6, 74 7, 45
gris 17, 05 14, 78 7, 2 7, 96
marrons 11, 98 10, 38 5, 06 5, 59
Figure 5.2 – Tableau des effectifs théoriques
(25−15,97)2 (9−13,84)2 (8−5,59)2

On calcule alors la statistique Un = 15,97 + 13,84 + ... + 5,59 (prop 46) et on trouve
Un ' 15, 08.
La table du χ2 (6) (cf. Annexe) donne P(χ2 (6) > 12.59) ' 0.05 (au risque 5%) et donc on rejette
l’hypothèse d’indépendance de la couleur des yeux et de la couleur des cheveux.
Exemple C : Homegénéité
Les test du χ2 permettent aussi de tester l’homogénéité de plusieurs échantillons. On étudie un

caractère pouvant prendre k valeurs A1 , A2 , ..., Ak (ou k modalités, ou à valeurs dans k classes).
On dispose de l échantillons E1 , E2 , ..., El différents. Pour tout i ∈ {1, ..., k}, on connaı̂t l’effectif
observé Oi,j de la valeur Ai dans l’échantillon Ej . On souhaite tester :
”H0 : les échantillons sont issus de la même loi ” contre ”H1 : les échantillons n’ont pas même loi.”
On définit,
Oi. = Oi,1 + ... + Oi,l et O.j = O1,j + ... + Ok,j ,
et X X X X
n= Oi,j = Oi. = O.j
i=1..k j=1..l i=1..k j=1..l
Oi. représente l’effectif observé de la valeur Ai parmi la réunion de tous les échantillons et Oj.
représente l’effectif de l’échantillon j.
On a la propriété similaire au fait 1 :
Propriété 47 Avec les notations ci-dessus,

(
X X (Oi,j − Oi. O.j )2 → χ2 ((k − 1)(l − 1)) en loi si H0 vraie
n
Un = Oi. O.j
i=1..k j=1..l n
→ +∞ p.s sinon
quand n tend vers l’infini.
Exemple d (Y a t il un nouvel Omo ?)

On cherche à invalider la reflexion suivante qui affirme que toute les lessive se valent. On utilise
trois lessives appelées A, B et C. Une fois que la machine à laver a effectué son programme, on
classe à la sortie du lavage les vetements en trois catégories : très sale (TS), légérement sale (LS)
et propre (P). On obtient le tableau suivant :
PP
PP Linge
PP TS LS P
Lessive PP
P
A 30 65 205
B 23 56 121
C 75 125 300
Peut on dire au niveau 5% que toutes les lessives sont identiques ?

Chapitre 6
Annexe
59
CHAPITRE 6. ANNEXE 60
6.1 Tables Loi Normale N (0; 1)
Figure 6.1 – Table de la fonction de répartition

Figure 6.2 – Table de l’inverse de la fonction de réparition.

Lorsque P ≤ 0.5, il faut utiliser la colonne de gauche et la ligne supérieure. (Les fractiles sont
négatifs).
Lorsque P ≥ 0.5, il faut utiliser la colonne de droite et la ligne inférieure. (Les fractiles sont positifs.)
6.2 Table loi du Chi 2

Poly Stat Inf

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Poly Stat Inf

Transféré par

Droits d'auteur :

Formats disponibles

Module: Statistiques inférentielles

Université Paul Sabatier - Toulouse 3

1 Définitions de base - Dénombrements 6

2 Probabilités pour un Univers Discret 14

3 Variable aléatoire discrète 24

3.2.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4 Variables aléatoires continues, loi normale 40

5 Une introduction aux Théorémes limite en Probabilités 48

1.1 Opérations ensemblistes

1.1.2 Réunion d’ensembles

1.1.3 Intersection d’ensembles

1.1.4 Complémentaire d’un ensemble

Propriété 6 (Lois de Morgan)

A∪B =A∩B (1.1)

1.1.6 Opérations ensemblistes et Opérations logiques

Attention 1 Le connecteur logique OU mentionné correspond à un ”ou inclusif” : A ∪ B est

1.2 Ensemble fini

Exemple 1 E = {a, b, c} et card [E] = 3.

card [A ∪ B] = card [A] + card [B] − card [A ∩ B] .

Si A et B sont disjoints, c’est-à-dire que A ∩ B = alors,

card [A ∪ B] = card [A] + card [B] .

Corollaire 1 Soit A est un sous ensemble de E.

1.2.3 Cardinal d’un produit cartésien

Attention 2 E × F est différent de F × E.

Théorème 1 Si E et F sont finis, on a :

card [E × F ] = card [E] × card [F ]

Remarque 1 Si l’on autorise la répétition on doit nécessairement faire intervenir l’ordre.

1.3.1 Nombre de partie d’un ensemble fini

1.3.2 La notion de p-listes

Propriété 9 (Expression du nombre de p-listes) Le nombre de p-liste distinctes est égal à np .

Exemple 2 Considérons l’ensemble E = {1, 2, 3, A, B} correspondant aux différentes touches d’un

Ce sont les 3-listes de E il y en a 53 soit 125.

1.3.3 Les arrangements

Définition 7 Un arrangement à p éléments de En est un échantillon ordonné sans remise de p

Propriété 10 (Expression du nombre d’arrangements) Le nombre d’arrangements à p éléments

Définition 8 On appelle factorielle n le produit des n premiers entier :

Remarque 2 n! est une touche de la plupart des calculatrices.

Définition 9 (Les permutations) Une permutation de En est un échantillon ordonné sans

Propriété 12 Le nombre de permutations de En est donc égal à :

1.3.4 Les combinaisons

Propriété 13 (Expression du nombre de combinaisons) Le nombre de combinaisons à p éléments

Remarque 3 – Si p = 0 alors on a une seule combinaison à zéro élément : la partie vide.

1.3.5 Formule du binôme de Newton

Pour n = 0 la propriété est immédiate puisque 1 = 1.

Supposons la propriété vraie pour n et regardons si elle est vraie pour n + 1.

Remarque 5 On peut également démontrer cette propriété de manière ”ensembliste”, en develop-

Probabilités pour un Univers

2.1 Ensembles, Univers, événements

Définition 12 On parle d’événement élémentaire lorsqu’il s’agit du résultat d’une expérience

”obtenir un 1” noté {1}, ”obtenir un 2” noté {2},...,”obtenir un 6”= {6}.

{2, 4, 6} = {2} ∪ {4} ∪ {6}.

”obtenir un resultat ≤ 3” = {1, 2, 3} = {1} ∪ {2} ∪ {3}.

{2, 4, 6} ∩ {1, 2, 3} = {2}.

Le contraire d’un événement A correspond à son événement complémentaire noté

{2, 4, 6} = {2, 4, 6}c = Ω \ {2, 4, 6} = {1, 2, 3}.

2.2 Probabilités d’événements – Équiprobabilité

Définition 14 (Axiomes des probabilités)

– Evénement certain : P[Ω] = 1.

P[A ∪ B] = P[A] + P[B].

Propriété 15 Pour des événements non disjoints, l’additivité devient

P[A ∪ B] = P[A] + P[B] − P[A ∩ B].

En revanche, on n’a pas en général d’expression pour la probabilité de l’intersection. En parti-

Attention 3 C’est loin d’être le cas en général.

En appliquant la règle d’additivité et l’axiome de l’événement certain , on obtient la formule