Académique Documents
Professionnel Documents
Culture Documents
———————–
Poly de Cours - S3
———————–
Version du 29 novembre 2012
Clement Rau
clement.rau@iut-tlse3.fr
Table des matières
2
TABLE DES MATIÈRES 3
6 Annexe 59
6.1 Tables Loi Normale N (0; 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.2 Table loi du Chi 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Introduction
Tandis que la statistique peut être assimilée à une analyse, parfois très précise, de données et
est basée sur des valeurs connues, le but de la théorie des probabilités est de modéliser au mieux
les issues éventuelles d’expériences futures (en ne se basant en général sur les résultats d’études
statistiques). Contrairement à la plupart des autres branches des mathématiques, elle repose for-
tement sur la notion d’incertitude et est ainsi consacrée à l’étude de phénomènes aléatoires. Les
probabilités permettent d’évaluer les degrés de prévision d’événements possibles mais non certains,
et introduisent une notion intermédiaire entre ”sûr” et ”impossible”. Cette théorie ne permet pas
de ”prédire” ce qu’il peut se passer sur une expérience aléatoire ”isolée”, parcontre si l’on répéte
cette expérience de manière indépendante et un grand nombre de fois, la théorie permet de ”cer-
ner” certaines quantités. Les probabilités permettent ainsi l’établissement de critères objectifs de
mesure de l’incertitude qui conduisent parfois à des paradoxes célèbres saluant les défaillances de
notre intuition cartésienne dans ce domaine. Un autre avantage de cette théorie est qu’elle offre
un cadre naturel d’analyse pour des systèmes trop complexes pour que l’on puisse en saisir tous
les éléments (grandes populations, systèmes de particules, ordinateurs, comportements collectifs,
marchés boursiers etc.). Ainsi, la connaissance, même parfaite, d’un échantillon de population ne
peut conduire à une certitude totale, mais seulement à une incertitude qui peut être estimée et
quantifiée en terme de probabilités.
Ces notes de cours restant bien évidemment perfectibles, je remercie toute personne me rappor-
tant des coquilles, erreurs ou commentaires.
5
Chapitre 1
Définitions de base -
Dénombrements
Le formalisme probabiliste, tel qu’il est établi aujourd’hui, décrit les issues possibles de tout
phénomène, aléatoire ou non, en termes ensemblistes, dont nous rappelons brièvement ici la signi-
fication.
Propriété 1 (Commutativité)
A∪B =B∪A
Propriété 2 (Associativité)
A ∪ (B ∪ C) = (A ∪ B) ∪ C := A ∪ B ∪ C
6
CHAPITRE 1. DÉFINITIONS DE BASE - DÉNOMBREMENTS 7
Lorsque A et B n’ont aucun élément en commun, on dit qu’ils sont disjoints et on note A∩B =
∅.
Propriété 3 (Commutativité)
A∩B =B∩A
Propriété 4 (Associativité)
A ∩ (B ∩ C) = (A ∩ B) ∩ C := A ∩ B ∩ C
Propriété 5 (Distributivité)
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
1.1.5 Inclusion
Si tous les éléments d’un ensemble A sont aussi éléments d’un autre ensemble B, on dit que ”A
est inclus dans B” et on le note A ⊂ B. On dit aussi que ”A est un sous-ensemble de B”.
On a toujours
A ⊂ A ∪ B; A ∩ B ⊂ A; A ∩ B ⊂ A ∪ B; ∅ ⊂ A.
Définition 2 Le nombre d’éléments d’un ensemble fini A est appelé cardinal de A, noté card [A].
1.2.2 Cardinal
Propriété 7 Soient A et B deux ensembles finis quelconques,
1.3 Dénombrements
Dans le cadre d’un ensemble fini E, la problématiques consiste en :
– la constitution des collections d’ensembles ou d’applications ayant une caractéristique com-
mune (cas favorable),
– comptabiliser le nombre d’objets constituant cette collection.
Le dénombrement ne s’applique qu’à des ensembles finis et fait intervenir deux critères fonda-
mentaux pour la constitution et la distinction des objets a denombrer : la répétition et l’ordre.
Définition 4 (Répétition) Lors de la constitution des collections, chaque élément de E peut etre
utilisé plusieurs fois.
Définition 5 (Ordre) Pour distinguer deux collections, on peut tenir compte de l’ordre des éléments
qui les composent.
Démonstration :
Il existe diverses démonstrations de cette propriétés. On peut par exemple utiliser un arbre et faire
une correspondance entre une feuille et une partie. On peut également utiliser la formule du binôme
de Nenwton...
Apn = n × (n − 1) × (n − 2) × · · · × (n − p + 1)
Démonstration :
Pour le premier élément, on a n choix possibles. Le premier étant fixé, pour le deuxième élément,
on a (n − 1) choix possibles le tirage étant sans remise. Le premier et le deuxième étant fixés pour
le troisième élément, on a (n − 2) choix possibles... et ainsi de suite jusqu’au pième élément, pour
lequel on a [n − (p − 1)] = n − p + 1 choix possible. On a donc bien
n × (n − 1) × (n − 2) × · · · × (n − p + 1)
arrangements à p éléments de En .
J
CHAPITRE 1. DÉFINITIONS DE BASE - DÉNOMBREMENTS 10
n! = n × (n − 1) × (n − 2) × · · · × 1
avec la convention 0! = 1.
Propriété 11
n!
Apn =
(n − p)!
Démonstration :
n × (n − 1) × · · · × (n − p + 1) × (n − p) · · · × 1
n × (n − 1) × (n − 2) × · · · × (n − p + 1) = ,
(n − p) × · · · × 1
n!
= .
(n − p)!
J
Exemple 3 Un joueur se demande combien il peut écrire de grilles différentes de tiercé pour une
course de 16 chevaux. Il y a 16 possibilités pour le premier, 15 pour le second et 14 pour le troisième.
On n’accepte pas les répétitions et on tient compte de l’odre, il s’agit d’arrangements et on a donc
A316 = 16 × 15 × 14 = 3360 possibilités.
Pn = n!
Exemple 4 Si le joueur de tiercé a précedemment choisi les 3 chevaux qu’il va jouer mais ne sait
pas dans quel ordre il va les placer, il a 3 ! choix possibles c’est à dire 3 × 2 × 1 = 6 possibilités de
tiercé.
Définition 10 Une combinaison à p éléments de En est un échantillon non ordonné sans remise
de p éléments différents de En . C’est un sous ensemble à p éléments de En . Dans une combinaison
de p éléments, les p éléments sont distincts et non ordonnés.
Démonstration :
On considère les p premiers éléments de En . Avec ces p éléments on peut former p! arrangements
et ces p! arrangements donnent une seule combinaison or on peut former Apn arrangements avec les
Ap
n éléments de En . on a donc p!n combinaisons différentes de En .
J
Exemple 5 Nous avons vu ci-dessus avec l’exemple du joueur de tiercé que quand on a choisi sans
ordre une partie de 3 éléments parmi 16, il reste 3 ! = 6 manières d’ordonner cette partie. Par
exemple si on choisit la partie (2,7,9) on peut lui associer les 6 permutations : (2,7,9), (2,9,7),
(7,2,9), (7,9,2), (9,2,7) et (9,7,2). En d’autres termes il est possible de regrouper les arrangements
par paquets de 6 correspondant à la même partie. Le nombre d’arrangements (ordonnés) de 3
éléments parmi 16 est donc égal à 6 fois le nombre de combinaisons (non ordonnées) de 3 éléments
parmi 16. On a donc une application du ”Principe des bergers” :
3 A316
C16 = .
3!
Propriété 14 (Formules de calcul)
Cnp = Cnn−p
p−1 p
Cnp = Cn−1 + Cn−1
Démonstration :
1. Choisir les p éléments que l’on veut dans un ensemble de n éléments revient exactement à
choisir les n − p éléments que l’on ne veut pas, d’où le résultat. Mathématiquement, on a :
n!
Cnn−p = ,
(n − p)![n − (n − p)]!
n!
= ,
p!(n − p)!
= Cnp .
2. Soit E une ensemble de n élément. Soit A l’un de ces éléments. Pour choisir p éléments de
p−1
E, je peux soit prendre A et en choisir p-1 autres parmi les n-1 restants (j’ai alors Cn−1
p
possibilités), soit laisser A et en prendre p autres parmi les n − 1 restants (j’ai alors Cn−1
possibilités). D’où le résultat. Mathématiquement, on a
p−1 p (n − 1)! (n − 1)!
Cn−1 + Cn−1 = + ,
(p − 1)!(n − p)! (p)!(n − p − 1)!
p(n − 1)! (n − p)(n − 1)!
= + ,
p!(n − p)! p!(n − p)!
(p + n − p)(n − 1)!
= ,
p!(n − p)!
= Cnp .
CHAPITRE 1. DÉFINITIONS DE BASE - DÉNOMBREMENTS 12
J
p
Remarque 4 Quand n > 2 il est plus rapide de calculer Cnn−p que Cnp . Par exemple :
2 30
C32 = C32 ,
2 32 × 31
C32 = ,
2×1
30 32 × 31 × · · · × 4 × 3
C32 = .
30 × 29 × · · · × 2 × 1
Triangle de Pascal
Les formules de calcul ci-dessus nous donne une méthode de calcul des combinatoire par récurrence
appelé triangle de pascal :
Démonstration :
Par récurrence sur n.
(a + b)n+1 = (a + b)n (a + b)
= a(a + b)n + b(a + b)n
n
X n
X
= Cnk ak bn−k + b Cnk ak bn−k
k=0 k=0
Xn Xn
= Cnk ak+1 bn−k + Cnk ak bn−k+1
k=0 k=0
On considère maintenant k 0 = k + 1, on a :
n+1 n
X 0 0 0 X
(a + b)n+1 = Cnk −1 ak bn−k +1 + Cnk ak bn−k+1
k0 =1 k=0
n n
X 0 0 0 X
= an+1 + Cnk −1 ak bn−k +1 + Cnk ak bn−k+1 + bn+1
k0 =1 k=1
Xn
= an+1 + Cnk−1 + Cn ak bn−k+1 + bn+1
k
k=1
Xn
= an+1 + k
Cn+1 ak bn−k+1 + bn+1
k=1
n+1
X
k
= Cn+1 ak bn−k+1 .
k=0
La propriété est donc vraie pour n + 1. Par le principe de raisonnement par récurrence, la propriété
est vraie pour tout entier n.
J
Chapitre 2
Définition 11 Les événements sont des ensembles que l’on manipule à l’aide d’opérations en-
semblistes élémentaires et qui représentent les issues possibles de l’expérience aléatoire considérée.
Les événements non-élémentaires dont on peut vouloir évaluer les chances ou probabilités sont
exprimés en termes d’opérations ensemblistes de réunions, d’intersections, ou de complémentaires.
Ces opérations correspondent également aux opérations logiques OU, ET et NON. Ainsi, si l’on
considère deux événements (élémentaires ou non) représentés par les ensembles A et B, l’événement
consistant à obtenir A OU B est représenté par l’ensemble A ∪ B, qui est la réunion de A et de B.
De même, l’événement consistant à obtenir A ET B sera représenté par l’intersection A ∩ B, tandis
que la négation de l’événement A sera son complémentaire Ac ou A. Cette négation est l’événement
qui consiste à ne pas obtenir A.
Exemple 6 (jet d’un dé à six faces) L’univers est Ω = {1, 2, 3, 4, 5, 6}, avec pour événements
élémentaires :
14
CHAPITRE 2. PROBABILITÉS POUR UN UNIVERS DISCRET 15
Tous les événements dont on calculera la probabilité peuvent être obtenus par manipulations en-
semblistes des événements élémentaires précédents. Par exemple, l’événement ”obtenir un résultat
pair” consiste à obtenir un 2, un 4 ou un 6 et sera noté au choix
L’écriture en termes d’événements élémentaires sera primordiale pour les calculs de probabilités et
permet de représenter un très grands nombre d’événements. On notera par exemple
De même, l’événement ”obtenir un résultat pair, (et) inférieur ou égal à 3” sera noté
Ac ou A.
Pour l’exemple précédent, ”ne pas obtenir un nombre pair” sera noté
Tout événement impossible est représenté par l’ensemble vide ∅ et deux événements A et B
sont dits incompatibles ou disjoints si A ∩ B = ∅, tandis que l’ensemble Ω lui-même est qualifié
d’événement certain. Lorsque cet univers est fini ou infini dénombrable, on parle de probabilités
discrètes et de probabilités continues dans le cas contraire.
P : P(Ω) −→ [0, 1]
A 7−→ P[A]
où P(Ω) est l’ensemble de toutes les parties possibles de l’univers Ω (i.e. l’ensemble de tous les
événements possibles de l’expérience aléatoire concernée).
Une probabilité est d’abord construite par une évaluation des probabilités des événements
élémentaires. Lorsqu’il y en a un nombre fini x1 , . . . , xn , et donc pour un univers Ω = {x1 , . . . , xn }
de cardinal n, on obtient à l’aide des statistiques ou parfois à l’aide d’hypothèses réalistes, une
famille de nombres (pi )i=1..n compris entre 0 et 1 et tels que pour chaque événement élémentaire
Ai =”obtenir i”,
pi = P[Ai ] ∈ [0, 1].
On étend ensuite cette probabilité sur tous les événements possibles en respectant les règles
intuitives élémentaires suivantes érigées en axiomes :
CHAPITRE 2. PROBABILITÉS POUR UN UNIVERS DISCRET 16
La somme des probabilités des événements élémentaires doit ainsi être égale à 1 :
X
pi = 1.
i
2.2.2 Equiprobabilités
Définition 15 Les événements élémentaires sont dits équiprobables, si toutes les probabilités
élémentaires pi sont identiques. Cette hypothèse est en général émise à partir d’études statistiques
l’indiquant, souvent par simple soucis de bon sens, et parfois seulement grâce au calculs des proba-
bilités élémentaires à l’aide de calculs combinatoires (dits ”de dénombrements”).
En cas d’équiprobabilité, et seulement dans ce cas, on pourra évaluer la probabilité d’un événement
A par
Card(A)
P[A] =
Card(Ω)
c’est à dire le rapport du nombre de cas favorables sur le nombre de cas possibles.
Exemple 7 Revenons à l’exemple de l’expérience du jet d’un dé à six faces, les événements élémentaires
sont notés Ai pour i = 1, . . . , 6 et l’hypothèse d’équiprobabilité, émise lorsque le dé n’est ni truqué,
ni faussé, conduit aux mêmes probabilités élémentaires
1
pi = P[Ai ] = P[obtenir i] =
6
puisque la taille de l’univers des événements élémentaires est de 6 et que chaque événement élémentaire
Ai est un singleton (i.e. un ensemble restreint à un élément).
Définition 16 On dit qu’une famille d’événements (Ai )i∈I forme une partition de l’univers lors-
qu’ils sont disjoints (Ai ∩ Aj = ∅, ∀i 6= j ∈ I) et qu’ils recouvrent Ω (∪i∈I Ai = Ω).
Propriété 16 L’ensemble des événements élémentaires forment une partition particulière de l’uni-
vers Ω.
CHAPITRE 2. PROBABILITÉS POUR UN UNIVERS DISCRET 17
Théorème 3 (Formule des probabilités totales (I) ) Pour toute partition (Ai )i∈I , et tout événement
B, on a : X
P[B] = P[B ∩ Ai ]. (2.1)
i∈I
Démonstration :
Comme ∪i∈I Ai = Ω, on a ∪i∈I (B ∩ Ai ) = B et les événements Ai ∩ B et Aj ∩ B sont disjoints pour
j 6= i. Par conséquent, on a :
P[A] + P[B] = 1
3 1 3
puisque P[A] = p2 + p4 + p6 = 6 = 2 et P[B] = p1 + p2 + p3 = 6 = 12 .
Cette propriété est également générale et permet d’obtenir que pour toute probabilité P, la
probabilité du complémentaire d’un événement A.
Propriété 17
P[A] = 1 − P[A]
Démonstration :
{A, A} est une partition de Ω.
A = {X ≥ 2} = {X = 2} ∪ {X = 3} ∪ {X = 4} ∪ {X = 5} ∪ {X = 6},
Ā = {X = 1}
5 5
P[A] = 1 − P[A] = 1 − =
6 6
CHAPITRE 2. PROBABILITÉS POUR UN UNIVERS DISCRET 18
– Probabilité de tirer au moins une fois pile en lancant n fois une piece.
Propriété 18
A ⊂ B =⇒ P[A] ≤ P[B].
Si A est inclus dans B, on dit parfois que A implique B, et il est alors intuitif que la probabilité
de A est inférieure à celle de B (B sera toujours réalisé lorsque A le sera, et sa probabilité ne pourra
être que supérieure ou égale).
2.3 Indépendance
Une hypothèse primordiale en théorie des probabilités est l’hypothèse d’indépendance. Elle est
parfois réaliste ou simplificatrice selon les expériences.
La seule manière de prouver l’indépendance est de prouver cette formule d’une manière ou d’une
autre, le plus souvent en calculant les diverses probabilités impliquées dans (2.2).
Remarque 6 Le mot indépendance utilisé doit être compris dans le sens où l’obtention de l’un n’a
aucune influence sur l’obtention de l’autre. On verra ceci plus clairement avec la notion de proba-
bilités conditionnelles. Parfois, cette indépendance est une hypothèse pour simplifier les modèles ou
pour suivre une intuition.
Exemple 11 Considérons par exemple deux jets de dés successifs. Une hypothèse naturelle consiste
à considérer ces événements comme étant indépendants de manière à pouvoir écrire que pour les
événements A : ”obtenir un six au 1er jet” et B=”obtenir un six au 2e jet”
1 1 1
P[A ∩ B] = P[A] · P[B] = · =
6 6 36
de sorte que, sous l’hypothèse d’indépendance des deux jets, la probabilité d’obtenir un double six
1
est évaluée à 36 ≈ 0.00278, soit environ 2.78%.
On peut également découvrir que deux événements issus de la même expérience aléatoire sont
indépendants. Pour l’expérience d’un seul jet de dé, on constate pour les événements A=”obtenir
un jet ≤ 4” et B=”obtenir un jet pair”, on a P[A] = 23 , P[B] = 12 ,
1
P[A ∩ B] = P[{2, 4}] =
3
CHAPITRE 2. PROBABILITÉS POUR UN UNIVERS DISCRET 19
et
2 1 1
P[A] · P[B] = · = .
3 2 3
Ces événements sont donc indépendants, puisque l’on constate l’égalité P[A ∩ B] = P[A] · P[B],
reflétant ainsi l’idée que savoir que l’on a un résultat impair n’influence pas les chances d’obtenir
un résultat inférieur ou égal à 4. Si par contre on considère C=”obtenir un jet ≤ 3”, les événements
B et C ne sont pas indépendants car
1
P[B ∩ C] = P[{2}] =
6
et
1 1 1
P[B] · P[C] = · = .
2 2 4
Intuitivement, cela se justifie par un lien entre C et B : il y a moins d’éléments pairs (donc ”de
B”) en dessous de 3 (donc ”dans C”) que dans l’univers.
Exemple 12 Une autre situation usuelle d’application de l’hypothèse d’indépendance est fourni
par des tirages au sort successifs avec ou sans remise. Lorsque le tirage est effectué avec remise
du premier élément tiré au sort, on se retrouve dans une situation identique lors du second tirage
au sort et le résultat du premier n’influence en rien celui du second. On considère donc que deux
tirages successifs avec remise sont indépendants. Lorsque le tirage est au contraire effectué sans
remise, l’élément tiré lors du premier tirage ne peut plus être tiré lors du second, diminuant par
exemple les probabilités d’obtenir un élément partageant avec lui certaines propriétés. Les résultats
des deux tirages sont liés et on considère donc que deux tirages successifs sans remise ne sont pas
indépendants.
Exemple 13 On pourra prendre l’exemple de la pluie et du vent. Il y a plus de chances qu’il pleuve
s’il y a du vent plutôt qu’en absence de vent.
P[A ∩ B]
P[A|B] = .
P[B]
P[A|B] évalue les chances d’obtenir A lorsque l’on sait que B est réalisé tandis que P[A ∩ B]
évalue les chances de voir A et B de se réaliser simultanément. Dans le 1er cas, on évalue les chances
de A sur une sous population, celle pour laquelle B est réalisée, et on pondère la probabilité de
l’intersection en fonction de la taille de B : plus B est important, i.e. plus P[B] est grand, plus A∩B
a des chances de se réaliser, ceci quelle que soit l’importance de A. En comparant la probabilité
d’avoir A ET B avec celle d’avoir B, on obtient un nombre P[A|B] entre 0 et 1 qui évalue les
CHAPITRE 2. PROBABILITÉS POUR UN UNIVERS DISCRET 20
chances que A soit réalise sachant que B est réalisé. Lorsque B est fixé, cela détermine une nouvelle
probabilité
PB : P(Ω) −→ [0, 1]
A 7−→ PB [A] := P[A|B].
Il s’agit d’une probabilité car elle vérifie les axiomes des probabilités. Les deux notations P[A|B]
et PB [A] sont équivalentes et seront utilisées en fonction des circonstances. En particulier, lorsqu’il
s’agit d’utiliser les axiomes des probabilités (pour par exemple utiliser l’additivité), on préfèrera la
notation PB .
La connaissance des probabilités conditionnelles permet d’obtenir une expression pour la pro-
babilité de l’intersection :
P[A ∩ B] = P[A|B]P[B]
= P[B|A]P[A].
Exemple 14 – En lancant un dé, la probabilité de tirer 4 sachant que l’on a un nombre pair
est :
1
P[4|pair] =
3
1/6 2
=
1/2 6
– Dans un jeu de 32 carte, la probabilité de tirer un roi sachant que l’on a tirer un coeur est
de :
1
P[roi|coeur] =
8
1/32 1
=
8/32 8
Exemple 15
1
P[4 ET pair] = P[4] =
6
1 1 1
P[4|pair] × P[pair] = × =
3 2 6
1 1
P[pair|4] × P[4] = 1 × =
6 6
6. Quelle est la probabilité que ce soit une blonde, sachant que cette personne est une femme ?
2120
Il y a 2 120 femmes blondes sur 5 300 femmes, soit une probabilité de 5300 = 0, 4.
On pouvait aussi le calculer en utilisant la formule :
Les probabilités conditionnelles permettent également d’obtenir une seconde forme de la formule
des probabilités totales :
Théorème 4 (Formule des probabilités totales (I) ) Pour toute partition (Ai )i∈I , et tout événement
B, on a : X
P[B] = P[B ∩ Ai ]. (2.6)
i∈I
Propriété 21 (Formule des probabilités totales (II)) Pour toute partition (Ai )i∈I , et tout
événement B, on a : X
P[B] = P[B|Ai ] P[Ai ]. (2.7)
i∈I
Remarque 7 En couplant la formule de Bayes et la formule des probabilités totales (II) à la par-
tition (A, Ā), on obtient version très utile en pratique de la formule de Bayes suivante :
Si P[A] 6= 0, alors on a :
P[A|B]P[B]
P[B|A] = . (2.8)
P[A|B]P[B] + P[A|B]P[B]
La formule de Bayes est très importante et utile en probabilités car elle permet de tromper de
mauvaises intuitions dues à une vision trop équiprobable du monde.
Remarque 8 On peut voir qu’il s’agit de comprendre la formule de Bayes comme une moyenne
pondérée et que nos intuitions sont souvent mises à mal lorsque l’un des événement du condition-
nement (B ou A) est relativement rare.
Exemple 17 On estime qu’une personne ayant correctement révisé ses cours pour cet examen a
une probabilité de 20% d’échouer à l’examen. En revanche, on estime qu’une personne n’ayant pas
révisé ses cours a une probabilité de 60% d’échouer à cet examen.
On sait aussi que 50% des personnes ont correctement révisé leurs cours et 50% n’ont pas correc-
tement révisé leurs cours.
Une personne passe deux fois de suite cet examen et échoue par deux fois mais affirme pourtant
avoir parfaitement réviser. Est-ce plausible ?
Appelons E l’événement ”echouer 2 fois” , A l’événement ”la personne a révisé ses cours ”.
La probabilité de ”E sachant A” est P[E|A] = (0, 20)2 = 0, 04. La probabilité de ”E sachant Ā” est
P[E|Ā] = (0, 60)2 = 0, 36.
CHAPITRE 2. PROBABILITÉS POUR UN UNIVERS DISCRET 23
A priori, on suppose que la personne qui a échoué 2 fois à l’examen a correctement révisé avec une
probabilité de 0,50. On a donc P(A) = P(B) = 0, 50. La formule de Bayes donne alors :
P[B|A]P[A]
P[A|B] =
P[B|A]P[A] + P[B|Ā]P[Ā]
Probabilité d’avoir réviser sachant que l’on a échoué 2 fois = 0,10. Probabilité de ne pas avoir
réviser sachant que l’on a échoué 2 fois = 0,90. Il y a donc une probabilité de 0,90 que la personne
n’a pas révisé. Ce qu’elle dit est peu plausible !
Chapitre 3
Une variable aléatoire est généralement désignée par une lettre majuscule X, Y, etc. et peut
également être définie en tant qu’application depuis l’univers Ω dans R
X : Ω −→ R
ω 7−→ X(ω)
en considérant ω ∈ Ω comme une réalisation particulière de l’épreuve en question. L’ensemble des
valeurs numériques prises par X est pour cette raison noté X(Ω), puisqu’il s’agit de l’image de Ω
par X.
Exemple 18 – Résultat d’un jet de dé. Le résultat X est une variable aléatoire
X : Ω 3 ω 7−→ X(ω)
à valeur dans X(Ω) = {1, 2, 3, 4, 5, 6}
– Lancer de 2 pièces de monnaies identiques dont l’issue est P (pour pile) et F (pour face).
L’univers
Ω = {P P, P F, F P, F F }
n’est pas composé de grandeur numériques mais on peut par exemple s’intéresser au nombre
de fois où face (F) est apparu, définissant ainsi une variable aléatoire X : Ω −→ {0, 1, 2} ⊂ R
définie par le tableau
24
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 25
Ω PP PF FP FF
X 0 1 1 2
Cette application ne prenant qu’un nombre fini de valeurs, la variable aléatoire X est discrète
avec X(Ω) = {0, 1, 2}.
Les évènements {X = xi } (xi étant une valeur possible de X), engendrés par les différentes va-
leurs prises par une variable aléatoire constituent les évènements élémentaires de X. Les évènements
élémentaires de l’exemple précédent seront ainsi notés {X = 0} (”Aucun face n’a été tiré”), {X = 1}
(”Un face a été tiré”) et {X = 2} (”Deux faces ont été tirés”).
On définit donc naturellement des variables aléatoires en associant un nombre à chaque évènement
élémentaire. Comme on le verra, l’étude systématique des variables aléatoires fournit un cadre
théorique d’étude des phénomènes aléatoires.
Exemple 19 – Durée de vie d’une ampoule éléctrique : Bien que n’étant pas éternelle, on
considère souvent qu’une ampoule éléctrique peut avoir n’importe quelle durée de vie et qu’elle
peut tomber en panne ou ne pas tomber en panne à tout moment. Aucune durée n’est exclue et
la variable X qui la représente est une variable aléatoire continue dont l’ensemble des valeurs
est R+ = [0, +∞[. D’une manière plus réaliste, les ampoules ont une durée de vie maximale
D et X est une variable aléatoire continue à valeurs dans l’intervalle X(Ω) = [0, D], mais la
durée maximale étant souvent inconnue, on considère généralement X(Ω) = R∗+ .
– Étude de la taille dans une population donnée : Si on considère sur une population de taille
N dont on note ti la taille de chaque individu i (i = 1, . . . , N ), la variable X qui dénote la
taille d’un individu de la population pris au hasard, l’ensemble des valeurs prises par X est
l’ensemble discret X(Ω) = {t1 , t2 , . . . , tN }. Néanmoins, la taille d’un individu pouvant a priori
prendre toute valeur réelle positive, on considère pour étudier des populations en général que
X peut également prendre toutes les valeurs réelles et est donc une variable continue à valeurs
dans R+ (ou dans un sous-intervalle si on veut considérer une taille maximale).
PX : X(Ω) −→ [0, 1]
x 7−→ PX (x) := P[{X = x}].
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 26
On note invariablement P[{X = x}], P[X = x], PX (x) ou p(x) la probabilité que X prenne
la valeur x. On vérifie aisément que cette application est bien une probabilité dont l’univers est
l’ensemble X(Ω) des valeurs prises par X.
Exemple 20 Si on reprend l’exemple d’un dé à six faces équilibrées, et que X représente le résultat
d’un jet, on a X(Ω) = {1, 2, 3, 4, 5, 6} et directement
De même, l’axiome de l’évènement impossible (PX [∅] = 0) et de l’additivité pour des évènements
disjoints sont vérifiés. Donner la loi d’une variable aléatoire revient alors à donner les probabilités
des évènements élémentaires qu’elle induit, et on présente souvent ces données sous forme d’un
tableau, en notant d’une manière générale X(Ω) = (xi )i=1,...,N = (x1 , x2 , . . . , xN ) pour une variable
aléatoires à N valeurs possibles (qui ne sont pas forcément 1, 2, . . . , N ),
X x1 x2 ... xN
PX p1 p2 ... pN
où l’on note respectivement p1 = PX (1) = P[X = 1], p2 = PX (2) = P[X = 2], . . . , pN = PX (N ) =
P[X = N ]. Ce tableau peut se représenter graphiquement par un diagramme en bâtons.
x 0 1 2
PX (x) 1/4 1/2 1/4
F : R −→ [0, 1]
x 7−→ F (x) = P[X ≤ x]
parfois également appelée fonction cumulative car on cumule les probabilités de toutes les valeurs
inférieures ou égales à x.
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 27
Propriété 22 Si X est une variable aléatoire discrète de fonction de répartition F , alors on a les
propriétés suivantes :
– F est une fonction en escalier avec limx→−∞ F (x) = 0 et limx→+∞ F (x) = 1.
– F est une fonction croissante.
– Pour tous a, b ∈ R et a < b,
La croissance se déduit de ce dernier point puisque si a < b, F (b) − F (a) = P[a < X ≤ b] ∈ [0, 1]
est en particulier positif.
Remarque 9 L’espérance E[X] n’est qu’un indicateur moyen et ne peut caractériser la loi une
variable aléatoire à lui tout seul.
3.3.2 Variance
Pour décrire plus précisément le comportement de X, sans pour autant caractériser complètement
la loi de X, on peut s’intéresser aux écarts de X par rapport à cette moyenne. Cependant, si on
considère simplement la différence X − E[X], on obtient un écart moyen E[X − E[X]] = 0 (par
linéarité de l’espérance, voir 3.3). On pourrait considérer la valeur moyenne de |X − E[X]| mais on
préfère considérer la moyen de (X − E[X])2 , plus pertinente mathématiquement.
Propriété 24 (formule de Koenig) Elle est toujours positive puisqu’il s’agit de l’espérance d’un
carré.
On a l’expression suivante :
V[X] = E[X 2 ] − (E[X])2 . (3.1)
Exemple 25 Lorsque X est le nombre de face obtenu lors du lancer de 2 pièces équilibrées, la
variance est
1 1 1 1
V[X] = · (0 − 1)2 + · (1 − 1)2 + · (2 − 1)2 = .
4 2 4 2
Le lien entre la variance et le dispersion moyenne autour de la moyenne peut être explicité grâce
à l’inégalité de Bienaymé-Tchebychev (cf (3.5)).
V(aX + b) = a2 V[X].
Propriété 27 (Inégalité de Markov) Soit X une variable aléatoire positive d’espérance finie,
alors pour tout a > 0
1
P[X ≥ a] ≤ E[X]. (3.4)
a
Propriété 28 (Inégalité de Bienaymé-Tchebychev) Soit X une variable aléatoire réelle de
variance finie, alors pour tout a > 0
1
P[| X − E[X] |≥ a] ≤ V(X). (3.5)
a2
Dans la pratique, ces probabilités jointes sont données à l’aide d’un tableau à double entrée
dont les lignes correspondent au valeurs possibles xi ∈ X(Ω) prises par X, les colonnes à celles
yi ∈ Y (Ω) prises par Y , et l’élèment de la ligne i et colonne j à la probabilité jointe PXY (xi , yj ) :
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 30
Exemple 26 Une urne contient 3 boules numérotées {1, 2, 3}. On tire successivement, sans remise
et équiprobablement deux boules de l’urne. Soit X et Y les numéros obtenus aux 1er et 2nd tirages.
Les résultats du 2nd dépendent trivialement de ceux du 1er. Pour déterminer la loi du couple, on
utilise les probabilités conditionnelles pour écrire
x|y 1 2 3
1 0 1/6 1/6
2 1/6 0 1/6
3 1/6 1/6 0
D’une manière générale, on peut calculer l’espérance d’une fonction f des deux variables X et
Y grâce à la loi du couple en écrivant
X
E[f (X, Y )] = f (x, y) · PXY (x, y).
(x,y)∈X(Ω)×Y (Ω)
Définition 29 Soit (X, Y ) un couple aléatoire discret. On appelle loi marginale de X l’applica-
tion PX de X(Ω) dans [0, 1] définie pour tout x ∈ X(Ω) par
X
PX (x) = P[X = x] = PXY (x, y).
y∈Y (Ω)
Exemple 27 Dans l’exemple précédent, la loi marginale de X est ainsi obtenue en sommant les
lignes du tableau de la loi jointe, et est donnée par le tableau
x 1 2 3
PX (x) 1/3 1/3 1/3
tandis que l’on obtient la loi marginale de Y en sommant les colonnes :
y 1 2 3
PY (y) 1/3 1/3 1/3
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 31
3.4.3 Covariance
Définition 30 Soit (X, Y ) un couple aléatoire discret. On appelle covariance de (X, Y ), notée
Cov(X, Y ), le nombre réel
Elle permet de quantifier un lien entre les 2 variables marginales X et Y via le coefficient de
corrélation ρXY donné lorsque σX et σY sont non nulles par :
Cov(X, Y)
ρXY = . (3.7)
σX σY
Ce coefficient de corrélation est très utile pour déterminer le lien entre deux caractères en
statistiques descriptives.
3.4.4 Indépendance
Les lois marginales se calculent simplement à partir de la loi du couple. Par contre, il est en
général impossible de calculer la loi du couple à partir de ses lois marginales. Le cas simple de
variables aléatoires réelles indépendantes permet cependant de retrouver la loi du couple mais c’est
loin d’être le cas en général.
Définition 31 Soit (X, Y ) un couple aléatoire discret. On dit que les variables aléatoires X et Y
sont indépendantes lorsque tous leurs évènements élémentaires le sont deux à deux, i.e.
Dans ce cas, les variables sont également non corrélées, c’est à dire que ρXY = Cov(X, Y ) = 0.
La réciproque est fausse en général.
La réciproque est fausse : deux variables aléatoires vérifiant une des relatione précédentes,
peuvent ne pas être indépendantes. (exo : fabriquer un contre ex)
PXY (x, y)
pX|Y [x | y] = P[X = x | Y = y] = .
PY (y)
On définit de manière analogue la loi conditionnelle de Y sachant X.
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 32
Exemple 28 Dans l’exemple précédent, la loi conditionnelle de Y sachant que le chiffre 1 a été
tiré au premier tirage est donnée par le tableau suivant :
y 1 2 3
PY |X [y | 1] 0 1/2 1/2
On peut également calculer la loi du couple (la loi jointe) à partir des lois conditionnelles en
toutes circonstances, et en particulier qu’il y ait indépendance ou non, grâce au théorème suivant.
Théorème 5 Soit (X, Y ) un couple aléatoire discret. La formule des probabilités composées permet
d’écrire
Définition 33 On dit qu’une variable aléatoire X suit une loi uniforme discrète lorsqu’elle
prend ses valeurs dans {1, . . . , n} avec des probabilités élémentaires identiques. Puisque la somme
des ces dernières doit valoir 1, on en déduit qu’elles doivent toutes être égales à un 1/n :
1
∀k = 1 . . . n, P[X = k] = .
n
On note également ces probabilités pk , p(k) ou PX (k). Ces probabilités élémentaires sont en parti-
culier indépendantes de la modalité k.
Démonstration :
–
1 1 1 1
E[X] = 1. + 2. + 3. + · · · + +n. ,
n n n n
n
1 X
= . k,
n
k=1
1 n(n + 1)
= . ,
n 2
n+1
= .
2
Pn
k=1 k = n(n+1)
2 est la somme des premiers termes d’une suite arithmétique de raison 1 de
premier terme 1.
–
1 1 1 1
E[X 2 ] = 12 . + 22 . + 32 . + · · · + +n2 . ,
n n n n
n
1 X 2
= . k ,
n
k=1
1 n(n + 1)(2n + 1)
= . ,
n 6
(n + 1)(2n + 1)
= .
6
Pn n(n+1)(2n+1)
k=1 k2 = 6 est un résultat classique qui se démontre par récurrence.
P[X = 1] = p,
P[X = 0] = 1 − p.
E[X] = p,
V[X] = p(1 − p).
X = X1 + · · · + Xk + · · · + Xn
où les Xk sont des variables aléatoires de Bernoulli indépendantes de paramètre p, correspondant
au succès d’une seule épreuve de pile ou face.
Exemple 31 Le nombre de boules rouges extraites au cours de n tirages successifs avec remise
(pour assurer l’indépendance) d’une boule dans une urne contenant des boules rouges et blanches
dans des proportions p et q = 1 − p est une variable aléatoire suivant une loi binomiale B(n, p).
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 35
Pour déterminer les probabilités des événements élémentaires d’une variable aléatoire suivant
une loi binomiale, il nous faut tout d’abord déterminer le nombre de possibilités d’obtenir k succès
au cours de n épreuves. Il s’agit de déterminer le nombre de combinaisons (non ordonnées) de k
objets pris parmi n, avec bien sûr k ≤ n. Les combinaisons sont non ordonnées car seul importe
d’avoir k objets (succès pour nous) et non pas à quel(s) tirage(s) ces succès ont eu lieu. On connaı̂t
le nombre de possibilités de k succès et n échec, (Cnk ) il suffit de les multiplier par les probabilités
de succès et d’échec pour obtenir la loi binomiale. On a donc :
Propriété 32 Les probabilités élémentaires d’une variable aléatoire X suivant une loi binomiale
B(n, p) sont données pour tout nombre de succès k = 1 . . . n par :
=1
E[X] = np,
V[X] = np(1 − p).
Démonstration :
On a l’écriture X = X1 + X2 + · · · + Xk + · · · + Xn , ou les Xk sont n variables aléatoires de Bernoulli
indépendantes. On a en effet par linéarité de l’espérance
Définition 36 Une variable aléatoire X suit une loi de Poisson de paramêtre λ > 0, notée
P(λ) lorsque X(Ω) = N et pour tout k ∈ N
λk
PX (k) = P[X = k] = e−λ
k!
Propriété 34
λ
P[X = k + 1] = P[X = k]
k+1
On admettra que :
E[X] = λ,
V[X] = λ.
Exemple 33 Si on sait qu’en général un standard téléphonique reçoit 20 appels dans la journée
et que l’on peut modéliser le nombre aléatoire d’appels par une loi de Poisson, on pourra calculer
la probabilité d’avoir k appels, pour tout k, à l’aide des formules données par une loi de Poisson
P(20).
Remarque 11 Dans la pratique, des tables donnant les probabilités élémentaires pour différentes
valeurs du paramètre sont disponibles et utilisées.
Démonstration :
λk11
P[X1 = k1 ] = e−λ1
k1 !
k2
λ
P[X2 = k2 ] = e−λ2 2
k2 !
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 37
k
X
P[X1 + X2 = k] = P[{X1 = i} ∩ {X2 = k − i}]
i=0
k
X
= P[{X1 = i}] P[{X2 = k − i}]
i=0
k
X λi1 −λ2 λk−i
= e−λ1 e 2
i=0
i! (k − i)!
k
−(λ1 +λ2 )
X λi λk−i
1 2
=e
i=0
i! (k − i)!
k
1 X k!
= e−(λ1 +λ2 ) λi λk−i
k! i=0 i!(k − i)! 1 2
k
1 X i i k−i
= e−(λ1 +λ2 ) C λ λ
k! i=0 n 1 2
(λ1 + λ2 )k
= e−(λ1 +λ2 )
k!
Définition 37 On dit qu’une suite de variables aléatoires (Xn : n ∈ N) convergence en loi vers
la variable aléatoire X si et seulement si on a, pour tout événement A :
P[Xn ∈ A] → P[X ∈ A]
n→∞
L
On notera Xn −→ X.
n→∞
Remarque 12 Si les variables (Xn : n ∈ N) et X sont discrètes alors il suffit que pour tout x ∈ R,
P[Xn = x] → P[X = x]
n→∞
Exemple 34
Conparaison des fonctions de répartitions d’une loi B(100, 0.1) et de celle d’une loi P(10).
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 38
5
P[X = 5] = C100 0.195 0.95
= 0, 034
Le résultat a été trouvé par informatique la plupart des calculatrices étant incapable de le calculer
contrairement à l’autre terme :
105
P[Y = 5] = exp(−10)
5!
= 0, 037
Exemple 36
Conparaison des fonctions de répartitions d’une loi B(100, 0.5) et de celle d’une loi P(50).
CHAPITRE 3. VARIABLE ALÉATOIRE DISCRÈTE 39
40
CHAPITRE 4. VARIABLES ALÉATOIRES CONTINUES, LOI NORMALE 41
Le défaut de la fonction de répartition (que ne possède pas la notion de loi des variables aléatoires
discrètes) est qu’elle ne fait pas apparaı̂tre l’additivité des probabilités. Fort du parallèle que l’on
peut faire entre probabilités et surfaces, il est très avantageux de restreindre l’étude à une classe de
variables aléatoires dites à densité.
Définition 39 Une variable aléatoire possède une densité si Fx est dérivable. La dérivée notée
fX est appelée densité de probabilité de la variable aléatoire X.
Propriété 38 De ce fait,
Z b
P[a ≤ X ≤ b] = fX (t)dt,
a
et la probabilité de trouver X dans un intervalle [a, b] donné apparaı̂t comme l’aire d’une partie du
graphique située entre la courbe de la densité fX et l’axe des abscisses.
Remarque 15 Dans les applications, il n’est pas nécéssaire de calculer ces aires à l’aide de calculs
car des tables de lois recapitulant les valeurs principales existent.
Propriété 39 La donnée d’une densité f permet donc de décrire complètement notre variable
aléatoire en caractérisant sa loi grâce aux propriétés suivantes :
– ∀x ∈ R, f (x) ≥ 0.
– Z +∞
f (x)dx = 1.
−∞
– Z b
P[a < X ≤ b] = F (b) − F (a) = f (x)dx.
a
Son espérance est E(X) = 1/α et sa variance est var(X) = 1/α2 . Les lois exponentielles sont
souvent utilisées pour modéliser des temps d’attente ou des durées de vie. Par exemple, les temps
d’attente à partir de maintenant du prochain tremblement de terre, de la prochaine panne d’un
appareil, de la prochaine désintégration dans un réacteur nucléaire suivent des lois exponentielles.
Le paramètre α désigne alors l’inverse du temps d’attente moyen.
La loi normale, ou loi normale centrée réduite est la loi la plus connue des probabilités, parfois
sous le vocable loi de Laplace-Gauss et caractérisée par une célèbre ”courbe en cloche”.
Définition 42 La loi normale centrée réduite est une la loi continue, d’une v.a. X à valeurs
dans X(Ω) = R tout entier, définie à partir de la densité
1 −x2
f (x) = √ e 2
2π
Il n’existe par contre pas d’expression simple de sa fonction de répartition autre que la formule
intégrale Z a
∀a ∈ R, F (a) = f (t)dt
−∞
Il s’agit de l’aire de la surface située sous la courbe et à gauche de l’axe vertical x = a (Voir la
figure 4.1 page 43).
Remarque 16 Dans les pratiques, les probabilités d’événements de v.a. suivant une loi normales
sont répertoriées dans des tables facilement manipulables.
Paramètres
E[X] = 0,
V[X] = 1.
CHAPITRE 4. VARIABLES ALÉATOIRES CONTINUES, LOI NORMALE 43
Figure 4.1 – A gauche : Densité de probabilité de la loi N (0, 1), à droite sa fonction de
répartition.
Paramètres
E[X] = µ,
V[X] = σ 2 .
CHAPITRE 4. VARIABLES ALÉATOIRES CONTINUES, LOI NORMALE 44
Remarque 17 On notera Φ la fonction de répartition de la loi normale centrée réduite N (0, 1).
On utilise les valeurs de Φ(a) tabulées et le changement de variable pour calculer les valeurs de
la fonction de répartition F d’une loi normale générale.
Exemple 37 Considérons X une v. a. qui suit une loi N (6, 2) et Z une v.a. de loi N (0, 1), on a
par exemple
FX (7) = P[X ≤ 7]
X − 6 7 − 6
=P ≤
2 2
1
=P Z≤
2
1
=Φ
2
= 0.6915.
Les valeurs ne sont tabulées que pour des valeurs de a positives, mais on s’en sort à l’aide de la
propriété suivante de le fonction de répartition Φ de la loi normale :
Φ(−a) = 1 − Φ(a)
P[| Z |≤ a] = 2 · Φ(a) − 1
CHAPITRE 4. VARIABLES ALÉATOIRES CONTINUES, LOI NORMALE 45
Exemple 38 –
X − 6 1 − 6
P[X > 1] = P >
2 2
−5
=P Z>
2
5
=Φ
2
= 0.9938.
–
P[4 ≤ X ≤ 8] = P − 1 ≤ Z ≤ 1
= P | Z |≤ 1
= 2Φ(1) − 1
= 0.6826.
Remarque 18 En utilisant les techniques précédentes, on constate tout d’abord que la loi normale
N (m, σ) est une loi symétrique autour de l’axe médian x = µ. On a ainsi 50% des individus au
dessus de la moyenne et 50% en dessous. C’est loin d’être le cas en général bienque notre intuition
nous pousse souvent à le croire, participant à une intuition probabiliste erronée.
Exemple 39 Cette loi permet aussi de mieux appréhender le lien entre variance et dispersion :
dans un intervalle [m − σ, m + σ] de longueur 2σ et centré autour de la moyenne, on peut calculer
qu’il y a 68% des individus, lorsque qu’une v.a. suit une loi N (m, σ) :
P[m − σ ≤ X ≤ m + σ] = 0.68
On établit aussi la règle des ”3 σ” : 95% d’un échantillon représentatif d’une loi normale N (m, σ)
est approximativement situé entre m − 2σ et m + 2σ. Plus exactement,
Autrement dit, lorsque l’on a une variable aléatoire qui suit une loi normale N (m, σ), on est ”pra-
tiquement sûr” que la valeur se situera entre m − 3σ et m + 3σ.
Théorème 9 Soit X1 , X2 , . . . une suite de variables aléatoires définies sur le même espace de pro-
babilité, suivant la même loi L et indépendantes. Supposons que l’espérance µ et l’écart-type σ de
L existent et soient finis (σ 6= 0).
Corollaire 2 (Théorème de laplace) C’est notamment le cas pour une loi de bernoulli b(p) et
dans ce cas, Sn n’est autre que la loi binomiale B(n; p) qui vérifie bien les hypothèses. On a :
Sn − np L
√ −→ U
npq n→∞
Par informatique on trouve (la plupart des calculatrices étant incapable de le calculer et aucun
étudiant assez courageux pour calculer les 46 termes de la somme...) :
45
X
i
P[X = 5] = C100 0.4i 0.6100−i
i=0
= 0, 869
par définition la v.a. χ2 suit une loi du khi-deux à n degré de liberté (abréviation d.d.l.). On note
χ2 (n) cette loi.
Quelques Propriétés :
- χ2 ≥ 0, cette loi n’est donc pas symétrique,
- χ2 admet une densité,
- E(χ2 ) = n et var(χ2 ) = 2n
”En essayant continuellement, on finit par réussir. Donc plus ça rate, plus on a de chances que
ça marche.”
48
CHAPITRE 5. UNE INTRODUCTION AUX THÉORÉMES LIMITE EN PROBABILITÉS 49
Théorème 11 Soit (Xn )n∈N? une suite de v.a. réelles deux à deux indépendantes et de même loi
tel que E(|X1 |) < ∞. Alors,
1 X
pour presque tout ω, lim Xi = E(X1 ).
n n
i=1..n
On parle de convergence presque sûre (p.s en abrégé). Cela signifie que pour presque chaque
réalisation ω, la quantité moyenne arithmétique des Xi converge vers E(X1 ). Attention, la ”vi-
tesse” de convergence dépend du ω. On admet ce Théorème (LGN) fondamental dont les preuves
sont beaucoup plus complexes que celles de sa version faible.
Exemple 41 Appliquer la loi des grands nombres au jeu du pile ou face. Pour i = 1..n, posez
Xi = 1{pile} .
Exemple 43 (Sondage) : Avant le second tour d’une élection, opposant les candidats D et G,
un institut de sondage interroge au hasard 1000 personnes dans la rue. On note p la proportion
d’électeurs décidés à voter pour G dans la population totale et on suppose l’échantillon de personnes
intérrogées représentatif. Dans l’échantillon sondé, cette proportion est égale à 0, 54. A l’aide de
Bienaymé Tchebychev, proposer un intervalle de confiance pour p avec un risque d’erreur de 5%.
Faut il augmenter la taille de l’échantillon pour répondre à la question ?
tend vers 0. On aimerait aller à l’ordre supérieur et connaitre ”la vitesse” de convergence vers 0.
Le (TCL) Théorème central limite répond à la question :
Théorème 12 Soit (Xn )n≥1 une suite de v.a. réelles indépendantes et de même loi, de moyenne
m et d’écart type σ. Notons
X1 + ... + Xn
X̄n =
n
et Zn les v.a. associées centrées réduites :
√
n(X̄n − m)
Zn = .
σ
Alors pour tout intervalle [a; b], on a :
Z b
1 2
lim P(Zn ∈ [a; b]) = P(Y ∈ [a; b]) = √ e−t /2
dt,
n 2π a
Autrement dit les sommes renormalisées se comportent asymptotiquement comme la loi normale.
De façon générale, l’écart entre les moyennes arithmétiques et l’espérance (écart qui tend vers 0
par la LGN) se comporte aprés normalisation comme la loi normale (ou bien encore en notant que
X̄n − m = n1 i=1..n (Xi − m), la moyenne des écarts (renormalisée) ”tend” vers une Gaussienne.)
P
Connaissant la densité de la loi normale, on peut le ”lire” intuitivement comme suit. Si n est
assez grand alors Zn est très probablement compris entre -3 et 3 (la probabilité est 0.9973). Soit
encore :
X1 + ... + Xn 3σ 3σ
− E(X1 ) ∈ [− √ ; √ ],
n n n
avec grosse probabilité.
Remarque 19
1. Quelque soit la loi des Xi (moment d’ordre 1 fini), les sommes renormalisées convergent vers
une meme loi limite, la loi Normale, ce qui explique le nom de cette loi et son caractère
universel.
√
2. Le n est nécessaire ! Prendre Xi ∼ N (0; 1) et regarder les variances des 2 termes.
3. En pratique, lorsque l’on considère un grand nombre de v.a. indépendantes et de même loi
X1 , ..., Xn , on approxime leur somme Sn ou leur moyenne X̄n par des variables normales
suivantes :
√ √
Sn ∼ N nm; nσ et X̄n ∼ N m; σ/ n ,
Le TCL est fondamental en statistique pour l’obtention d’intervalles de confiance. Il est à l’ori-
gine de beaucoup d’approximation de lois et permet de se ramener à la loi normale pour laquelle
on dispose de tables des valeurs.
Xi+1 = Xi + i ,
où les i ∈ {−1, +1} avec P( = −1) = P( = +1) = 1/2.
On applique le TCL aux i (qui sont indépendants, de meme lois). On a : E(i ) = 0 et var(i ) = 1.
Xn
On obtient que pour n grand, la loi de √ n
s’approxime par une N (0; 1). Ainsi, connaissant la forme
de la densité de la normale, on déduit qu’avec grosse probabilité le marcheur se trouve dans la boule
√
de centre 0 et de rayon n, au bout d’un temps n.
où Y ∼ N (0; 1) .
C’est à dire que l’on est certain avec le taux α = P(|Y | < ) que ,
r r
p(1 − p) p(1 − p)
p ∈ [X̄n − ; X̄n + ]
n n
Si l’on veut par exemple donner une fourchette pour p avec un taux α = 0, 95, on choisit = 1, 96
( cf. table de la loi normale). Ainsi avec 95%, on peut affirmer que,
1, 96 1, 96
p ∈ [X̄n − √ ; X̄n + √ ]
2 n 2 n
(On a utilisé le fait que pour p ∈ [0; 1], p(1 − p) ≤ 1/4 ) De cette dernière expression, on remarque
que si l’on augmente la taille n de l’échantillon, l’intervalle (de confiance) se ”resserre”, ce qui
permet de lever éventuellement un indetermination dans le cas où 1/2 ∈ [X̄n − 21,96 √ ; X̄n + 1,96
n
√ ].
2 n
Introduction générale
L’une des fonctions des statistiques est de proposer, à partir d’observations d’un phénomène
aléatoire (ou modélisé comme tel) une estimation d’un des paramètres du phénomène. C’est pas
exemple le but recherché dans la construction d’intervalles de confiance. Les statistiques servent
aussi à prendre des décisions. Peut on considérer qu’un médicament est plus efficace qu’un placebo ?
Le nombre de consultations de Google par seconde suit il une loi de Poisson ? Les gènes pilotant
la couleur des yeux et ceux des cheveux sont ils sur les mêmes chromosomes ? Il y a deux points
communs (au moins) à toutes ces questions : leurs réponses sont des oui-non et le phénomène sous-
jacent est aléatoire. Les tests statistiques vont permettre d’apporter une réponse à des questions
manichéennes en contrôlant l’aléa inhérent à la situation.
En statistiques, les deux éventualités sont appelées des hypothèses et sont notées H0 (hypothèse
nulle) et H1 (hypothèse alternative). Souvent H1 sera le contraire de H0 . Dans tous les cas, le
postulat est qu’une et une seule des deux hypothèses est vraie.
Un test statistique est un algorithme qui conduit à ne pas rejetter H0 ou rejetter H0 à partir des
observations du phénomène. L’idée de base des tests, est de trouver une statistique (une fonction
des observations) dont on connait la loi (ou qui s’approxime par une loi connue) si H0 est vraie et
qui ne se comporte pas de la même manière selon que H0 ou H1 est vraie.
( le ”qui s’approxime par une loi connue” dans la phrase précédente, est en général une conséquence
du TCL. On devine ainsi l’importance capitale de ce Théorème dans cette théorie.)
Il y a deux grands types de tests : les tests paramétriques et les tests non paramétriques (exemple :
test du χ2 ). Un test non paramétrique teste une propriété (indépendance ou pas, homgénéité ou
pas ). Un test paramétrique consiste à vérifier si une caractéristique d’une population, que l’on
notera θ, satisfait une hypothèse que l’on pose a priori, appelée hypothèse nulle H0 . Il s’agit donc
de tester un paramètre. Elle est en général de la forme H0 : θ = θ0 ou H0 : θ > θ0 ou encore
H0 : θ < θ0 . Comme pour les intervalles de confiance, on a besoin pour cela d’un échantillon dont
les valeurs sont celles prises par n v.a. X1 , ..., Xn indépendantes de même loi.
CHAPITRE 5. UNE INTRODUCTION AUX THÉORÉMES LIMITE EN PROBABILITÉS 53
Un premier exemple
On suppose que la taille d’une population suit une loi Gaussienne N µ; σ 2 . On connait σ 2
mais la valeur µ est inconnue. Certaines circonstances aménent à formuler la question suivante :
la moyenne théorique µ est-elle égale à une certaine valeur µ0 ? Pour cela, on désire faire le test
suivant :H0 : µ = µ0 contre H1 : µ 6= µ0 .
Soit un échantillon X1 , ..., Xn des tailles de n personnes de la population. H0 implique que
Xi ∼ N µ0 ; σ 2 . Ainsi, pour n grand, le TCL donne alors que la v.a.
√
n
Un := (X̄n − µ0 ) ∼ N (0; 1) .
σ
Vu l’allure de la densité de la normale centrée réduite, on définit une zone rejet Rα de la forme
Rα =] − ∞; −tα [∪] − tα ; +∞[ où le nombre tα est donné par la table N (0; 1) de la v.a. U avec
P(|U | > tα ) = α
Le test du χ2
Toujours selon le meme schéma, sous une certaine hypothèse H0 , on construit ”une statistique”
(fonction des observations) qui doit tendre vers une loi connue. Dans le test du χ2 , la convergence
de la ”statistique trouvée” n’est pas une conséquence ”immédiate” du TCL mais c’est dans le meme
esprit que celle çi se prouve (d’où la place de ce test dans cette section).
Le test du khi-deux concerne uniquement les lois discrètes, mais on peut l’utiliser aussi pour des
échantillons continus regroupés en classes. Le modèle de base est toujours un échantillon (X1 , ..., Xn )
d’une loi inconnue. Les classes, notées c1 , ..., ck , sont une partition de l’ensemble des valeurs pos-
sibles. L’hypothèse à tester porte sur les probabilités des classes, pour lesquelles on se donne des
valeurs théoriques Ptheo (c1 )..., Ptheo (ck ).
Sous l’hypothèse H0 la distribution empirique de l’échantillon sur les classes doit être proche de
la distribution théorique. La distribution empirique (observée) Pobs est celle des fréquences de
l’échantillon dans les classes :
1 X Nombre de Xi tombant dans la classe cj
Pobs (cj ) = 1{c } (Xi ) = .
n i=1...n j n
Définition 46 On appelle distance du khi-deux de Ptheo par rapport à Pobs , et on note Dχ2 (Ptheo , Pobs ),
la quantité :
X (Ptheo (ci ) − Pobs (ci ))2
Dχ2 (Ptheo , Pobs ) =
Ptheo (ci )
i=1...k
La ”distance” du khi-deux est donc une moyenne pondérée d’écarts quadratiques entre les
valeurs de Ptheo et Pobs . Ce n’est pas une distance au sens usuel du terme, puisqu’elle n’est même
pas symétrique. La loi de probabilité de Dχ2 (Ptheo , Pobs ) n’a pas d’expression explicite en général.
On utilise le résultat suivant :
Propriété 45 Sous l’hypothèse H0 , la loi de la variable aléatoire nDχ2 (Ptheo , Pobs ) converge quand
n tend vers l’infini, vers la loi du khi-deux de paramètre k-1.
Si l’hypothèse H0 est fausse, alors la variable nDχ2 (Ptheo , Pobs ) tend vers l’infini ( appliquer k fois
la loi des grands nombres, on obtient un terme linéaire en n). En pratique, la statistique du test
du khi-deux se calcule sous la forme suivante :
où
• ntheo (ci ) est l’effectif théorique de la classe ci , à savoir le produit nPtheo (ci ),
• nobs (ci ) est l’effectif observé de la classe ci .
Ces trois tests ont un principe commun qui est le suivant : on répartit les observations dans k
classes dont les effectifs sont notés n1,obs , ..., nk,obs . L’hypothèse H0 permet de calculer les effectifs
théoriques, notés n1,theo , ..., nk,theo (ni,theo represente l’effectif théorique dans la classe i). On rejette
H0 si les effectifs observés sont trop différents des effectifs théoriques. Pour cela on donc utilise la
statistique de test décrite précédement :
(ni,obs − ni,theo )2
P
U = i=1..k .
ni,theo
Fait 1 : Le point central est que grace à la propriété 45, on peut prouver que lorsque la taille de
l’échantillon augmente, la statistique U tend vers la loi d’un χ2 (k − 1 − m) où k est le nombre de
classes et m est le nombre de paramètres estimées nécessaires au calcul des effectifs théoriques (les
Ni doivent être supérieur à 5).
CHAPITRE 5. UNE INTRODUCTION AUX THÉORÉMES LIMITE EN PROBABILITÉS 55
Il faut donc s’assurer que les effectifs théoriques sont plus grands que 5 et faire des regroupe-
ments de classes si besoin est. A partir de là, on calcule la zone de rejet unilatérale Rα = [tα,+∞ ][
au risque α en déterminant tα dans la table de la loi χ2 (k − 1 − m) par P(U > tα ) = α. La règle
décision est la suivante :
si u = i=1..k (ni,obs −ni,theo )2 appartient à R , on rejette H
P
ni,theo α 0
P 2
si u = i=1..k (ni,obs −ni,theo ) n’appartient pas à Rα , on accepte H0
ni,theo
Remarque 20
1. Contrairement aux autres tests, les tests du χ2 n’exigent pas de formuler l’hypothèse alternative
H1 , qui correspond à la négation de H0 .
2. Les effectifs théoriques doivent être supérieurs à 5. Si ce n’est pas le cas, il faut regrouper des
classes.
3. Dans la statistique U = χ2 (k − 1 − m), on manipule des effectifs et non des pourcentages.
Exemple a
Un croisement entre roses rouges et blanches a donné en seconde génération des roses rouges, roses
et blanches. Sur un échantillon de taille 600, on a trouvé les résultats suivants :
Couleur Effectif
rouges 141
roses 315
blanches 144
Peut on affirmer que les résultats sont conformes aux lois de Mendel ?
Il s’agit de tester H0 : prouges = pblanches = 0.25, proses = 0.5 par exemple au risque α = 0.05.
On dresse alors le tableau suivant :
couleur effectifs observés Ni effectifs théoriques ni,theo
rouges 141 0.25 × 600
roses 315 0.5 × 600
blanches 144 0.25 × 600
Ici, on a k = 3 classes et m = 0 (aucun paramètre à estimer pour pouvoir calculer les effectifs
CHAPITRE 5. UNE INTRODUCTION AUX THÉORÉMES LIMITE EN PROBABILITÉS 56
Exemple B : Indépendance
Soient Y et Z deux v.a. à valeur respectivement dans {1, ..., r} et {1, ..., s}. La loi de (Y, Z)
est donnée par une matrice P = (pi,j )1≤i≤r, 1≤j≤s à coefficients positifs dont la somme vaut 1,
pi,j = P(Y = i, Z = j). Notons pour 1 ≤ i ≤ r et 1 ≤ j ≤ s,
pi. = P(Y = i) = pi,1 + pi,2 + ... + pi,s et p.j = P(Z = j) = p1,j + p2,j + ... + pr,j .
Les v.a. Y et Z sont indépendantes si et seulement si, pour tous i et j, on a : pi,j = pi. p.j
Soient un échantillon (Y1 , Z1 ), ..., (Yn , Zn ) de ces v.a, on définit alors les v.a. suivantes :
Ni,j = card{l ∈ [1; n]; (Yl , Zl ) = (i, j)}, Ni. = Ni,1 + ... + Ni,s et N.j = N1,j + ... + Nr,j .
PP
PP Cheveux
PP blonds brun roux noir
Yeux PP
P
bleus 44 × 45/124 ' 15, 97 13, 84 6, 74 7, 45
gris 17, 05 14, 78 7, 2 7, 96
marrons 11, 98 10, 38 5, 06 5, 59
La table du χ2 (6) (cf. Annexe) donne P(χ2 (6) > 12.59) ' 0.05 (au risque 5%) et donc on rejette
l’hypothèse d’indépendance de la couleur des yeux et de la couleur des cheveux.
CHAPITRE 5. UNE INTRODUCTION AUX THÉORÉMES LIMITE EN PROBABILITÉS 58
Exemple C : Homegénéité
et X X X X
n= Oi,j = Oi. = O.j
i=1..k j=1..l i=1..k j=1..l
Oi. représente l’effectif observé de la valeur Ai parmi la réunion de tous les échantillons et Oj.
représente l’effectif de l’échantillon j.
On a la propriété similaire au fait 1 :
PP
PP Linge
PP TS LS P
Lessive PP
P
A 30 65 205
B 23 56 121
C 75 125 300
Annexe
59
CHAPITRE 6. ANNEXE 60