Vous êtes sur la page 1sur 115

FST de fès

Module : Probabilité et statistique descriptive


Niveau : BCG2

R. El khaoulani El idrissi

Année universitaire 2015-2016

Chapitre 1

Généralités

Données statistiques, tableau, représentation


graphique, fréquence et effectif cumulés

1
Qu’est ce que la statistique

Statistique = est une discipline qui a pour objet :

a. de collecter, d’obtenir, et de réunir des informations (ou données), statistique


puis à les organiser et les synthétiser pour faciliter une analyse descriptive
méthodique et objective de ces données.

b. d’exploiter la synthèse de ces données pour établir, notamment Statistique


grâce à la théorie des probabilités, des modèles de prévisions. inférentielle

statistique
c. de se servir de ces modèles de prévisions comme un outil pour décisionnelle
prendre des décisions

Qu’est ce que la statistique

Étapes d’une analyse statistique :

• Planifier la collecte de données;

• Récolter les données;

• Les organiser;

• Les synthétiser;

• Établir des modèles de prévisions à partir des données;

• Utiliser ces modèles de prévisions pour prendre des décisions.

2
Quelques définitions de base
Population : ensemble de personnes ou d’objets équivalents étudiés.

Individu : chaque élément d’une population

Caractère : la variable étudiée, il désigne une grandeur ou un attribut observé sur


chaque individu.

Modalités : différents états ou valeurs pris par un caractère.

Série statistique : la suite des modalités prises par un caractère sur la population
toute entière ou sur un échantillon

Quelques définitions de base


Il existe deux méthodes pour recueillir les données

1. Recensement = méthode exhaustive consistant à étudier tous les individus d’une


population. Difficile en pratique lorsque la taille de la population est grande pour
des questions de coût et de temps.

2. Sondage = recueil d’une partie de la population. La partie des individus étudiés


s’appelle l’échantillon.

Le prélèvement d’un échantillon à partir de la population initiale se fait par des


techniques statistiques, appelées méthodes d’échantillonnage.

Echantillonnage
L’échantillonnage représente l’ensemble des opérations qui ont pour objet de prélever
un certain nombre d’individus d’une population donnée.
L’échantillon doit être représentatif de la population i.e. qu’il doit refléter
fidèlement sa composition et ses caractéristiques.

3
Typologie des séries statistiques
Les séries statistiques se répartissent en deux groupes selon le caractère étudié :
1. Variable quantitative : lorsque toutes les valeurs possibles sont numériques et
s’expriment par des nombres entiers ou réels …
a. Variable quantitative discrète : l’ensemble des valeurs possibles est dénombrable.
Exemples : nombre d’enfant par famille
b. Variable quantitative continue : l’ensemble des valeurs possibles est continu, toutes
les valeurs réelles d’un intervalle sont susceptibles d’être prises.
Exemple : taille d’une personne

2. Variable qualitative : les modalités sont des attributs qualitatifs, et non des valeurs
numériques.

a. Variable qualitative nominale : la variable est dite qualitative nominale lorsque les
modalités ne peuvent pas être ordonnées.
Exemples : état civil : {célibataire, marié, veuf, divorcé},
couleur des yeux : {noir ; bleu ; vert}

b. Variable qualitative ordinale : lorsque les modalités peuvent être ordonnée.


Exemple : très résistant, assez résistant, peu résistant

Représentation des données

Il existe plusieurs niveaux de description statistique :

o La présentation de données brutes.

o Des présentations par des tableaux numériques

o Des représentations graphiques

o Des résumés numériques fournis par un petit nombre de paramètres caractéristiques


Réduction des données à quelques valeurs numériques caractéristiques

4
Tableau statistique
Tableau statistique
Il s’agit de transformer les tableaux de données brutes en des tableaux qui se prêtent à
l’analyse des données.

Cas discret
À chaque modalité xi du caractère X peut correspondre un ou plusieurs individus.

Effectif
On appelle effectif de la modalité xi le nombre ni de fois que cette modalité est observée.

Remarque ∑n i = N, où N de la population ou la l'échantillon étidié

Fréquence
n
On appelle fréquence de la modalité xi le nombre fi tel que : fi = i
N

Représentation des données


Remarques

a- ∑ fi =1
b- 0 ≤ fi ≤ 1

c- fi ×100 : le pourcentage d'individus ayant la modalité xi

d- fi : la proportion d'individus ayant la modalité xi

5
Représentation des données
Exemple
Sur un échantillon de 1000 pièces tirés de la production journalière d’une usine, on compte
le nombre de défauts constatés sur chaque pièce

xi ni fi
0 570 0.57 • Les modalités sont : 0, 1, 2, 3 et 4

1 215 0.215 • 57% de pièces sont saines


2 140 0.14 • La proportion des pièces ayant 3 défauts est 0.06
3 60 0.06
4 15 0.015
Total 1000 1

Représentation des données


Représentation graphique

Quand la variable est discrète, la représentation graphique des effectifs se fait


par un diagramme en bâton

Exercice Tracer le graphique des données de l’exemple précédent

6
Représentation des données
Caractère continu
On répartit les modalités en classes. En règle générale, on choisit les classes de façon à ce
que chaque classe comprenne un nombre suffisant d’individus

→ De la même façon, on définit l'effectif ni et la fréquence fi de chaque classe


→ A chaque classe [ei , ei+1[, on associe l'amplitude ai définie par : a i =ei+1 − ei

Exemple Un technicien mesurant des tiges métalliques, il obtient les valeurs suivantes :

classe ni fi ai
[330,340[ 57 0.11 10
[340,343[ 195 0.39 3
[343,345[ 204 0.41 2
[345,350[ 30 0.06 5
[350,360[ 14 0.03 10
500

Histogramme
Représentation graphique
Dans le cas de données regroupées en classes on utilise un histogramme, il permet de
représenter les données par une suite de rectangles contigus.

Histogramme des effectifs


i On place sur l'axe des abscisses les différentes classes.
nj
i La hauteur du rectangle correspondant à la classe j est donc donnée par : n'j = a
aj

n'j s'appelle l'effectif corrigé,


a est une amplitude élémentaire, en générale, on prend l'amplitude la plus courante

7
Représentation des données
Exemple
a=2
classes n n’i
i
[1-2[ 2 4 En suite, on trace l’histogramme
[2-4[ 4 4
[4-6[ 8 8
[6-9[ 6 4

Remarques
o L’aire de chaque rectangle est proportionnelle à l’effectif de la classe qu’il représente.

Aire = a × ni' = a × ni
i

o Le choix de l’amplitude élémentaire ne modifie pas l’allure de l’histogramme

o La classe dont l’aire du rectangle associé est la plus grande est la classe ayant le plus d’effectif

Représentation des données


Histogramme des fréquences
On suit la même démarche pour tracer l’histogramme des fréquences

Exemple
On mesure la taille en centimètres de 50 élèves d’une classe
f
f i' = i a
classe effectif amplitude fréquence fréquence ai
corrigée
[151.5 ; 155.5[ 10 4 0.2 0.05 On prend a=1
[155.5 ; 159.5[ 12 4 0.24 0.06
[159.5 ; 163.5[ 11 4 0.22 0.055
[163.5 ; 167.5[ 7 4 0.14 0.035
[167.5 ; 171.5[ 10 4 0.2 0.05
= 50 =1

8
Représentation des données
Variable qualitative
Dans le cas d’une variable qualitative (nominale ou ordinale), les données
peuvent être représentées par deux types de graphique :
1. Les effectifs sont représentés par un diagramme en barres
2. Les fréquences par un diagramme en secteurs (piechart)
Exemple
On s’intéresse à l’état civil de 20 personnes, on obtient la série statistique suivante
Diagramme en secteurs
xi ni fi en %
des fréquences
Diagramme en barres
des effectifs
C 9 45
M 7 35 10
8

V 2 10 C 6
D 4
D 2 10 M
2
V
0
Codification : C : célibataire C D M V
D : divorcé(e)
M : marié(e)
V : veuf(ve)

9
Fréquences et effectifs cumulés
Motivation
Dans le cas d’une variable quantitative, il est souvent intéressant, de pouvoir dire « il y a
tant d’observations » ou « il y a tel pourcentage d’observations » inférieures ou
supérieures à telle valeur. C’est à ce genre de préoccupation que répond le calcul des
fréquences ou des effectifs cumulés

Effectif cumulé croissant (cas discret)


L’effectif cumulé croissant (ECC) correspond à une modalité donnée xi est le nombre
d’individus dont la modalité est inférieure ou égale à xi.

Autrement dit, le ECC d’une valeur (ou d’une classe) est la somme des effectifs de cette
valeur (ou de cette classe) et des effectifs précédents

ECCi est l’effectif cumulé croissant c’est dire le


nombre d’observations ayant des valeurs
inférieures ou égales à xi :
i
ECCi = ∑ n j
j=1

Fréquences et effectifs cumulés


Effectif cumulé décroissant (cas discret)
L’effectif cumulé décroissant (ECD) correspond à une modalité donnée xi est le nombre
d’individus dont la modalité est supérieure ou égale à xi.

Autrement dit, le ECD d’une valeur (ou d’une classe) est la somme des effectifs de cette
valeur (ou de cette classe) et des effectifs suivants

Remarque

On définit, de la même manière, la fréquence cumulée croissante FCC et la


fréquence cumulée décroissante FCD

10
Fréquences et effectifs cumulés
Fréquence cumulée croissante FCC, fréquence cumulée décroissante FCD
Les définitions de FCC et FCD s’obtiennent en substituant pourcentage à nombre dans les
définitions précédentes.
Exemple (série discrète) On considère la série statistique suivante :
Calculer Les ECC, ECD, FCC et FCD
xi ni Combien y a-t-il d’individus ayant une modalité
0 11 a. au plus 3 ?
b. au moins 3 ?
1 33
c. plus de 3 ?
2 27 d. moins de 3 ?
3 12 Quel est le pourcentage et quelle est la proportion d’individus
4 4 ayant une modalité
a. au plus 3 ?
5 2 b. au moins 3 ?
Locution || Symbole
6 1 c. plus de 3 ? Vocabulaire au plus || ≤
d. moins de 3 ?
au moins || ≥
plus de || >
moins de || <

Fréquences et effectifs cumulés


Exemple 2 (série continue) classe ni
On considère la série statistique suivante
[0,2[ 2
[2,4[ 3
[4,8[ 4
Calculer les ECC, ECD, FCC et FCD [8,11[ 1

Remarques
1. Le ECC correspondant à une classe donnée [a-b[ indique le nombre d’individus dont la
modalité est strictement inférieure à b.

2. Le ECD correspondant à une classe donnée [a-b[ indique le nombre d’individus dont la
modalité est supérieure ou égale a.
3. Les mêmes remarques sont valables pour le FCC et le FCD en substituant
pourcentage à nombre.

Question
Qu’en est-il pour une modalité qui n’est pas extrémité d’une classe ?

11
Représentation graphique de ECC, ECD, FCC et FCD
Exemple 2 (série continue) classe ni
On considère la série statistique suivante
[0,2[ 2
[2,4[ 3
Exercice
[4,8[ 4
Tracer la courbe de ECC et de ECD
[8,11[ 1

Hypothèse
On suppose que l’effectif est uniformément réparti dans chaque classe

À l’intérieur de chaque classe, on fait une interpolation linéaire pour obtenir la valeur
de ECC et de ECD.

La représentation graphique de ECC et de ECD est un segment de droite à l’intérieur


de chaque classe

Remarque
Les représentations graphiques de FCC et FCD se font de la même manière

Chapitre 2

Statistique descriptive univariée

12
Caractéristiques statistiques
Les caractéristiques statistiques sont des indicateurs numériques qui permettent de décrire,
d’une manière synthétique, des données. On définit deux types de caractéristiques :
1. Caractéristiques de position
2. Caractéristiques de dispersion
Paramètres-clefs de position
Ils permettent d’avoir des informations sur l’ordre de grandeur de l’ensemble
des observations et de localiser la zone des fréquences maximales

a. Le mode, noté mo
Définition Le mode est la modalité la plus fréquente

Cas discret La modalité d’effectif maximal est repérée directement sur le tableau ou
sur la représentation graphique
Cas continu
On détermine la classe de densité maximale, la classe modale, à partir des n’i, c’est
la classe ayant le plus grand n’i. En suite, le mode est le centre de cette classe.

Remarque Le mode n’est pas nécessairement unique

Caractéristiques statistiques
b. La médiane, notée me
Définition La médiane est la modalité qui divise l’effectif total en deux parties égales
Cas discret
i. Si l’effectif total, N, est impair, la médiane est la modalité qui occupe le rang central (N+1)/2
ii. Si l’effectif total, N, est impair, alors
a. si la modalité qui occupe le rang N / 2 est égale à la modalité qui occupe
le rang ( N / 2) + 1 alors la médiane est égale à cette modalité
b. sinon on dit que la médiane n'existe pas ou la médiane
n'est pas une valeur observée.
Exemples
N=10
xi ni ECC xi ni ECC N=12 xi ni ECC La 5ième modalité égale à
N=11 1 et la 6ième égale à 2.
0 2 2 me=2 0 2 2 La 6ième modalité 0 2 2 Elles sont différentes
et la 7ième sont
1 3 5 1 3 5 1 3 5
égales à 2
2 4 9 2 4 9 2 3 9 On peut prendre
Donc me=2
me=(x5+x6)/2=1.5
3 2 11 3 3 12 3 2 12
Mais ce n’est pas une
valeur observée

13
Caractéristiques statistiques
Cas continu
On détermine la classe médiane, i.e. la première classe telle que ECC ≥ ( N / 2)
( si N est pair c'est la classe contenant le ( N / 2)ième individu, noté [a, b[.

La médiane me est obtenue à partir de : me - a = ( N / 2) − ECC−1


b-a n
ECC−1 : ECC de la classe qui précède la classe [a, b[
n : effectif de la classe [a, b[
N : effectif total
Démonstration ….
Exemple Calculer la médiane me pour la série statistique suivante

classe ni ECC
[0 - 2[ 2 2 On repére la classe modale
[2 - 4[ 3 5 N=14, N/2=7 ⇒ [4 - 8[ est la classe médiane
[4 - 8[ 5 10 La médiane me est obtenue à partir de : me -4 = 7 − 5 ==> me = 5.6
[8 - 15[ 4 14
8-4 5

Caractéristiques statistiques
Remarque On peut déterminer la médiane grâce à ECD, FCC et FCD

Détermination grâce à ECD

On détermine la classe médiane, i.e. la première classe telle que ECD ≥ ( N / 2)


La médiane me est obtenue à partir de : me - a = ECD − ( N / 2)
b-a n
ECD : ECD de la classe [a, b[
n : effectif de la classe [a, b[ et N : effectif total

Détermination grâce à FCC

On détermine la classe médiane, i.e. la prmière classe telle que FCC ≥ 0.5, noté [a, b[.

La médiane me est obtenue à partir de :


me - a = 0.5 − FCC−1
b-a f
FCC−1 : FCC de la classe qui précède la classe [a, b[
f : fréquence de la classe [a, b[ et N : effectif total

14
Caractéristiques de position
c. La moyenne La moyenne ne peut être définie que sur une variable quantitative

Définition La moyenne est la somme des modalités devisée par leur nombre, on le note x

Cas discret 1 n
n∑
x = xi cas de données individuelles
i =1
p
1
n∑
= ni xi cas de données groupées
i =1
avec n est le nombre d'individus,
ni individus ayant la modalité xi et p est le nombre de modalités différentes

Cas continu
p e +e
1
x= ∑
N i =1
ni ci avec ci = i+1 i i.e. le centre de la classe [ei+1, ei [ et p : le nombre de classes
2

Caractéristiques de position
c. Quantiles - Fractiles
Définition
Soit α ∈]0,1[, le quantile d'ordre α , noté qα , est la modalité telle qu'une proportion α
des x i est plus petite que qα . Autrement dit, qα est la modalité vérifiant FCC(qα )=α
Définition équivalente

Soit α ∈]0,1[, le quantile d'ordre α , noté qα , est la modalité telle qu'un


pourcentage α ×100 d'individus ont des modalités plus petites que qα
Remarques
La médiane est le quantile d'ordre 1/ 2 i.e. me = q1/ 2
On utilise souvent :
q0.25 le premier quartile, on le note Q1
q0.5 le deuxième quartile, on le note Q2 = me
q0.75 le troixième quartile, on le note Q3
q0.1 le premier décile, on le note D1
q0.9 le neuvième décile, on le note D9

15
Caractéristiques de position
Détermination des quantiles On calcule les quantiles en suivant la même méthode vue
pour la détermination de la médiane.

Calcul du premier quartile (en utilisant ECC)


On détermine la classe [a, b[ telle que ECC-1 < ( N / 4) et ECC ≥ ( N / 4)
i.e. la première classe telle que ECC ≥ ( N / 4)
Q1 - a ( N / 4) − ECC−1
Le premier quartile est obtenue à partir de : =
b-a n
ECC−1 : ECC de la classe qui précède la classe [a, b[
n : effectif de la classe [a, b[
N : effectif total

Caractéristiques de position
Exemple Calculer la médiane Q1 , Q2 et Q3 pour la série statistique suivante

classe ni ECC
[0 - 2[ 2 2
[2 - 4[ 3 5
[4 - 8[ 5 10
[8 - 15[ 4 14

Calcul de Q2 Q2 = me = 5.6

Calcul de Q1 On repére la première classe telle que ECC ≥ ( N / 4)


N=14, N/4=3.5 ⇒ [2 - 4[ est la classe recherchée
Q1 -2 3.5 − 2 1.5 = 1 ==> Q = 3
Q1 est obtenu à partir de : = ==> Q1 − 2 = 2 × 1
4-2 3 3
Calcul de Q3 On repére la première classe telle que ECC ≥ (3N / 4)
N=14, 3N/4=10.5 ⇒ [8 - 15[ est la classe recherchée
Q3 -8 10.5 −10 0.5 = 0.85 ==> Q = 8.85
Q3 est obtenu à partir de : = ==> Q3 − 8 = 7 × 3
15-8 4 4

16
Paramètres de dispersion
Grandeurs caractéristiques de dispersion

Ils précisent le degré de dispersion des différentes valeurs autour d’une valeur centrale.

Paramètres de dispersion
a. L’Etendue, noté e
Définition L’étendue est simplement la différence entre la plus grande et la plus petite
valeur observée
e = Max xi − Min xi
Intérêt Ce paramètre quantifie l’étalement total des données, il permet de détecter
d’éventuelles valeurs extrêmes

b. Intervalle interquartiles, notée IQ IQ = Q3 − Q1

étendue

Intérêt o Ce paramètre indique les 50% de modalités situées au centre de la distribution

o Il très peu sensible aux données extrêmes

17
Paramètres de dispersion
c. La variance, V(x)
Définition La variance est la somme des carrées des écarts à la moyenne divisée par le
nombre d’individus
Cas discret 1 n
n∑
V(x) = ( xi − x )2 cas de données individuelles
i =1
1 p
ni ( xi − x ) 2
n∑
= cas de données groupées
i =1

avec n est le nombre d'individus,


ni individus ayant la modalité xi et p est le nombre de modalités différentes
Intérêt
o Il mesure la dispersion des modalités autour de la moyenne

o Plus la variance est grande plus les modalités peuvent être éloignées de la moyenne
i.e. plus elles sont dispersées.

o Plus la variance est petite plus les modalités sont proches de la moyenne
i.e. elles sont moins dispersées.
Remarques o La variance est sensible aux valeurs extrêmes
o L’unité de mesure de la variance est le carrée de celle de la série

Paramètres de dispersion
Théorème La variance peut aussi s'écrire
1 n 2
V(x) =
N∑ xi − x 2 cas de données individuelles
i =1
1 p
N∑
= ni xi 2 − x 2 cas de données groupées
i =1

Démonstration …

Remarque
L’expression de la variance donnée par le théorème est plus commode pour faire des calculs

Cas continu p p
1
ni (ci − x)2 = 1 ∑ ni ci 2 −
N∑
La variance est donnée par : V ( x) = x2
i =1 N i =1

18
Paramètres de dispersion
d. L’écart type
Définition L’écart type est une mesure de la distance moyenne à la moyenne
Intérêt σ x = V ( x)
o Il mesure la dispersion des modalités autour de la moyenne

o Plus l’écart type est grand plus les modalités peuvent être éloignées les unes des autres
i.e. plus elles sont dispersées.

o Plus l’écart type est petit plus les modalités sont proches de la moyenne
i.e. elles sont moins dispersées.

Remarque L’unité de mesure de l‘écart type est la même que celle des modalités
e. Le coefficient de variation σ
Le coefficient de variation est le rapport entre l'écart type et la moyenne Cv = x
Remarque x
o Plus le coefficient de variation est élevée, plus la dispersion autour de la moyenne est grande
o Le paramètre est sans unité

Remarque
Le coefficient de variation permet de comparer la variabilité de données situées dans des ordres
de grandeurs différents, par exemple la variabilité du poids des éléphants et des souris

Chapitre 3

Statistique descriptive bivariée

19
Statistique descriptive à deux dimensions
Statistique descriptive bivariée
Dans la statistique bivariée, on traite deux variables conjointes, i.e. deux
variables observées simultanément sur les mêmes individus d’une population.
Remarque
L’intérêt se porte le plus souvent sur la relation entre les deux variables, recherche de
corrélation (d’interdépendance, le liaison, de correspondance) entre les deux variables,
mais sans tirer des conclusions sur l’existence de liens de causalités entre elles.
Objectif
La statistique descriptive bivariée vise à étudier l’existence d’éventuels liens
entre deux séries statistiques, quantifier l’intensité et caractériser sa forme
le cas échéant.
Comment réaliser une telle étude ?
L’étude d’un couple de variables conjointes se fait au moyen de
tableaux, graphiques et calcul de paramètres-clés
Hypothèses
On considère donc le cas où l’on dispose de deux variables x et y observées sur les
mêmes individus, par exemple poids et taille, présence en cours et note du module ….
Les deux variables peuvent être soit quantitatives soit qualitatives, mais on
examinera, dans ce cours, davantage le cas où les deux variables sont quantitatives

Couples de variables conjointes

On s'intéresse à deux variables statistiques conjointes x et y. Ces deux variables sont observées
sur les mêmes individus d'une population. Pour chaque individus, on obtient donc deux mesures.
La série statistique est alors une suite de couples des valeurs prises par les deux variables sur
chaque individu (x1,y1 ),⋯,(x i ,yi ),⋯ ,(x n ,y n )

x une variable pouvant prendre K modalités x1,⋯ , xK


y une variable pouvant prendre L modalités x1,⋯ , xL

Les données observées peuvent être regroupées dans un tableau à doubles entrées
appelé tableau de contingence

20
Tableau de contingence
x/ y y1 ⋯ yl ⋯ yL K

x1 n n n
Total
n
1.
n .. = ∑ ni .
11 ⋯ 1l ⋯ 1L i
L
⋮ ⋮ ⋮ ⋮ ⋮ = ∑n j .
j
xk nk1 nk l nk L nk .
⋯ ⋯ K L
= ∑∑ ni j
⋮ ⋮ ⋮ ⋮ ⋮ i j
xK nK 1 nK l nKL nK .
⋯ ⋯ Distribution
marginale de x
Total n 1 . ⋯ . nl ⋯ . nL ..
n =n
Distribution Distribution
conjointe Distribution de y conditionnelle à x=xi marginale de y

ni j le nombre d'individus présentant la modalité xi de x et la modalité y j de y


La dérnière ligne et la dernière colonne du tableau représentent les distributions marginales
i.e. la distribution de x sans tenir compte de y ou celle de y sans tenir compte de x.
L K
nk . est l'effectif associé à xk , nk . = ∑ nk j
j
et
.l est l'effectif associé à yk , n.l = ∑i ni l
n

Tableau des fréquences


y1 yl yL Total
x/ y
f
⋯ ⋯ f f n
x1 11 ⋯ f
1l ⋯ 1L 1. fk l = kl
n
⋮ ⋮ ⋮ ⋮ ⋮ n
xk f k1 fk L f k. f k. = k.
⋯ fk l ⋯ n
⋮ ⋮ ⋮ ⋮ ⋮ n
xK f.l = .l
f K1 ⋯ fK l ⋯ f KL f K. n

. ⋯ f.l ⋯ f.L
Total f 1
1
fi j la fréquence d'individus présentant la modalité xi de x et la modalité y j de y

21
Tableau de contingence
Exemple Tri croisé des variables : sport préféré et taille pour les élèves d’un lycée
Athlétisme Basketball Football Totaux
[140-150[ 14 3 20 37
[150-160[ 25 10 32 67
[160-170[ 41 27 59 127
[170-180[ 30 19 45 94
[180-190[ 18 35 29 82
Totaux 128 94 185 407

Tableau des fréquences


Athlétisme Basketball Football Totaux
[140-150[ 0.03 0.01 0.05 0.09
[150-160[ 0.06 0.02 0.08 0.17
[160-170[ 0.1 0.07 0.14 0.31
[170-180[ 0.07 0.05 0.11 0.23
[180-190[ 0.04 0.09 0.07 0.2
Totaux 0.31 0.23 0.46 1

Statistique descriptive bivariée


Remarque
D’une manière générale à partir du tableau de contingence, on utilise
la statistique du chi-deux pour mesurer l'importance de la
contingence (la dépendance, la liaison) entre deux caractères.

Cas de deux variables quantitatives


Dans ce cours, on se limite à étudier l’interdépendance entre deux variables
quantitatives.
Ce cas est relativement aisé et une éventuelle relation d’interdépendance entre les deux
variables peut être réalisée à partir des données individuelles de chacune des deux
variables.

Exemple On mesure simultanément le courant et l’intensité aux bornes d’une


résistance, on obtient les valeurs suivantes

X : intensité en 0.053 0.067 0.095 0.16 0.2


Ampère
Y : tension en 8.1 9.95 15 25 30
Volte

22
Deux variables quantitatives conjointes
Cas de deux variables quantitatives

Soient x et y deux variables statistiques quantitatives. On souhaite :

o Déterminer s’il existe une relation entre x et y.

o Caractériser la forme de la liaison entre x et y.

o Quantifier l’intensité de la liaison.

Etude graphique
Le nuage de points
Il s’agit de représenter les données dans le plan par un ensemble de points (xi,yi).
Ce nuage de points est très commode pour représenter les observations simultanées de
deux variables quantitatives. Il donne une idée assez bonne de la variation conjointe
des deux variables : nous pouvons détecter visuellement une forme de liaison entre les
deux variables.

Corrélation et régression linéaires


Les points sont-ils suffisamment proches d’une même droite ?

Lorsque cela est réalisé on parle de corrélation linéaire entre x et y. Ce qui autorise de
faire une régression linéaire i.e. de supposer que le nuage de points (xi,yi) est aligné. On
construit alors une droite de régression ou d’ajustement linéaire de y par rapport à x. Par
la suite cette droite peut servir à pronostiquer pour une valeur possible de x une valeur
correspondante de y

23
Covariance
La covariance La covariance est un indicateur numérique d’éventuelle liaison linéaire entre x et y,
elle rend compte de la manière dont les deux variables varient simultanément
Définition
La covariance est la moyenne des produits des écarts à la moyenne
1 N 1 p
Cov(x,y)= ∑
N i=1
( xi − x )( yi − y ) = ∑ ni ( xi − x )( yi − y )
N i =1
où ni est le nombre d'individus ayant la modalité xi et p est le nombre de modalités différentes

Remarque
La covariance peut prendre des valeurs positives, négatives ou nulles

Dans la pratique, on utilise l’expression de la covariance donné par le théorème suivant


Théorème La covariance peut aussi s'écrire

1 N 1 p
Cov(x,y)= ∑ x y
N i =1 i i
− x × y = ∑ n x y − x× y
N i =1 i i i
Démonstration …

Covariance
Remarques

1. La covariance permet d'évaluer le sens de variations des deux variables :


si Cov( x, y ) > 0 x et y ont tendance à varier dans le meme sens (relation positive)
si Cov( x, y ) > 0 x et y ont tendance à varier dans des sens opposés (relation négative)

2. Cov( x, x) = V ( x)

3. Cov( x, y ) = Cov( y, x)

24
Coefficient de corrélation linéaire
Coefficient de corrélation linéaire
Ce coefficient caractérise la liaison linéaire entre les deux variables,
son expression est donnée par
Cov( x, y)
rxy =
Remarques σ xσ y
1. rxy = ryx
1 N
2. − 1 ≤ rxy ≤ 1 car on peut démontrer que : ∑ ( y − axi − b)2 = V ( y )(1 − rxy 2 )
N i =1 i
3. rxy indique l'intensité de la liaisaon linéaire, plus cette valeur absolue est proche de 1, plus
la liaison est forte; à contrario, plus elle est proche de 0 plus la liaison linéaire est faible.

a. Si rxy ≤ 0.7 on considéra que la liaison linéaire est trop faible et que
l'ajustement linéaire n'est pas acceptable

b. Si rxy >0.7 la corrélation linéaire est acceptable.

Coefficient de corrélation linéaire


Remarques (suite)

4. Si rxy = 1 ou − 1 il y a une relation parfaite entre x et y


et les points ( xi , yi ) sont alignés sur une droite

5. Si le coefficient rxy est nul ou proche de zéro, il n'y a pas de dépendance


linéaire entre les deux variables. On peut cependant avoir une dépendance non
linéaire avec un coefficient de corrélation linéaire nul.
Exemple

x -2 -1 0 1 2
y 4 1 0 1 4

x = 0, Cov( x, y ) = ∑ xi yi − x × y = (−2 × 4) + (−1×1) + 0 + (1×1) + (2 × 4) − 0 = 0


⇒ rxy = 0 et portant y = x 2

25
Corrélation linéaire

Exemple On mesure simultanément le courant et l’intensité aux bornes d’une


résistance, on obtient les valeurs suivantes

X : intensité en 0.053 0.067 0.095 0.16 0.2


Ampère
Y : tension en 8.1 9.95 15 25 30
Volte

σ x = 0.0593, σ y = 8.53, Cov( x, y) = 8.53 et rxy =0.994

Il y a une forte corrélation linéaire entre les deux variables donc l’ajustement
linéaire de y par rapport à x peut être utilisé à des fins prédictives des valeurs de
y en fonction des valeurs connues de x. Mais ceci n’est possible que lorsque les
valeurs de x sont proches de l’intervalle [0.05 - 0.2]

Droite d’ajustement linéaire


Remarque
Après avoir étudié l’existence et le sens d’une éventuelle liaison linéaire entre deux
variables statistiques quantitatives x et y et avoir calculé son intensité, on passe à l’étape
suivante : la construction de la droite de régression linéaire, notamment, par la méthode
des moindres carrés, notée MMC

Droite d’ajustement linéaire

Le problème consiste à trouver une droite d'équation yˆ = ax + b telle que le tracé de cette droite sur
le même graphique que le nuage de points (x i ,yi ) est celui qui s'ajuste le mieux au nuage de points.

26
Méthode des moindres carrés
Principe Faire passer la droite d'ajustement yˆ = ax + b, à travers le nuage de points, de
façon à ce que les différences (yˆ i -yi ) soient les plus faibles possible pour
l'ensemble des points ( xi , yi )
Pour déterminer la valeur des coefficients a et b, le principe
des moindres carrés consiste à chercher la droite qui minimise
la somme des carrés la somme des carrées des distances des
points à la droite mesurées verticalement i.e. la somme des
carrés des écarts ε i = yˆi − yi
.
Ce qui revient à minimiser la fonction critère, qui s'écrit sous
la forme d'un polynome de degré 2, suivante :
N
1 N 2 N
D
y/ x
( a, b) = ∑ ε i = 1 ∑ ( yˆi − yi )2 = 1 ∑ ( yi − axi − b)2
N i =1 N i =1 N i =1
Théorème La droite d'ajustement linéaire de y par rapport à x, obtenue par MMC,

est la droite d'équation yˆ = ax + b avec a = Cov( x, y) ; b = y − ax


V ( x)

Pente de la droite d’ajustement


Remarque
Lorsqu’une corrélation linéaire est permise, la covariance est de même
signe que la pente de la droite ajustée.

27
Corrélation non linéaire
Ajustement non linéaire
Il peut arriver que les points représentant une série double ne soient pas alignés, mais soient
voisins d’une courbe connue. On se sert alors de ce que nous avons vu pour la corrélation et
l’ajustement linéaire, mais en transformant au préalable l’une ou les deux des variables.

Exemples

Ajustement linéaire entre y et z = x n donne un ajustement de la forme y = ax n + b

Ajustement linéaire entre y et z = ln( x ) donne un ajustement de la forme y = a ln( x) + b

Ajustement linéaire entre z=ln(y ) et x donne un ajustement de la forme y = beax

Statistique descriptive – relation causale

Remarque

La statistique descriptive, à laquelle on s’est limité dans ce cours, ne peut conclure


quant à une relation causale entre les deux caractéristiques étudiés. Elle décrit
seulement cet ensemble et éventuellement le résume par une relation, vraie en
moyenne, entre les deux variables.
La relation ainsi trouvée peut être une aide pour la recherche d’une loi(physique,
chimique, financier ou économique …), mais ne peut en rien se substituer à la recherche
de cette loi à l’aide des raisonnements scientifiques plus appropriés.

28
Chapitre 4

Dénombrement et opérations sur les événements

Dénombrement
Dénombrement
Le dénombrement est une branche de l’analyse combinatoire qui étudie comment
compter des objets.
Le dénombrement permet le comptage des éléments de divers types de
groupements que l’on peut faire à partir d’ensembles finis, mais en procédant
d’une manière méthodique et non de compter d’une manière désordonnée.

Expérience aléatoire
Une épreuve est qualifié d’aléatoire si :
a- On ne peut prédire avec certitude son résultat
b- On peut décrire l'ensemble de tous les résultats possibles.
Exemple : jet d'un dé ; lancer d'une pièce de monnaie …
Univers ou espace d’échantillonnage
Il s’agit de l’ensemble formé de toutes les issues possibles de cette expérience

Événement Est une partie de l’univers, formée d’une ou plusieurs issues possibles

Événement élémentaire Est une partie de l’univers, formée d’une seule issue possible.

29
Opérations sur les événements
Exemple « Lancer un dé standard et noter le numéro de la face supérieure »
est une expérience aléatoire comportant 6 issues Ω = {1, 2,3, 4,5,6}
A = {2, 4,6} est l'événement "obtenir un nombre pair"
B = {1} est l'événement élémentaire "obtenir le nombre 1"
C = {1,6} est l'événement "obtenir 1 ou 6"
∅ est un événement impossible, Ω est un événement certain
Opérations sur les événements
L’union L'événement A ∪ B est réalisé dès que A ou B (ou les deux) sont réalisés.
i.e. A ∪ B se constitue des issues appartenant à A ou B.
Dans l'exemple ci-dessus, A ∪ B est l'événement "obtenier 1 ou un nombre pair"
L’intersection L'événement A ∩ B est réalisé si A et B sont simultanément réalisés.
i.e. A ∩ B se constitue des issues communes à A et B.
Dans l'exemple ci-dessus, A ∩ C est l'événement "obtenir le nombre 6"
Le complémentaire
L'événement complémentaire de A, noté A est réalisé dès que A n'est pas réalisée.
Dans l'exemple ci-dessus, A est l'événement "obtenir un nombre impair"

Evénements incompatibles
Evénements incompatibles
Deux événements sont dits incompatibles si leur intersection est un événement impossible
Exemples
Dans l'exemple précédent, A et B sont incompatibles
L'événement impossible ∅ est compatible avec tous les autres événements

Un événement et son contraire sont toujours incompatibles.

Partition de l’univers
On appelle partition de Ω toute famille ( Ai )i∈I d'événements telle que :
∪ Ai =Ω et si i ≠ j , alors Ai ∩ A j = ∅
i∈I
C'est à dire une famille d'événements, deux à deux incompatibles et dont la réunion est Ω

Remarque On parle aussi des événements(scénarii) mutuellement exclusifs et exhaustifs

Exemple Pour tout événement A, A et A forment une partition de Ω

30
Combinaison : addition ou multiplication ?
Question Quand on utilise plusieurs combinaisons, faut-il additionner ou multiplier ?

Règle générale Si les différentes étapes sont reliées par et on multiplie


Si les différentes étapes sont reliées par ou on additionne

Exemple Dans une classe il y a 10 garçons et 20 filles.


On choisit au hasard deux élèves.
Dans combien de choix on obtient exactement une fille et un garçon ?
Dans combien de choix on obtient au moins une fille ?
Réponse
Les choix qui contiennent exactement une fille et un garçon sont celles qui
contiennent une fille et un garçon
1
Nombre de façons de choisir une fille 20 (C20 )
Nombre de façons de choisir un garçon 10 (C1 )
10
Au total, il y a 20 10=200 choix où on obtient exactement une fille et un garçon
Les choix qui contiennent au moins une fille sont celle qui contiennent exactement
une fille ou deux filles
Nombre de façons de choisir exactement une fille 200 (C20 × C10 )
1 1

Nombre de façons de choisir exactement deux filles 190 (C 2 )


20
Au total, il y a 200 + 190 = 390

Type de disposition des éléments


Après une expérience aléatoire la disposition des éléments d’une issue peut être

Sans répétition : chaque élément peut y apparaître 0 ou 1 fois

Avec répétition : un élément peut y figurer plus d’une fois

Ordonnée l’ordre d’obtention d’un élément est important i.e. un élément est
caractérisé non seulement par le nombre de fois ou il apparaît dans la
disposition, mais aussi par sa place dans la disposition

Non ordonnée
l’ordre des éléments ne compte pas dans la caractérisation de
la disposition

31
Dispositions ordonnées
Exemple
On dispose d’une urne avec 10 jetons numérotés de 1 à 10.
On tire 3 fois de suite un jeton dont on note le numéro avant de le remettre dans l’urne.
Quel est le nombre de résultats possibles ?
Réponse On a donc : 10 10 10 =103 triplets de résultats possibles

Arrangement avec répétition


Définition Il s’agit d’une disposition ordonnée de p éléments pris parmi n éléments
discernables, avec répétition éventuelle.
Pour chacun des p éléments, il y a n possibilités. On en déduit :
Proposition
Le nombre d'arrangements de p éléments choisis parmi n, avec répétitions possibles, est np

Exemple Combien de mots de trois lettres peut-on former avec les 26 lettres de l’alphabet ?
Réponse 263
Exemple Combien de numéros de téléphone portable, composés de 10 chiffres et commençant
par 06, existe-t-il ?
Réponse Un numéro est composé de 06 suivi 8 chiffres choisis, avec répétition éventuelle,
parmi 0,1, …,9 dont l’ordre est important. Il y a 108 Cent millions numéros!

Dispositions ordonnées
Exemple Combien de podiums sont possibles pour une épreuve avec 10 participants ?
Réponse Il faut choisir la médaille d’or parmi les 10, puis la médaille d’argent parmi
les neuf restants, puis la médaille de bronze parmi les 8 restants.
Soit 10 9 8 = 720 podiums possibles
Arrangement sans répétition
Définition Il s’agit d’une disposition ordonnée de p éléments pris parmi n éléments
discernables, sans répétition.
Il y a n possibilités pour le 1ier élément Exemple
Il y a (n-1) possibilités pour le 2ième élément Combien de mots de trois lettres,

⋮ ne contenant pas deux fois la


même lettre, peut-on former avec
Il y a (n-p+1) possibilités pour le pième élément les 26 lettres de l’alphabet ?

Au total, cela fait donc n(n-1)…(n-p+1) possibilités Réponse 26 25 24

Proposition
Le nombre d'arrangements, sans répétition, de p éléments choisis parmi n est :
n!
Anp = n(n − 1)⋯(n − p + 1) = ∀(n, p) ∈ ℕ 2 tel que p ≤ n
(n − p)!

32
Dispositions ordonnées
Exemple
Une assemblé de 15 personnes doit élire un bureau composé de 3 membres : un président un
secrétaire et un trésorier. Quel est le nombre de bureau possibles.

Réponse

Le nombre de bureaux possibles est A315 = 15 14 13 = 2730

Arrangements
Propriétés a. n ! = n × ( n − 1) × ( n − 2) × ... × 2 × 1 b. 0! = 1
c. =1
An0 d. A1n = n
e. Ann = n! f. Ann−1 = n!
p−1
g. Anp = Anp−1 + p An−1 ∀(n, p ) ∈ ℕ 2 , tel que p ≤ n

Démonstration …

33
Permutation
Permutation
Définition Tout classement ordonné de n éléments distincts est une permutation
de ces n éléments. Il s’agit d’un arrangement sans répétition de n éléments parmi n
Exemple : aebcd est une permutation des éléments a, b, c, d, e

n! n!
Le nombre de permutation de n éléments est Pn = Ann = = = n!
(n − n)! 0!

Exemples De combien de façons pouvez-vous ranger 10 livres sur une étagère ?

Réponse 10 ! =3 628 800

De combien de manières peut-on classer 80 étudiants d’une classe ?

Réponse
Il suffit de choisir, parmi les 80 étudiants, celui qui sera 1ier ; on a 80 possibilités,
puis de choisir le 2ième parmi les 79 restants ; 79 possibilités, puis le 3ième, le 4ième
et ainsi de suite. Au total, il y a 80! Possibilités.

Combinaison sans répétition


Combinaison sans répétition
Il s’agit de disposition non ordonnée de p éléments pris parmi n , sans répétition.
Exemple A un concours de recrutement, 10 candidats se présentent pour trois postes.
Quel est le nombre de possibilités de recrutement ?
Réponse Ici l’ordre importe peu : seul compte le fait d’être, ou non, recruté.
On peut donc commencer par compter le nombre de manières de
classer 3 candidats parmi 10 : 3
A10 = 10 × 9 × 8 = 720
Puis ensuite diviser ce nombre par le nombre de classements de ces trois
recrutés entre eux, soit 3! =6
Le nombre de recrutement possible est donc de 120
Généralisation
D'une manière générale, pour une disposition ordonnée de p éléments pris parmi n sans répétition,
il y a Anp possibilités. Parmi celles-ci, p ! permutations correspondent à la même disposition
non-ordonnée.
p
On en déduit que le nombre de combinaisons sans repétition de p éléments parmi n, noté Cn ,
p
A
Cnp = n =
n!
est : ∀(n, p) ∈ ℕ2 , tel que p ≤ n
p! p!(n − p)!

34
Exercices
Exercice 1
À la fin d'une réunion d'anciens élèves, tout le monde se serre la main. S'il y a n personnes
à la fête, combien de poignées de mains sont échangées ?

Exercice 2
Quel est le nombre de manières de placer 8 convives autour d’une table ?

Formules remarquables
Propriétés

Cnp = = Cnn− p
n!
∀(n, p) ∈ ℕ 2 , tel que p ≤ n
p!(n − p)!

Cnp = Cnp−1 + Cnp−−11 ∀(n, p) ∈ ℕ 2 , tel que 1 ≤ p ≤ n

p Cnp = n Cnp−−11 ∀(n, p) ∈ ℕ 2 , tel que 1 ≤ p ≤ n

Cn0 = Cnn = 1

C1n = Cnn−1 = n

35
Triangle de Pascal
p−1
p
La formule Cn = Cnp−1
+ Cn−1 permet de construire le triangle de Pascal : on porte p
p
horizontalement et n verticalement. Les Cn se trouvent à l'intérieur du tableau

Triangle de Pascal

Chaque nombre du triangle C pn est obtenu en faisant la somme de celui


qui est juste au-dessus (C pn-1 ) et de celui qui est au-dessus et à gauche (Cp-1
n-1 )

Chapitre 5

Introduction à la probabilité

36
Expérience aléatoire

Exemples d’expérience aléatoire

Un fabricant contrôle les produits sortis de ces chaînes : il y a deux issues possibles,
ou bien le produit est sans défaut et peut être vendu, ou bien le produit présente des
défauts et va être jeté. L’univers est fini (conforme non-conforme)

On choisit un nombre entier positif on parle là d’univers infini discret (les valeurs
possibles sont toutes isolées) et dénombrable

On choisit un point dans le plan, l’univers des possibles est infini continue non-dénombrable

Le concept de probabilité
Il existe deux manières d’introduire la probabilité
La probabilité subjective
La probabilité subjective d'un événement est un nombre qui caractérise la croyance
que l'on a que cet événement est réalisé avec plus ou moins de certitude
La probabilité assimilée à une fréquence
Dans ce cas la probabilité est définie à partir d'expériences indéfiniment dénombrables.
La probabilité de cet événement est la fréquence de son apparition.

Si on répéte n fois la même expérience aléatoire dans des conditions identiques


nA
et si l'événement A est réalisé n A fois, le nombre est appelé fréquence de
n
réalisation de l'événement A sur n coups.

En général, la fréquence de réalisation tend à se stabiliser lorsque n devient grand ;


nA n
est une valeur approchée de p( A) i.e. p ( A) = lim A = lim f n ( A)
n x →+∞ n x →+∞

37
Loi de probabilité
Probabilité
Une probabilité est une mesure qui permet d’évaluer les chances de réalisations
des événements d’une expérience aléatoire.

Modéliser une expérience aléatoire, c’est définir l’ensemble des événements et une
probabilité sur cet ensemble

Dans le cadre de ce cours, une probabilité est une fonction, notée p, qui attribue à un
événement A une valeur p(A) désignant la probabilité que A se réalise

Loi de probabilité
Une probabilité possède les propriétés suivantes
a. 0 ≤ p( A) ≤ 1 pour tout événement A
b. p(Ω) = 1
c. p (∅ ) = 0
d . p ( A) = 1 − p ( A)

e. Si A ⊂ B (l'événement A implique l'événement B ), alors p ( A) ≤ p( B)


f. Si A et B sont deux événements incompatibles, alors la probabilité de la
réalisation simultanée des deux événements est la somme des probabilité :
P ( A ∪ B) = P ( A) + P( B)
g. Si A et B ne sont pas deux événements incompatibles, alors :
p( A ∪ B) = p( A) + p( B) - p ( A ∩ B )
n n
h. En général, on a : p (∪ Ai ) ≤ ∑ p (Ai ), mais si les les événements (Ai )i=1,⋯,n sont
i =1 i =1
n n
deux à deux incompatibles alors p (∪ Ai ) =
i =1
∑ p(Ai )
i =1

38
Loi de probabilité
Remarques

1. La dernière propriété est vraie aussi lorsque n est infini

2. Une conséquence immédiate de la dernière propriété est


n
Si A est un ensemble fini de Ω ; A = {w1 ,…, wn }. Alors p( A) = ∑
i =1
p( wi )

Le cas particulier où Ω est fini


Proposition
Supposons Ω est fini Ω ={w1 , ..., wn }, alors pour spécifier une probabilité p (ou une loi de
probabilité) sur Ω, il suffit de donner les nombres p( wi ) = pi , 1 ≤ i ≤ n tels que :
(i) pi ≥ 0, 1≤ i ≤ n
n
(ii ) ∑
i =1
pi = 1
Cas de l’équiprobabilité
Définition
On dit qu'il y a équiprobabilité lorsque les probabilités de tous les événements élémentaires sont égales
Proposition

On a jamais équiprobabilité sur un ensemble infini discret dénombrable


Preuve
En effet, supposons que les probabilités élémentaires pi (i ∈ ℕ ) sont toutes égales à un même α .
+∞
Alors p(Ω) = ∑
i =1
pi ne peut valoir que 0 (si α =0) ou +∞ (si α > 0), mais en aucun cas 1.

39
Le cas particulier où Ω est fini
Proposition
Supposons Ω est fini Ω ={w1 , ..., wn }, et que l'on a équiprobabilité des événements élémentaires.
Nombre de cas favorables card ( A)
Alors pour énénement A, on a : p( A) = =
Nombre de cas possibles card (Ω)
Démonstration ….

Commentaire

Lorsque Ω est fini, la façon la plus simple de construire une probabilité sur ( Ω, P (Ω) )
1
est de choisir pi = (card (Ω) = n). C'est la modélisation qui s'impose naturellement
n
lorsque l'on a pas de raison de penser a priori qu'un résultat élémentaire de l'expérience
soit favorisé ou défavorisé par les autres.

Probabilité conditionnelle
Définition Soit Ω un univers muni d'une probabilité p. Soit B un événement tel que p( B) > 0.
La probabilité qu'un événement A se réalise sachant que l'événement B a eu lieu
p( A ∩ B)
(ou probabilité conditionnelle en B ) est définie par : p ( A / B) =
p( B)
On la note aussi pB ( A)

Exemple On jette un dé une seule fois, soient les deux événements suivants :
A : obtenir un chiffre pair
B : obtenir un chiffre inférieur à 3
Calculer p ( A / B) ?
Réponse P(B) = 3/6
P(A ∩ B) = 1/6
P( A/B) = (1/6) / (3/6) = 1/3

Remarque On ne définit la probabilité conditionnelle que par rapport à un événement


de probabilité non nulle.

40
Probabilité conditionnelle

Soit B un événement tel que p( B) > 0, La fonction A → p( A / B) est une vraie probabilité
i.e. les règles de calcul avec les probabilités conditionnelles sont les mêmes qu'avec
les probabilités classiques.

a. 0 ≤ p ( A / B) ≤ 1 pour tout événement A

b. p(Ω / B ) = 1

c. p (∅ / B ) = 0

d . p ( A / B ) = 1 − p( A / B)

e. Si A1 ⊂ A2 , alors p ( A1 / B ) ≤ p ( A2 / B )

f . A1 et A2 deux événements , alors : p ( A1 ∪ A2 / B ) = p ( A1 / B ) + p( A2 / B) - p ( A1 ∩ A2 / B)

Événements indépendants
Définition
On dit que deux événements A et B sont indépendants
si l'un des deux et de probabilité nulle,
ou bien, lorsque les deux sont de probabilités non nulles, le fait de savoir que
l'un est réalisé n'influe pas sur la probabilité que l'autre le soit.
Autrement dit les deux événements sont indépendants si p( A / B) = p( A)
ou d'une manière équivalente si p( B / A) = p( B)
Proposition
Deux événements A et B sont indépendants si et seulement si : p( A ∩ B) = p( A) p( B)

Remarque
Ne pas confondre les deux notions d'événements indépendants et d'événements incompatibles !
Deux événements incompatibles ne sont jamais indépendants (sauf si l'un, au moins,
est de probabilité nulle)

Démonstration…

41
Événements indépendants
Exemple On jette un dé une seule fois, soient les deux événements suivants :
A : obtenir un chiffre pair
B : obtenir un chiffre inférieur à 3
Les événements A et B sont-ils indépendants ?
Réponse p ( A) = 3/ 6 , p( B) = 3/ 6 , p( A ∩ B ) = 1/ 6
p ( A / B) = (1/ 6) / (3/ 6) = 1/ 3 ≠ 3/ 6 = P ( A)

A et B sont deux événements dépendants, et on doit également avoir : P( B / A) ≠ P( B )


Exemple
Deux lancées successives et indépendantes d'une pièce truquée : Pile avec probabilité p ( p ≠ 0)
Face avec probabilité 1- p . Soit A ={premier lancer pile} et B ={deuxième lancer pile}
Les événements A et B sont-ils indépendants ?

Réponse
p ( A) = p (≠ 0), p ( B ) = p (≠ 0), p ( A ∩ B ) = p (( pile, pile)) = p 2 = P( A) × P( B )
Les deux événements A et B sont indépendants.

Événements indépendants
Exemple : considérons A="l'enfant à naître est un garçon" et B ="l'enfant à naître est une fille".
Les événements A et B sont incompatibles. Mais ils ne sont pas indépendants ! ! ! En effet,
p ( A ∩ B ) = 0 ≠ p(A) × p( B) = 0.5 × 0.5 = 0.25

Proposition Si A et B sont indépendants, alors il en est de même des couples d'événements :


i. A et B
ii. A et B
iii. A et B
Démonstration
p( A ) × P( B) − p( A ∩ B) = (1 − p( A)) × p( B) − ( p( B) − p( A ∩ B ) )
= p( A ∩ B) − p( A) × p( B)
Donc p( A ∩ B) = p( A) × p( B) ⇔ p( A ∩ B) = p( A ) × P( B)
Comme A et B jouent un rôles symétriques, on a le même résultat pour les deux événements A et B.
Puis en remplaçant A par A pour les deux événements A et B

42
Événements indépendants
Exercice

Soient A et B deux événements indépendants de probabilités respectives p(A) =0.3 et p(B) = 0.7.
Déterminer les probabilités : p( A ∩ B ), p( A ∪ B) et p ( A ∪ B)

Formule des probabilités composées


Proposition
Si A1 , . . . , An sont des événements de Ω tels que p( A1 ∩ . . . ∩ An ) > 0 , alors
p( A1 ∩ . . . ∩ An ) = p( A1) × p ( A2 / A1) × p( A3 / A1 ∩ A2 ) ×⋯ × p( An / A1 ∩ A2 ∩⋯∩ An−1)

Démonstration, Par récurrence …

Exemple Une urne avec 3 boules rouges, 3 blanches. On tire une boule trois fois sans remise.
Quelle est la probabilité d'obtenir trois boules blanches ?
Réponse
Soit Bi "tirer une boule blanche au i ième tirage"
p( B1 ∩ B2 ∩ B3 ) = p( B1 ) × p( B2 / B1 ) × p( B3 / B1 ∩ B2 )
3 2 1 1
= × × =
6 5 4 20
Probabilités composées dans le cas de deux événements
Soient A et B sont des événements de Ω tels que p( A ∩ B ) > 0 , alors
p( A ∩ B) = p ( A) × p( B / A) = p( B ) × p ( A / B )

43
Formule des probabilités totales
Théorème Soit ( Bi ) une partition de Ω (I est fini ou dénombrable) telle que p( Bi ) ≠ 0 ∀i ∈ I.
i∈I
Alors pour tout événement A de Ω on a : p(A)= ∑ p( A ∩ Bi ) = ∑ p( A / Bi ) × p(Bi )
i∈I i∈I
Remarque Cette formule permet de déterminer les probabilités d'un événement A si l'on dispose
des probabilités conditionnelles avec les événements d'une partition et les probabilités
des événements de la partition.
Exemple
Un sac contient des jetons de trois couleurs différentes, blancs (50%), verts (25%)
et jaunes (25%). Les jetons peuvent être ronds ou cubiques. On suppose que 50%
des jetons blancs sont ronds, 30% des jetons verts sont ronds et 40% des jetons jaunes sont ronds.
Quelle est la probabilité qu'un jeton soit rond ?

Réponse Les événements B, V et J forment une partition de l'univers. D'après la formule


des probabilités totales on a : p( R) = p( R ∩ B ) + p( R ∩ V ) + p(R ∩ J )
= p ( R / B) p( B) + p( R / V ) p (V ) + p( R / V ) p(V )
= 0.5 × 0.5 + 0.3 × 0.25 + 0.4 × 0.25

Formule des probabilités totales


Remarque

B et B forment toujours une partition de Ω. Alors, pour tout événement A, p( A) = p( A ∩ B ) + p ( A ∩ B )

Les probabilités d’intersection se calculent


grâce aux probabilités conditionnelles

Remarque
On peut construire un arbre pondéré des probabilités pour modéliser la situation.
Mais dans les faits on va faire référence à la formule des probabilités totales

44
Formule de Bayes
Théorème
Soit A1,⋯, An une partition de Ω (des événements incompatibles deux à deux
et dont la réunion est égale à Ω). Soit B un événement tel que p ( B ) ≠ 0.
Supposons connaître les probabilités p ( Ai ) et le probabilités conditionnelles
p ( B / Ai ) pour i = 1,⋯, n.
On peut alors calculer les probabilités p( Ai / B) pour i = 1,⋯, n par :

Probabilité conditionnelle

p( Ai ) × p( B / Ai ) p( Ai ) × p( B / Ai ) p ( Ai ) × p( B / Ai )
p( Ai / B ) = = n = n
p ( B)
∑ p( B ∩ Ak )
k=1
∑ p( Ak ) × p(B / Ak )
k=1
Probabilité Probabilité
a posteriori a priori

Formule de Bayes
Exemple Dans une population 1 habitant sur 100 est atteint d'une maladie génétique A, on a
mis au point un test de dépistage. Le résultat du test est soit positif (P) soit négatif N.
On sait que p ( P / A) = 0.8 et p ( N / A) = 0.9
On soumet un patient au test. Celui-ci est positif.
Quelle est la probabilité que ce patient soit atteint de la maladie A ?
Réponse Il s'agit de déterminer p( A / P ).
Les événements A et A forment une partition de Ω
p( A ∩ P ) p( P / A) p ( A)
D'après la Formule de Bayes p( A / P ) = =
p( A) p( P / A) p( A) + p( P / A) p ( A)
0.01× 0.8
= = 0.075
0.01× 0.8 + 0.1× 0.99
Commentaire
Ainsi, avant le test, la probabilité d'être malade était p( A) = 0.01 (probabilité a priori)
Et après le test la probabilité d'être malade est p( A / P ) = 0.075 (probabilité a postériori)
Ainsi le test apporte un supplément d'information.

45
Chapitre 6

Variable aléatoire

Variable aléatoire : outline

o Notion de variable aléatoire

o Distribution ou loi de probabilité d’une variable aléatoire

o Fonction de répartition d’une variable aléatoire

o Grandeurs caractéristiques d’une variable aléatoire

o Couples de variables aléatoires

46
Variable aléatoire
Définition : Une variable aléatoire X est le procédé qui relie l'expérience aléatoire à un nombre.
En termes mathématiques
Soit (Ω, p) espace probabilisé. Une v.a. X est une application de (Ω, p) dans un ensemble F
w ∈Ω → X ( w) ∈ F
On ne considère, dans le cadre de ce cours, que les v.a. réelles i.e. F=]a,b[ un intervalle de ℝ
Exemples
o Soit l'expérience "jeter un dé" et soit X la v.a. représentant la valeur inscrite sur la face
supérieure. Un joueur effectue une 1ère fois cette expérience, il obtient la réalisation x1 = 4.
Il recommence une 2ème fois l'expérience et obtient la réalisation x2 = 3, etc...
v.a. discrète finie

o Soit l’expérience "choisir un nombre entier" et X la v.a. représentant le nombre obtenu. X


peut prendre tous les entiers naturels v.a. discrète infinie

o Soit l'expérience "tirer une pièce parmi une production" et soit X la v.a. représentant la
longueur de la pièce tirée.
L'ingénieur d'usine effectue une 1ère fois cette expérience, il obtient la réalisation x1 =
10,2cm. Il recommence une 2ème fois l'expérience et obtient la réalisation x2 = 9,9cm, etc...
(toutes les valeurs d’un intervalle [a,b] peuvent être prises par X) v.a. continue

Variable aléatoire : support

Support d’une v.a.


Le support d’une v.a. X est l’ensemble de ses valeurs possibles, on le notera S(X).

Variable aléatoire discrète.


Une v.a. est dite discrète finie si ses résultats possibles sont finis S ( X ) = {x1, x2 ,…, xn}

Une v.a. est dite discrète dénombrable infinie si ses résultats possibles sont infinis
dénombrables (illimités)
S ( X ) = {x1, x2 ,…, xn ,…}

Variable aléatoire continue


Une v.a. est dite continue si l’ensemble de ses résultats possibles forment un intervalle de valeurs

47
Variable aléatoire : exemples
Exemples
A l'usine, on dispose d'un lot de 30 pièces prélevées dans la production sur lesquelles on
effectue un contrôle de qualité à l'issue duquel on déclare les pièces conformes ou
non-conformes. Soit X la v.a. qui compte le nombre de pièces non-conformes.
• L'ensemble des valeurs possibles pour X est S ( X ) = {0,1,…,30} X v.a. discrète finie
• L‘événement "2 pièces sont non-conformes" se note (X = 2).
• (X = 100) est un événement impossible

• 8.5 ≤ X ≤ 10.5 est l'événement "9 ou 10 pièces sont non-conformes"

On s'intéresse au poids des pièces qui peut varier de 10g à 20g. Soit X la variable aléatoire
représentant le poids (en g) d'une pièce.
• L'ensemble des valeurs acceptables pour X est S ( X ) = [10,20] X v.a. continue
• (X = 12) = le poids d'une pièce est de 12g.
• (X = 100) est un événement impossible
• 10.5 ≤ X ≤ 12.5 le poids d'une pièce est compris entre 10.5g et 12.5g.

Que voulons savoir sur une Variable aléatoire ?


Intérêt on s’intéresse aux chances de réalisation des valeurs de X plutôt qu’aux chances
de réalisations des résultats de l’expérience.
Comment étudier une v.a. ?
∗ Quelles sont les valeurs possibles prises par la v.a. X ?
∗ Quelles sont les probabilités de différentes valeurs prises par une v.a. X ?
∗ Quelles sont les probabilités que les valeurs prises par une v.a. X appartiennent à un intervalle donné ?
∗ En moyenne, quelle est la valeur espérée de X ? et quels sont les risques qu'une réalisation de X
soit éloignée de cette valeur ? et avec quelle marge ?
Grâce à la v.a. X, on transporte la structure probabiliste sur les réels
p X ( A) = p( X −1 ( A)) = p{ w ∈Ω, X ( w) ∈ A } ∀A ⊂ ℝ

( )
Par exemple, p X ( ]a, b[ ) = p X −1 ( ]a, b[ ) = p{w ∈Ω, a < X ( w) < b} ∀( a, b) ∈ ℝ 2
Soit A un événement de ℝ, { X ∈ A} = p{w ∈ Ω, X ( w) ∈ A} = X −1 ( A).
Cela signifie aussi X −1 ( A) est un événemnet de Ω.
Soit p X l'application qui associe à tout événement A de ℝ le nombre p X ( A) = p ( X ∈ A) ∈ [0,1]
p X est une loi de probabilité sur ℝ, que l'on appelle loi de la v.a. X

48
Loi de probabilité et fonction de répartition
Loi de probabilité
Définition La loi (ou la distribution) de probabilité d’une v.a. décrit comment sont réparties
les probabilités en fonction des valeurs de la v.a.
Elle permet de connaître les valeurs de p X ( A) = p{w ∈Ω, X ( w) ∈ A} ∀A ⊂ ℝ
Fonction de répartition
Définition : la fonction de répartition d’une v.a. X est la fonction définie par :
FX ( x) = p( X ≤ x) = p( X −1 ]−∞, x ])
Elle permet de déterminer la probabilité que les valeurs prises par la v.a. X soient inférieures à
une valeur donnée. C’est également le pourcentage des valeurs de X inférieures à cette valeur.
Propriétés
La fonction de répartition est croissante, continue à gauche et à valeurs dans [0,1]

x1 < x2 alors F(x 2 ) = F ( x1 ) + PX ( ]x1, x2 ]) ≥ F ( x1)


p X (ℝ) = p{ w ∈Ω, X ( w) ∈ ℝ } = p(Ω) = 1
lim FX ( x) = 0 lim FX ( x) = 1 mais elle n'est pas forcément continue à droite
x →−∞ x→+∞

p X ( ]a, b]) = p(a < X ≤ b) = p( X ≤ b) − p( X ≤ a) = FX (b) − FX (a) ∀a et b tels que a ≤ b

Loi de probabilité
Remarque
La donnée de la loi de probabilité d’une v.a. pour certains événements simples permet de définir
p X ( A) pour tout événement A ⊂ ℝ

• Les événements élémentaires pour une variable discrète

• Les événements du type ]- ∞, x[ ou ]- ∞, x] ou ]x, +∞[ ou [ x, +∞[, x ∈ℝ pour


une variable continue. Cela revient, en fait, à donner seulement la fonction de répartition

49
Loi de probabilité d’une v.a. discrète
Loi d’une v.a. discrète La loi de probabilité d’une v.a. discrète X est la donnée de

p( X = xi ), noté pi , ∀xi ∈ S ( X ) tels que 0 ≤ pi ≤ 1 et ∑i pi = 1

 p( X = x) si x ∈ S ( X )
Cela revient à définir une fonction sur ℝ comme suit : f X ( x) = 
0 sinon

Calcul de la probabilité d’un événement quelconque


p X ( A) = ∑
i / xi∈A
pi pour tout événement A de ℝ

Fonction de répartition d’une v.a. discrète


Fonction de répartition d’une v.a. discrète

F ( x) = p( X ≤ x) = ∑ pi
i / xi ≤ x

Remarques
∀x ∈[ xi−1, xi [ FX ( x) = FX ( xi−1)

FX ( xi ) − FX ( xi−1) = p( X = xi ) = pi
En plus, des propriétés que l’on a vues dans le cas d’une v.a. quelconque, la fonction de
répartition d’une v.a. discrète, est une fonction en escalier, discontinue à gauche,
présentant des sauts pi en chaque xi

50
Variable aléatoire : cas discret
Exemple : on lance successivement deux dé.
On considère la v.a. X : la somme des deux chiffres obtenus.
Valeur de X 2 3 4 5 6 7 8 9 10 11 12

pi 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

P(X<= x) 1/36 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 35/36 1

Représentation graphique
Proba(X=x)

0,18 0,17
0,16
0,14 0,14
0,14
0,11 0,11
Ici F répartition
0,12
0,1 0,08 0,08
Proba(X=x)
0,08
0,06 0,06
0,06
0,04 0,03 0,03
0,02
0
0
1 2 3 4 5 6 7 8 9 10 11 12

Variable aléatoire : cas continu


Définition La loi de probabilité, d’une v.a. continue, est définie par une fonction
dite densité de probabilité :
o Positive

o L’aire sous la courbe vaut 1, c-à-d


∫ℝ f X (t ) dt = 1
on parle aussi de v.a. absolument continue
Définition
La fonction de répartition d'une v.a. absolument continue est définie par :
x
FX ( x) = p( X ≤ x) = p ( X ∈] − ∞, x]) = pX ( ] − ∞, x]) = ∫ f X (t ) dt
Propriétés −∞
∗ Si la densite de probabilité f X est continue, alors la fonction de répartition est dérivable, et
FX' ( x) = f X ( x) ∀x ∈ ℝ
a
∗ p ( X = a) = ∫ f X (t ) dt = 0
a
b
∗ p (a ≤ X ≤ b) = p (a < X ≤ b) = p (a < X < b) = p (a ≤ X < b) = ∫ f X (t ) dt
a
∗ p (a ≤ X ≤ b) = FX (b) − FX ( a )

51
Variable aléatoire
Cas continu b
p(a ≤ X ≤ b) = ∫f X (t ) dt = F (b ) − F ( a )
fX(t) a

t
a b
La probabilité d'obtenir une valeur de X dans l'intervalle [a, b] est égale à l'aire
du domaine situé sous la courbe de la densité f X entre les abscisses a et b

Fonction de répartition
Fonction de répartition d’une v.a. représentant le poids, en gramme, d’une pièce métallique.

∗ F(400)=p(X ≤ 400) : probabilité d'avoir un poids inférieur ou égale à 400g

∗ p(X>300)=1-p(X ≤ 300)=1-F(300) : probabilité d'avoir un poids supérieur à 300g

∗ p(300 ≤ X ≤ 400)=F(400)-F(300) : probabilité d'avoir un poids compris entre 300g et 400g

52
Variable aléatoire

f X ( x)

a
FX (a) = p( X ≤ a) = p( X < a) = ∫ f X (t )dt
−∞

L’aire entre la courbe de la fonction densité, l’axe des abscisses et la droite x=a

Variable aléatoire : principaux indicateurs

Les lois de probabilité se caractérisent par 3 types de grandeurs fondamentales :

o La tendance centrale (l’espérance mathématique)

o La dispersion (la variance et l’écart-type)

o La forme (l’asymétrie et l’aplatissement)

53
Variable aléatoire
Définition : L’espérance mathématique d’une v.a. X est définie par :
+∞
Cas discret E( X ) = ∑ xi pi Cas continu E( X ) = ∫ x f X ( x) dx
i / xi∈S ( X ) −∞
L’espérance n’est définie que ces sommes le sont
Interprétation L’espérance d’une v.a. X représente la valeur moyenne de X : c’est celle
que l’on peut espérer en répétant un grand nombre de fois l’expérience
Exemple On lance une pièce truquée : p(pile)=0.6
Si on obtient pile, on perd 100 DH sinon on gagne 200 DH
X : v.a. égale au gain du joueur. Calculer E(X). Interpréter
Réponse E(X)= (-100) x 0.6 + 200 x 0.4 = 20 DH
Si l’on joue plusieurs fois, on peut espérer gagner 20 DH
Le jeu est plutôt favorable, mais ça reste une moyenne
L'espérance est linéaire
E (aX + bY ) = aE ( X ) + bE (Y ) a, b ∈ ℝ 2 , X ,Y deux v.a. d'espérances finies
Remarque Si la v.a. est constante égale à c ∈ ℝ alors E ( X ) = c
Variable aléatoire centrée Un e v. a. est dite c en trée si E(X ) = 0

Variable aléatoire : variance


Définition : La variance d’une v.a. X est l’espérance mathématique du carré de la v.a.
centrée (associée à X) et s’écrit : 2
σ X =V (X ) = E[ X − E( X )]
2
Propriétés
• En pratique, on utilise l'expression équivalente et plus opératoire : V ( X ) = E ( X 2 ) − [ E ( X ) ]
2

• V ( X ) = 0 ssi la v.a. X est constante


• V(aX+b) = a 2 × V(X) a, b ∈ℝ 2
• En général : V(X1 + X 2 ) ≠ V(X1 ) + V(X 2 )

n n
Cas discret σ X2 = V ( X ) = ∑ pi ( xi − E ( X )) 2 = ∑ pi xi 2 − E ( X ) 2
i =1 i =1

+∞
Cas continu σ X2 = V ( X ) = ∫x
2
f ( x) dx − E ( X )2
−∞

54
Coefficient de variation :
Le coefficient de variation d’une v.a. X se définit par :

σX
Cv = si E ( X ) ≠ 0
E(X )
Interprétation

o Il mesure la variabilité et la dispersion de la v.a.

o Une loi avec un coefficient de variation supérieur (inférieur) à 1 est considérée


comme une loi avec une variance élevée (faible).

o Le coefficient de variation est défini seulement pour des variables avec valeurs
possibles positives (il risquerait sinon d’être négatif, ce qui n’aurait pas de sens pour
une mesure de variabilité).

Variable aléatoire : écart type


L’écart type d’une v.a. X se définit comme la racine carrée de la variance de cette v.a.

σ X = V (X )
Remarque
L‘écart type a la même échelle que les valeurs pouvant être prises par la v.a. X.
Interprétation
o L’écart type mesure la dispersion des valeurs d’une v.a par rapport à son espérance

o Plus l’écart type est grand plus la variable prend des valeurs qui peuvent être éloignées les
unes des autres.

o Plus l’écart type est petit plus la variable prend des valeurs proches de sa moyenne

Définition Une v.a. est dite réd uit e s i σX = V (X ) = 1

55
Variable aléatoire
Grandeurs caractéristiques de position
Ils permettent d’avoir des informations probabilistes sur l’ordre de grandeur de
l’ensemble des valeurs prises par la v.a. et de localiser la (ou les) zone des valeurs
les plus probables
o l'espérance

o La médiane (lorsqu’elle est définie) est le réel telle que la v.a. X a autant de chance de
se réaliser au-dessus qu’en dessous. p ( X ≤ x ) ≥ 0.5 et p ( X ≥ x) ≥ 0.5

Variable aléatoire
Grandeurs caractéristiques de dispersion
Préciser le degré de dispersion des différentes valeurs prises
par la v.a. autour d’une valeur centrale.

La variance et L’écart type expriment à quel point les valeurs prises par X sont
dispersées autour de son espérance. Plus les valeurs de ces paramètres sont élevées, plus
la dispersion, autour de l’espérance, des valeurs de la v.a. est importante.

Définition

Soit α ∈[0,1]
Le quantile ou le fractile d'orde α de la v.a. X est la valeur qα tel que : p( X ≤ qα ) = α
La probabilité que les réalisations de la v.a. X soient inférieures à la valeur qα vaut α

Les quantiles permettent de fournir l'intervalle dans lequel X se réalise avec 50%, 75%,
95% .... de chances par exemple.

56
Couple de variables aléatoires

Couple de variables aléatoires


On considère deux v.a. X et Y définies sur (Ω, p), on souhaite étudier les liens entre ces deux v.a.
Couples de variables discrètes
Loi conjointe
Exemple
p x y = p( X = x , Y = y ) ∀x ∈ S ( X ), y ∈ S (Y )
Dans une urne contenant quatre boules
Loi marginale de X indiscernables au toucher numérotées de 1 à 4.
p ( X = x) = ∑y p( X = x , Y = y) = ∑y px y On en tire simultanément deux.
X le plus petit des numéros sortis et Y le plus
Loi marginale de Y grand.
Donner la loi conjointe et les lois marginales de
p (Y = y ) = ∑x p( X = x , Y = y) = ∑x px y X et Y.

Définition Les v.a. X et Y sont dites indépendantes si tout événement relatif à une des
deux variables est indépendant de tout événement relatif à l’autre
Formellement
tout événement [ X ∈ I ], I ⊂ ℝ est indépendant de tout événement [Y ∈ J ], J ⊂ ℝ.
Autrement dit, ∀I , J ⊂ ℝ : p ( X ∈ I , Y ∈ J ) = p ( X ∈ I ) p (Y ∈ J )

57
Couple de variables aléatoires

Caractérisation de l'indépendance pour un couple de variables discrètes


p ( X = xi , Y = y j ) = p ( X = xi ) × p (Y = y j ) ∀ xi ∈ S ( X ), ∀y j ∈ S (Y )

Caractérisation de l'indépendance pour un couple de variables contin ues


f X,Y (x , y)= f X (x)f Y (y) ∀( x, y ) ∈ ℝ 2

→ Deux variables aléatoires sont indépendantes si la densité


conjointe est égale au produit des densités marginales

Proposition
Si deux variables aléatoires X et Y sont indépendantes alors
(i) E ( XY ) = E ( X ) × E (Y )
(ii) V ( X + Y ) = V ( X ) + V (Y )

Couple de variables aléatoires


La covariance des deux v.a. X et Y s’écrit Cov( X , Y ) = E ( X − E ( X ) ) × (Y − E (Y ) ) 
Le coefficient de corrélation linéaire Cov( X , Y )
rXY =
σ X σY
Propriétés de la covariance
• C o v ( X , Y ) = E ( X Y ) − E ( X ) × E (Y )
• C o v ( X , Y ) = C o v (Y , X )
• S i X e t Y s o n t in d é p e n d a n te s , a lo rs E ( X Y ) − E ( X ) ⋅ E ( Y )
d o n c C o v ( X , Y ) = rX Y = 0
• V ( a X + b Y + c ) = a V ( X ) + b 2V ( Y ) + 2 a b C o v ( X , Y )
2

• S i r X Y = ± 1, a lo r s Y = a X + b
• Si rXY = 0, les v.a. X et Y sont dites non corrélées linéairement.

Ces deux nombres mesurent l’importance de la dépendance linéaire entre les deux v.a.

58
Couple de variables aléatoires
Remarque
Cov ( X , Y ) = rX Y = 0 n'implique pas que X et Y sont indépendantes

Exemple :
Soit la paire de v.a. discrètes (X,Y) où S(X)= {-1, 0, 1} et S(Y)= {-2, 0, 2}. Les valeurs de la
fonction de masse de probabilité conjointe de (X, Y) sont fournies dans le tableau suivant

Y -2 0 2 Clairement, on a : p (X=-1) = p (X=0) = p (X=1) = 1/3


X p (Y=-2) = p (Y=2) = 1/6 et p (Y=0) = 2/3

-1 0 1/3 0 E ( XY ) = ∑ px y x y = 0 = E ( X ) = E (Y )
x, y
0 1/6 0 1/6 ⇒ Cov( X ,Y ) = 0 ⇒ rX Y = 0
1 0 1/3 0
Toutefois,

p(X=0,Y=0) # p(X=0)p(Y=0) = 2/9. Alors, les v.a. X et


Y ne sont pas indépendantes bien que leur covariance
soit nulle

Chapitre 7

Distributions de probabilité usuelles discrètes

59
Exemples de distribution de probabilité discrète

o Loi de Bernoulli

o Loi Binomiale

o Loi hypergéométrique

o Loi de Poisson

Loi de Bernoulli ou loi 0-1


Contexte On considère une expérience aléatoire où l'on ne s'intéresse qu'à la réalisation ou
la non réalisation d'un événement A. L'univers Ω est constitué de A et A.
On définit la v.a. X en associant 1 à l'événement A et 0 à l'événement A,
de telle sorte que p( A) = p( X = 1) = p et p( A) = p( X = 0) = 1 − p
Alors S ( X ) = {0, 1 }
La loi de probabilité de cette v.a. est appelée loi de Bernoulli de paramètre p
on parle aussi de loi 0 -1. On note X ∼ Ber ( p)
0 si x < 0
1- p si x = 0 
On a : p X ( x) =  et FX ( x) = 1-p si 0 ≤ x < 1
 p si x = 1  1 si x ≥ 0

Remarque
La réalisation de l'événement A sera appelée succès, sa non réalisation étant alors appelée échec
(les termes succès et échec ne font pas référence au caractère bon ou mauvais du résultat de l'expérience)

Espérance E ( X ) = q × 0 + p ×1 = p
Variance V ( X ) = q × (0 − p )2 + p × (1 − p) 2 = pq = p (1 − p) ⇒ σ X = p(1 − p)

60
Loi de Binomiale
Contexte
( )
On considère une expérience aléatoire qui ne possède que deux résultats : le succès ( S ), échec S .
Soit p = p( S )
On répète n fois cette expérience et on suppose que les n répétitions sont indépendantes.
On pose X : le nombre de succès au cours de n répétitions.
Alors on dit que la v.a. X suit la loi binomiale de paramètres n et p, on note X ∼ B(n, p)
Caractéristiques d’une loi binomiale
Le support de X : S ( X ) = {0,1,⋯, n}
La fonction de masse : p X (k ) = Cnk p k (1 − p )n−k ∀k ∈ S ( X )
k
La fonction de répartition : FX ( k ) = ∑ Cni pi (1 − p)n−i ∀k ∈ S ( X )
i =0
Comme le calcul de FX (k ) est fastidieux lorsque n devient grand, on utilise souvent en pratique
une table de loi binomiale ou des logiciels qui fournissent les valeurs de cette fonction.
Espérance E ( X ) = n × p
Variance V ( X ) = npq = pn(1 − p) ⇒ σ X = np(1 − p )

Loi de Binomiale
Remarques (i) La loi binomiale modélise le nombre de succès dans une expérience aléatoire
équivalente à "n tirages indépendants et avec remise parmi N éléments, dans
lequel on s'intéresse au nombre de fois où un événement donné se réalise.
Elle permet de modéliser le nombre de succès lors d'un sondage avec remise

(ii) Le nombre d'échecs (qui est Y = n - X ) suit la loi B(n,1- p )


Exemple On lance 10 fois un dé bien équilibré.
Quelle est la probabilité d'obtenir 4 fois le chiffre 1 ?
Réponse
"Lancer un dé" possède deux issues : succès "S" obtenir 1 ; échec "S" obtenir un chiffre différent de 1
1
p(S ) = = p
6
On répéte 10 fois cette expérience de manière indépendante.

Soit X le nombre de fois où l'on obtient 1. Alors X ∼ B(10, 1 )


6
4 10−4
4 1 5
p ( X = 4) = C10   ×  = 0.054
  6
6

61
Loi de Binomiale
Proposition
Si X1 et X 2 sont deux variables indépendantes de lois respectives B (n1, p)
et B ( n2 , p) (lois de même paramètre p). Alors X1 + X 2 suit la loi B (n1 + n2 , p)

Exercice
Un lot contient 20 articles parmi lesquels 4 sont défectueux.
On tire avec remise 7 articles du lot. Calculer
1. La probabilité d'observer exactement un article défectueux.
2. La probabilité d'observer au moins 4 articles défectueux.
3. L'espérance et la variance du nombre d'articles défectueux.

Loi de Hypergéométrique
Contexte
Soit une population de N individus parmi lesquels une proportion p (c-à-d N p = N × p individus )
possède un caractètre donné.
On prélève un échantillon de n individus parmi cette population (le tirage pouvant s'effectuer d'un
seul coup ou au fur et à mesure mais sans remise)
Soit X le nombre aléatoire d'individus de l'échantillon possédant la propriété considérée.
Alors X suit la loi hypergéométrique de paramètre N , n et p. On note X ∼ H ( N , n, p )
Remarques
• N p = N × p est un entier représentant le nombre d'individus possédant le caractère étudié.
• N q = N − N p = N (1 − p ) = N × q : le nombre d'individus dans la population qui n'ont pas ce caractère.

• Une loi hypergéométrique représente le nombre de fois où un événement se réalise


en n tirages indépendants, sans remise, parmi N éléments.

62
Loi de Hypergéométrique
Caractéristiques d’une loi hypergéométrique

• Le support de X est : S ( X ) = {0,1,⋯, min( N p , n)}

Nombre de groupe de (n - k ) individus


Nombre de groupe de k individus ne possédant pas la propriété
possédant la propriété

C Nk C Nn-k
p q
• La fonction de masse de X est donnée par : p( X = k ) = n ∀k ∈ S ( X )
CN

Nombre d'échantillons possibles

• L'espérance mathématique de X est : E ( X ) = n × p


N -n
• La variance de X est : V ( X ) = n× p× q
N -1

Loi de Hypergéométrique
Exemple On fait un sondage dans une population de 1000 personnes pour chercher un caractère C.
On fait un tirage au sort de 50 personnes.
Dans la population on considère que la répartition du caractère C est de 20 %.
Quelle est la probabilité que l'on ait dans le sondage 10 individus ayant le caractère C ?
Réponse X : le nombre d'individus ayant le caractère C dans l'échantillon
Alors X ∼ H (1000, 50, 0.2)
C10 × C 40
p ( X = 10) = 20050 800 = 0.1434
C1000

Exercice Une boîte contient 20 composants parmi lesquels 2 sont défectueux.


Trois composants sont pris au hasard et sans remise de la boîte.
Soit X le nombre de composants défectueux dans l'échantillon.
Quelle est la probabilité d'avoir moins d'un composant défectueux dans l'échantillon ?
Combien de composants, en moyenne, y a-t-il dans l'échantillon ? Déterminer un paramètre
qui caractèrise la dispersion du nombre de composants défectueux autour de ce nombre ?

63
Loi de Hypergéométrique
Approximation d’une distribution hypergéométrique par une loi normale
Soit une v.a. X est distribuée selon une loi hypergéométrique ( X ∼ H ( N , n, p) ) ,
Si N est grand par rapport à n, on n'hésite pas à substituer la loi B(n, p) à la loi H ( N , n, p )
(en fait lorsque N → +∞ les tirages avec remise ou sans remise sont pratiquement équivalents)
C'est à dire que X peut être supposée binomiale avec X ~ B ( n, p )
∗ Lorsque N est grand par rapport à n et le sondage est effectué sans remise, on l'assimile à
un sondage avec remise et on parle de sondage avec remise assimilé
∗ En pratique, cette approximation sera valable, pour nous, lorsque 10 × n < N
∗ La loi hypergéométrique n'est utililée que lorque le rapport N / n est faible.
∗ Lorsque N / n augmente la distinction entre tirage avec ou sans remise est
de moins en moins pertinente
N 1000
∗ Dans l'exemple précédent on a : = = 1000 / 50 = 20 > 10
n 50
p ( X = 10) = 0.1434 loi hypergéométrique, p ( X = 10) = 0.1398 loi binomiale
Les deux lois donnent pratiquement la même probabilité
∗ Par contre dans l'exercice précédent, on ne peut pas substituer
la loi binomaile à la loi hypergéométrique

Loi de Poisson
La loi de Poisson
Soit λ un nombre réel strictement positif.
On dit qu'une variable aléatoire X suit une loi de Poisson de paramètre λ
lorsque S ( X ) = {0,1,⋯ , k ,⋯} avec les probabilités suivantes :
λk
p ( X = k ) = e −λ pour tout entier k
k!
On note alors X ∼
Po(λ )
La variable aléatoire X peut prendre tous entiers k ∈ ℕ. Cependant, lorsque k est suffisamment
grand, la probabilité correspondante devient extrèmement faible.

La loi de Poisson est tabulée …

• L'espérance mathématique de X est : E ( X ) = λ


• La variance de X est : V ( X ) = λ

64
Loi de Poisson
Densité de probabilité

Loi de Poisson de paramètre égale à : 1, 2, 5

Po(1) Po(2) Po(5)

i Les valeurs les plus probables sont proches du paramètre de la loi


i Lorsque le paramètre augmente, la loi tend à devenir symétrique

Loi de Poisson
Utilisation de la loi de Poisson

Il est courant d'utiliser la loi de Poisson lorsque l'on s'intéresse à la probabilité d'observer
un certain nombre de réalisations d'un événement faiblement probable, et les éventuelles
occurrences de cet événement sont indépendantes. et que le nombre de survenues
possibles est potentiellement élevé, de telle sorte que l'événement d'intérêt ait des
chances de se réaliser quelques fois.
Voici quelques exemples :

∗ Nombre d'individus ayant des effets secondaires d'un médicament


∗ Nombre de survenue d'un accident lors des examens radiologiques
∗ Nombre de pièces défectueses produites par une machine.
∗ D'une manière générale, la loi de Poisson est utilisée dans le comptage d'événements rares

65
Loi de Poisson
La loi de Poisson peut également être uitilisée pour la modélisation du nombre d'occurrences
indépendantes d'un événement dans un intervalle de temps ou des intervalles saptiaux(longueur,
surface, volume), ou dans d'autres grandeurs
∗ Nombre d'accidents de circulation mortels par jour dans un pays
∗ Nombre de ponts sur un ségment 100 km de route
∗ Nombre de bactéries pathogènes en suspension dans un échantillon d'eau de distibution
∗ Nombre d'erreurs typographiques sur une page d'un livre
∗ Nombre de mutations aléatoires d'un gène
∗ Nombre de défauts sur une pièce usinée

Le paramètre de la loi de Poisson dans ces cas


Dans le cas où l'on modélise le nombre d'occurrences d'un événement, par exemple sur un
intervalle de temps, par une loi de Piosson, le paramètre λ est défini par λ = µ t , où t est
l'intervalle de temps sur lequel le nombre d'occurrences est compté et µ le nombre
d'occurrences moyen par unité de temps.

Loi de Poisson
Exemple
Une machine utilisée dans une chaîne de production tombe en panne en moyenne 2 fois par mois.
Soit X le nombre de panne par mois. En supposant que X suit la loi de Poisson, quelle est la
probabilité que dans un mois donnée la machine
(i) ne tombe pas en panne ;
(ii) tombe en panne au moins deux fois ?
Solution
X ∼ Po(2 ×1) = Po(2) L'unité de temps est le mois. Le nombre d'occurrences moyen est 2
0
2
(i ) p ( X = 0) = e −2 = 0.1353
0!
(ii ) p ( X ≥ 2 ) = 1 − p( X < 2)
= 1 − p ( X ≤ 1)
= 1 − 0.406 (d'après la table de la loi de Poisson)
= 0.594

66
Loi de Poisson
Proposition

La somme de n v.a., X1,⋯ , X n , indépendentes, distribuées selon une loi de Poisson, de paramètres
n n  n 
λ1,⋯ , λn , suit une loi de Poisson de paramètre égale à ∑ λi c'est à dire ∑ X i ∼Po  ∑ λi 
i =1 i =1  i =1 

Approximation d’une loi binomiale par une loi de Poisson


Proposition Si une v.a. X est distribuée selon une loi binomiale B (n, p ), on montre que si p est petit
(en pratique, p ≤ 0,1) n assez grand (n ≥ 30) et n × p est modéré (n × p ≤ 5), la loi
binomiale peut être approximée par une loi de Poisson de paramètre λ = n × p.
Exemple Dans une société donnée, on estime à 0.01 la probabilité qu'un employé soit
absent de manière ponctuelle et imprévisible durant une journée complète
(on ne considère pas les maladies donnant lieu à des absences prolongées).
Si cette société emploie 130 personnes, quelle est la probabilité qu'il ait
k ( k = 0,1, 2,⋯ ) personnes absentes un jour donnée?
Réponse Si l'on suppose que les employés sont présents ou absents de façon indépendante et que

la probabilité d'une absence est la même chaque jour et pour chaque employé, alors le
nombre X de personnes absentes un jour donné est X ~ B(130,0.01), le tableau suivant
donne les valeurs de p ( X = k ), qui sont très proches, pour les deux lois
P( X ≥ 1) = 1- 0.27 = 0.73
x 0 1 2 3 4 …
Il est assez probable qu'au
X ∼ B(130,0.01) 0.271 0.356 0.232 0.100 0.032 …
moins une personne soit
X ∼ Po(1.30) 0.273 0.354 0.230 0.100 0.032 …
absente chaque jour!

67
Approximation d’une loi binomiale par une loi de Poisson
Exemple 2 % des dossiers de crédit arrivent au service contentieux un an après leur signature.
Soit un lot de 100 dossiers. Quelle est la probabilité qu'aucun dossier ne devienne
contentieux à un an ?
Réponse X : "le nombre de dossier devenant contentieux en un an"
X ∼ B (n, p) n = 100 ≥ 30 ; p = 0.02 ≤ 0.1 et n × p = 2 ≤ 5
On est dans le domaine de validité de l'approximation d'une loi binomiale
par une loi de Poisson. Donc X ∼ Po(2)
P( X = 0) = 0.1353

Chapitre 8

Distributions de probabilité
usuelles continues

68
Exemples de distribution de probabilité continue

o Loi uniforme

o Loi exponentielle

o Loi normale

o Loi de Khi-deux

o Loi Student

Loi uniforme
Définition
Lorsque la fonction de densité de probabilité est constante sur un intervalle [a,b] et nulle par
tout ailleurs. On parlera de loi uniforme de paramètre a et b

Formellement, si une v.a. X à valeur dans un segment [a; b]


a pour densité la fonction définie par :  1 x ∈ [ a, b]
fX ( x) =  b − a
 0 ailleurs
on dit qu’elle suit une loi de probabilité uniforme.
Ce que l’on note Un(a;b)
Paramètres
Fonction de répartition
b+a
 0 x<a E( X ) =
2
 x − a (b − a)2
FX ( x ) =  a≤ x≤b V (X ) =
 b − a 12
 1 x<b b−a
σX =
2 3

69
Loi uniforme
Exemple
On choisit un nombre réel au hasard dans l’intervalle [0 ; 5]. On associe à X le nombre choisi.
Quelle la probabilité que ce nombre soit supérieur à 4 ?

La répartition des valeurs prises par la v.a. X dans chaque sous-intervalle de [0 , 5] est la même
X ∼ Un(0 ; 5)
p ( X > 4) = 1 − p ( X ≤ 4)
= 1 − FX (4)
4−0 1
= 1− =
5−0 5

Loi exponentielle
Définition
Soit un réel λ strictement positif. On dit qu’une v.a. X suit une loi exponentielle de
paramètre λ si elle admet la densité :
λ e
−λ x
x≥0
f X ( x) = 
 0 ailleurs
S ( X ) = [0, +∞[

Paramètres
Fonction de répartition
1
E( X ) =
λ
1 − e − λ x si x ≥ 0 1
FX ( x ) =  V (X ) =
 0 ailleurs λ2
1
σX =
λ

70
Loi exponentielle
Proposition
La loi exponentille est une loi sans mémoire (où sans vieillissement), i.e.
∀t > 0, ∀s > 0 on a p( X ≥ s + t / X ≥ t ) = p( X ≥ s)
Signification

Si par exemple X désigne la durée de vie, exprimée en années, d'un composant électronique.
La probabilité qu'il fonctionne t + s années sachant qu'il a déjà fonctionné pendant t années
est la même que la probabilité qu'il fonctionne pendant s années après sa mise en service.

Cette loi permet de modéliser la durée de vie d’un composant ou un appareil sans
vieillissement, dont la durée de vie est indépendante du fonctionnement passé. Ceci est
vrai si le composant n’est pas sujet à un phénomène d’usure.

Loi exponentielle
Exemple On suppose que le temps d'attente à la poste, noté T , suit une loi exponentille de moyenne
égale à 10 minutes.
a. Quel est le paramètre de T ?
b. Quelle est la probabilité qu'un client attende plus de 5 minutes ?
c. Quelle est la probabilité qu'un client attende au moins 15 minutes sachant qu'il déja attendu
10 minutes ?

Réponse
1 1
a. E (T ) = , il représente la valeur moyenne de la v.a. T donc λ =
λ 10
b. La probabilité qu'un client attende plus de15 minutes est
p (T ≥ 5) = 1 − p(T ≤ 5)
= 1 − FX (5)
−1 −1
= 1 − 1 + exp( × 5) = exp( ) ≃ 0.6065
10 2

c. p(T ≥ 15| T ≥ 10) = p(T ≥ 5) = 0.6065

71
Loi exponentielle
Autre utilisations
(i) Si le nombre Y d'occurrence d'un événement sur un intervalle de temps t suit une loi de Poisson
Y ∼ Po(λt )
Alors le temps X séparant deux événements consécutifs suit une loi exponentielle
X ∼ exp(λ )

(ii) Les lois exponentielles sont souvent utilisées pour modéliser les temps d'attente
Le temps d'attente entre l'arrivée de clients à un guichet automatique
Le prochain faux numéro sur une ligne téléphonique
La prochaine désintégration d'une atome radioactif
Le paramètre λ designe alors l'inverse du temps d'attente moyen

Loi exponentielle
Exercice

Une étude réalisée sur un grand nombre de pneus d’une marque donnée montre que leur durée
de vie (en km) est une variable aléatoire X de loi exponentielle de paramètre égal à 0,00007

Déterminer p( X ≤ 10 000), p( X > 10 000), p(10 000 ≤ X ≤ 20 000)


Déterminer x tel que p( X ≤ x) = 0.05
Déterminer la médiane de X

Exercice
Montrer que la somme de deux variables aléatoires indépendantes qui suivent des lois
exponentielles de paramètres différentes ne suit pas une loi exponentielle

Indication : on pourra utiliser la linéarité de l’espérance et la variance de la somme de


deux variables aléatoires indépendantes est égale à la somme de leurs variances.

72
Distribution normale

On parle de loi normale ou de loi gaussienne ou loi de LAPLACE-GAUSS, lorsque l’on a


affaire à une v.a. continue dépendant d’un grand nombre de causes indépendantes, dont
les effets s’additionnent et dont aucune n’est prépondérante.

Distribution normale
Définition
Une v.a. continue X est dite distribuée selon une loi normale si sa densité de probabilité est :

f X ( x) = 1 exp[− 1 ( x − m )²]
σ 2π 2 σ
On dit qu'elle suit une loi normale de paramètres m et σ , ce que l'on note X ∼ N (m,σ )
Le paramètre m est appelé la moyenne et σ l'écart type
Paramètres
Fonction de répartition
1 x exp[− 1 ( t − m )²] dt E( X ) = m
FX ( x) =
σ 2π ∫−∞ 2 σ V (X ) = σ 2
Remarques σ (X ) =σ
(i) La densité de probabilité d'une distribution normale n'admet pas de primitive
(ii) La fonction de répartition n'a donc pas d'expression analytique
x
(iii) Les probabilités FX ( x) = p ( X ≤ x ) = ∫ f (t ) dt sont calculées par des approximations
-∞ X
numériques des intégrales

73
Distribution normale
Les courbes de la fonction densité et de répartition de N (0,1)
Densité Répartition

1
≃ 0.4

0.5

Caractéristiques importantes
La distribution est symétrique ; les valeurs prises par une v.a. suivant une
loi normale sont également reparties autour de la valeur centrale.
Du fait que la densité de probabilité tende rapidement vers 0, lorsque l’on s’éloigne du
centre de symétrie, on observera peu de valeurs extrêmes pour une variable normale

Distribution normale

L’allure de la courbe de la fonction densité de N (0,σ )

x
0
La surface totale entre la courbe et l’axe des abscisses est égale à 1

74
Distribution normale

L’allure de la courbe de la fonction densité de N (m,σ )

m x
0
La surface totale entre la courbe et l’axe des abscisses est égale à 1
(i) La courbe de la densité de probabilité de la loi N (m,σ ) est une translation
de celle de la densité de la loi normale centrée N (0,σ )
(ii) Elle est symétrique par rapport à l'axe x = m

Distribution normale
Lois normales d'espérances différentes et de variances identiques

σ σ

x
0 m m'

La courbe de la densité de probabilité de la loi N ( m,σ ) est une translation (sans déformation)
de celle de la densité de la loi N (m' ,σ )

75
Distribution normale
Lois normales d'espérances identiques et de variances différentes

y
σ grand

σ petit

0 m x

La courbe s'aplatit lorsque la variance augmente, elle se resserre si la variance diminue, le


maximum s'ajuste pour que la surface vaille 1

Distribution normale
Exemple : test de mémoire
Étude de la capacité de mémoire d’adultes atteints d’une maladie neurologique.
On considère une population de patients atteints de la maladie. Chaque individu lit 30
mots et doit ensuite en réciter le plus possible.
Variable aléatoire X = ”nombre de mots retenus”

Les valeurs prises par la v.a. X sont presque également réparties autour de la valeur centrale 8.
Lorsque l’on s’éloigne du centre de symétrie (X=8), on observera peu de valeurs extrêmes

76
Distribution normale
Dans plusieurs domaines, on observe souvent des distributions
plutôt symétriques autour d’une valeur donnée.
avec une forme de cloche

Pour pouvoir faire des calculs, on va parfois supposer que X suit une
distribution "modèle", la loi normale.

0 µ x

Distribution normale
Exemple Étude sur le QI de 515 enfants du même âge

77
Distribution normale
Exemple Étude sur le QI de 515 enfants du même âge

∗ En rose, la courbe de la densité de probabilité de N (100,5.7)


∗ Le niveau de QI suit approximativement la loi théorique N (100,5.7)

Distribution normale : calcul de probabilité


La densité de probabilité étant compliquée,

o La fonction de densité de la loi normale N ( m,σ ) n’admet pas de primitive connue

o On ne peut déterminer la fonction de répartition de X de loi N ( m,σ ) que par


approximations numériques

Un cas important, la loi normale centrée réduite est tabulée

Toutefois, étant donnée qu'il existe une infinité de lois normales distinctes par leurs
paramètres, seulement la loi centrée réduite est tabulée et sert d’instrument pour faire des
calculs de probabilités pour les autres lois normales.

78
Distribution normale : calcul de probabilités
On la notera Z , une v.a. qui suit la loi N (0,1), et sa fonction de répartition sera notée φ
φ ( x) = p( Z ≤ x) , φ est tabulée
Propriété La fonction φ est continue et strictement croissante sur ℝ,
Elle est donc bijective de ℝ dans ]0,1[
La table de la loi normale fournit les valeurs de cette fonction
Passage d’une loi normale quelconque à une loi normale centrée réduite
X −m
Si une v.a. X ∼ N (m,σ ) alors la v.a. Z = suit la normale centrée réduite N (0,1)
σ

changement de variable
X −m
Z=
σ

0 z
m x
∗ Pour tout x ∈ ℝ, p( X < x) = p( Z < z = x − m ) = φ ( z )
σ
Il reste à savoir utiliser la table de la loi normale centrée réduite…

Distribution normale : calcul de probabilités


−t
2

1 x
φ(x) = p(Z ≤ x) =

∫ −∞
e 2 dt

Les probabilités données par la table sont p( Z ≤ z ) z ≥ 0

79
Distribution normale : calcul de probabilités
t 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
Premier cas, x est positif 0 0,5 0,504 0,508 0,512 0,516 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753

φ(x) = ?
0,2 0,5793 0,5832 0,5871 0,591 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,648 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,67 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,695 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,719 0,7224
0,6 0,7257 0,729 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,758 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,791 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8254 0,8289 0,8315 0,834 0,8365 0,8389

p ( Z ≤ 0.94) = 0.8254 1
1,1
0,8413
0,8643
0,8438
0,8665
0,8461
0,8686
0,8485
0,8708
0,8508
0,8729
0,8531
0,8749
0,8554
0,877
0,8577
0,879
0,8599
0,881
0,8621
0,883
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,898 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,937 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
p ( Z ≤ 0.9482) ≃ p( Z ≤ 0.94) 1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9508 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
= 0.8254 1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,975 0,9756 0,9761 0,9767
2 0,9772 0,9779 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,983 0,9834 0,9838 0,9842 0,9846 0,985 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,989
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,992 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,994 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,996 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,997 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,998 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986

Distribution normale : table


Exemple

On suppose qu'une certaine variable Z obéit à la loi normale centrée réduite.


Pour quelle proportion d'individus est-ce que p(Z ≤ 1.56) ?

On cherche p(Z ≤ 1.56) = φ (1.56)


On cherche 1.56 dans la table

Interprétation

p( Z ≤ 1.56) = 0.9406
Pour 94.06% d'individus, la valeur de la v.a. X est inférieure à 1.56

80
Distribution normale
Exercice:

A l ’aide de la table de la loi normale centrée réduite, calculer :

φ (0,53) = 0,7019

φ (2,54) = 0,9944

φ (3,30) = 0,9995

Si une v.a. suit la loi normale de moyenne 0 et d’écart type 1, alors :

70,19% des valeurs prise par cette v.a. sont au plus égales à 0.53 (ou moins de 0.53)

Distribution normale
Deuxième cas, x est négatif

φ(x) = ?
φ (− x) = 1 − φ ( x) pour tout réel x

−x x
Exemples φ ( −1, 47) = 1 − φ (1.47)
A l ’aide de la table de la loi normale = 1 − 0.9292 = 0.0708
centrée réduite, calculer :
φ ( −2, 73) = 1 − φ (2.73)

= 0, 0032
φ ( −3) = 1 − φ (3)
= 0.0013

81
Distribution normale
P(a ≤ Z ≤ b) = φ (b) − φ (a)

a b
Exemples
p (0.98 ≤ Z ≤ 2.89) = φ (2.89) − φ (0.98)
= 0.9981 − 0.8365 = 0.1616
p ( −1.15 ≤ Z ≤ 2.12) = φ (2.12) − φ ( −1.15)
= φ (2.12) − (1 − φ (1.15) )
= 0.8579

Distribution normale
y

P ( Z ≥ t ) = 1 − φ (t ) P (T > 0 ,9 )
0,4

Exemples

p ( Z ≥ 1.44) = 1 − φ (1.44)
0,3

0,2

= 0, 0749
0,1

p ( Z ≥ 3, 05) = 1 − φ (3.05) -3 -2 -1 0 1 2 3

= 0.0012 y
-0,1

Φ
Π ((0.9)
0 ,9 )
0,4

p ( Z ≥ − 2.1) = 1 − φ (−2.1) 0,3

= 1 − (1 − φ (2.1) ) 0,2

= φ (2.1) 0,1

= 0.9821
-3 -2 -1 0 1 2 3

82
Distribution normale

Soit t ≥ 0 alors : P ( Z < t ) = P ( − t < Z < t ) = φ ( t ) − φ ( − t ) = 2φ ( t ) − 1


y
Exemples
pP((|T ≤ 1.2)
Z |<
p ( Z ≤ 0.89) = 2φ (0.89) − 1 1 ,2)
0,4

= 0.6266 0,3

0,2

p ( Z ≤ 2.2) = 2φ (2.2) − 1

= 0.9722
0,1

-3 -2 -1 0 1 2 3 x

p ( Z ≤ 3) = 2φ (3) − 1 -0,1

= 0, 9973

Distribution normale
Calcul des probabilités pour une v.a. normale quelconque

Exemple
X suit une loi normale N(345; 167)
On souhaite connaître la probabilité pour que les valeurs de X soit inférieures à 500.

On se ramène à N(0,1)
X − E ( X ) X − 345
Z= =
σ 167
On utilise la table de N(0,1)

500 − 345
p ( X < x) = p ( Z < ) = p ( Z < 0.93) = φ (0.93) = 0.8238
167

83
Distribution normale
Exemple Un club exige à ces adhérents un QI supérieur à 132.
Quel est la probabilité d'appartenir à ce club sachant que QI ∼ N (100,15) ?

σ =15 σ =1

m = 100 132 m=0 2.13


132 − 100
p(QI ≥ 132) = p( Z ≥ )
15
= p( Z ≥ 2.13)
= 1 − p( Z ≤ 2.13)
= 1 − 0.9834
= 1.66%

Distribution normale
Calcul des probabilités pour une v.a. normale quelconque
Exercice X ∼ N (3;1.2)
Déterminer la probabilité que les observations de X soient au plus 4
X −3 4−3 On peut mettre directement
p ( X ≤ 4) = p ( ≤ )
1.2 1.2
4−3
≈ p ( Z ≤ 0.8333) p ( X ≤ 4) = φ ( )
1.2
≈ p ( Z ≤ 0.83) = φ (0.83)
= φ (0.83) = 0.7967
= 0.7967
79,67% des observations ne dépassent pas 4.

84
Distribution normale : intervalles remarquables
Intervalles remarquables
X ∼ N (m,σ ), alors
 m + 2/ 3 σ − m   m − 2/ 3 σ − m 
i p[m − 2 /3σ < X < m + 2 /3 σ ] = φ   − Φ 
 σ   σ 
= φ (0.67) − φ ( −0.67)
≃ 50%
i p[m − σ < X < m +σ ] ≃ 68.27%

i p[m −1.96σ < X < m +1.96σ ] ≃ 95%

i p[m − 2.58σ < X < m + 2.58σ ] ≃ 99%

Remarque Ce résultat donne un sens précis au fait qu’il n’y a pas beaucoup de
valeurs extrêmes dans une distribution normale

Distribution normale
Valeurs remarquables
X ∼ N (m,σ ), alors
i p[m − σ < X < m +σ ] ≃ 68.27%
m −σ m m +σ

i p[m −1.96σ < X < m +1.96σ ] ≃ 95%

m − 1.96σ m m − 1.96σ

i p[m − 2.58σ < X < m + 2.58σ ] ≃ 99%

m − 2.58σ m m − 2.58σ

85
Distribution normale
Exemple

Chez l’adulte normal (non diabétique) la glycémie est distribuée selon une
loi normale de moyenne 4.8 mmol/l et d’écart type 0.4 mmol/l

Donc 95% des sujets non diabétiques de cette population ont une glycémie
comprise entre 4.0 mmol/l et 5.6 mmol/l

La masse en kg des nouveau-nés suit la lois N(3.5,0.25)

Distribution normale : quantiles

Fonction inverse de la fonction de répartition de la loi normale

On suppose que la probabilité est connue et égale à α ∈[0;1]


On cherche à déterminer le quantile q α

Cas d’une loi normale centrée réduite

Pour la variable Z suivant la loi N (0,1)


On suppose Φ ( zα ) = α ∈[0;1] et on cherche à détreminer le quantile zα

Cas d’une loi normale quelconque

On se ramène au cas précédent par centrage et réduction

86
Distribution normale : quantile d’ordre > 50%
Exemple

On suppose qu'une certaine variable Z obéit à la loi normale centrée réduite.


Quel est le quantile à 97.5% pour Z ?

Cela revient à trouver a tel que p(Z ≤ a)=φ (a)=0.975 ⇔ a = φ −1(0.975)


On lit la table à l'envers.

Donc p( Z ≤ 1.96) = 0.975


Le quantile recherché est donc 1.96

Notation
Le quantile d'ordre α pour la loi N (0,1) est noté zα
Par exemple : z0.975 = 1.96

Distribution normale : quantile d’ordre < 50%

On suppose qu'une certaine variable Z obéit à une loi normale centré réduite.
Soit α < 0.5 Quel est le quantile à (α ×100)% pour Z ?

Le quantile zα vérifie p(Z ≤ zα ) = α = φ ( zα ) ⇔ zα = φ −1(α )

Il n'y a pas de nombre inférieur à 0.5 dans la table


⇒ on ne peut pas y lire φ −1(α )

Aire égale à α < 0.5

zα = ?

87
Distribution normale : quantile d’ordre < 50%

En utilisant la symétrie de la loi normale zα = − x tel que p(Z > x) = α

p (Z ≤ zα ) = α p (Z ≥ x) = α

α α

zα x

c-à-d p( Z < x) = 1- α donc x = z


1−α
et par suite zα = − z1−α

À retenir : zα = − z1−α ∀α ∈]0,1[

Distribution normale : quantile d’ordre < 50%


Exemple

On suppose qu'une certaine variable Z obéit à une loi normale centré réduite.
Quel est le quantile, z0.14 , à 14% pour Z ?

z0.14 = − z1−0.14 = − z0.86 = −1.08

88
Distribution normale : quantile loi normale quelconque

Le quantile d'ordre α pour une loi normale N (m,σ )


Soit X une v.a. suivant N (m,σ )

On se ramène au cas d’une loi normale centrée réduite X α = m + σ Zα

Exemple Quel est le quantile à 95% pour une loi normale N (11,2) ?

Réponse X 0.95 = 11 + 2 × Z0.95


= 11 + 2 ×1.65
= 14.30

Distribution normale
Proposition Soit α un nombre réel tel que 0 < α < 1
Il existe un unique nombre strictement positif uα tel que :
p(-uα ≤ Z ≤ uα ) = 1- α ⇔ p( Z ≤ uα ) = 1− α

−uα uα

Remarque uα correspond au fractile d'orde 1- α i.e uα = z1−α


2 2
car p( z ≤ uα ) = 1- p( z ≤ -uα ) = 1-
α
2

89
Distribution normale : exercice
X ∼ N (0,1)
Déterminer les probabiliés suivantes
p(X=1.2) p(−1 ≤ X ≤ 0)
p( X ≤ 2) p(0 ≤ X ≤ 0.5)
p( X > 0.8) p(1.1 ≤ X ≤ 3.2)
p( X ≥ 1.5) p(−2 ≤ X < 2)
p( X > −0.23) p(0 ≤ X ≤ 0.83)

Déterminer x satisfaisant les égalités suivantes


p( X < x) = 0.6255 p(0 ≤ X ≤ x) = 0.4750
p( X ≤ x) = 0.2119 p(− x ≤ X ≤ x) = 0.2052
p( X > x) = 0.9971 p(− x ≤ X ≤ 0) = 0.2291
p( X > x) = 0.1314 p(−1 ≤ X ≤ x) = 0.1785

Distribution normale

Exercice
Le poids moyen de 500 colis est de 141kg et l’écart type est de 15kg, en supposant que
ces poids sont normalement distribués, calculer le nombre de colis pesant :
1. Entre 120 et 155kg
2. Plus de 185 kg

90
Distribution normale
Théorème : Somme de lois normales indépendantes

Soient deux v.a. normales indépendentes ; X1 ∼ N (m1 ,σ 1 ), et X 2 ∼ N (m2 ,σ 2 )


Alors Y = X1 + X1 suit une loi normale avec Y ∼ N(m1 + m2 , σ 12 +σ 22 )

On en déduit, par récurrence, que la somme finie de v.a. normales est une v.a. suivant une loi normale

91
Lois dérivées de la loi normale : khi-deux
Définition
Soient X1 ,…, X n une suite de n v.a. indépendantes suivant une loi normale centrée réduite.
Alors la somme du carré de ces v.a., notée Y, suit une loi du khi deux avec n degrés de
liberté. On la note : n
Y = 2
∑ Xi , 2 Y ~ χ (n ), E (Y ) = n , V (Y ) = 2 n
i =1

Il s’agit d’une distribution asymétrique, à valeurs possibles positives et indexée


par un seul paramètre appelé ddl
A partir de 3 ddl, les distributions du χ2 suivent une distribution en cloche
caractérisée par une dissymétrie à gauche et qui passe par 0
Elle tend à devenir symétrique lorsque le nombre de ddl devient grand

Lois dérivées de la loi normale : table de khi-deux


Table de la fonction inverse
La table fournit la valeur de χ 2 (ν ) ayant la probabilité α (α ∈ [0;1]) d'être dépassée
Elle donne x tel que p( χ 2 (ν ) ≥ x) = α ⇔ p( χ 2 (ν ) ≤ x) = 1 − α (l'aire sous la courbe est égale à 1)
⇒ x correspond au quantile d'ordre 1-α , noté χ1-2 α ,ν , de la loi χ 2 (ν )
χ2)
f (χ
α s'appelle le coefficient de risque
χ12−α ,ν la valeur limite de χ 2 (ν ) au coefficient de risque α
α

0 χχx=?
22
1α−α ,ν
χ2

Table à double entrées, ν et α


La valeur de α est lue en ligne, celle de ν en colonne,
la valeur recherchée χ12−α ,ν se situant à l'intersection

92
Lois dérivées de la loi normale : khi-deux
Exemple : pour ν = 8 et α = 0,05
Table du χ2
α
0,995 ... ... 0,05 0,005
ν
1 3,841
. .
8 ... ... ... ?
.
.
30
Remarque
Dans les tests statistiques et les estimations, on utilise souvent comme seuil de
risque : α = 5% soit pour ν =8 on a : χ 0.95 , 8 = 15.51
2

α = 1% soit pour ν =8 on a : χ 0.99


2
, 8 = 20.09
Interprétation
Pour 8 degrés de liberté, la valeur 15.51 a la probabilité 0.05 d’être dépassée.
p ( χ 2 (8) ≥ 15.51) = 0.05 pour 8 deg rés de liberté

Lois dérivées de la loi normale : khi-deux


Remarque

La table s’arrête pour ν = 30, au-delà on utilise l’approximation par une


loi normale.

Proposition
Lorsque le nombre de ddl n est supérieur à 30 :
La loi χ 2 (n) peut être approximée par la loi N (n, 2n )

93
Lois dérivées de la loi normale : loi Student

Lois dérivées de la loi normale : loi Student


LOI STUDENT ou t-distribution
Il s'agit d'une loi de probabilité continue, largement utilisée dans la statistique inférentielle
et qui est fortement liée à la loi normale centrée réduite
Formellement
∗ Z ∼ N (0,1),
∗ X ∼ χ 2 (ν )
∗ Z et X sont indépendantes
Z
alors le quotient T = suit une loi Student à ν degrés de liberté, on la note Tν
X
ν
Paramètres caractéristiques

Cette loi n'a pas d'espérance pour ν = 1 E (Tν ) = 0 pour ν > 1


ν
Elle n'a pas de variance pour ν ≤ 2. V (Tν ) = pour ν > 2
ν -2

94
Lois dérivées de la loi normale : loi Student
Densité de probabilité : Lois normale centrée réduite et loi Student

__ N(0,1) o S(T) = ] - ∞, + ∞ [
__ T avec 1 ddl
o Symétrique par rapport à la droite x = 0
o Courbe en cloche
o Plus aplatie que la courbe de Gauss
Surface plus
importante
Symétrique par
rapport à x=0

Lois dérivées de la loi normale : loi Student


Proposition Lorsque le nombre de degrés de liberté augmente, la
loi student tend vers la loi normale centrée réduite

__
__
__
__N(0,1)
__N(0,1)
N(0,1)
N(0,1)
N(0,1)
__
__
__
__T
TTavec
avec
avec20
16
12
3 ddl
4
8 ddl
TTavec
__ avec21ddl
ddl

Remarques
Dans la pratique au-delà de ν = 30, La loi student sera approchée par la loi
normale centrée réduite N(0,1)

Dans la pratique, l’aire sous la courbe au voisinage des queues joue un rôle important pour
les deux lois, par conséquent, il y a une différence importante entre la loi normale et la
loi student et ce malgré que leurs courbes de densité de probabilité soient très proches.

95
Loi Student : table
Table de la fonction inverse
La table fournit la valeur de Tν ayant la probabilité α (α ∈ [0,1]) d'être dépassée

Elle fournit x qui vérifie p(Tν ≥ x) = α ⇔ p(Tν ≤ x) = 1 − α (l'aire sous la courbe est égale à 1)

⇒ x correspond au quantile d'ordre 1-α , noté t1ν−α , de la loi student Tν

α s'appelle le coefficient de risque


t1ν−α est la valeur limite de Tν au coefficient de risque α

ν
tx=?
1−α

Remarque Plusieurs tables de la loi Student ont été établies. Nous utilisons
la table correspondant à la figure ci-dessus

Loi Student table


Exemple : pour ν = 5 et α = 0,01 T5 suit une loi Student à 5 ddl.
Déterminer t tel que : p(T5 ≥ t ) = 0.01
α
0,1 ... 0,01 ... 0,0005 C'est le quantile t 50.99
ν
1 3,841
α = 1% ν = 5 alors t1ν−α = tν0.99 = 3.365
. .
5 ... ... ? p(T5 ≥ t0.99
5
= 3.365) = 0.01
.
Interprétation
. Pour 5 degrés de liberté, la valeur 3.365 a une
. probabilité égale à 0.01 d’être dépassée
30
La valeur de α est lue en colonne, celle de ν en ligne
La valeur recherchée tν1−α se situant à l'intersection
Dans les estimations, on utilise souvent comme seuil de risque : 1%, …,0.05%

96
Loi normale : Excel
Calcul des probabilités et détermination des quantiles à l’aide d’Excel

LOI.NORMALE.STANDARD(z)
Renvoie la probabilité d'une v.a. suivant N(0.1).

LOI.NORMALE.STANDARD.INVERSE(probabilité)
Renvoie, pour une probabilité donnée, la valeur d'une v.a. suivant N(0.1).

LOI.NORMALE(x ; moyenne; écart_type ; cumulative)


Renvoie la distribution normale pour la moyenne et l'écart type spécifiés. Cette fonction a
de nombreuses applications en statistique, y compris dans les tests d'hypothèse

LOI.NORMALE.INVERSE(probabilité ; moyenne ; écart_type)


Renvoie, pour une probabilité donnée, la valeur d'une variable aléatoire suivant une loi normale
pour la moyenne et l'écart type spécifiés.

Limite d’une somme de variables aléatoires


Théorème central limite (cas général)

La loi de la somme de n variables aléatoires indépendantes (de variance


finie) tend vers une loi normale quand n augmente, pour autant qu’il n’y en
ait pas une dont la variance est prépondérante

Remarque
Grâce au théorème central limite, on peut voir que des phénomènes dont la
variation est engendrée par un nombre important de causes indépendantes, sont
généralement susceptibles d’être représentés par une loi normale.

97
Théorème central limite
Hypothèses
Soit X 1 ,… , X n une suite de v.a. indépendantes et identiquement distribuées iid
(i.e. ayant toutes la même loi de probabilité), possédant une espérance µ et une variance σ 2 finie.
Soit Sn = X1 + X 2 + ⋯ + X n alors E ( Sn ) = nµ et V(Sn ) = nσ (car elles sont indépendantes)
2

Sn − E ( Sn ) S n − nµ alors E ( Z n ) = 0 et V( Z n ) = 1
Soit Z n = =
V ( Sn ) nσ
Théorème
TCL : La v.a. Z n suit la loi normale centrée réduite N (0,1), pour n suffisamment grand
Sn n − µ
On remarque que Z n =
σ n

Donc TCL peut s'écrire, d'une manière équivalente :


Sn X1 + X 2 + ⋯ + X n
= suit la loi normale N (µ ,
σ ), pour n assez grand
n n n

Théorème central limite


Dans la pratique
si n est suffisamment grand, on a les résultats asymptotiques équivalents.

S σ
(i ) Z n ∼ N (0,1) (ii ) La moyenne arithmétique X n = n ∼ N ( µ , )
n n

Interprétation
i La moyenne de quantités aléatoires de même loi, de moyenne µ et de variance σ 2 ,
σ
mutuellement indépendantes fluctue autour de µ selon une loi gaussienne d'écart type
n

i Si l'on répète, un grand nombre de fois et d'une manière indépendante, une expérience aléatoire,
1 n σ
la moyenne observée ∑ x fluctue autour de µ selon une loi gaussienne d'écart type n
n i =1 i

98
Approximation d’une loi binomiale par une loi normale
Proposition
La loi binomiale B (n, p) peut être remplacée par la loi normale N (np, npq ) lorsque n tend vers l'infini.
Ceci est d'autant plus valable que p est plus proche de 0.5
Dans la pratique
Lorque n ≥ 30, np ≥ 5 et np(1 − p) ≥ 5 la différence des probabilités
calculées, par les deux lois, est très faible.
Lorsuqe les trois conditions précédentes sont remplies, on pourra approcher la loi binomiale B(n, p )
par une loi normale N (m,σ ), de même espérance et de même variance, i.e. m = np, σ = np(1- p )
Correction de continuité
Lorsque les conditions ci-dessus sont verifiées. On pose X ∼ B(n, p) et Y ∼ N (np, np(1 − p))
p( X = k ) est approchée par p (k - 0.5 < Y < k + 0.5)
p( X ≤ k ) est approchée par p (Y < k + 0.5)
p( X ≥ k ) est approchée par p (Y > k − 0.5)
p ( k1 ≤ X ≤ k2 ) est approchée par p ( k1 - 0.5 < Y < k2 + 0.5)

Chapitre 9

L’estimation statistique

99
Outline

o Echantillonnage

o Estimation ponctuelle

o Estimation par intervalle de confiance

Estimation statistique
Contexte général d’une analyse statistique

Inférence

On s’intéresse à une population mais on ne dispose


que des informations sur un échantillon

Types d’estimation
n
L'estimation d'un paramètre peut être faite _ µ
- par un seul nombre : estimation ponctuelle x σ2
- par 2 nombres entre lesquels le paramètre peut se s2 p
trouver : estimation par intervalle pe

100
Schéma d’une analyse statistique

Population Paramètres de la
population

Statistique inférentielle
Choix
à l’aide de la
Échantillonnage
théorie de probabilité

Échantillon Caractéristiques
représentatif Statistique de l’échantillon
Descriptive

o Les ré
résultats obtenus sur un échantillon repré
représentatif serviront à généraliser à
l’ensemble de la population.

o Mais le fait d’
d’utiliser un échantillon induit né
nécessairement une marge d’
d’erreur que
nous essayerons de contrôler.

Intérêts de l’échantillonnage
Pourquoi échantillonner ?
Impossibilité d’accéder à tous les individus d’une population

o Coût financier

o Trop lent

o Destructif

o Dans certains cas il peut être impossible de faire un recensement


(contrôle de qualité)

o Travailler sur un échantillon peut être plus précis (ex cas où une main-
d'œuvre hautement qualifiée est requise pour la collecte des données)

o D’autres raisons

=> On procède par échantillonnage et par inférence

101
Echantillonnage
Echantillonnage ?
L’échantillonnage consiste à choisir au hasard un échantillon représentatif et de taille limitée
d’une population de taille quelconque afin d’en étudier un où plusieurs caractères

Rapport taille de l’échantillon taille de la population


On suppose, dans tout le reste de ce chapitre, que la taille de l’échantillon est beaucoup plus
petite que la taille de la population. Ainsi un échantillonnage exhaustif ne changera pas la
population
L’échantillonnage : une expérience aléatoire
L’échantillonnage est une expérience aléatoire ; il consiste à choisir au hasard un ‘petit nombre’
d’individus de la population pour obtenir une valeur du caractère étudié
Schématisation
échantillonnage variable statistique
population  → individu  → modalité
Ω échantillonnage

→ w variable aléatoire

→ x
À partir de l’échantillon, on étudie la v.a. X associée au caractère étudié.

On estime les paramètres de X sur la population à partir de ses paramètres empiriques


obtenus sur l’échantillon

Échantillonnage
x1 , x2 , …, xn
x1' , x2' , …, xn'
x1'' , x2'' , …, xn''
X1 , X 2 , …, X n
X1, X 2 , …, X n sont indépendantes et ont la
même loi de probabilité ; celle de la population

L'échantillonnage correspond à la répétition de n expériences aléatoires


identiques, auxquelles correspondent n v.a. X i (i = 1,…, n) iid

Définition Une statistique de l'échantillon est une fonction h( X1,…, X n ) des v.a. X i (i = 1,⋯, n) obtenues
à partir d'un échantillon
1 n
Exemples ∗ Moyenne de l'échantillon : X n = ∑ Xi
n i =1
n
1
∗ Variance de l'échantillon : Sn2 =
n

i =1
( X i − X n )2

102
Estimation
Principe L'estimation est le procédé par lequel on estime les valeurs de paramètres de la population
à partir des observations faites dans un échantillon grâce à un estimateur
Soit un paramètre de la population, noté θ , à estimer
Estimation ponctuelle : on calcule une valeur vraisemblable θɵ de θ .
Définition d’un estimateur
Etant donné une statistique d'échantillon, T( X 1 ,… , X n ) de v.a. X i (i = 1,⋯, n) obtenues
à partir d'un échantillon de taille n. On dit qu'elle constitue un estimateur de θ si :
i son esperance mathematique tend vers θ quand n augmente indéfiniment ; lim E (T ) = θ
n →∞

i sa variance tend vers 0 quand n augmente indéfiniment ; lim V (T ) = 0


n →∞

Le biais d’un estimateur Le biais de l'estimateur T de θ est défini par : E (T ) - θ

i Si le biais est nul quel que soit n, on dit que T est un estimateur sans biais ou non-biaisé.
i L'estimateur est asymptotiquement sans biais si lim E (T ) = θ
n →∞

i Si T est un estimateur de θ . Alors une réalisation de T est une estimation ponctuelle de θ

Qualité d’un estimateur Un estimateur est précis s’il est non-biaisé et si sa variance est petite

Estimateur de la moyenne
Soit X une v.a. définie sur une population telle que E ( X ) = µ et V ( X ) = σ 2 connue

1 n
σ2
On considère la moyenne de l'échantillon X n =
n

i =1
Xi Alors E( X n ) = µ et V( X n ) =
n
Proposition

1 n
La moyenne de l'échantillon X n = ∑ X i est un estimateur sans biais de la moyenne de
n i =1
la population µ . (X1 ,⋯ , X n ) des mesures ou des observations de l'échantillon de taille n

i La variance d'un estimateur s'appelle aussi l'erreur type ou l'erreur standard de cet estimateur.

σ2
i L'erreur type de X n est égale à
n
Remarque
Une petite erreur type (variance) pour un estimateur non-biaisé est un gage de précision.

103
Estimateur de la moyenne
σ2
E( X n ) = µ et V (X n) =
n
Conséquences
La précision de l'estimateur X n dépend de n et de σ 2
Elle est d’autant plus précis que la taille de l’échantillon est grande
le hasard de l’échantillonnage aura mois d’impact dans un grand échantillon que dans
un petit échantillon

Elle est d’autant plus précis que la variabilité dans la population est petite
le hasard de l’échantillonnage aura moins d’impact si les individus de la population de laquelle
provient l’échantillon se ressemblent, que s’ils sont très différents les uns des autres

Distribution d’échantillonnage de la moyenne


1 n
Distribution de la moyenne de l'échantillon : X n = ∑ Xi
n i =1
Xn

σ
∗ Si X ~ N ( µ ,σ ) alors X n ~ N (µ , )
n

∗ Si X suit une loi quelconque alors X n ~ N (µ , σ ) si n est assez grand (d'après le TCL)
n
Remarque
La taille n d'échantillon à partir de laquelle la moyenne de l'échantillon, X n peut être comme
approximativement normale dépend du degré de symétrie de la distribution des observations X i
(i ) Si les X i sont symétriques, en générale l'approximation est valable à partir de n = 10
(ii ) Si les X i sont loin d'être symétriques, n doit être supérieur à 100

104
Estimateur de la variance
Idée naturelle : variance de l’échantillon
1 n
La variance de l’échantillon ∑ ( X − X n )2
S2n =
n i =1 i
(n − 1)σ 2
L'espérance de cette statistique de l'échantillon est : E (S2n ) = <σ2
n
2( n − 1)σ 4
On peut aussi démontrer que la variance Sn2 est égale à : V( Sn2 ) =
n2
Proposition
1 n
S2n = ∑ ( X − X n )2 est un estimateur biaisé de σ 2 . Il est asymptotiquement sans biais
n i =1 i
Interprétation
L'utilisation de la variance de l'échantillon, S2n , comme estimateur de la variance de la
population, σ 2 , conduirait à une sous-estimation de la variabilité dans la population,
surtout lorsque la taille de l'échantillon, n, est petite
La variance empirique corrigée
Afin d'obtenir un estimateur sans biais de la variance de la population, σ 2 , on définit
n 2 1 n
la variance de l'échantillon corrigée comme suit : S'n 2 =
n −1
Sn = ∑ ( X − X n )2
n − 1 i =1 i

Estimateur de la variance
Calcul de l’espérance de la variance empirique corrigée

Lorsque l'on calcule l'espérance de la v.a. Sn' 2 , on obtient :


n 2
E ( Sn' 2 ) = E ( Sn ) = n E ( Sn2 ) = n n -1σ 2 =σ 2
n -1 n -1 n -1 n

n 2 n 2 2σ 4
La variance Sn' 2 est égale à : V( Sn' 2 ) = V ( Sn ) =( ) V (Sn2 ) =
n −1 n −1 n −1

Proposition
1 n
Sn' 2 = ∑ ( X − X n )2 est un estimateur sans biais de σ 2
n − 1 i =1 i

105
Distribution d’échantillonnage de la variance
On suppose que X suit une loi normale
2
 X −µ 
∑  iσ  est une loi de χ 2 à n ddl

2
 X − Xn 
∑  i σ  est une loi de χ 2 à (n − 1) ddl
 
Sn2 =
∑ i X n )2 la variance d'un échantillon
( X −
n
n Sn2
suit une loi de χ 2 à (n − 1) ddl
σ2

Proposition
Lorsque les observations X i sont normales,
Sn2
la v.a. n suit une distribution de khi-deux avec (n - 1) ddl ; χ 2 (n - 1)
σ2

Estimation ponctuelle
Exemple

Une université comporte 3500 étudiants. On mesure la taille de 20 d'entre eux.


La moyenne et l'écart-type calculés à partir de cet échantillon sont
me = 175 cm et σ e = 6 cm

Estimation ponctuelle
Nous pouvons estimer la moyenne et l'écart type sur l'ensemble de tous les étudiants par
20
m = 175 cm et σ = 6 cm = 6.16 cm
19

106
Estimation par IC
Objectif de l’estimation par IC
Les estimateurs ponctuels ne tiennent pas compte des erreurs dues aux
fluctuations d’échantillonnage. En complément de l’estimation ponctuelle, on
veut donner un intervalle ayant de bonnes chances de contenir la vraie valeur
du paramètre

Estimation par IC
Estimation par intervalle de confiance
On cherche un intervalle dans lequel le paramètre θ se trouve avec une probabilité élevée.
Définition
Soit α ∈]0,1[ petit i.e. proche de 0
L'estimation par IC consiste à construire, autour de l'estimation ponctuelle, un intervalle qui
aura une grande probabilité, égale à (1- α ), de contenir la vraie valeur du paramètre estimé.
En pratique, on répartit le risque par moitié
Densité de probabilité de l'estimateur T
de part et d'autre de l'intervalle
p (θɵ − ε1 ≤ θ ≤ θɵ − ε 2 ) = 1 − α

[θɵ − ε1;θɵ − ε 2 ] est appelé intervalle de


confiance de l'estimation au risque α
∋θ
∋θ

θɵ − ε1 θɵ + ε 2 θɵ − ε1 θɵ θɵ + ε 2

107
Estimation par IC
Vocabulaires
(1- α ) est le coefficient de confiance
(1- α ) × 100% est le seuil de confiance

α est le coefficient de risque


α × 100% est le seuil de risque

Estimation par IC de la moyenne


Estimation par IC de la moyenne lorsque la variance est connue
Proposition
Lorsque les observations X i sont normales ou la taille de l'échantillon est assez grande
Xn −µ
la v.a. aura une distribution normale centrée réduite N (0,1)
σ n
Xn −µ
Une réalisation de a une probabilité égale
σ n
à 1- α d'appartenir à l'intervalle [− z α ; z α ]
1− 1−
1- α
2 2

− z1−α ≤ x n − µ ≤ z1−α α/2 α/2


σ n −z z
1−α 1−α
2 2 0
2 2
⇒ xn − z1−α × σ n ≤ µ ≤ xn + z
1−α
×σ n
2 2

⇒ xn − ε ≤ µ ≤ xn + ε où ε =z
1−α
× σ n
2
ε s'appelle la marge d'erreur

108
Estimation par IC de la moyenne
Estimation par IC de la moyenne lorsque la variance est connue
Théorème Lorsque X est normale ou la taille de l'échantillon est assez grande
et lorsque σ 2 est connu un intervalle de confiance au niveau 1-α de
 σ σ 
la moyenne µ est :  x n − z1−α , xn + z 
 n 1−α n 
2 2

Avertissement

Cet IC suppose que la moyenne arithmitique X n suit une loi normale, il est valide si
(i) Les v.a. X i sont normales, dans ce cas X n est normale.
(ii) La taille de l'échantillon est suffisamment grande, dans ce cas X n est approximativement normale

Estimation par IC de la moyenne


Exemple
On suppose que les conditions du théorème sont remplies. Soit α = 0.025

Puisque z 0.975 =1.96 l'intervalle de confiance de µ au niveau 95% est


 σ σ 
 x n − 1.96 n , x n + 1.96 n 
 

La moyenne de la population µ a une probabilité de 95% d'appartenir à l'intervalle ci-dessus.

Remarque
Bien que l’on ne connaisse pas toujours la véritable moyenne sur la population, après avoir calculé
la moyenne sur un échantillon, on est capable de la cerner avec une grande probabilité

109
Estimation par IC de la moyenne
Estimation de la moyenne lorsque la variance est inconnue
Comme la variance est inconnue on l'estime à partir de l'échantillon par :
1 n n
sn' 2 = ∑ ( x − x n ) 2 = n − 1 sn 2
n − 1 i =1 i
Proposition
Lorsque les observations X i sont normales
Xn −µ
la v.a. aura une distribution de Student avec (n -1) ddl
Sn' n

Démonstration  nSn2 
 2 
Xn − µ Xn − µ
=
S n' 2
=
Xn − µ nSn2 X −µ
= n σ 
Sn' n σ n σ2 σ n σ (n − 1) σ n
2
n −1

∼ χ 2 (n − 1)
Xn −µ
∼ N (0,1)
⇒ ∼ Tn−1
Sn' n

Estimation par IC de la moyenne


Xn −µ
⇒ ∼ Tn−1
Sn' n α α
2 1−α 2

−t1n−−α1 t1n−−α1
2 2
Xn −µ  
Une réalisation de a une probabilité égale à 1- α d'appartenir à l'intervalle  −t n−α1 ; t n−α1 
 1− 2 1− 2 
'
Sn n

−t1n−−α1 ≤ x'n − µ ≤ t1n−−α1


2 sn n 2

⇒ x n − t1n−−α1 × sn' n ≤ µ ≤ x n + t n−α1 × sn'


1−
n
2 2

⇒ xn − ε ≤ µ ≤ xn + ε où ε = t n−α1 × sn' n
1−
2

110
Estimation par IC de la moyenne
Théorème

Lorsque les observations X i sont normales et σ 2 est inconnu un IC au niveau 1-α de µ est :
 '   
sn' sn sn
 x n − t n−1
1−α
, xn + t1n−−α1 sn  =  xn − t n−α1
1−
, x n + t1n−−α1 
 2 n 2 n  2 n −1 2 n − 1 
 

Exemple
On suppose que les conditions du théorème sont vérifiées. Soit α = 0.05 et n = 10
Puisque avec α = 0.025, et t 90.975 =2.26 l'intervalle de confiance de µ au niveau 95% est
2
 sn' 2 sn' 2 
 x n − 2.26 , x n + 2.26
 n n 
 

L’intervalle de confiance est plus grand que celui obtenu lorsqu’on connaît la variance !

Estimation par IC de la moyenne


Situations rencontrées dans la pratique

ε = t1n−−α1 × sn' n
2

2
 
(i) Précision ε et risque α fixés, on détermine n = t n−α1 × sn' ε  taille de l'échantillon
1−
 2 

(ii) Précision ε et taille de l'échantillon n fixés, t n−α1 = ε × n sn' -1 ⇒ α risque


1−
2

(iii) Risque α et taille de l'échantillon n fixés, on détermine la précision ε = t n−α1 × sn' -1 n


1−
2

111
Estimation par IC de la variance
n Sn2 α α
∼ χ 2 (n − 1) 2 2
σ2
u1 = χα2 u2 = χ 2 α
,n−1 1− ,n−1
n Sn2 2 2
Une réalisation de a une probabilité égale à 1- α d'appartenir à l'intervalle u1 ; u 2 
σ 2

n sn2 n sn2 n s2
u1 ≤ ≤ u2 ⇒ ≤σ2 ≤ n
σ 2 u2 u1
Théorème
Lorsque X ∼ N ( µ ,σ ), et µ est inconnue un intervalle de confiance au niveau 1-α de σ 2 est
 n × s2 n × s2   (n −1) s' 2 (n −1) s' 2 
 n, n =  n , n 
 2u u1   u2 u1 

où u1 = χ α2 et u2 = χ 2 α sont les quantiles d'ordre α 2 et 1 − α 2 de la loi χ 2 (n − 1)


, n−1 1− , n−1
2 2

Remarque Lorsque l’on s’intéresse à l’écart-type on prend les racines carrées des bornes des
intervalles obtenus pour la variance

Estimation par IC de la variance


Exemple
les données d’une expérience en biologie au cours de laquelle on a mesuré la hauteur (en cm)
de n =60 spécimens d’une plante herbacée vivace après une culture de six mois
14 14 16 17 17 18 18 18 18 18 18 18 19 19 19
19 19 19 20 20 20 20 20 20 20 20 21 21 21 21
21 21 22 22 22 22 22 22 22 23 23 23 23 23 23
On suppose la normalité des observations. 24 24 25 25 26 26 26 27 28 28 28 29 29 29 32

D'après les données on a : s 2n = 14.514


Déterminer un IC au niveau de confiance de 95% pour la variance de la population σ 2 , ensuite pour σ
Réponse n − 1 = 59 et α = 0.05 ⇒ α 2 = 0.025 et 1 − α 2 = 0.975
χ0.975
2
(
, 59 = 59 + 118 × Z 0.975 = 80.29 on approxime χ 59 par N (59, 118)
2
)
χ0.025 , 59 = 59 + 118 × Z 0.025 = 59 − 118 × Z 0.975 = 37.71 ( Z 0.025 = − Z 0.975 )
2

L'IC de la variance, au niveau 95%, s'obtient par :


 59 × 14.79 59 × 14.79 
 80.29 , 37.71  = 10.66 , 22.7 
 
L'IC au niveau 95% pour l'écat-type, σ , se calcule par :
 10.66 , 22.7  = 3.26 , 4.76
 

112
Estimateur d’une proportion
On cherche un estimateur de la proportion p dans une population

Sur chaque échantillon de taille n, on considère n v.a. définies par :


 1 si le i-ème élément de l'échantillon possède l'atribut A
Yi = 
0 sinon
La v.a. Yi suit une loi de Bernoulli de paramètre p
⇒ la v.a. Y = Y1 + Y2 + ⋯ + Yn suit une loi binomiale de paramètres n et p; Y ∼ B(n,p)

En conséquence : E (Y ) = np et V (Y ) = np (1- p )
1
∑ i=1Yi
n
Soit la v.a. F = → F correspond à la fréquence de la tribut A dans l'échantillon
n

D'après les propriètés de l'espérance et de la variance on a :


1 n 1 1 p(1 − p)
∑ E (Yi ) = p ∑ V (Yi ) = n2 ∑ i=1 p(1 − p) = n
n n
E(F ) = et V (F ) =
n i =1 n 2 i =1

Estimateur d’une proportion


Proposition
1 n
La fréquence de la tribut A dans l'échantillon F = ∑ Yi
n i =1
est un estimateur, sans biais, de la proportion p de l'attribut A dans la population

p (1 − p)
∗ V(F)= → la précision de l'estimateur F dépend de la véritable proportion p
n

∗ D'après le tableau de variations de la fonction f ( x) = x(1- x), x ∈ [0,1],


p(1 − p) 1
i V(F)= ≤
n 2n
i V(F) est d'autant plus petit que la véritable proportion p est proche de 0 ou de 1.
Elle est maximale pour p proche de 0.5

∗ L'estimateur F est plus précis lorsque la proportion p est proche de 0 ou de 1


que lorsque celle-ci est proche de 0.5

113
Distribution de la fréquence empirique
Proposition

Si la taille de l'échantillon, n, est suffisamment grande, alors la fréquence de l'échantillon F


suit approximativement une loi normale :
 p(1 − p) 
F ∼ N  p, 
 n 

Estimation ponctuelle d’une proportion


Exemple
Dans un lot d'articles, on a prélevé un échantillon de 100 articles et compté le nombre k=3
d'articles défectueux.

Estimation ponctuelle

Nous pouvons estimer la proportion d'articles défectueux dans le lot par pɵ = 0.3

114
Estimation par IC d’une proportion
Si la taille de l'échantillon est siffusamment grande, on sait que
p(1 − p )
la fréquence de l'échantillon est approximativement normale et que : F ∼ N ( p, )
n
p (1 − p )
L'erreur type V ( F ) = dépend du véritable proportion p
n
En pratique, en la remplace par la valeur empirique sur l'échantillon pe

Théorème
Lorsque la taille de l'échantillon est siffusamment grande,
un IC de p au niveau de confiance 1-α est donné par :
 
pe (1 − pe )
p −z
1−α
, pe + z1−α pe (1 − pe ) 
 e n n 
 2 2 

Estimation par IC d’une proportion


Remarque
On peut également se placer dans une hypothèse pessimiste en choisissant un
écart-type maximal pour l'estimateur F .
Nous savons que la fonction f ( x ) = x (1- x) admet un maximum égal à 0.25 en x = 0.5
1
Ainsi l'écart type maximal est Il a l'avantage d'être indépendant de p.
4n

Dans ce cas l'IC donné dans le théorème précédent devient



F - z 1 ,F+z 1 
 1-α 4n 1-α 4n 
 2 2 

115