Cours ProbaStat F.PDF Version 1kkkkkkkkkk

FST de fès
Module : Probabilité et statistique descriptive

Niveau : BCG2
R. El khaoulani El idrissi
Année universitaire 2015-2016
Chapitre 1
Généralités
Données statistiques, tableau, représentation

graphique, fréquence et effectif cumulés
1
Qu’est ce que la statistique
Statistique = est une discipline qui a pour objet :
a. de collecter, d’obtenir, et de réunir des informations (ou données), statistique

puis à les organiser et les synthétiser pour faciliter une analyse descriptive
méthodique et objective de ces données.
b. d’exploiter la synthèse de ces données pour établir, notamment Statistique

grâce à la théorie des probabilités, des modèles de prévisions. inférentielle
statistique
c. de se servir de ces modèles de prévisions comme un outil pour décisionnelle
prendre des décisions
Qu’est ce que la statistique
Étapes d’une analyse statistique :
• Planifier la collecte de données;
• Récolter les données;
• Les organiser;
• Les synthétiser;
• Établir des modèles de prévisions à partir des données;
• Utiliser ces modèles de prévisions pour prendre des décisions.
2
Quelques définitions de base
Population : ensemble de personnes ou d’objets équivalents étudiés.
Individu : chaque élément d’une population
Caractère : la variable étudiée, il désigne une grandeur ou un attribut observé sur

chaque individu.
Modalités : différents états ou valeurs pris par un caractère.
Série statistique : la suite des modalités prises par un caractère sur la population
toute entière ou sur un échantillon
Quelques définitions de base

Il existe deux méthodes pour recueillir les données
1. Recensement = méthode exhaustive consistant à étudier tous les individus d’une

population. Difficile en pratique lorsque la taille de la population est grande pour
des questions de coût et de temps.
2. Sondage = recueil d’une partie de la population. La partie des individus étudiés

s’appelle l’échantillon.
Le prélèvement d’un échantillon à partir de la population initiale se fait par des

techniques statistiques, appelées méthodes d’échantillonnage.
Echantillonnage
L’échantillonnage représente l’ensemble des opérations qui ont pour objet de prélever
un certain nombre d’individus d’une population donnée.
L’échantillon doit être représentatif de la population i.e. qu’il doit refléter
fidèlement sa composition et ses caractéristiques.
3
Typologie des séries statistiques
Les séries statistiques se répartissent en deux groupes selon le caractère étudié :
1. Variable quantitative : lorsque toutes les valeurs possibles sont numériques et
s’expriment par des nombres entiers ou réels …
a. Variable quantitative discrète : l’ensemble des valeurs possibles est dénombrable.
Exemples : nombre d’enfant par famille
b. Variable quantitative continue : l’ensemble des valeurs possibles est continu, toutes
les valeurs réelles d’un intervalle sont susceptibles d’être prises.
Exemple : taille d’une personne
2. Variable qualitative : les modalités sont des attributs qualitatifs, et non des valeurs
numériques.
a. Variable qualitative nominale : la variable est dite qualitative nominale lorsque les
modalités ne peuvent pas être ordonnées.
Exemples : état civil : {célibataire, marié, veuf, divorcé},
couleur des yeux : {noir ; bleu ; vert}
b. Variable qualitative ordinale : lorsque les modalités peuvent être ordonnée.

Exemple : très résistant, assez résistant, peu résistant
Représentation des données
Il existe plusieurs niveaux de description statistique :
o La présentation de données brutes.
o Des présentations par des tableaux numériques
o Des représentations graphiques
o Des résumés numériques fournis par un petit nombre de paramètres caractéristiques

Réduction des données à quelques valeurs numériques caractéristiques
4
Tableau statistique
Tableau statistique
Il s’agit de transformer les tableaux de données brutes en des tableaux qui se prêtent à
l’analyse des données.
Cas discret
À chaque modalité xi du caractère X peut correspondre un ou plusieurs individus.
Effectif
On appelle effectif de la modalité xi le nombre ni de fois que cette modalité est observée.
Remarque ∑n i = N, où N de la population ou la l'échantillon étidié
Fréquence
n
On appelle fréquence de la modalité xi le nombre fi tel que : fi = i
N

Remarques
a- ∑ fi =1
b- 0 ≤ fi ≤ 1
c- fi ×100 : le pourcentage d'individus ayant la modalité xi
d- fi : la proportion d'individus ayant la modalité xi
5
Exemple
Sur un échantillon de 1000 pièces tirés de la production journalière d’une usine, on compte
le nombre de défauts constatés sur chaque pièce
xi ni fi
0 570 0.57 • Les modalités sont : 0, 1, 2, 3 et 4
1 215 0.215 • 57% de pièces sont saines

2 140 0.14 • La proportion des pièces ayant 3 défauts est 0.06
3 60 0.06
4 15 0.015
Total 1000 1

Représentation graphique
Quand la variable est discrète, la représentation graphique des effectifs se fait

par un diagramme en bâton
Exercice Tracer le graphique des données de l’exemple précédent
6
Caractère continu
On répartit les modalités en classes. En règle générale, on choisit les classes de façon à ce
que chaque classe comprenne un nombre suffisant d’individus
→ De la même façon, on définit l'effectif ni et la fréquence fi de chaque classe

→ A chaque classe [ei , ei+1[, on associe l'amplitude ai définie par : a i =ei+1 − ei
Exemple Un technicien mesurant des tiges métalliques, il obtient les valeurs suivantes :
classe ni fi ai
[330,340[ 57 0.11 10
[340,343[ 195 0.39 3
[343,345[ 204 0.41 2
[345,350[ 30 0.06 5
[350,360[ 14 0.03 10
500
Histogramme
Dans le cas de données regroupées en classes on utilise un histogramme, il permet de
représenter les données par une suite de rectangles contigus.
Histogramme des effectifs

i On place sur l'axe des abscisses les différentes classes.
nj
i La hauteur du rectangle correspondant à la classe j est donc donnée par : n'j = a
aj
n'j s'appelle l'effectif corrigé,

a est une amplitude élémentaire, en générale, on prend l'amplitude la plus courante
7
Exemple
a=2
classes n n’i
i
[1-2[ 2 4 En suite, on trace l’histogramme
[2-4[ 4 4
[4-6[ 8 8
[6-9[ 6 4
Remarques
o L’aire de chaque rectangle est proportionnelle à l’effectif de la classe qu’il représente.
Aire = a × ni' = a × ni
i
o Le choix de l’amplitude élémentaire ne modifie pas l’allure de l’histogramme
o La classe dont l’aire du rectangle associé est la plus grande est la classe ayant le plus d’effectif

Histogramme des fréquences
On suit la même démarche pour tracer l’histogramme des fréquences
Exemple
On mesure la taille en centimètres de 50 élèves d’une classe
f
f i' = i a
classe effectif amplitude fréquence fréquence ai
corrigée
[151.5 ; 155.5[ 10 4 0.2 0.05 On prend a=1
[155.5 ; 159.5[ 12 4 0.24 0.06
[159.5 ; 163.5[ 11 4 0.22 0.055
[163.5 ; 167.5[ 7 4 0.14 0.035
[167.5 ; 171.5[ 10 4 0.2 0.05
= 50 =1
8
Variable qualitative
Dans le cas d’une variable qualitative (nominale ou ordinale), les données
peuvent être représentées par deux types de graphique :
1. Les effectifs sont représentés par un diagramme en barres
2. Les fréquences par un diagramme en secteurs (piechart)
Exemple
On s’intéresse à l’état civil de 20 personnes, on obtient la série statistique suivante
Diagramme en secteurs
xi ni fi en %
des fréquences
Diagramme en barres
des effectifs
C 9 45
M 7 35 10
8
V 2 10 C 6
D 4
D 2 10 M
2
V
0
Codification : C : célibataire C D M V
D : divorcé(e)
M : marié(e)
V : veuf(ve)
9
Fréquences et effectifs cumulés
Motivation
Dans le cas d’une variable quantitative, il est souvent intéressant, de pouvoir dire « il y a
tant d’observations » ou « il y a tel pourcentage d’observations » inférieures ou
supérieures à telle valeur. C’est à ce genre de préoccupation que répond le calcul des
fréquences ou des effectifs cumulés
Effectif cumulé croissant (cas discret)

L’effectif cumulé croissant (ECC) correspond à une modalité donnée xi est le nombre
d’individus dont la modalité est inférieure ou égale à xi.
Autrement dit, le ECC d’une valeur (ou d’une classe) est la somme des effectifs de cette
valeur (ou de cette classe) et des effectifs précédents
ECCi est l’effectif cumulé croissant c’est dire le

nombre d’observations ayant des valeurs
inférieures ou égales à xi :
i
ECCi = ∑ n j
j=1

Effectif cumulé décroissant (cas discret)
L’effectif cumulé décroissant (ECD) correspond à une modalité donnée xi est le nombre
d’individus dont la modalité est supérieure ou égale à xi.
Autrement dit, le ECD d’une valeur (ou d’une classe) est la somme des effectifs de cette
valeur (ou de cette classe) et des effectifs suivants
Remarque
On définit, de la même manière, la fréquence cumulée croissante FCC et la

fréquence cumulée décroissante FCD
10
Fréquence cumulée croissante FCC, fréquence cumulée décroissante FCD
Les définitions de FCC et FCD s’obtiennent en substituant pourcentage à nombre dans les
définitions précédentes.
Exemple (série discrète) On considère la série statistique suivante :
Calculer Les ECC, ECD, FCC et FCD
xi ni Combien y a-t-il d’individus ayant une modalité
0 11 a. au plus 3 ?
b. au moins 3 ?
1 33
c. plus de 3 ?
2 27 d. moins de 3 ?
3 12 Quel est le pourcentage et quelle est la proportion d’individus
4 4 ayant une modalité
a. au plus 3 ?
5 2 b. au moins 3 ?
Locution || Symbole
6 1 c. plus de 3 ? Vocabulaire au plus || ≤
d. moins de 3 ?
au moins || ≥
plus de || >
moins de || <

Exemple 2 (série continue) classe ni
On considère la série statistique suivante
[0,2[ 2
[2,4[ 3
[4,8[ 4
Calculer les ECC, ECD, FCC et FCD [8,11[ 1
Remarques
1. Le ECC correspondant à une classe donnée [a-b[ indique le nombre d’individus dont la
modalité est strictement inférieure à b.
2. Le ECD correspondant à une classe donnée [a-b[ indique le nombre d’individus dont la
modalité est supérieure ou égale a.
3. Les mêmes remarques sont valables pour le FCC et le FCD en substituant
pourcentage à nombre.
Question
Qu’en est-il pour une modalité qui n’est pas extrémité d’une classe ?
11
Représentation graphique de ECC, ECD, FCC et FCD
Exemple 2 (série continue) classe ni
On considère la série statistique suivante
[0,2[ 2
[2,4[ 3
Exercice
[4,8[ 4
Tracer la courbe de ECC et de ECD
[8,11[ 1
Hypothèse
On suppose que l’effectif est uniformément réparti dans chaque classe
À l’intérieur de chaque classe, on fait une interpolation linéaire pour obtenir la valeur
de ECC et de ECD.
La représentation graphique de ECC et de ECD est un segment de droite à l’intérieur

de chaque classe
Remarque
Les représentations graphiques de FCC et FCD se font de la même manière
Chapitre 2
Statistique descriptive univariée
12
Caractéristiques statistiques
Les caractéristiques statistiques sont des indicateurs numériques qui permettent de décrire,
d’une manière synthétique, des données. On définit deux types de caractéristiques :
1. Caractéristiques de position
2. Caractéristiques de dispersion
Paramètres-clefs de position
Ils permettent d’avoir des informations sur l’ordre de grandeur de l’ensemble
des observations et de localiser la zone des fréquences maximales
a. Le mode, noté mo
Définition Le mode est la modalité la plus fréquente
Cas discret La modalité d’effectif maximal est repérée directement sur le tableau ou
sur la représentation graphique
Cas continu
On détermine la classe de densité maximale, la classe modale, à partir des n’i, c’est
la classe ayant le plus grand n’i. En suite, le mode est le centre de cette classe.
Remarque Le mode n’est pas nécessairement unique
b. La médiane, notée me
Définition La médiane est la modalité qui divise l’effectif total en deux parties égales
Cas discret
i. Si l’effectif total, N, est impair, la médiane est la modalité qui occupe le rang central (N+1)/2
ii. Si l’effectif total, N, est impair, alors
a. si la modalité qui occupe le rang N / 2 est égale à la modalité qui occupe
le rang ( N / 2) + 1 alors la médiane est égale à cette modalité
b. sinon on dit que la médiane n'existe pas ou la médiane
n'est pas une valeur observée.
Exemples
N=10
xi ni ECC xi ni ECC N=12 xi ni ECC La 5ième modalité égale à
N=11 1 et la 6ième égale à 2.
0 2 2 me=2 0 2 2 La 6ième modalité 0 2 2 Elles sont différentes
et la 7ième sont
1 3 5 1 3 5 1 3 5
égales à 2
2 4 9 2 4 9 2 3 9 On peut prendre
Donc me=2
me=(x5+x6)/2=1.5
3 2 11 3 3 12 3 2 12
Mais ce n’est pas une
valeur observée
13
Cas continu
On détermine la classe médiane, i.e. la première classe telle que ECC ≥ ( N / 2)
( si N est pair c'est la classe contenant le ( N / 2)ième individu, noté [a, b[.
La médiane me est obtenue à partir de : me - a = ( N / 2) − ECC−1

b-a n
ECC−1 : ECC de la classe qui précède la classe [a, b[
n : effectif de la classe [a, b[
N : effectif total
Démonstration ….
Exemple Calculer la médiane me pour la série statistique suivante
classe ni ECC
[0 - 2[ 2 2 On repére la classe modale
[2 - 4[ 3 5 N=14, N/2=7 ⇒ [4 - 8[ est la classe médiane
[4 - 8[ 5 10 La médiane me est obtenue à partir de : me -4 = 7 − 5 ==> me = 5.6
[8 - 15[ 4 14
8-4 5
Remarque On peut déterminer la médiane grâce à ECD, FCC et FCD
Détermination grâce à ECD
On détermine la classe médiane, i.e. la première classe telle que ECD ≥ ( N / 2)

La médiane me est obtenue à partir de : me - a = ECD − ( N / 2)
b-a n
ECD : ECD de la classe [a, b[
n : effectif de la classe [a, b[ et N : effectif total
Détermination grâce à FCC
On détermine la classe médiane, i.e. la prmière classe telle que FCC ≥ 0.5, noté [a, b[.
La médiane me est obtenue à partir de :

me - a = 0.5 − FCC−1
b-a f
FCC−1 : FCC de la classe qui précède la classe [a, b[
f : fréquence de la classe [a, b[ et N : effectif total
14
Caractéristiques de position
c. La moyenne La moyenne ne peut être définie que sur une variable quantitative
Définition La moyenne est la somme des modalités devisée par leur nombre, on le note x
Cas discret 1 n
n∑
x = xi cas de données individuelles
i =1
p
1
n∑
= ni xi cas de données groupées
i =1
avec n est le nombre d'individus,
ni individus ayant la modalité xi et p est le nombre de modalités différentes
Cas continu
p e +e
1
x= ∑
N i =1
ni ci avec ci = i+1 i i.e. le centre de la classe [ei+1, ei [ et p : le nombre de classes
2
c. Quantiles - Fractiles
Définition
Soit α ∈]0,1[, le quantile d'ordre α , noté qα , est la modalité telle qu'une proportion α
des x i est plus petite que qα . Autrement dit, qα est la modalité vérifiant FCC(qα )=α
Définition équivalente
Soit α ∈]0,1[, le quantile d'ordre α , noté qα , est la modalité telle qu'un

pourcentage α ×100 d'individus ont des modalités plus petites que qα
Remarques
La médiane est le quantile d'ordre 1/ 2 i.e. me = q1/ 2
On utilise souvent :
q0.25 le premier quartile, on le note Q1
q0.5 le deuxième quartile, on le note Q2 = me
q0.75 le troixième quartile, on le note Q3
q0.1 le premier décile, on le note D1
q0.9 le neuvième décile, on le note D9
15
Détermination des quantiles On calcule les quantiles en suivant la même méthode vue
pour la détermination de la médiane.
Calcul du premier quartile (en utilisant ECC)

On détermine la classe [a, b[ telle que ECC-1 < ( N / 4) et ECC ≥ ( N / 4)
i.e. la première classe telle que ECC ≥ ( N / 4)
Q1 - a ( N / 4) − ECC−1
Le premier quartile est obtenue à partir de : =
b-a n
ECC−1 : ECC de la classe qui précède la classe [a, b[
n : effectif de la classe [a, b[
N : effectif total
Exemple Calculer la médiane Q1 , Q2 et Q3 pour la série statistique suivante
classe ni ECC
[0 - 2[ 2 2
[2 - 4[ 3 5
[4 - 8[ 5 10
[8 - 15[ 4 14
Calcul de Q2 Q2 = me = 5.6
Calcul de Q1 On repére la première classe telle que ECC ≥ ( N / 4)

N=14, N/4=3.5 ⇒ [2 - 4[ est la classe recherchée
Q1 -2 3.5 − 2 1.5 = 1 ==> Q = 3
Q1 est obtenu à partir de : = ==> Q1 − 2 = 2 × 1
4-2 3 3
Calcul de Q3 On repére la première classe telle que ECC ≥ (3N / 4)
N=14, 3N/4=10.5 ⇒ [8 - 15[ est la classe recherchée
Q3 -8 10.5 −10 0.5 = 0.85 ==> Q = 8.85
Q3 est obtenu à partir de : = ==> Q3 − 8 = 7 × 3
15-8 4 4
16
Paramètres de dispersion
Grandeurs caractéristiques de dispersion
Ils précisent le degré de dispersion des différentes valeurs autour d’une valeur centrale.
a. L’Etendue, noté e
Définition L’étendue est simplement la différence entre la plus grande et la plus petite
valeur observée
e = Max xi − Min xi
Intérêt Ce paramètre quantifie l’étalement total des données, il permet de détecter
d’éventuelles valeurs extrêmes
b. Intervalle interquartiles, notée IQ IQ = Q3 − Q1
étendue
Intérêt o Ce paramètre indique les 50% de modalités situées au centre de la distribution
o Il très peu sensible aux données extrêmes
17
c. La variance, V(x)
Définition La variance est la somme des carrées des écarts à la moyenne divisée par le
nombre d’individus
Cas discret 1 n
n∑
V(x) = ( xi − x )2 cas de données individuelles
i =1
1 p
ni ( xi − x ) 2
n∑
= cas de données groupées
i =1
avec n est le nombre d'individus,

ni individus ayant la modalité xi et p est le nombre de modalités différentes
Intérêt
o Il mesure la dispersion des modalités autour de la moyenne
o Plus la variance est grande plus les modalités peuvent être éloignées de la moyenne
i.e. plus elles sont dispersées.
o Plus la variance est petite plus les modalités sont proches de la moyenne
i.e. elles sont moins dispersées.
Remarques o La variance est sensible aux valeurs extrêmes
o L’unité de mesure de la variance est le carrée de celle de la série
Théorème La variance peut aussi s'écrire
1 n 2
V(x) =
N∑ xi − x 2 cas de données individuelles
i =1
1 p
N∑
= ni xi 2 − x 2 cas de données groupées
i =1
Démonstration …
Remarque
L’expression de la variance donnée par le théorème est plus commode pour faire des calculs
Cas continu p p
1
ni (ci − x)2 = 1 ∑ ni ci 2 −
N∑
La variance est donnée par : V ( x) = x2
i =1 N i =1
18
d. L’écart type
Définition L’écart type est une mesure de la distance moyenne à la moyenne
Intérêt σ x = V ( x)
o Il mesure la dispersion des modalités autour de la moyenne
o Plus l’écart type est grand plus les modalités peuvent être éloignées les unes des autres
i.e. plus elles sont dispersées.
o Plus l’écart type est petit plus les modalités sont proches de la moyenne
i.e. elles sont moins dispersées.
Remarque L’unité de mesure de l‘écart type est la même que celle des modalités
e. Le coefficient de variation σ
Le coefficient de variation est le rapport entre l'écart type et la moyenne Cv = x
Remarque x
o Plus le coefficient de variation est élevée, plus la dispersion autour de la moyenne est grande
o Le paramètre est sans unité
Remarque
Le coefficient de variation permet de comparer la variabilité de données situées dans des ordres
de grandeurs différents, par exemple la variabilité du poids des éléphants et des souris
Chapitre 3
Statistique descriptive bivariée
19
Statistique descriptive à deux dimensions
Dans la statistique bivariée, on traite deux variables conjointes, i.e. deux
variables observées simultanément sur les mêmes individus d’une population.
Remarque
L’intérêt se porte le plus souvent sur la relation entre les deux variables, recherche de
corrélation (d’interdépendance, le liaison, de correspondance) entre les deux variables,
mais sans tirer des conclusions sur l’existence de liens de causalités entre elles.
Objectif
La statistique descriptive bivariée vise à étudier l’existence d’éventuels liens
entre deux séries statistiques, quantifier l’intensité et caractériser sa forme
le cas échéant.
Comment réaliser une telle étude ?
L’étude d’un couple de variables conjointes se fait au moyen de
tableaux, graphiques et calcul de paramètres-clés
Hypothèses
On considère donc le cas où l’on dispose de deux variables x et y observées sur les
mêmes individus, par exemple poids et taille, présence en cours et note du module ….
Les deux variables peuvent être soit quantitatives soit qualitatives, mais on
examinera, dans ce cours, davantage le cas où les deux variables sont quantitatives
Couples de variables conjointes
On s'intéresse à deux variables statistiques conjointes x et y. Ces deux variables sont observées
sur les mêmes individus d'une population. Pour chaque individus, on obtient donc deux mesures.
La série statistique est alors une suite de couples des valeurs prises par les deux variables sur
chaque individu (x1,y1 ),⋯,(x i ,yi ),⋯ ,(x n ,y n )
x une variable pouvant prendre K modalités x1,⋯ , xK

y une variable pouvant prendre L modalités x1,⋯ , xL
Les données observées peuvent être regroupées dans un tableau à doubles entrées
appelé tableau de contingence
20
Tableau de contingence
x/ y y1 ⋯ yl ⋯ yL K
x1 n n n
Total
n
1.
n .. = ∑ ni .
11 ⋯ 1l ⋯ 1L i
L
⋮ ⋮ ⋮ ⋮ ⋮ = ∑n j .
j
xk nk1 nk l nk L nk .
⋯ ⋯ K L
= ∑∑ ni j
⋮ ⋮ ⋮ ⋮ ⋮ i j
xK nK 1 nK l nKL nK .
⋯ ⋯ Distribution
marginale de x
Total n 1 . ⋯ . nl ⋯ . nL ..
n =n
Distribution Distribution
conjointe Distribution de y conditionnelle à x=xi marginale de y
ni j le nombre d'individus présentant la modalité xi de x et la modalité y j de y

La dérnière ligne et la dernière colonne du tableau représentent les distributions marginales
i.e. la distribution de x sans tenir compte de y ou celle de y sans tenir compte de x.
L K
nk . est l'effectif associé à xk , nk . = ∑ nk j
j
et
.l est l'effectif associé à yk , n.l = ∑i ni l
n
Tableau des fréquences

y1 yl yL Total
x/ y
f
⋯ ⋯ f f n
x1 11 ⋯ f
1l ⋯ 1L 1. fk l = kl
n
⋮ ⋮ ⋮ ⋮ ⋮ n
xk f k1 fk L f k. f k. = k.
⋯ fk l ⋯ n
⋮ ⋮ ⋮ ⋮ ⋮ n
xK f.l = .l
f K1 ⋯ fK l ⋯ f KL f K. n
. ⋯ f.l ⋯ f.L
Total f 1
1
fi j la fréquence d'individus présentant la modalité xi de x et la modalité y j de y
21
Tableau de contingence
Exemple Tri croisé des variables : sport préféré et taille pour les élèves d’un lycée
Athlétisme Basketball Football Totaux
[140-150[ 14 3 20 37
[150-160[ 25 10 32 67
[160-170[ 41 27 59 127
[170-180[ 30 19 45 94
[180-190[ 18 35 29 82
Totaux 128 94 185 407
Tableau des fréquences

Athlétisme Basketball Football Totaux
[140-150[ 0.03 0.01 0.05 0.09
[150-160[ 0.06 0.02 0.08 0.17
[160-170[ 0.1 0.07 0.14 0.31
[170-180[ 0.07 0.05 0.11 0.23
[180-190[ 0.04 0.09 0.07 0.2
Totaux 0.31 0.23 0.46 1

Remarque
D’une manière générale à partir du tableau de contingence, on utilise
la statistique du chi-deux pour mesurer l'importance de la
contingence (la dépendance, la liaison) entre deux caractères.
Cas de deux variables quantitatives

Dans ce cours, on se limite à étudier l’interdépendance entre deux variables
quantitatives.
Ce cas est relativement aisé et une éventuelle relation d’interdépendance entre les deux
variables peut être réalisée à partir des données individuelles de chacune des deux
variables.
Exemple On mesure simultanément le courant et l’intensité aux bornes d’une

résistance, on obtient les valeurs suivantes
X : intensité en 0.053 0.067 0.095 0.16 0.2

Ampère
Y : tension en 8.1 9.95 15 25 30
Volte
22
Deux variables quantitatives conjointes
Cas de deux variables quantitatives
Soient x et y deux variables statistiques quantitatives. On souhaite :
o Déterminer s’il existe une relation entre x et y.
o Caractériser la forme de la liaison entre x et y.
o Quantifier l’intensité de la liaison.
Etude graphique
Le nuage de points
Il s’agit de représenter les données dans le plan par un ensemble de points (xi,yi).
Ce nuage de points est très commode pour représenter les observations simultanées de
deux variables quantitatives. Il donne une idée assez bonne de la variation conjointe
des deux variables : nous pouvons détecter visuellement une forme de liaison entre les
deux variables.
Corrélation et régression linéaires

Les points sont-ils suffisamment proches d’une même droite ?
Lorsque cela est réalisé on parle de corrélation linéaire entre x et y. Ce qui autorise de
faire une régression linéaire i.e. de supposer que le nuage de points (xi,yi) est aligné. On
construit alors une droite de régression ou d’ajustement linéaire de y par rapport à x. Par
la suite cette droite peut servir à pronostiquer pour une valeur possible de x une valeur
correspondante de y
23
Covariance
La covariance La covariance est un indicateur numérique d’éventuelle liaison linéaire entre x et y,
elle rend compte de la manière dont les deux variables varient simultanément
Définition
La covariance est la moyenne des produits des écarts à la moyenne
1 N 1 p
Cov(x,y)= ∑
N i=1
( xi − x )( yi − y ) = ∑ ni ( xi − x )( yi − y )
N i =1
où ni est le nombre d'individus ayant la modalité xi et p est le nombre de modalités différentes
Remarque
La covariance peut prendre des valeurs positives, négatives ou nulles
Dans la pratique, on utilise l’expression de la covariance donné par le théorème suivant

Théorème La covariance peut aussi s'écrire
1 N 1 p
Cov(x,y)= ∑ x y
N i =1 i i
− x × y = ∑ n x y − x× y
N i =1 i i i
Démonstration …
Covariance
Remarques
1. La covariance permet d'évaluer le sens de variations des deux variables :

si Cov( x, y ) > 0 x et y ont tendance à varier dans le meme sens (relation positive)
si Cov( x, y ) > 0 x et y ont tendance à varier dans des sens opposés (relation négative)
2. Cov( x, x) = V ( x)
3. Cov( x, y ) = Cov( y, x)
24
Coefficient de corrélation linéaire
Ce coefficient caractérise la liaison linéaire entre les deux variables,
son expression est donnée par
Cov( x, y)
rxy =
Remarques σ xσ y
1. rxy = ryx
1 N
2. − 1 ≤ rxy ≤ 1 car on peut démontrer que : ∑ ( y − axi − b)2 = V ( y )(1 − rxy 2 )
N i =1 i
3. rxy indique l'intensité de la liaisaon linéaire, plus cette valeur absolue est proche de 1, plus
la liaison est forte; à contrario, plus elle est proche de 0 plus la liaison linéaire est faible.
a. Si rxy ≤ 0.7 on considéra que la liaison linéaire est trop faible et que
l'ajustement linéaire n'est pas acceptable
b. Si rxy >0.7 la corrélation linéaire est acceptable.

Remarques (suite)
4. Si rxy = 1 ou − 1 il y a une relation parfaite entre x et y

et les points ( xi , yi ) sont alignés sur une droite
5. Si le coefficient rxy est nul ou proche de zéro, il n'y a pas de dépendance

linéaire entre les deux variables. On peut cependant avoir une dépendance non
linéaire avec un coefficient de corrélation linéaire nul.
Exemple
x -2 -1 0 1 2
y 4 1 0 1 4
x = 0, Cov( x, y ) = ∑ xi yi − x × y = (−2 × 4) + (−1×1) + 0 + (1×1) + (2 × 4) − 0 = 0

⇒ rxy = 0 et portant y = x 2
25
Corrélation linéaire
Exemple On mesure simultanément le courant et l’intensité aux bornes d’une

résistance, on obtient les valeurs suivantes
X : intensité en 0.053 0.067 0.095 0.16 0.2

Ampère
Y : tension en 8.1 9.95 15 25 30
Volte
σ x = 0.0593, σ y = 8.53, Cov( x, y) = 8.53 et rxy =0.994
Il y a une forte corrélation linéaire entre les deux variables donc l’ajustement
linéaire de y par rapport à x peut être utilisé à des fins prédictives des valeurs de
y en fonction des valeurs connues de x. Mais ceci n’est possible que lorsque les
valeurs de x sont proches de l’intervalle [0.05 - 0.2]
Droite d’ajustement linéaire

Remarque
Après avoir étudié l’existence et le sens d’une éventuelle liaison linéaire entre deux
variables statistiques quantitatives x et y et avoir calculé son intensité, on passe à l’étape
suivante : la construction de la droite de régression linéaire, notamment, par la méthode
des moindres carrés, notée MMC
Droite d’ajustement linéaire
Le problème consiste à trouver une droite d'équation yˆ = ax + b telle que le tracé de cette droite sur
le même graphique que le nuage de points (x i ,yi ) est celui qui s'ajuste le mieux au nuage de points.
26
Méthode des moindres carrés
Principe Faire passer la droite d'ajustement yˆ = ax + b, à travers le nuage de points, de
façon à ce que les différences (yˆ i -yi ) soient les plus faibles possible pour
l'ensemble des points ( xi , yi )
Pour déterminer la valeur des coefficients a et b, le principe
des moindres carrés consiste à chercher la droite qui minimise
la somme des carrés la somme des carrées des distances des
points à la droite mesurées verticalement i.e. la somme des
carrés des écarts ε i = yˆi − yi
.
Ce qui revient à minimiser la fonction critère, qui s'écrit sous
la forme d'un polynome de degré 2, suivante :
N
1 N 2 N
D
y/ x
( a, b) = ∑ ε i = 1 ∑ ( yˆi − yi )2 = 1 ∑ ( yi − axi − b)2
N i =1 N i =1 N i =1
Théorème La droite d'ajustement linéaire de y par rapport à x, obtenue par MMC,
est la droite d'équation yˆ = ax + b avec a = Cov( x, y) ; b = y − ax

V ( x)
Pente de la droite d’ajustement

Remarque
Lorsqu’une corrélation linéaire est permise, la covariance est de même
signe que la pente de la droite ajustée.
27
Corrélation non linéaire
Ajustement non linéaire
Il peut arriver que les points représentant une série double ne soient pas alignés, mais soient
voisins d’une courbe connue. On se sert alors de ce que nous avons vu pour la corrélation et
l’ajustement linéaire, mais en transformant au préalable l’une ou les deux des variables.
Exemples
Ajustement linéaire entre y et z = x n donne un ajustement de la forme y = ax n + b
Ajustement linéaire entre y et z = ln( x ) donne un ajustement de la forme y = a ln( x) + b
Ajustement linéaire entre z=ln(y ) et x donne un ajustement de la forme y = beax
Statistique descriptive – relation causale
Remarque
La statistique descriptive, à laquelle on s’est limité dans ce cours, ne peut conclure

quant à une relation causale entre les deux caractéristiques étudiés. Elle décrit
seulement cet ensemble et éventuellement le résume par une relation, vraie en
moyenne, entre les deux variables.
La relation ainsi trouvée peut être une aide pour la recherche d’une loi(physique,
chimique, financier ou économique …), mais ne peut en rien se substituer à la recherche
de cette loi à l’aide des raisonnements scientifiques plus appropriés.
28
Chapitre 4
Dénombrement et opérations sur les événements
Dénombrement
Dénombrement
Le dénombrement est une branche de l’analyse combinatoire qui étudie comment
compter des objets.
Le dénombrement permet le comptage des éléments de divers types de
groupements que l’on peut faire à partir d’ensembles finis, mais en procédant
d’une manière méthodique et non de compter d’une manière désordonnée.
Expérience aléatoire
Une épreuve est qualifié d’aléatoire si :
a- On ne peut prédire avec certitude son résultat
b- On peut décrire l'ensemble de tous les résultats possibles.
Exemple : jet d'un dé ; lancer d'une pièce de monnaie …
Univers ou espace d’échantillonnage
Il s’agit de l’ensemble formé de toutes les issues possibles de cette expérience
Événement Est une partie de l’univers, formée d’une ou plusieurs issues possibles
Événement élémentaire Est une partie de l’univers, formée d’une seule issue possible.
29
Opérations sur les événements
Exemple « Lancer un dé standard et noter le numéro de la face supérieure »
est une expérience aléatoire comportant 6 issues Ω = {1, 2,3, 4,5,6}
A = {2, 4,6} est l'événement "obtenir un nombre pair"
B = {1} est l'événement élémentaire "obtenir le nombre 1"
C = {1,6} est l'événement "obtenir 1 ou 6"
∅ est un événement impossible, Ω est un événement certain
Opérations sur les événements
L’union L'événement A ∪ B est réalisé dès que A ou B (ou les deux) sont réalisés.
i.e. A ∪ B se constitue des issues appartenant à A ou B.
Dans l'exemple ci-dessus, A ∪ B est l'événement "obtenier 1 ou un nombre pair"
L’intersection L'événement A ∩ B est réalisé si A et B sont simultanément réalisés.
i.e. A ∩ B se constitue des issues communes à A et B.
Dans l'exemple ci-dessus, A ∩ C est l'événement "obtenir le nombre 6"
Le complémentaire
L'événement complémentaire de A, noté A est réalisé dès que A n'est pas réalisée.
Dans l'exemple ci-dessus, A est l'événement "obtenir un nombre impair"
Evénements incompatibles
Evénements incompatibles
Deux événements sont dits incompatibles si leur intersection est un événement impossible
Exemples
Dans l'exemple précédent, A et B sont incompatibles
L'événement impossible ∅ est compatible avec tous les autres événements
Un événement et son contraire sont toujours incompatibles.
Partition de l’univers
On appelle partition de Ω toute famille ( Ai )i∈I d'événements telle que :
∪ Ai =Ω et si i ≠ j , alors Ai ∩ A j = ∅
i∈I
C'est à dire une famille d'événements, deux à deux incompatibles et dont la réunion est Ω
Remarque On parle aussi des événements(scénarii) mutuellement exclusifs et exhaustifs
Exemple Pour tout événement A, A et A forment une partition de Ω
30
Combinaison : addition ou multiplication ?
Question Quand on utilise plusieurs combinaisons, faut-il additionner ou multiplier ?
Règle générale Si les différentes étapes sont reliées par et on multiplie

Si les différentes étapes sont reliées par ou on additionne
Exemple Dans une classe il y a 10 garçons et 20 filles.

On choisit au hasard deux élèves.
Dans combien de choix on obtient exactement une fille et un garçon ?
Dans combien de choix on obtient au moins une fille ?
Réponse
Les choix qui contiennent exactement une fille et un garçon sont celles qui
contiennent une fille et un garçon
1
Nombre de façons de choisir une fille 20 (C20 )
Nombre de façons de choisir un garçon 10 (C1 )
10
Au total, il y a 20 10=200 choix où on obtient exactement une fille et un garçon
Les choix qui contiennent au moins une fille sont celle qui contiennent exactement
une fille ou deux filles
Nombre de façons de choisir exactement une fille 200 (C20 × C10 )
1 1
Nombre de façons de choisir exactement deux filles 190 (C 2 )

20
Au total, il y a 200 + 190 = 390
Type de disposition des éléments

Après une expérience aléatoire la disposition des éléments d’une issue peut être
Sans répétition : chaque élément peut y apparaître 0 ou 1 fois
Avec répétition : un élément peut y figurer plus d’une fois
Ordonnée l’ordre d’obtention d’un élément est important i.e. un élément est
caractérisé non seulement par le nombre de fois ou il apparaît dans la
disposition, mais aussi par sa place dans la disposition
Non ordonnée
l’ordre des éléments ne compte pas dans la caractérisation de
la disposition
31
Dispositions ordonnées
Exemple
On dispose d’une urne avec 10 jetons numérotés de 1 à 10.
On tire 3 fois de suite un jeton dont on note le numéro avant de le remettre dans l’urne.
Quel est le nombre de résultats possibles ?
Réponse On a donc : 10 10 10 =103 triplets de résultats possibles
Arrangement avec répétition

Définition Il s’agit d’une disposition ordonnée de p éléments pris parmi n éléments
discernables, avec répétition éventuelle.
Pour chacun des p éléments, il y a n possibilités. On en déduit :
Proposition
Le nombre d'arrangements de p éléments choisis parmi n, avec répétitions possibles, est np
Exemple Combien de mots de trois lettres peut-on former avec les 26 lettres de l’alphabet ?
Réponse 263
Exemple Combien de numéros de téléphone portable, composés de 10 chiffres et commençant
par 06, existe-t-il ?
Réponse Un numéro est composé de 06 suivi 8 chiffres choisis, avec répétition éventuelle,
parmi 0,1, …,9 dont l’ordre est important. Il y a 108 Cent millions numéros!
Exemple Combien de podiums sont possibles pour une épreuve avec 10 participants ?
Réponse Il faut choisir la médaille d’or parmi les 10, puis la médaille d’argent parmi
les neuf restants, puis la médaille de bronze parmi les 8 restants.
Soit 10 9 8 = 720 podiums possibles
Arrangement sans répétition
Définition Il s’agit d’une disposition ordonnée de p éléments pris parmi n éléments
discernables, sans répétition.
Il y a n possibilités pour le 1ier élément Exemple
Il y a (n-1) possibilités pour le 2ième élément Combien de mots de trois lettres,
⋮ ne contenant pas deux fois la

même lettre, peut-on former avec
Il y a (n-p+1) possibilités pour le pième élément les 26 lettres de l’alphabet ?
Au total, cela fait donc n(n-1)…(n-p+1) possibilités Réponse 26 25 24
Proposition
Le nombre d'arrangements, sans répétition, de p éléments choisis parmi n est :
n!
Anp = n(n − 1)⋯(n − p + 1) = ∀(n, p) ∈ ℕ 2 tel que p ≤ n
(n − p)!
32
Exemple
Une assemblé de 15 personnes doit élire un bureau composé de 3 membres : un président un
secrétaire et un trésorier. Quel est le nombre de bureau possibles.
Réponse
Le nombre de bureaux possibles est A315 = 15 14 13 = 2730
Arrangements
Propriétés a. n ! = n × ( n − 1) × ( n − 2) × ... × 2 × 1 b. 0! = 1
c. =1
An0 d. A1n = n
e. Ann = n! f. Ann−1 = n!
p−1
g. Anp = Anp−1 + p An−1 ∀(n, p ) ∈ ℕ 2 , tel que p ≤ n
Démonstration …
33
Permutation
Permutation
Définition Tout classement ordonné de n éléments distincts est une permutation
de ces n éléments. Il s’agit d’un arrangement sans répétition de n éléments parmi n
Exemple : aebcd est une permutation des éléments a, b, c, d, e
n! n!
Le nombre de permutation de n éléments est Pn = Ann = = = n!
(n − n)! 0!
Exemples De combien de façons pouvez-vous ranger 10 livres sur une étagère ?
Réponse 10 ! =3 628 800
De combien de manières peut-on classer 80 étudiants d’une classe ?
Réponse
Il suffit de choisir, parmi les 80 étudiants, celui qui sera 1ier ; on a 80 possibilités,
puis de choisir le 2ième parmi les 79 restants ; 79 possibilités, puis le 3ième, le 4ième
et ainsi de suite. Au total, il y a 80! Possibilités.
Combinaison sans répétition

Combinaison sans répétition
Il s’agit de disposition non ordonnée de p éléments pris parmi n , sans répétition.
Exemple A un concours de recrutement, 10 candidats se présentent pour trois postes.
Quel est le nombre de possibilités de recrutement ?
Réponse Ici l’ordre importe peu : seul compte le fait d’être, ou non, recruté.
On peut donc commencer par compter le nombre de manières de
classer 3 candidats parmi 10 : 3
A10 = 10 × 9 × 8 = 720
Puis ensuite diviser ce nombre par le nombre de classements de ces trois
recrutés entre eux, soit 3! =6
Le nombre de recrutement possible est donc de 120
Généralisation
D'une manière générale, pour une disposition ordonnée de p éléments pris parmi n sans répétition,
il y a Anp possibilités. Parmi celles-ci, p ! permutations correspondent à la même disposition
non-ordonnée.
p
On en déduit que le nombre de combinaisons sans repétition de p éléments parmi n, noté Cn ,
p
A
Cnp = n =
n!
est : ∀(n, p) ∈ ℕ2 , tel que p ≤ n
p! p!(n − p)!
34
Exercices
Exercice 1
À la fin d'une réunion d'anciens élèves, tout le monde se serre la main. S'il y a n personnes
à la fête, combien de poignées de mains sont échangées ?
Exercice 2
Quel est le nombre de manières de placer 8 convives autour d’une table ?
Formules remarquables
Propriétés
Cnp = = Cnn− p
n!
∀(n, p) ∈ ℕ 2 , tel que p ≤ n
p!(n − p)!
Cnp = Cnp−1 + Cnp−−11 ∀(n, p) ∈ ℕ 2 , tel que 1 ≤ p ≤ n
p Cnp = n Cnp−−11 ∀(n, p) ∈ ℕ 2 , tel que 1 ≤ p ≤ n
Cn0 = Cnn = 1
C1n = Cnn−1 = n
35
Triangle de Pascal
p−1
p
La formule Cn = Cnp−1
+ Cn−1 permet de construire le triangle de Pascal : on porte p
p
horizontalement et n verticalement. Les Cn se trouvent à l'intérieur du tableau
Triangle de Pascal
Chaque nombre du triangle C pn est obtenu en faisant la somme de celui

qui est juste au-dessus (C pn-1 ) et de celui qui est au-dessus et à gauche (Cp-1
n-1 )
Chapitre 5
Introduction à la probabilité
36
Expérience aléatoire
Exemples d’expérience aléatoire
Un fabricant contrôle les produits sortis de ces chaînes : il y a deux issues possibles,
ou bien le produit est sans défaut et peut être vendu, ou bien le produit présente des
défauts et va être jeté. L’univers est fini (conforme non-conforme)
On choisit un nombre entier positif on parle là d’univers infini discret (les valeurs
possibles sont toutes isolées) et dénombrable
On choisit un point dans le plan, l’univers des possibles est infini continue non-dénombrable
Le concept de probabilité
Il existe deux manières d’introduire la probabilité
La probabilité subjective
La probabilité subjective d'un événement est un nombre qui caractérise la croyance
que l'on a que cet événement est réalisé avec plus ou moins de certitude
La probabilité assimilée à une fréquence
Dans ce cas la probabilité est définie à partir d'expériences indéfiniment dénombrables.
La probabilité de cet événement est la fréquence de son apparition.
Si on répéte n fois la même expérience aléatoire dans des conditions identiques

nA
et si l'événement A est réalisé n A fois, le nombre est appelé fréquence de
n
réalisation de l'événement A sur n coups.
En général, la fréquence de réalisation tend à se stabiliser lorsque n devient grand ;

nA n
est une valeur approchée de p( A) i.e. p ( A) = lim A = lim f n ( A)
n x →+∞ n x →+∞
37
Loi de probabilité
Probabilité
Une probabilité est une mesure qui permet d’évaluer les chances de réalisations
des événements d’une expérience aléatoire.
Modéliser une expérience aléatoire, c’est définir l’ensemble des événements et une
probabilité sur cet ensemble
Dans le cadre de ce cours, une probabilité est une fonction, notée p, qui attribue à un
événement A une valeur p(A) désignant la probabilité que A se réalise
Loi de probabilité
Une probabilité possède les propriétés suivantes
a. 0 ≤ p( A) ≤ 1 pour tout événement A
b. p(Ω) = 1
c. p (∅ ) = 0
d . p ( A) = 1 − p ( A)
e. Si A ⊂ B (l'événement A implique l'événement B ), alors p ( A) ≤ p( B)

f. Si A et B sont deux événements incompatibles, alors la probabilité de la
réalisation simultanée des deux événements est la somme des probabilité :
P ( A ∪ B) = P ( A) + P( B)
g. Si A et B ne sont pas deux événements incompatibles, alors :
p( A ∪ B) = p( A) + p( B) - p ( A ∩ B )
n n
h. En général, on a : p (∪ Ai ) ≤ ∑ p (Ai ), mais si les les événements (Ai )i=1,⋯,n sont
i =1 i =1
n n
deux à deux incompatibles alors p (∪ Ai ) =
i =1
∑ p(Ai )
i =1
38
Loi de probabilité
Remarques
1. La dernière propriété est vraie aussi lorsque n est infini
2. Une conséquence immédiate de la dernière propriété est

n
Si A est un ensemble fini de Ω ; A = {w1 ,…, wn }. Alors p( A) = ∑
i =1
p( wi )
Le cas particulier où Ω est fini

Proposition
Supposons Ω est fini Ω ={w1 , ..., wn }, alors pour spécifier une probabilité p (ou une loi de
probabilité) sur Ω, il suffit de donner les nombres p( wi ) = pi , 1 ≤ i ≤ n tels que :
(i) pi ≥ 0, 1≤ i ≤ n
n
(ii ) ∑
i =1
pi = 1
Cas de l’équiprobabilité
Définition
On dit qu'il y a équiprobabilité lorsque les probabilités de tous les événements élémentaires sont égales
Proposition
On a jamais équiprobabilité sur un ensemble infini discret dénombrable

Preuve
En effet, supposons que les probabilités élémentaires pi (i ∈ ℕ ) sont toutes égales à un même α .
+∞
Alors p(Ω) = ∑
i =1
pi ne peut valoir que 0 (si α =0) ou +∞ (si α > 0), mais en aucun cas 1.
39
Le cas particulier où Ω est fini
Proposition
Supposons Ω est fini Ω ={w1 , ..., wn }, et que l'on a équiprobabilité des événements élémentaires.
Nombre de cas favorables card ( A)
Alors pour énénement A, on a : p( A) = =
Nombre de cas possibles card (Ω)
Démonstration ….
Commentaire
Lorsque Ω est fini, la façon la plus simple de construire une probabilité sur ( Ω, P (Ω) )
1
est de choisir pi = (card (Ω) = n). C'est la modélisation qui s'impose naturellement
n
lorsque l'on a pas de raison de penser a priori qu'un résultat élémentaire de l'expérience
soit favorisé ou défavorisé par les autres.
Probabilité conditionnelle
Définition Soit Ω un univers muni d'une probabilité p. Soit B un événement tel que p( B) > 0.
La probabilité qu'un événement A se réalise sachant que l'événement B a eu lieu
p( A ∩ B)
(ou probabilité conditionnelle en B ) est définie par : p ( A / B) =
p( B)
On la note aussi pB ( A)
Exemple On jette un dé une seule fois, soient les deux événements suivants :
A : obtenir un chiffre pair
B : obtenir un chiffre inférieur à 3
Calculer p ( A / B) ?
Réponse P(B) = 3/6
P(A ∩ B) = 1/6
P( A/B) = (1/6) / (3/6) = 1/3
Remarque On ne définit la probabilité conditionnelle que par rapport à un événement

de probabilité non nulle.
40
Soit B un événement tel que p( B) > 0, La fonction A → p( A / B) est une vraie probabilité
i.e. les règles de calcul avec les probabilités conditionnelles sont les mêmes qu'avec
les probabilités classiques.
a. 0 ≤ p ( A / B) ≤ 1 pour tout événement A
b. p(Ω / B ) = 1
c. p (∅ / B ) = 0
d . p ( A / B ) = 1 − p( A / B)
e. Si A1 ⊂ A2 , alors p ( A1 / B ) ≤ p ( A2 / B )
f . A1 et A2 deux événements , alors : p ( A1 ∪ A2 / B ) = p ( A1 / B ) + p( A2 / B) - p ( A1 ∩ A2 / B)
Événements indépendants
Définition
On dit que deux événements A et B sont indépendants
si l'un des deux et de probabilité nulle,
ou bien, lorsque les deux sont de probabilités non nulles, le fait de savoir que
l'un est réalisé n'influe pas sur la probabilité que l'autre le soit.
Autrement dit les deux événements sont indépendants si p( A / B) = p( A)
ou d'une manière équivalente si p( B / A) = p( B)
Proposition
Deux événements A et B sont indépendants si et seulement si : p( A ∩ B) = p( A) p( B)
Remarque
Ne pas confondre les deux notions d'événements indépendants et d'événements incompatibles !
Deux événements incompatibles ne sont jamais indépendants (sauf si l'un, au moins,
est de probabilité nulle)
Démonstration…
41
Exemple On jette un dé une seule fois, soient les deux événements suivants :
A : obtenir un chiffre pair
B : obtenir un chiffre inférieur à 3
Les événements A et B sont-ils indépendants ?
Réponse p ( A) = 3/ 6 , p( B) = 3/ 6 , p( A ∩ B ) = 1/ 6
p ( A / B) = (1/ 6) / (3/ 6) = 1/ 3 ≠ 3/ 6 = P ( A)
A et B sont deux événements dépendants, et on doit également avoir : P( B / A) ≠ P( B )

Exemple
Deux lancées successives et indépendantes d'une pièce truquée : Pile avec probabilité p ( p ≠ 0)
Face avec probabilité 1- p . Soit A ={premier lancer pile} et B ={deuxième lancer pile}
Les événements A et B sont-ils indépendants ?
Réponse
p ( A) = p (≠ 0), p ( B ) = p (≠ 0), p ( A ∩ B ) = p (( pile, pile)) = p 2 = P( A) × P( B )
Les deux événements A et B sont indépendants.
Exemple : considérons A="l'enfant à naître est un garçon" et B ="l'enfant à naître est une fille".
Les événements A et B sont incompatibles. Mais ils ne sont pas indépendants ! ! ! En effet,
p ( A ∩ B ) = 0 ≠ p(A) × p( B) = 0.5 × 0.5 = 0.25
Proposition Si A et B sont indépendants, alors il en est de même des couples d'événements :

i. A et B
ii. A et B
iii. A et B
Démonstration
p( A ) × P( B) − p( A ∩ B) = (1 − p( A)) × p( B) − ( p( B) − p( A ∩ B ) )
= p( A ∩ B) − p( A) × p( B)
Donc p( A ∩ B) = p( A) × p( B) ⇔ p( A ∩ B) = p( A ) × P( B)
Comme A et B jouent un rôles symétriques, on a le même résultat pour les deux événements A et B.
Puis en remplaçant A par A pour les deux événements A et B
42
Exercice
Soient A et B deux événements indépendants de probabilités respectives p(A) =0.3 et p(B) = 0.7.
Déterminer les probabilités : p( A ∩ B ), p( A ∪ B) et p ( A ∪ B)
Formule des probabilités composées

Proposition
Si A1 , . . . , An sont des événements de Ω tels que p( A1 ∩ . . . ∩ An ) > 0 , alors
p( A1 ∩ . . . ∩ An ) = p( A1) × p ( A2 / A1) × p( A3 / A1 ∩ A2 ) ×⋯ × p( An / A1 ∩ A2 ∩⋯∩ An−1)
Démonstration, Par récurrence …
Exemple Une urne avec 3 boules rouges, 3 blanches. On tire une boule trois fois sans remise.
Quelle est la probabilité d'obtenir trois boules blanches ?
Réponse
Soit Bi "tirer une boule blanche au i ième tirage"
p( B1 ∩ B2 ∩ B3 ) = p( B1 ) × p( B2 / B1 ) × p( B3 / B1 ∩ B2 )
3 2 1 1
= × × =
6 5 4 20
Probabilités composées dans le cas de deux événements
Soient A et B sont des événements de Ω tels que p( A ∩ B ) > 0 , alors
p( A ∩ B) = p ( A) × p( B / A) = p( B ) × p ( A / B )
43
Formule des probabilités totales
Théorème Soit ( Bi ) une partition de Ω (I est fini ou dénombrable) telle que p( Bi ) ≠ 0 ∀i ∈ I.
i∈I
Alors pour tout événement A de Ω on a : p(A)= ∑ p( A ∩ Bi ) = ∑ p( A / Bi ) × p(Bi )
i∈I i∈I
Remarque Cette formule permet de déterminer les probabilités d'un événement A si l'on dispose
des probabilités conditionnelles avec les événements d'une partition et les probabilités
des événements de la partition.
Exemple
Un sac contient des jetons de trois couleurs différentes, blancs (50%), verts (25%)
et jaunes (25%). Les jetons peuvent être ronds ou cubiques. On suppose que 50%
des jetons blancs sont ronds, 30% des jetons verts sont ronds et 40% des jetons jaunes sont ronds.
Quelle est la probabilité qu'un jeton soit rond ?
Réponse Les événements B, V et J forment une partition de l'univers. D'après la formule

des probabilités totales on a : p( R) = p( R ∩ B ) + p( R ∩ V ) + p(R ∩ J )
= p ( R / B) p( B) + p( R / V ) p (V ) + p( R / V ) p(V )
= 0.5 × 0.5 + 0.3 × 0.25 + 0.4 × 0.25
Formule des probabilités totales

Remarque
B et B forment toujours une partition de Ω. Alors, pour tout événement A, p( A) = p( A ∩ B ) + p ( A ∩ B )
Les probabilités d’intersection se calculent

grâce aux probabilités conditionnelles
Remarque
On peut construire un arbre pondéré des probabilités pour modéliser la situation.
Mais dans les faits on va faire référence à la formule des probabilités totales
44
Formule de Bayes
Théorème
Soit A1,⋯, An une partition de Ω (des événements incompatibles deux à deux
et dont la réunion est égale à Ω). Soit B un événement tel que p ( B ) ≠ 0.
Supposons connaître les probabilités p ( Ai ) et le probabilités conditionnelles
p ( B / Ai ) pour i = 1,⋯, n.
On peut alors calculer les probabilités p( Ai / B) pour i = 1,⋯, n par :
p( Ai ) × p( B / Ai ) p( Ai ) × p( B / Ai ) p ( Ai ) × p( B / Ai )
p( Ai / B ) = = n = n
p ( B)
∑ p( B ∩ Ak )
k=1
∑ p( Ak ) × p(B / Ak )
k=1
Probabilité Probabilité
a posteriori a priori
Formule de Bayes
Exemple Dans une population 1 habitant sur 100 est atteint d'une maladie génétique A, on a
mis au point un test de dépistage. Le résultat du test est soit positif (P) soit négatif N.
On sait que p ( P / A) = 0.8 et p ( N / A) = 0.9
On soumet un patient au test. Celui-ci est positif.
Quelle est la probabilité que ce patient soit atteint de la maladie A ?
Réponse Il s'agit de déterminer p( A / P ).
Les événements A et A forment une partition de Ω
p( A ∩ P ) p( P / A) p ( A)
D'après la Formule de Bayes p( A / P ) = =
p( A) p( P / A) p( A) + p( P / A) p ( A)
0.01× 0.8
= = 0.075
0.01× 0.8 + 0.1× 0.99
Commentaire
Ainsi, avant le test, la probabilité d'être malade était p( A) = 0.01 (probabilité a priori)
Et après le test la probabilité d'être malade est p( A / P ) = 0.075 (probabilité a postériori)
Ainsi le test apporte un supplément d'information.
45
Chapitre 6
Variable aléatoire
Variable aléatoire : outline
o Notion de variable aléatoire
o Distribution ou loi de probabilité d’une variable aléatoire
o Fonction de répartition d’une variable aléatoire
o Grandeurs caractéristiques d’une variable aléatoire
o Couples de variables aléatoires
46
Variable aléatoire
Définition : Une variable aléatoire X est le procédé qui relie l'expérience aléatoire à un nombre.
En termes mathématiques
Soit (Ω, p) espace probabilisé. Une v.a. X est une application de (Ω, p) dans un ensemble F
w ∈Ω → X ( w) ∈ F
On ne considère, dans le cadre de ce cours, que les v.a. réelles i.e. F=]a,b[ un intervalle de ℝ
Exemples
o Soit l'expérience "jeter un dé" et soit X la v.a. représentant la valeur inscrite sur la face
supérieure. Un joueur effectue une 1ère fois cette expérience, il obtient la réalisation x1 = 4.
Il recommence une 2ème fois l'expérience et obtient la réalisation x2 = 3, etc...
v.a. discrète finie
o Soit l’expérience "choisir un nombre entier" et X la v.a. représentant le nombre obtenu. X

peut prendre tous les entiers naturels v.a. discrète infinie
o Soit l'expérience "tirer une pièce parmi une production" et soit X la v.a. représentant la
longueur de la pièce tirée.
L'ingénieur d'usine effectue une 1ère fois cette expérience, il obtient la réalisation x1 =
10,2cm. Il recommence une 2ème fois l'expérience et obtient la réalisation x2 = 9,9cm, etc...
(toutes les valeurs d’un intervalle [a,b] peuvent être prises par X) v.a. continue
Variable aléatoire : support
Support d’une v.a.

Le support d’une v.a. X est l’ensemble de ses valeurs possibles, on le notera S(X).
Variable aléatoire discrète.

Une v.a. est dite discrète finie si ses résultats possibles sont finis S ( X ) = {x1, x2 ,…, xn}
Une v.a. est dite discrète dénombrable infinie si ses résultats possibles sont infinis
dénombrables (illimités)
S ( X ) = {x1, x2 ,…, xn ,…}
Variable aléatoire continue

Une v.a. est dite continue si l’ensemble de ses résultats possibles forment un intervalle de valeurs
47
Variable aléatoire : exemples
Exemples
A l'usine, on dispose d'un lot de 30 pièces prélevées dans la production sur lesquelles on
effectue un contrôle de qualité à l'issue duquel on déclare les pièces conformes ou
non-conformes. Soit X la v.a. qui compte le nombre de pièces non-conformes.
• L'ensemble des valeurs possibles pour X est S ( X ) = {0,1,…,30} X v.a. discrète finie
• L‘événement "2 pièces sont non-conformes" se note (X = 2).
• (X = 100) est un événement impossible
• 8.5 ≤ X ≤ 10.5 est l'événement "9 ou 10 pièces sont non-conformes"
On s'intéresse au poids des pièces qui peut varier de 10g à 20g. Soit X la variable aléatoire
représentant le poids (en g) d'une pièce.
• L'ensemble des valeurs acceptables pour X est S ( X ) = [10,20] X v.a. continue
• (X = 12) = le poids d'une pièce est de 12g.
• (X = 100) est un événement impossible
• 10.5 ≤ X ≤ 12.5 le poids d'une pièce est compris entre 10.5g et 12.5g.
Que voulons savoir sur une Variable aléatoire ?

Intérêt on s’intéresse aux chances de réalisation des valeurs de X plutôt qu’aux chances
de réalisations des résultats de l’expérience.
Comment étudier une v.a. ?
∗ Quelles sont les valeurs possibles prises par la v.a. X ?
∗ Quelles sont les probabilités de différentes valeurs prises par une v.a. X ?
∗ Quelles sont les probabilités que les valeurs prises par une v.a. X appartiennent à un intervalle donné ?
∗ En moyenne, quelle est la valeur espérée de X ? et quels sont les risques qu'une réalisation de X
soit éloignée de cette valeur ? et avec quelle marge ?
Grâce à la v.a. X, on transporte la structure probabiliste sur les réels
p X ( A) = p( X −1 ( A)) = p{ w ∈Ω, X ( w) ∈ A } ∀A ⊂ ℝ
( )
Par exemple, p X ( ]a, b[ ) = p X −1 ( ]a, b[ ) = p{w ∈Ω, a < X ( w) < b} ∀( a, b) ∈ ℝ 2
Soit A un événement de ℝ, { X ∈ A} = p{w ∈ Ω, X ( w) ∈ A} = X −1 ( A).
Cela signifie aussi X −1 ( A) est un événemnet de Ω.
Soit p X l'application qui associe à tout événement A de ℝ le nombre p X ( A) = p ( X ∈ A) ∈ [0,1]
p X est une loi de probabilité sur ℝ, que l'on appelle loi de la v.a. X
48
Loi de probabilité et fonction de répartition
Loi de probabilité
Définition La loi (ou la distribution) de probabilité d’une v.a. décrit comment sont réparties
les probabilités en fonction des valeurs de la v.a.
Elle permet de connaître les valeurs de p X ( A) = p{w ∈Ω, X ( w) ∈ A} ∀A ⊂ ℝ
Fonction de répartition
Définition : la fonction de répartition d’une v.a. X est la fonction définie par :
FX ( x) = p( X ≤ x) = p( X −1 ]−∞, x ])
Elle permet de déterminer la probabilité que les valeurs prises par la v.a. X soient inférieures à
une valeur donnée. C’est également le pourcentage des valeurs de X inférieures à cette valeur.
Propriétés
La fonction de répartition est croissante, continue à gauche et à valeurs dans [0,1]
x1 < x2 alors F(x 2 ) = F ( x1 ) + PX ( ]x1, x2 ]) ≥ F ( x1)

p X (ℝ) = p{ w ∈Ω, X ( w) ∈ ℝ } = p(Ω) = 1
lim FX ( x) = 0 lim FX ( x) = 1 mais elle n'est pas forcément continue à droite
x →−∞ x→+∞
p X ( ]a, b]) = p(a < X ≤ b) = p( X ≤ b) − p( X ≤ a) = FX (b) − FX (a) ∀a et b tels que a ≤ b
Loi de probabilité
Remarque
La donnée de la loi de probabilité d’une v.a. pour certains événements simples permet de définir
p X ( A) pour tout événement A ⊂ ℝ
• Les événements élémentaires pour une variable discrète
• Les événements du type ]- ∞, x[ ou ]- ∞, x] ou ]x, +∞[ ou [ x, +∞[, x ∈ℝ pour

une variable continue. Cela revient, en fait, à donner seulement la fonction de répartition
49
Loi de probabilité d’une v.a. discrète
Loi d’une v.a. discrète La loi de probabilité d’une v.a. discrète X est la donnée de
p( X = xi ), noté pi , ∀xi ∈ S ( X ) tels que 0 ≤ pi ≤ 1 et ∑i pi = 1
 p( X = x) si x ∈ S ( X )
Cela revient à définir une fonction sur ℝ comme suit : f X ( x) = 
0 sinon
Calcul de la probabilité d’un événement quelconque

p X ( A) = ∑
i / xi∈A
pi pour tout événement A de ℝ
Fonction de répartition d’une v.a. discrète

Fonction de répartition d’une v.a. discrète
F ( x) = p( X ≤ x) = ∑ pi
i / xi ≤ x
Remarques
∀x ∈[ xi−1, xi [ FX ( x) = FX ( xi−1)
FX ( xi ) − FX ( xi−1) = p( X = xi ) = pi
En plus, des propriétés que l’on a vues dans le cas d’une v.a. quelconque, la fonction de
répartition d’une v.a. discrète, est une fonction en escalier, discontinue à gauche,
présentant des sauts pi en chaque xi
50
Variable aléatoire : cas discret
Exemple : on lance successivement deux dé.
On considère la v.a. X : la somme des deux chiffres obtenus.
Valeur de X 2 3 4 5 6 7 8 9 10 11 12
pi 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
P(X<= x) 1/36 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 35/36 1
Proba(X=x)
0,18 0,17
0,16
0,14 0,14
0,14
0,11 0,11
Ici F répartition
0,12
0,1 0,08 0,08
Proba(X=x)
0,08
0,06 0,06
0,06
0,04 0,03 0,03
0,02
0
0
1 2 3 4 5 6 7 8 9 10 11 12
Variable aléatoire : cas continu

Définition La loi de probabilité, d’une v.a. continue, est définie par une fonction
dite densité de probabilité :
o Positive
o L’aire sous la courbe vaut 1, c-à-d

∫ℝ f X (t ) dt = 1
on parle aussi de v.a. absolument continue
Définition
La fonction de répartition d'une v.a. absolument continue est définie par :
x
FX ( x) = p( X ≤ x) = p ( X ∈] − ∞, x]) = pX ( ] − ∞, x]) = ∫ f X (t ) dt
Propriétés −∞
∗ Si la densite de probabilité f X est continue, alors la fonction de répartition est dérivable, et
FX' ( x) = f X ( x) ∀x ∈ ℝ
a
∗ p ( X = a) = ∫ f X (t ) dt = 0
a
b
∗ p (a ≤ X ≤ b) = p (a < X ≤ b) = p (a < X < b) = p (a ≤ X < b) = ∫ f X (t ) dt
a
∗ p (a ≤ X ≤ b) = FX (b) − FX ( a )
51
Variable aléatoire
Cas continu b
p(a ≤ X ≤ b) = ∫f X (t ) dt = F (b ) − F ( a )
fX(t) a
t
a b
La probabilité d'obtenir une valeur de X dans l'intervalle [a, b] est égale à l'aire
du domaine situé sous la courbe de la densité f X entre les abscisses a et b
Fonction de répartition d’une v.a. représentant le poids, en gramme, d’une pièce métallique.
∗ F(400)=p(X ≤ 400) : probabilité d'avoir un poids inférieur ou égale à 400g
∗ p(X>300)=1-p(X ≤ 300)=1-F(300) : probabilité d'avoir un poids supérieur à 300g
∗ p(300 ≤ X ≤ 400)=F(400)-F(300) : probabilité d'avoir un poids compris entre 300g et 400g
52
Variable aléatoire
f X ( x)
a
FX (a) = p( X ≤ a) = p( X < a) = ∫ f X (t )dt
−∞
L’aire entre la courbe de la fonction densité, l’axe des abscisses et la droite x=a
Variable aléatoire : principaux indicateurs
Les lois de probabilité se caractérisent par 3 types de grandeurs fondamentales :
o La tendance centrale (l’espérance mathématique)
o La dispersion (la variance et l’écart-type)
o La forme (l’asymétrie et l’aplatissement)
53
Variable aléatoire
Définition : L’espérance mathématique d’une v.a. X est définie par :
+∞
Cas discret E( X ) = ∑ xi pi Cas continu E( X ) = ∫ x f X ( x) dx
i / xi∈S ( X ) −∞
L’espérance n’est définie que ces sommes le sont
Interprétation L’espérance d’une v.a. X représente la valeur moyenne de X : c’est celle
que l’on peut espérer en répétant un grand nombre de fois l’expérience
Exemple On lance une pièce truquée : p(pile)=0.6
Si on obtient pile, on perd 100 DH sinon on gagne 200 DH
X : v.a. égale au gain du joueur. Calculer E(X). Interpréter
Réponse E(X)= (-100) x 0.6 + 200 x 0.4 = 20 DH
Si l’on joue plusieurs fois, on peut espérer gagner 20 DH
Le jeu est plutôt favorable, mais ça reste une moyenne
L'espérance est linéaire
E (aX + bY ) = aE ( X ) + bE (Y ) a, b ∈ ℝ 2 , X ,Y deux v.a. d'espérances finies
Remarque Si la v.a. est constante égale à c ∈ ℝ alors E ( X ) = c
Variable aléatoire centrée Un e v. a. est dite c en trée si E(X ) = 0
Variable aléatoire : variance

Définition : La variance d’une v.a. X est l’espérance mathématique du carré de la v.a.
centrée (associée à X) et s’écrit : 2
σ X =V (X ) = E[ X − E( X )]
2
Propriétés
• En pratique, on utilise l'expression équivalente et plus opératoire : V ( X ) = E ( X 2 ) − [ E ( X ) ]
2
• V ( X ) = 0 ssi la v.a. X est constante

• V(aX+b) = a 2 × V(X) a, b ∈ℝ 2
• En général : V(X1 + X 2 ) ≠ V(X1 ) + V(X 2 )
n n
Cas discret σ X2 = V ( X ) = ∑ pi ( xi − E ( X )) 2 = ∑ pi xi 2 − E ( X ) 2
i =1 i =1
+∞
Cas continu σ X2 = V ( X ) = ∫x
2
f ( x) dx − E ( X )2
−∞
54
Coefficient de variation :
Le coefficient de variation d’une v.a. X se définit par :
σX
Cv = si E ( X ) ≠ 0
E(X )
Interprétation
o Il mesure la variabilité et la dispersion de la v.a.
o Une loi avec un coefficient de variation supérieur (inférieur) à 1 est considérée

comme une loi avec une variance élevée (faible).
o Le coefficient de variation est défini seulement pour des variables avec valeurs
possibles positives (il risquerait sinon d’être négatif, ce qui n’aurait pas de sens pour
une mesure de variabilité).
Variable aléatoire : écart type

L’écart type d’une v.a. X se définit comme la racine carrée de la variance de cette v.a.
σ X = V (X )
Remarque
L‘écart type a la même échelle que les valeurs pouvant être prises par la v.a. X.
Interprétation
o L’écart type mesure la dispersion des valeurs d’une v.a par rapport à son espérance
o Plus l’écart type est grand plus la variable prend des valeurs qui peuvent être éloignées les
unes des autres.
o Plus l’écart type est petit plus la variable prend des valeurs proches de sa moyenne
Définition Une v.a. est dite réd uit e s i σX = V (X ) = 1
55
Variable aléatoire
Grandeurs caractéristiques de position
Ils permettent d’avoir des informations probabilistes sur l’ordre de grandeur de
l’ensemble des valeurs prises par la v.a. et de localiser la (ou les) zone des valeurs
les plus probables
o l'espérance
o La médiane (lorsqu’elle est définie) est le réel telle que la v.a. X a autant de chance de
se réaliser au-dessus qu’en dessous. p ( X ≤ x ) ≥ 0.5 et p ( X ≥ x) ≥ 0.5
Variable aléatoire
Grandeurs caractéristiques de dispersion
Préciser le degré de dispersion des différentes valeurs prises
par la v.a. autour d’une valeur centrale.
La variance et L’écart type expriment à quel point les valeurs prises par X sont
dispersées autour de son espérance. Plus les valeurs de ces paramètres sont élevées, plus
la dispersion, autour de l’espérance, des valeurs de la v.a. est importante.
Définition
Soit α ∈[0,1]
Le quantile ou le fractile d'orde α de la v.a. X est la valeur qα tel que : p( X ≤ qα ) = α
La probabilité que les réalisations de la v.a. X soient inférieures à la valeur qα vaut α
Les quantiles permettent de fournir l'intervalle dans lequel X se réalise avec 50%, 75%,
95% .... de chances par exemple.
56
Couple de variables aléatoires

On considère deux v.a. X et Y définies sur (Ω, p), on souhaite étudier les liens entre ces deux v.a.
Couples de variables discrètes
Loi conjointe
Exemple
p x y = p( X = x , Y = y ) ∀x ∈ S ( X ), y ∈ S (Y )
Dans une urne contenant quatre boules
Loi marginale de X indiscernables au toucher numérotées de 1 à 4.
p ( X = x) = ∑y p( X = x , Y = y) = ∑y px y On en tire simultanément deux.
X le plus petit des numéros sortis et Y le plus
Loi marginale de Y grand.
Donner la loi conjointe et les lois marginales de
p (Y = y ) = ∑x p( X = x , Y = y) = ∑x px y X et Y.
Définition Les v.a. X et Y sont dites indépendantes si tout événement relatif à une des
deux variables est indépendant de tout événement relatif à l’autre
Formellement
tout événement [ X ∈ I ], I ⊂ ℝ est indépendant de tout événement [Y ∈ J ], J ⊂ ℝ.
Autrement dit, ∀I , J ⊂ ℝ : p ( X ∈ I , Y ∈ J ) = p ( X ∈ I ) p (Y ∈ J )
57
Caractérisation de l'indépendance pour un couple de variables discrètes

p ( X = xi , Y = y j ) = p ( X = xi ) × p (Y = y j ) ∀ xi ∈ S ( X ), ∀y j ∈ S (Y )
Caractérisation de l'indépendance pour un couple de variables contin ues

f X,Y (x , y)= f X (x)f Y (y) ∀( x, y ) ∈ ℝ 2
→ Deux variables aléatoires sont indépendantes si la densité

conjointe est égale au produit des densités marginales
Proposition
Si deux variables aléatoires X et Y sont indépendantes alors
(i) E ( XY ) = E ( X ) × E (Y )
(ii) V ( X + Y ) = V ( X ) + V (Y )

La covariance des deux v.a. X et Y s’écrit Cov( X , Y ) = E ( X − E ( X ) ) × (Y − E (Y ) ) 
Le coefficient de corrélation linéaire Cov( X , Y )
rXY =
σ X σY
Propriétés de la covariance
• C o v ( X , Y ) = E ( X Y ) − E ( X ) × E (Y )
• C o v ( X , Y ) = C o v (Y , X )
• S i X e t Y s o n t in d é p e n d a n te s , a lo rs E ( X Y ) − E ( X ) ⋅ E ( Y )
d o n c C o v ( X , Y ) = rX Y = 0
• V ( a X + b Y + c ) = a V ( X ) + b 2V ( Y ) + 2 a b C o v ( X , Y )
2
• S i r X Y = ± 1, a lo r s Y = a X + b
• Si rXY = 0, les v.a. X et Y sont dites non corrélées linéairement.
Ces deux nombres mesurent l’importance de la dépendance linéaire entre les deux v.a.
58
Remarque
Cov ( X , Y ) = rX Y = 0 n'implique pas que X et Y sont indépendantes
Exemple :
Soit la paire de v.a. discrètes (X,Y) où S(X)= {-1, 0, 1} et S(Y)= {-2, 0, 2}. Les valeurs de la
fonction de masse de probabilité conjointe de (X, Y) sont fournies dans le tableau suivant
Y -2 0 2 Clairement, on a : p (X=-1) = p (X=0) = p (X=1) = 1/3

X p (Y=-2) = p (Y=2) = 1/6 et p (Y=0) = 2/3
-1 0 1/3 0 E ( XY ) = ∑ px y x y = 0 = E ( X ) = E (Y )
x, y
0 1/6 0 1/6 ⇒ Cov( X ,Y ) = 0 ⇒ rX Y = 0
1 0 1/3 0
Toutefois,
p(X=0,Y=0) # p(X=0)p(Y=0) = 2/9. Alors, les v.a. X et

Y ne sont pas indépendantes bien que leur covariance
soit nulle
Chapitre 7
Distributions de probabilité usuelles discrètes
59
Exemples de distribution de probabilité discrète
o Loi de Bernoulli
o Loi Binomiale
o Loi hypergéométrique
o Loi de Poisson
Loi de Bernoulli ou loi 0-1

Contexte On considère une expérience aléatoire où l'on ne s'intéresse qu'à la réalisation ou
la non réalisation d'un événement A. L'univers Ω est constitué de A et A.
On définit la v.a. X en associant 1 à l'événement A et 0 à l'événement A,
de telle sorte que p( A) = p( X = 1) = p et p( A) = p( X = 0) = 1 − p
Alors S ( X ) = {0, 1 }
La loi de probabilité de cette v.a. est appelée loi de Bernoulli de paramètre p
on parle aussi de loi 0 -1. On note X ∼ Ber ( p)
0 si x < 0
1- p si x = 0 
On a : p X ( x) =  et FX ( x) = 1-p si 0 ≤ x < 1
 p si x = 1  1 si x ≥ 0

Remarque
La réalisation de l'événement A sera appelée succès, sa non réalisation étant alors appelée échec
(les termes succès et échec ne font pas référence au caractère bon ou mauvais du résultat de l'expérience)
Espérance E ( X ) = q × 0 + p ×1 = p
Variance V ( X ) = q × (0 − p )2 + p × (1 − p) 2 = pq = p (1 − p) ⇒ σ X = p(1 − p)
60
Loi de Binomiale
Contexte
( )
On considère une expérience aléatoire qui ne possède que deux résultats : le succès ( S ), échec S .
Soit p = p( S )
On répète n fois cette expérience et on suppose que les n répétitions sont indépendantes.
On pose X : le nombre de succès au cours de n répétitions.
Alors on dit que la v.a. X suit la loi binomiale de paramètres n et p, on note X ∼ B(n, p)
Caractéristiques d’une loi binomiale
Le support de X : S ( X ) = {0,1,⋯, n}
La fonction de masse : p X (k ) = Cnk p k (1 − p )n−k ∀k ∈ S ( X )
k
La fonction de répartition : FX ( k ) = ∑ Cni pi (1 − p)n−i ∀k ∈ S ( X )
i =0
Comme le calcul de FX (k ) est fastidieux lorsque n devient grand, on utilise souvent en pratique
une table de loi binomiale ou des logiciels qui fournissent les valeurs de cette fonction.
Espérance E ( X ) = n × p
Variance V ( X ) = npq = pn(1 − p) ⇒ σ X = np(1 − p )
Loi de Binomiale
Remarques (i) La loi binomiale modélise le nombre de succès dans une expérience aléatoire
équivalente à "n tirages indépendants et avec remise parmi N éléments, dans
lequel on s'intéresse au nombre de fois où un événement donné se réalise.
Elle permet de modéliser le nombre de succès lors d'un sondage avec remise
(ii) Le nombre d'échecs (qui est Y = n - X ) suit la loi B(n,1- p )

Exemple On lance 10 fois un dé bien équilibré.
Quelle est la probabilité d'obtenir 4 fois le chiffre 1 ?
Réponse
"Lancer un dé" possède deux issues : succès "S" obtenir 1 ; échec "S" obtenir un chiffre différent de 1
1
p(S ) = = p
6
On répéte 10 fois cette expérience de manière indépendante.
Soit X le nombre de fois où l'on obtient 1. Alors X ∼ B(10, 1 )

6
4 10−4
4 1 5
p ( X = 4) = C10   ×  = 0.054
  6
6
61
Loi de Binomiale
Proposition
Si X1 et X 2 sont deux variables indépendantes de lois respectives B (n1, p)
et B ( n2 , p) (lois de même paramètre p). Alors X1 + X 2 suit la loi B (n1 + n2 , p)
Exercice
Un lot contient 20 articles parmi lesquels 4 sont défectueux.
On tire avec remise 7 articles du lot. Calculer
1. La probabilité d'observer exactement un article défectueux.
2. La probabilité d'observer au moins 4 articles défectueux.
3. L'espérance et la variance du nombre d'articles défectueux.
Loi de Hypergéométrique
Contexte
Soit une population de N individus parmi lesquels une proportion p (c-à-d N p = N × p individus )
possède un caractètre donné.
On prélève un échantillon de n individus parmi cette population (le tirage pouvant s'effectuer d'un
seul coup ou au fur et à mesure mais sans remise)
Soit X le nombre aléatoire d'individus de l'échantillon possédant la propriété considérée.
Alors X suit la loi hypergéométrique de paramètre N , n et p. On note X ∼ H ( N , n, p )
Remarques
• N p = N × p est un entier représentant le nombre d'individus possédant le caractère étudié.
• N q = N − N p = N (1 − p ) = N × q : le nombre d'individus dans la population qui n'ont pas ce caractère.
• Une loi hypergéométrique représente le nombre de fois où un événement se réalise

en n tirages indépendants, sans remise, parmi N éléments.
62
Caractéristiques d’une loi hypergéométrique
• Le support de X est : S ( X ) = {0,1,⋯, min( N p , n)}
Nombre de groupe de (n - k ) individus

Nombre de groupe de k individus ne possédant pas la propriété
possédant la propriété
C Nk C Nn-k
p q
• La fonction de masse de X est donnée par : p( X = k ) = n ∀k ∈ S ( X )
CN
Nombre d'échantillons possibles
• L'espérance mathématique de X est : E ( X ) = n × p

N -n
• La variance de X est : V ( X ) = n× p× q
N -1
Exemple On fait un sondage dans une population de 1000 personnes pour chercher un caractère C.
On fait un tirage au sort de 50 personnes.
Dans la population on considère que la répartition du caractère C est de 20 %.
Quelle est la probabilité que l'on ait dans le sondage 10 individus ayant le caractère C ?
Réponse X : le nombre d'individus ayant le caractère C dans l'échantillon
Alors X ∼ H (1000, 50, 0.2)
C10 × C 40
p ( X = 10) = 20050 800 = 0.1434
C1000
Exercice Une boîte contient 20 composants parmi lesquels 2 sont défectueux.

Trois composants sont pris au hasard et sans remise de la boîte.
Soit X le nombre de composants défectueux dans l'échantillon.
Quelle est la probabilité d'avoir moins d'un composant défectueux dans l'échantillon ?
Combien de composants, en moyenne, y a-t-il dans l'échantillon ? Déterminer un paramètre
qui caractèrise la dispersion du nombre de composants défectueux autour de ce nombre ?
63
Approximation d’une distribution hypergéométrique par une loi normale
Soit une v.a. X est distribuée selon une loi hypergéométrique ( X ∼ H ( N , n, p) ) ,
Si N est grand par rapport à n, on n'hésite pas à substituer la loi B(n, p) à la loi H ( N , n, p )
(en fait lorsque N → +∞ les tirages avec remise ou sans remise sont pratiquement équivalents)
C'est à dire que X peut être supposée binomiale avec X ~ B ( n, p )
∗ Lorsque N est grand par rapport à n et le sondage est effectué sans remise, on l'assimile à
un sondage avec remise et on parle de sondage avec remise assimilé
∗ En pratique, cette approximation sera valable, pour nous, lorsque 10 × n < N
∗ La loi hypergéométrique n'est utililée que lorque le rapport N / n est faible.
∗ Lorsque N / n augmente la distinction entre tirage avec ou sans remise est
de moins en moins pertinente
N 1000
∗ Dans l'exemple précédent on a : = = 1000 / 50 = 20 > 10
n 50
p ( X = 10) = 0.1434 loi hypergéométrique, p ( X = 10) = 0.1398 loi binomiale
Les deux lois donnent pratiquement la même probabilité
∗ Par contre dans l'exercice précédent, on ne peut pas substituer
la loi binomaile à la loi hypergéométrique
Loi de Poisson
La loi de Poisson
Soit λ un nombre réel strictement positif.
On dit qu'une variable aléatoire X suit une loi de Poisson de paramètre λ
lorsque S ( X ) = {0,1,⋯ , k ,⋯} avec les probabilités suivantes :
λk
p ( X = k ) = e −λ pour tout entier k
k!
On note alors X ∼
Po(λ )
La variable aléatoire X peut prendre tous entiers k ∈ ℕ. Cependant, lorsque k est suffisamment
grand, la probabilité correspondante devient extrèmement faible.
La loi de Poisson est tabulée …
• L'espérance mathématique de X est : E ( X ) = λ

• La variance de X est : V ( X ) = λ
64
Loi de Poisson
Densité de probabilité
Loi de Poisson de paramètre égale à : 1, 2, 5
Po(1) Po(2) Po(5)
i Les valeurs les plus probables sont proches du paramètre de la loi

i Lorsque le paramètre augmente, la loi tend à devenir symétrique
Loi de Poisson
Utilisation de la loi de Poisson
Il est courant d'utiliser la loi de Poisson lorsque l'on s'intéresse à la probabilité d'observer
un certain nombre de réalisations d'un événement faiblement probable, et les éventuelles
occurrences de cet événement sont indépendantes. et que le nombre de survenues
possibles est potentiellement élevé, de telle sorte que l'événement d'intérêt ait des
chances de se réaliser quelques fois.
Voici quelques exemples :
∗ Nombre d'individus ayant des effets secondaires d'un médicament

∗ Nombre de survenue d'un accident lors des examens radiologiques
∗ Nombre de pièces défectueses produites par une machine.
∗ D'une manière générale, la loi de Poisson est utilisée dans le comptage d'événements rares
65
Loi de Poisson
La loi de Poisson peut également être uitilisée pour la modélisation du nombre d'occurrences
indépendantes d'un événement dans un intervalle de temps ou des intervalles saptiaux(longueur,
surface, volume), ou dans d'autres grandeurs
∗ Nombre d'accidents de circulation mortels par jour dans un pays
∗ Nombre de ponts sur un ségment 100 km de route
∗ Nombre de bactéries pathogènes en suspension dans un échantillon d'eau de distibution
∗ Nombre d'erreurs typographiques sur une page d'un livre
∗ Nombre de mutations aléatoires d'un gène
∗ Nombre de défauts sur une pièce usinée
Le paramètre de la loi de Poisson dans ces cas

Dans le cas où l'on modélise le nombre d'occurrences d'un événement, par exemple sur un
intervalle de temps, par une loi de Piosson, le paramètre λ est défini par λ = µ t , où t est
l'intervalle de temps sur lequel le nombre d'occurrences est compté et µ le nombre
d'occurrences moyen par unité de temps.
Loi de Poisson
Exemple
Une machine utilisée dans une chaîne de production tombe en panne en moyenne 2 fois par mois.
Soit X le nombre de panne par mois. En supposant que X suit la loi de Poisson, quelle est la
probabilité que dans un mois donnée la machine
(i) ne tombe pas en panne ;
(ii) tombe en panne au moins deux fois ?
Solution
X ∼ Po(2 ×1) = Po(2) L'unité de temps est le mois. Le nombre d'occurrences moyen est 2
0
2
(i ) p ( X = 0) = e −2 = 0.1353
0!
(ii ) p ( X ≥ 2 ) = 1 − p( X < 2)
= 1 − p ( X ≤ 1)
= 1 − 0.406 (d'après la table de la loi de Poisson)
= 0.594
66
Loi de Poisson
Proposition
La somme de n v.a., X1,⋯ , X n , indépendentes, distribuées selon une loi de Poisson, de paramètres
n n  n 
λ1,⋯ , λn , suit une loi de Poisson de paramètre égale à ∑ λi c'est à dire ∑ X i ∼Po  ∑ λi 
i =1 i =1  i =1 
Approximation d’une loi binomiale par une loi de Poisson

Proposition Si une v.a. X est distribuée selon une loi binomiale B (n, p ), on montre que si p est petit
(en pratique, p ≤ 0,1) n assez grand (n ≥ 30) et n × p est modéré (n × p ≤ 5), la loi
binomiale peut être approximée par une loi de Poisson de paramètre λ = n × p.
Exemple Dans une société donnée, on estime à 0.01 la probabilité qu'un employé soit
absent de manière ponctuelle et imprévisible durant une journée complète
(on ne considère pas les maladies donnant lieu à des absences prolongées).
Si cette société emploie 130 personnes, quelle est la probabilité qu'il ait
k ( k = 0,1, 2,⋯ ) personnes absentes un jour donnée?
Réponse Si l'on suppose que les employés sont présents ou absents de façon indépendante et que
la probabilité d'une absence est la même chaque jour et pour chaque employé, alors le
nombre X de personnes absentes un jour donné est X ~ B(130,0.01), le tableau suivant
donne les valeurs de p ( X = k ), qui sont très proches, pour les deux lois
P( X ≥ 1) = 1- 0.27 = 0.73
x 0 1 2 3 4 …
Il est assez probable qu'au
X ∼ B(130,0.01) 0.271 0.356 0.232 0.100 0.032 …
moins une personne soit
X ∼ Po(1.30) 0.273 0.354 0.230 0.100 0.032 …
absente chaque jour!
67
Approximation d’une loi binomiale par une loi de Poisson
Exemple 2 % des dossiers de crédit arrivent au service contentieux un an après leur signature.
Soit un lot de 100 dossiers. Quelle est la probabilité qu'aucun dossier ne devienne
contentieux à un an ?
Réponse X : "le nombre de dossier devenant contentieux en un an"
X ∼ B (n, p) n = 100 ≥ 30 ; p = 0.02 ≤ 0.1 et n × p = 2 ≤ 5
On est dans le domaine de validité de l'approximation d'une loi binomiale
par une loi de Poisson. Donc X ∼ Po(2)
P( X = 0) = 0.1353
Chapitre 8
Distributions de probabilité
usuelles continues
68
Exemples de distribution de probabilité continue
o Loi uniforme
o Loi exponentielle
o Loi normale
o Loi de Khi-deux
o Loi Student
Loi uniforme
Définition
Lorsque la fonction de densité de probabilité est constante sur un intervalle [a,b] et nulle par
tout ailleurs. On parlera de loi uniforme de paramètre a et b
Formellement, si une v.a. X à valeur dans un segment [a; b]

a pour densité la fonction définie par :  1 x ∈ [ a, b]
fX ( x) =  b − a
 0 ailleurs
on dit qu’elle suit une loi de probabilité uniforme.
Ce que l’on note Un(a;b)
Paramètres
b+a
 0 x<a E( X ) =
2
 x − a (b − a)2
FX ( x ) =  a≤ x≤b V (X ) =
 b − a 12
 1 x<b b−a
σX =
2 3
69
Loi uniforme
Exemple
On choisit un nombre réel au hasard dans l’intervalle [0 ; 5]. On associe à X le nombre choisi.
Quelle la probabilité que ce nombre soit supérieur à 4 ?
La répartition des valeurs prises par la v.a. X dans chaque sous-intervalle de [0 , 5] est la même
X ∼ Un(0 ; 5)
p ( X > 4) = 1 − p ( X ≤ 4)
= 1 − FX (4)
4−0 1
= 1− =
5−0 5
Loi exponentielle
Définition
Soit un réel λ strictement positif. On dit qu’une v.a. X suit une loi exponentielle de
paramètre λ si elle admet la densité :
λ e
−λ x
x≥0
f X ( x) = 
 0 ailleurs
S ( X ) = [0, +∞[
Paramètres
1
E( X ) =
λ
1 − e − λ x si x ≥ 0 1
FX ( x ) =  V (X ) =
 0 ailleurs λ2
1
σX =
λ
70
Loi exponentielle
Proposition
La loi exponentille est une loi sans mémoire (où sans vieillissement), i.e.
∀t > 0, ∀s > 0 on a p( X ≥ s + t / X ≥ t ) = p( X ≥ s)
Signification
Si par exemple X désigne la durée de vie, exprimée en années, d'un composant électronique.
La probabilité qu'il fonctionne t + s années sachant qu'il a déjà fonctionné pendant t années
est la même que la probabilité qu'il fonctionne pendant s années après sa mise en service.
Cette loi permet de modéliser la durée de vie d’un composant ou un appareil sans
vieillissement, dont la durée de vie est indépendante du fonctionnement passé. Ceci est
vrai si le composant n’est pas sujet à un phénomène d’usure.
Loi exponentielle
Exemple On suppose que le temps d'attente à la poste, noté T , suit une loi exponentille de moyenne
égale à 10 minutes.
a. Quel est le paramètre de T ?
b. Quelle est la probabilité qu'un client attende plus de 5 minutes ?
c. Quelle est la probabilité qu'un client attende au moins 15 minutes sachant qu'il déja attendu
10 minutes ?
Réponse
1 1
a. E (T ) = , il représente la valeur moyenne de la v.a. T donc λ =
λ 10
b. La probabilité qu'un client attende plus de15 minutes est
p (T ≥ 5) = 1 − p(T ≤ 5)
= 1 − FX (5)
−1 −1
= 1 − 1 + exp( × 5) = exp( ) ≃ 0.6065
10 2
c. p(T ≥ 15| T ≥ 10) = p(T ≥ 5) = 0.6065
71
Loi exponentielle
Autre utilisations
(i) Si le nombre Y d'occurrence d'un événement sur un intervalle de temps t suit une loi de Poisson
Y ∼ Po(λt )
Alors le temps X séparant deux événements consécutifs suit une loi exponentielle
X ∼ exp(λ )
(ii) Les lois exponentielles sont souvent utilisées pour modéliser les temps d'attente
Le temps d'attente entre l'arrivée de clients à un guichet automatique
Le prochain faux numéro sur une ligne téléphonique
La prochaine désintégration d'une atome radioactif
Le paramètre λ designe alors l'inverse du temps d'attente moyen
Loi exponentielle
Exercice
Une étude réalisée sur un grand nombre de pneus d’une marque donnée montre que leur durée
de vie (en km) est une variable aléatoire X de loi exponentielle de paramètre égal à 0,00007
Déterminer p( X ≤ 10 000), p( X > 10 000), p(10 000 ≤ X ≤ 20 000)

Déterminer x tel que p( X ≤ x) = 0.05
Déterminer la médiane de X
Exercice
Montrer que la somme de deux variables aléatoires indépendantes qui suivent des lois
exponentielles de paramètres différentes ne suit pas une loi exponentielle
Indication : on pourra utiliser la linéarité de l’espérance et la variance de la somme de

deux variables aléatoires indépendantes est égale à la somme de leurs variances.
72
Distribution normale
On parle de loi normale ou de loi gaussienne ou loi de LAPLACE-GAUSS, lorsque l’on a

affaire à une v.a. continue dépendant d’un grand nombre de causes indépendantes, dont
les effets s’additionnent et dont aucune n’est prépondérante.
Définition
Une v.a. continue X est dite distribuée selon une loi normale si sa densité de probabilité est :
f X ( x) = 1 exp[− 1 ( x − m )²]
σ 2π 2 σ
On dit qu'elle suit une loi normale de paramètres m et σ , ce que l'on note X ∼ N (m,σ )
Le paramètre m est appelé la moyenne et σ l'écart type
Paramètres
1 x exp[− 1 ( t − m )²] dt E( X ) = m
FX ( x) =
σ 2π ∫−∞ 2 σ V (X ) = σ 2
Remarques σ (X ) =σ
(i) La densité de probabilité d'une distribution normale n'admet pas de primitive
(ii) La fonction de répartition n'a donc pas d'expression analytique
x
(iii) Les probabilités FX ( x) = p ( X ≤ x ) = ∫ f (t ) dt sont calculées par des approximations
-∞ X
numériques des intégrales
73
Les courbes de la fonction densité et de répartition de N (0,1)
Densité Répartition
1
≃ 0.4
2π
0.5
Caractéristiques importantes
La distribution est symétrique ; les valeurs prises par une v.a. suivant une
loi normale sont également reparties autour de la valeur centrale.
Du fait que la densité de probabilité tende rapidement vers 0, lorsque l’on s’éloigne du
centre de symétrie, on observera peu de valeurs extrêmes pour une variable normale
L’allure de la courbe de la fonction densité de N (0,σ )
x
0
La surface totale entre la courbe et l’axe des abscisses est égale à 1
74
L’allure de la courbe de la fonction densité de N (m,σ )
m x
0
La surface totale entre la courbe et l’axe des abscisses est égale à 1
(i) La courbe de la densité de probabilité de la loi N (m,σ ) est une translation
de celle de la densité de la loi normale centrée N (0,σ )
(ii) Elle est symétrique par rapport à l'axe x = m
Lois normales d'espérances différentes et de variances identiques
σ σ
x
0 m m'
La courbe de la densité de probabilité de la loi N ( m,σ ) est une translation (sans déformation)
de celle de la densité de la loi N (m' ,σ )
75
Lois normales d'espérances identiques et de variances différentes
y
σ grand
σ petit
0 m x
La courbe s'aplatit lorsque la variance augmente, elle se resserre si la variance diminue, le

maximum s'ajuste pour que la surface vaille 1
Exemple : test de mémoire
Étude de la capacité de mémoire d’adultes atteints d’une maladie neurologique.
On considère une population de patients atteints de la maladie. Chaque individu lit 30
mots et doit ensuite en réciter le plus possible.
Variable aléatoire X = ”nombre de mots retenus”
Les valeurs prises par la v.a. X sont presque également réparties autour de la valeur centrale 8.
Lorsque l’on s’éloigne du centre de symétrie (X=8), on observera peu de valeurs extrêmes
76
Dans plusieurs domaines, on observe souvent des distributions
plutôt symétriques autour d’une valeur donnée.
avec une forme de cloche
Pour pouvoir faire des calculs, on va parfois supposer que X suit une
distribution "modèle", la loi normale.
0 µ x
Exemple Étude sur le QI de 515 enfants du même âge
77
Exemple Étude sur le QI de 515 enfants du même âge
∗ En rose, la courbe de la densité de probabilité de N (100,5.7)

∗ Le niveau de QI suit approximativement la loi théorique N (100,5.7)
Distribution normale : calcul de probabilité

La densité de probabilité étant compliquée,
o La fonction de densité de la loi normale N ( m,σ ) n’admet pas de primitive connue
o On ne peut déterminer la fonction de répartition de X de loi N ( m,σ ) que par

approximations numériques
Un cas important, la loi normale centrée réduite est tabulée
Toutefois, étant donnée qu'il existe une infinité de lois normales distinctes par leurs
paramètres, seulement la loi centrée réduite est tabulée et sert d’instrument pour faire des
calculs de probabilités pour les autres lois normales.
78
Distribution normale : calcul de probabilités
On la notera Z , une v.a. qui suit la loi N (0,1), et sa fonction de répartition sera notée φ
φ ( x) = p( Z ≤ x) , φ est tabulée
Propriété La fonction φ est continue et strictement croissante sur ℝ,
Elle est donc bijective de ℝ dans ]0,1[
La table de la loi normale fournit les valeurs de cette fonction
Passage d’une loi normale quelconque à une loi normale centrée réduite
X −m
Si une v.a. X ∼ N (m,σ ) alors la v.a. Z = suit la normale centrée réduite N (0,1)
σ
changement de variable
X −m
Z=
σ
0 z
m x
∗ Pour tout x ∈ ℝ, p( X < x) = p( Z < z = x − m ) = φ ( z )
σ
Il reste à savoir utiliser la table de la loi normale centrée réduite…

−t
2
1 x
φ(x) = p(Z ≤ x) =
2π
∫ −∞
e 2 dt
Les probabilités données par la table sont p( Z ≤ z ) z ≥ 0
79
t 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
Premier cas, x est positif 0 0,5 0,504 0,508 0,512 0,516 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
φ(x) = ?
0,2 0,5793 0,5832 0,5871 0,591 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,648 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,67 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,695 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,719 0,7224
0,6 0,7257 0,729 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,758 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,791 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8254 0,8289 0,8315 0,834 0,8365 0,8389
p ( Z ≤ 0.94) = 0.8254 1
1,1
0,8413
0,8643
0,8438
0,8665
0,8461
0,8686
0,8485
0,8708
0,8508
0,8729
0,8531
0,8749
0,8554
0,877
0,8577
0,879
0,8599
0,881
0,8621
0,883
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,898 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,937 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
p ( Z ≤ 0.9482) ≃ p( Z ≤ 0.94) 1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9508 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
= 0.8254 1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,975 0,9756 0,9761 0,9767
2 0,9772 0,9779 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,983 0,9834 0,9838 0,9842 0,9846 0,985 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,989
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,992 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,994 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,996 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,997 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,998 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
Distribution normale : table

Exemple
On suppose qu'une certaine variable Z obéit à la loi normale centrée réduite.

Pour quelle proportion d'individus est-ce que p(Z ≤ 1.56) ?
On cherche p(Z ≤ 1.56) = φ (1.56)

On cherche 1.56 dans la table
Interprétation
p( Z ≤ 1.56) = 0.9406
Pour 94.06% d'individus, la valeur de la v.a. X est inférieure à 1.56
80
Exercice:
A l ’aide de la table de la loi normale centrée réduite, calculer :
φ (0,53) = 0,7019
φ (2,54) = 0,9944
φ (3,30) = 0,9995
Si une v.a. suit la loi normale de moyenne 0 et d’écart type 1, alors :
70,19% des valeurs prise par cette v.a. sont au plus égales à 0.53 (ou moins de 0.53)
Deuxième cas, x est négatif
φ(x) = ?
φ (− x) = 1 − φ ( x) pour tout réel x
−x x
Exemples φ ( −1, 47) = 1 − φ (1.47)
A l ’aide de la table de la loi normale = 1 − 0.9292 = 0.0708
centrée réduite, calculer :
φ ( −2, 73) = 1 − φ (2.73)
= 0, 0032
φ ( −3) = 1 − φ (3)
= 0.0013
81
P(a ≤ Z ≤ b) = φ (b) − φ (a)
a b
Exemples
p (0.98 ≤ Z ≤ 2.89) = φ (2.89) − φ (0.98)
= 0.9981 − 0.8365 = 0.1616
p ( −1.15 ≤ Z ≤ 2.12) = φ (2.12) − φ ( −1.15)
= φ (2.12) − (1 − φ (1.15) )
= 0.8579
y
P ( Z ≥ t ) = 1 − φ (t ) P (T > 0 ,9 )
0,4
Exemples
p ( Z ≥ 1.44) = 1 − φ (1.44)
0,3
0,2
= 0, 0749
0,1
p ( Z ≥ 3, 05) = 1 − φ (3.05) -3 -2 -1 0 1 2 3
= 0.0012 y
-0,1
Φ
Π ((0.9)
0 ,9 )
0,4
p ( Z ≥ − 2.1) = 1 − φ (−2.1) 0,3
= 1 − (1 − φ (2.1) ) 0,2
= φ (2.1) 0,1
= 0.9821
-3 -2 -1 0 1 2 3
82
Soit t ≥ 0 alors : P ( Z < t ) = P ( − t < Z < t ) = φ ( t ) − φ ( − t ) = 2φ ( t ) − 1

y
Exemples
pP((|T ≤ 1.2)
Z |<
p ( Z ≤ 0.89) = 2φ (0.89) − 1 1 ,2)
0,4
= 0.6266 0,3
0,2
p ( Z ≤ 2.2) = 2φ (2.2) − 1
= 0.9722
0,1
-3 -2 -1 0 1 2 3 x
p ( Z ≤ 3) = 2φ (3) − 1 -0,1
= 0, 9973
Calcul des probabilités pour une v.a. normale quelconque
Exemple
X suit une loi normale N(345; 167)
On souhaite connaître la probabilité pour que les valeurs de X soit inférieures à 500.
On se ramène à N(0,1)
X − E ( X ) X − 345
Z= =
σ 167
On utilise la table de N(0,1)
500 − 345
p ( X < x) = p ( Z < ) = p ( Z < 0.93) = φ (0.93) = 0.8238
167
83
Exemple Un club exige à ces adhérents un QI supérieur à 132.
Quel est la probabilité d'appartenir à ce club sachant que QI ∼ N (100,15) ?
σ =15 σ =1
m = 100 132 m=0 2.13

132 − 100
p(QI ≥ 132) = p( Z ≥ )
15
= p( Z ≥ 2.13)
= 1 − p( Z ≤ 2.13)
= 1 − 0.9834
= 1.66%
Calcul des probabilités pour une v.a. normale quelconque
Exercice X ∼ N (3;1.2)
Déterminer la probabilité que les observations de X soient au plus 4
X −3 4−3 On peut mettre directement
p ( X ≤ 4) = p ( ≤ )
1.2 1.2
4−3
≈ p ( Z ≤ 0.8333) p ( X ≤ 4) = φ ( )
1.2
≈ p ( Z ≤ 0.83) = φ (0.83)
= φ (0.83) = 0.7967
= 0.7967
79,67% des observations ne dépassent pas 4.
84
Distribution normale : intervalles remarquables
Intervalles remarquables
X ∼ N (m,σ ), alors
 m + 2/ 3 σ − m   m − 2/ 3 σ − m 
i p[m − 2 /3σ < X < m + 2 /3 σ ] = φ   − Φ 
 σ   σ 
= φ (0.67) − φ ( −0.67)
≃ 50%
i p[m − σ < X < m +σ ] ≃ 68.27%
i p[m −1.96σ < X < m +1.96σ ] ≃ 95%
i p[m − 2.58σ < X < m + 2.58σ ] ≃ 99%
Remarque Ce résultat donne un sens précis au fait qu’il n’y a pas beaucoup de
valeurs extrêmes dans une distribution normale
Valeurs remarquables
X ∼ N (m,σ ), alors
i p[m − σ < X < m +σ ] ≃ 68.27%
m −σ m m +σ
i p[m −1.96σ < X < m +1.96σ ] ≃ 95%
m − 1.96σ m m − 1.96σ
i p[m − 2.58σ < X < m + 2.58σ ] ≃ 99%
m − 2.58σ m m − 2.58σ
85
Exemple
Chez l’adulte normal (non diabétique) la glycémie est distribuée selon une
loi normale de moyenne 4.8 mmol/l et d’écart type 0.4 mmol/l
Donc 95% des sujets non diabétiques de cette population ont une glycémie
comprise entre 4.0 mmol/l et 5.6 mmol/l
La masse en kg des nouveau-nés suit la lois N(3.5,0.25)
Distribution normale : quantiles
Fonction inverse de la fonction de répartition de la loi normale
On suppose que la probabilité est connue et égale à α ∈[0;1]

On cherche à déterminer le quantile q α
Cas d’une loi normale centrée réduite
Pour la variable Z suivant la loi N (0,1)

On suppose Φ ( zα ) = α ∈[0;1] et on cherche à détreminer le quantile zα
Cas d’une loi normale quelconque
On se ramène au cas précédent par centrage et réduction
86
Distribution normale : quantile d’ordre > 50%
Exemple
On suppose qu'une certaine variable Z obéit à la loi normale centrée réduite.

Quel est le quantile à 97.5% pour Z ?
Cela revient à trouver a tel que p(Z ≤ a)=φ (a)=0.975 ⇔ a = φ −1(0.975)

On lit la table à l'envers.
Donc p( Z ≤ 1.96) = 0.975

Le quantile recherché est donc 1.96
Notation
Le quantile d'ordre α pour la loi N (0,1) est noté zα
Par exemple : z0.975 = 1.96
Distribution normale : quantile d’ordre < 50%
On suppose qu'une certaine variable Z obéit à une loi normale centré réduite.
Soit α < 0.5 Quel est le quantile à (α ×100)% pour Z ?
Le quantile zα vérifie p(Z ≤ zα ) = α = φ ( zα ) ⇔ zα = φ −1(α )
Il n'y a pas de nombre inférieur à 0.5 dans la table

⇒ on ne peut pas y lire φ −1(α )
Aire égale à α < 0.5
zα = ?
87
En utilisant la symétrie de la loi normale zα = − x tel que p(Z > x) = α
p (Z ≤ zα ) = α p (Z ≥ x) = α
α α
zα x
c-à-d p( Z < x) = 1- α donc x = z

1−α
et par suite zα = − z1−α
À retenir : zα = − z1−α ∀α ∈]0,1[

Exemple
On suppose qu'une certaine variable Z obéit à une loi normale centré réduite.
Quel est le quantile, z0.14 , à 14% pour Z ?
z0.14 = − z1−0.14 = − z0.86 = −1.08
88
Distribution normale : quantile loi normale quelconque
Le quantile d'ordre α pour une loi normale N (m,σ )

Soit X une v.a. suivant N (m,σ )
On se ramène au cas d’une loi normale centrée réduite X α = m + σ Zα
Exemple Quel est le quantile à 95% pour une loi normale N (11,2) ?
Réponse X 0.95 = 11 + 2 × Z0.95

= 11 + 2 ×1.65
= 14.30
Proposition Soit α un nombre réel tel que 0 < α < 1
Il existe un unique nombre strictement positif uα tel que :
p(-uα ≤ Z ≤ uα ) = 1- α ⇔ p( Z ≤ uα ) = 1− α
−uα uα
Remarque uα correspond au fractile d'orde 1- α i.e uα = z1−α

2 2
car p( z ≤ uα ) = 1- p( z ≤ -uα ) = 1-
α
2
89
Distribution normale : exercice
X ∼ N (0,1)
Déterminer les probabiliés suivantes
p(X=1.2) p(−1 ≤ X ≤ 0)
p( X ≤ 2) p(0 ≤ X ≤ 0.5)
p( X > 0.8) p(1.1 ≤ X ≤ 3.2)
p( X ≥ 1.5) p(−2 ≤ X < 2)
p( X > −0.23) p(0 ≤ X ≤ 0.83)
Déterminer x satisfaisant les égalités suivantes

p( X < x) = 0.6255 p(0 ≤ X ≤ x) = 0.4750
p( X ≤ x) = 0.2119 p(− x ≤ X ≤ x) = 0.2052
p( X > x) = 0.9971 p(− x ≤ X ≤ 0) = 0.2291
p( X > x) = 0.1314 p(−1 ≤ X ≤ x) = 0.1785
Exercice
Le poids moyen de 500 colis est de 141kg et l’écart type est de 15kg, en supposant que
ces poids sont normalement distribués, calculer le nombre de colis pesant :
1. Entre 120 et 155kg
2. Plus de 185 kg
90
Théorème : Somme de lois normales indépendantes
Soient deux v.a. normales indépendentes ; X1 ∼ N (m1 ,σ 1 ), et X 2 ∼ N (m2 ,σ 2 )

Alors Y = X1 + X1 suit une loi normale avec Y ∼ N(m1 + m2 , σ 12 +σ 22 )
On en déduit, par récurrence, que la somme finie de v.a. normales est une v.a. suivant une loi normale
91
Lois dérivées de la loi normale : khi-deux
Définition
Soient X1 ,…, X n une suite de n v.a. indépendantes suivant une loi normale centrée réduite.
Alors la somme du carré de ces v.a., notée Y, suit une loi du khi deux avec n degrés de
liberté. On la note : n
Y = 2
∑ Xi , 2 Y ~ χ (n ), E (Y ) = n , V (Y ) = 2 n
i =1
Il s’agit d’une distribution asymétrique, à valeurs possibles positives et indexée

par un seul paramètre appelé ddl
A partir de 3 ddl, les distributions du χ2 suivent une distribution en cloche
caractérisée par une dissymétrie à gauche et qui passe par 0
Elle tend à devenir symétrique lorsque le nombre de ddl devient grand
Lois dérivées de la loi normale : table de khi-deux

Table de la fonction inverse
La table fournit la valeur de χ 2 (ν ) ayant la probabilité α (α ∈ [0;1]) d'être dépassée
Elle donne x tel que p( χ 2 (ν ) ≥ x) = α ⇔ p( χ 2 (ν ) ≤ x) = 1 − α (l'aire sous la courbe est égale à 1)
⇒ x correspond au quantile d'ordre 1-α , noté χ1-2 α ,ν , de la loi χ 2 (ν )
χ2)
f (χ
α s'appelle le coefficient de risque
χ12−α ,ν la valeur limite de χ 2 (ν ) au coefficient de risque α
α
0 χχx=?
22
1α−α ,ν
χ2
Table à double entrées, ν et α

La valeur de α est lue en ligne, celle de ν en colonne,
la valeur recherchée χ12−α ,ν se situant à l'intersection
92
Exemple : pour ν = 8 et α = 0,05
Table du χ2
α
0,995 ... ... 0,05 0,005
ν
1 3,841
. .
8 ... ... ... ?
.
.
30
Remarque
Dans les tests statistiques et les estimations, on utilise souvent comme seuil de
risque : α = 5% soit pour ν =8 on a : χ 0.95 , 8 = 15.51
2
α = 1% soit pour ν =8 on a : χ 0.99

2
, 8 = 20.09
Interprétation
Pour 8 degrés de liberté, la valeur 15.51 a la probabilité 0.05 d’être dépassée.
p ( χ 2 (8) ≥ 15.51) = 0.05 pour 8 deg rés de liberté

Remarque
La table s’arrête pour ν = 30, au-delà on utilise l’approximation par une

loi normale.
Proposition
Lorsque le nombre de ddl n est supérieur à 30 :
La loi χ 2 (n) peut être approximée par la loi N (n, 2n )
93
Lois dérivées de la loi normale : loi Student

LOI STUDENT ou t-distribution
Il s'agit d'une loi de probabilité continue, largement utilisée dans la statistique inférentielle
et qui est fortement liée à la loi normale centrée réduite
Formellement
∗ Z ∼ N (0,1),
∗ X ∼ χ 2 (ν )
∗ Z et X sont indépendantes
Z
alors le quotient T = suit une loi Student à ν degrés de liberté, on la note Tν
X
ν
Paramètres caractéristiques
Cette loi n'a pas d'espérance pour ν = 1 E (Tν ) = 0 pour ν > 1

ν
Elle n'a pas de variance pour ν ≤ 2. V (Tν ) = pour ν > 2
ν -2
94
Densité de probabilité : Lois normale centrée réduite et loi Student
__ N(0,1) o S(T) = ] - ∞, + ∞ [
__ T avec 1 ddl
o Symétrique par rapport à la droite x = 0
o Courbe en cloche
o Plus aplatie que la courbe de Gauss
Surface plus
importante
Symétrique par
rapport à x=0

Proposition Lorsque le nombre de degrés de liberté augmente, la
loi student tend vers la loi normale centrée réduite
__
__
__
__N(0,1)
__N(0,1)
N(0,1)
N(0,1)
N(0,1)
__
__
__
__T
TTavec
avec
avec20
16
12
3 ddl
4
8 ddl
TTavec
__ avec21ddl
ddl
Remarques
Dans la pratique au-delà de ν = 30, La loi student sera approchée par la loi
normale centrée réduite N(0,1)
Dans la pratique, l’aire sous la courbe au voisinage des queues joue un rôle important pour
les deux lois, par conséquent, il y a une différence importante entre la loi normale et la
loi student et ce malgré que leurs courbes de densité de probabilité soient très proches.
95
Loi Student : table
Table de la fonction inverse
La table fournit la valeur de Tν ayant la probabilité α (α ∈ [0,1]) d'être dépassée
Elle fournit x qui vérifie p(Tν ≥ x) = α ⇔ p(Tν ≤ x) = 1 − α (l'aire sous la courbe est égale à 1)
⇒ x correspond au quantile d'ordre 1-α , noté t1ν−α , de la loi student Tν
α s'appelle le coefficient de risque

t1ν−α est la valeur limite de Tν au coefficient de risque α
ν
tx=?
1−α
Remarque Plusieurs tables de la loi Student ont été établies. Nous utilisons
la table correspondant à la figure ci-dessus
Loi Student table

Exemple : pour ν = 5 et α = 0,01 T5 suit une loi Student à 5 ddl.
Déterminer t tel que : p(T5 ≥ t ) = 0.01
α
0,1 ... 0,01 ... 0,0005 C'est le quantile t 50.99
ν
1 3,841
α = 1% ν = 5 alors t1ν−α = tν0.99 = 3.365
. .
5 ... ... ? p(T5 ≥ t0.99
5
= 3.365) = 0.01
.
Interprétation
. Pour 5 degrés de liberté, la valeur 3.365 a une
. probabilité égale à 0.01 d’être dépassée
30
La valeur de α est lue en colonne, celle de ν en ligne
La valeur recherchée tν1−α se situant à l'intersection
Dans les estimations, on utilise souvent comme seuil de risque : 1%, …,0.05%
96
Loi normale : Excel
Calcul des probabilités et détermination des quantiles à l’aide d’Excel
LOI.NORMALE.STANDARD(z)
Renvoie la probabilité d'une v.a. suivant N(0.1).
LOI.NORMALE.STANDARD.INVERSE(probabilité)
Renvoie, pour une probabilité donnée, la valeur d'une v.a. suivant N(0.1).
LOI.NORMALE(x ; moyenne; écart_type ; cumulative)

Renvoie la distribution normale pour la moyenne et l'écart type spécifiés. Cette fonction a
de nombreuses applications en statistique, y compris dans les tests d'hypothèse
LOI.NORMALE.INVERSE(probabilité ; moyenne ; écart_type)

Renvoie, pour une probabilité donnée, la valeur d'une variable aléatoire suivant une loi normale
pour la moyenne et l'écart type spécifiés.
Limite d’une somme de variables aléatoires

Théorème central limite (cas général)
La loi de la somme de n variables aléatoires indépendantes (de variance

finie) tend vers une loi normale quand n augmente, pour autant qu’il n’y en
ait pas une dont la variance est prépondérante
Remarque
Grâce au théorème central limite, on peut voir que des phénomènes dont la
variation est engendrée par un nombre important de causes indépendantes, sont
généralement susceptibles d’être représentés par une loi normale.
97
Théorème central limite
Hypothèses
Soit X 1 ,… , X n une suite de v.a. indépendantes et identiquement distribuées iid
(i.e. ayant toutes la même loi de probabilité), possédant une espérance µ et une variance σ 2 finie.
Soit Sn = X1 + X 2 + ⋯ + X n alors E ( Sn ) = nµ et V(Sn ) = nσ (car elles sont indépendantes)
2
Sn − E ( Sn ) S n − nµ alors E ( Z n ) = 0 et V( Z n ) = 1
Soit Z n = =
V ( Sn ) nσ
Théorème
TCL : La v.a. Z n suit la loi normale centrée réduite N (0,1), pour n suffisamment grand
Sn n − µ
On remarque que Z n =
σ n
Donc TCL peut s'écrire, d'une manière équivalente :

Sn X1 + X 2 + ⋯ + X n
= suit la loi normale N (µ ,
σ ), pour n assez grand
n n n
Théorème central limite

Dans la pratique
si n est suffisamment grand, on a les résultats asymptotiques équivalents.
S σ
(i ) Z n ∼ N (0,1) (ii ) La moyenne arithmétique X n = n ∼ N ( µ , )
n n
Interprétation
i La moyenne de quantités aléatoires de même loi, de moyenne µ et de variance σ 2 ,
σ
mutuellement indépendantes fluctue autour de µ selon une loi gaussienne d'écart type
n
i Si l'on répète, un grand nombre de fois et d'une manière indépendante, une expérience aléatoire,
1 n σ
la moyenne observée ∑ x fluctue autour de µ selon une loi gaussienne d'écart type n
n i =1 i
98
Approximation d’une loi binomiale par une loi normale
Proposition
La loi binomiale B (n, p) peut être remplacée par la loi normale N (np, npq ) lorsque n tend vers l'infini.
Ceci est d'autant plus valable que p est plus proche de 0.5
Dans la pratique
Lorque n ≥ 30, np ≥ 5 et np(1 − p) ≥ 5 la différence des probabilités
calculées, par les deux lois, est très faible.
Lorsuqe les trois conditions précédentes sont remplies, on pourra approcher la loi binomiale B(n, p )
par une loi normale N (m,σ ), de même espérance et de même variance, i.e. m = np, σ = np(1- p )
Correction de continuité
Lorsque les conditions ci-dessus sont verifiées. On pose X ∼ B(n, p) et Y ∼ N (np, np(1 − p))
p( X = k ) est approchée par p (k - 0.5 < Y < k + 0.5)
p( X ≤ k ) est approchée par p (Y < k + 0.5)
p( X ≥ k ) est approchée par p (Y > k − 0.5)
p ( k1 ≤ X ≤ k2 ) est approchée par p ( k1 - 0.5 < Y < k2 + 0.5)
Chapitre 9
L’estimation statistique
99
Outline
o Echantillonnage
o Estimation ponctuelle
o Estimation par intervalle de confiance
Estimation statistique
Contexte général d’une analyse statistique
Inférence
On s’intéresse à une population mais on ne dispose

que des informations sur un échantillon
Types d’estimation
n
L'estimation d'un paramètre peut être faite _ µ
- par un seul nombre : estimation ponctuelle x σ2
- par 2 nombres entre lesquels le paramètre peut se s2 p
trouver : estimation par intervalle pe
100
Schéma d’une analyse statistique
Population Paramètres de la
population
Statistique inférentielle
Choix
à l’aide de la
Échantillonnage
théorie de probabilité
Échantillon Caractéristiques
représentatif Statistique de l’échantillon
Descriptive
o Les ré
résultats obtenus sur un échantillon repré
représentatif serviront à généraliser à
l’ensemble de la population.
o Mais le fait d’
d’utiliser un échantillon induit né
nécessairement une marge d’
d’erreur que
nous essayerons de contrôler.
Intérêts de l’échantillonnage
Pourquoi échantillonner ?
Impossibilité d’accéder à tous les individus d’une population
o Coût financier
o Trop lent
o Destructif
o Dans certains cas il peut être impossible de faire un recensement

(contrôle de qualité)
o Travailler sur un échantillon peut être plus précis (ex cas où une main-
d'œuvre hautement qualifiée est requise pour la collecte des données)
o D’autres raisons
=> On procède par échantillonnage et par inférence
101
Echantillonnage
Echantillonnage ?
L’échantillonnage consiste à choisir au hasard un échantillon représentatif et de taille limitée
d’une population de taille quelconque afin d’en étudier un où plusieurs caractères
Rapport taille de l’échantillon taille de la population

On suppose, dans tout le reste de ce chapitre, que la taille de l’échantillon est beaucoup plus
petite que la taille de la population. Ainsi un échantillonnage exhaustif ne changera pas la
population
L’échantillonnage : une expérience aléatoire
L’échantillonnage est une expérience aléatoire ; il consiste à choisir au hasard un ‘petit nombre’
d’individus de la population pour obtenir une valeur du caractère étudié
Schématisation
échantillonnage variable statistique
population  → individu  → modalité
Ω échantillonnage

→ w variable aléatoire

→ x
À partir de l’échantillon, on étudie la v.a. X associée au caractère étudié.
On estime les paramètres de X sur la population à partir de ses paramètres empiriques

obtenus sur l’échantillon
Échantillonnage
x1 , x2 , …, xn
x1' , x2' , …, xn'
x1'' , x2'' , …, xn''
X1 , X 2 , …, X n
X1, X 2 , …, X n sont indépendantes et ont la
même loi de probabilité ; celle de la population
L'échantillonnage correspond à la répétition de n expériences aléatoires

identiques, auxquelles correspondent n v.a. X i (i = 1,…, n) iid
Définition Une statistique de l'échantillon est une fonction h( X1,…, X n ) des v.a. X i (i = 1,⋯, n) obtenues
à partir d'un échantillon
1 n
Exemples ∗ Moyenne de l'échantillon : X n = ∑ Xi
n i =1
n
1
∗ Variance de l'échantillon : Sn2 =
n
∑
i =1
( X i − X n )2
102
Estimation
Principe L'estimation est le procédé par lequel on estime les valeurs de paramètres de la population
à partir des observations faites dans un échantillon grâce à un estimateur
Soit un paramètre de la population, noté θ , à estimer
Estimation ponctuelle : on calcule une valeur vraisemblable θɵ de θ .
Définition d’un estimateur
Etant donné une statistique d'échantillon, T( X 1 ,… , X n ) de v.a. X i (i = 1,⋯, n) obtenues
à partir d'un échantillon de taille n. On dit qu'elle constitue un estimateur de θ si :
i son esperance mathematique tend vers θ quand n augmente indéfiniment ; lim E (T ) = θ
n →∞
i sa variance tend vers 0 quand n augmente indéfiniment ; lim V (T ) = 0

n →∞
Le biais d’un estimateur Le biais de l'estimateur T de θ est défini par : E (T ) - θ
i Si le biais est nul quel que soit n, on dit que T est un estimateur sans biais ou non-biaisé.
i L'estimateur est asymptotiquement sans biais si lim E (T ) = θ
n →∞
i Si T est un estimateur de θ . Alors une réalisation de T est une estimation ponctuelle de θ
Qualité d’un estimateur Un estimateur est précis s’il est non-biaisé et si sa variance est petite
Estimateur de la moyenne
Soit X une v.a. définie sur une population telle que E ( X ) = µ et V ( X ) = σ 2 connue
1 n
σ2
On considère la moyenne de l'échantillon X n =
n
∑
i =1
Xi Alors E( X n ) = µ et V( X n ) =
n
Proposition
1 n
La moyenne de l'échantillon X n = ∑ X i est un estimateur sans biais de la moyenne de
n i =1
la population µ . (X1 ,⋯ , X n ) des mesures ou des observations de l'échantillon de taille n
i La variance d'un estimateur s'appelle aussi l'erreur type ou l'erreur standard de cet estimateur.
σ2
i L'erreur type de X n est égale à
n
Remarque
Une petite erreur type (variance) pour un estimateur non-biaisé est un gage de précision.
103
Estimateur de la moyenne
σ2
E( X n ) = µ et V (X n) =
n
Conséquences
La précision de l'estimateur X n dépend de n et de σ 2
Elle est d’autant plus précis que la taille de l’échantillon est grande
le hasard de l’échantillonnage aura mois d’impact dans un grand échantillon que dans
un petit échantillon
Elle est d’autant plus précis que la variabilité dans la population est petite
le hasard de l’échantillonnage aura moins d’impact si les individus de la population de laquelle
provient l’échantillon se ressemblent, que s’ils sont très différents les uns des autres
Distribution d’échantillonnage de la moyenne

1 n
Distribution de la moyenne de l'échantillon : X n = ∑ Xi
n i =1
Xn
σ
∗ Si X ~ N ( µ ,σ ) alors X n ~ N (µ , )
n
∗ Si X suit une loi quelconque alors X n ~ N (µ , σ ) si n est assez grand (d'après le TCL)
n
Remarque
La taille n d'échantillon à partir de laquelle la moyenne de l'échantillon, X n peut être comme
approximativement normale dépend du degré de symétrie de la distribution des observations X i
(i ) Si les X i sont symétriques, en générale l'approximation est valable à partir de n = 10
(ii ) Si les X i sont loin d'être symétriques, n doit être supérieur à 100
104
Estimateur de la variance
Idée naturelle : variance de l’échantillon
1 n
La variance de l’échantillon ∑ ( X − X n )2
S2n =
n i =1 i
(n − 1)σ 2
L'espérance de cette statistique de l'échantillon est : E (S2n ) = <σ2
n
2( n − 1)σ 4
On peut aussi démontrer que la variance Sn2 est égale à : V( Sn2 ) =
n2
Proposition
1 n
S2n = ∑ ( X − X n )2 est un estimateur biaisé de σ 2 . Il est asymptotiquement sans biais
n i =1 i
Interprétation
L'utilisation de la variance de l'échantillon, S2n , comme estimateur de la variance de la
population, σ 2 , conduirait à une sous-estimation de la variabilité dans la population,
surtout lorsque la taille de l'échantillon, n, est petite
La variance empirique corrigée
Afin d'obtenir un estimateur sans biais de la variance de la population, σ 2 , on définit
n 2 1 n
la variance de l'échantillon corrigée comme suit : S'n 2 =
n −1
Sn = ∑ ( X − X n )2
n − 1 i =1 i
Estimateur de la variance
Calcul de l’espérance de la variance empirique corrigée
Lorsque l'on calcule l'espérance de la v.a. Sn' 2 , on obtient :

n 2
E ( Sn' 2 ) = E ( Sn ) = n E ( Sn2 ) = n n -1σ 2 =σ 2
n -1 n -1 n -1 n
n 2 n 2 2σ 4
La variance Sn' 2 est égale à : V( Sn' 2 ) = V ( Sn ) =( ) V (Sn2 ) =
n −1 n −1 n −1
Proposition
1 n
Sn' 2 = ∑ ( X − X n )2 est un estimateur sans biais de σ 2
n − 1 i =1 i
105
Distribution d’échantillonnage de la variance
On suppose que X suit une loi normale
2
 X −µ 
∑  iσ  est une loi de χ 2 à n ddl
2
 X − Xn 
∑  i σ  est une loi de χ 2 à (n − 1) ddl
 
Sn2 =
∑ i X n )2 la variance d'un échantillon
( X −
n
n Sn2
suit une loi de χ 2 à (n − 1) ddl
σ2
Proposition
Lorsque les observations X i sont normales,
Sn2
la v.a. n suit une distribution de khi-deux avec (n - 1) ddl ; χ 2 (n - 1)
σ2
Estimation ponctuelle
Exemple
Une université comporte 3500 étudiants. On mesure la taille de 20 d'entre eux.

La moyenne et l'écart-type calculés à partir de cet échantillon sont
me = 175 cm et σ e = 6 cm
Nous pouvons estimer la moyenne et l'écart type sur l'ensemble de tous les étudiants par
20
m = 175 cm et σ = 6 cm = 6.16 cm
19
106
Estimation par IC
Objectif de l’estimation par IC
Les estimateurs ponctuels ne tiennent pas compte des erreurs dues aux
fluctuations d’échantillonnage. En complément de l’estimation ponctuelle, on
veut donner un intervalle ayant de bonnes chances de contenir la vraie valeur
du paramètre
Estimation par IC
Estimation par intervalle de confiance
On cherche un intervalle dans lequel le paramètre θ se trouve avec une probabilité élevée.
Définition
Soit α ∈]0,1[ petit i.e. proche de 0
L'estimation par IC consiste à construire, autour de l'estimation ponctuelle, un intervalle qui
aura une grande probabilité, égale à (1- α ), de contenir la vraie valeur du paramètre estimé.
En pratique, on répartit le risque par moitié
Densité de probabilité de l'estimateur T
de part et d'autre de l'intervalle
p (θɵ − ε1 ≤ θ ≤ θɵ − ε 2 ) = 1 − α
[θɵ − ε1;θɵ − ε 2 ] est appelé intervalle de

confiance de l'estimation au risque α
∋θ
∋θ
θɵ − ε1 θɵ + ε 2 θɵ − ε1 θɵ θɵ + ε 2
107
Estimation par IC
Vocabulaires
(1- α ) est le coefficient de confiance
(1- α ) × 100% est le seuil de confiance
α est le coefficient de risque

α × 100% est le seuil de risque
Estimation par IC de la moyenne

Estimation par IC de la moyenne lorsque la variance est connue
Proposition
Lorsque les observations X i sont normales ou la taille de l'échantillon est assez grande
Xn −µ
la v.a. aura une distribution normale centrée réduite N (0,1)
σ n
Xn −µ
Une réalisation de a une probabilité égale
σ n
à 1- α d'appartenir à l'intervalle [− z α ; z α ]
1− 1−
1- α
2 2
− z1−α ≤ x n − µ ≤ z1−α α/2 α/2

σ n −z z
1−α 1−α
2 2 0
2 2
⇒ xn − z1−α × σ n ≤ µ ≤ xn + z
1−α
×σ n
2 2
⇒ xn − ε ≤ µ ≤ xn + ε où ε =z
1−α
× σ n
2
ε s'appelle la marge d'erreur
108
Estimation par IC de la moyenne lorsque la variance est connue
Théorème Lorsque X est normale ou la taille de l'échantillon est assez grande
et lorsque σ 2 est connu un intervalle de confiance au niveau 1-α de
 σ σ 
la moyenne µ est :  x n − z1−α , xn + z 
 n 1−α n 
2 2
Avertissement
Cet IC suppose que la moyenne arithmitique X n suit une loi normale, il est valide si
(i) Les v.a. X i sont normales, dans ce cas X n est normale.
(ii) La taille de l'échantillon est suffisamment grande, dans ce cas X n est approximativement normale

Exemple
On suppose que les conditions du théorème sont remplies. Soit α = 0.025
Puisque z 0.975 =1.96 l'intervalle de confiance de µ au niveau 95% est

 σ σ 
 x n − 1.96 n , x n + 1.96 n 
 
La moyenne de la population µ a une probabilité de 95% d'appartenir à l'intervalle ci-dessus.
Remarque
Bien que l’on ne connaisse pas toujours la véritable moyenne sur la population, après avoir calculé
la moyenne sur un échantillon, on est capable de la cerner avec une grande probabilité
109
Estimation de la moyenne lorsque la variance est inconnue
Comme la variance est inconnue on l'estime à partir de l'échantillon par :
1 n n
sn' 2 = ∑ ( x − x n ) 2 = n − 1 sn 2
n − 1 i =1 i
Proposition
Lorsque les observations X i sont normales
Xn −µ
la v.a. aura une distribution de Student avec (n -1) ddl
Sn' n
Démonstration  nSn2 
 2 
Xn − µ Xn − µ
=
S n' 2
=
Xn − µ nSn2 X −µ
= n σ 
Sn' n σ n σ2 σ n σ (n − 1) σ n
2
n −1
∼ χ 2 (n − 1)
Xn −µ
∼ N (0,1)
⇒ ∼ Tn−1
Sn' n

Xn −µ
⇒ ∼ Tn−1
Sn' n α α
2 1−α 2
−t1n−−α1 t1n−−α1
2 2
Xn −µ  
Une réalisation de a une probabilité égale à 1- α d'appartenir à l'intervalle  −t n−α1 ; t n−α1 
 1− 2 1− 2 
'
Sn n
−t1n−−α1 ≤ x'n − µ ≤ t1n−−α1

2 sn n 2
⇒ x n − t1n−−α1 × sn' n ≤ µ ≤ x n + t n−α1 × sn'

1−
n
2 2
⇒ xn − ε ≤ µ ≤ xn + ε où ε = t n−α1 × sn' n
1−
2
110
Théorème
Lorsque les observations X i sont normales et σ 2 est inconnu un IC au niveau 1-α de µ est :
 '   
sn' sn sn
 x n − t n−1
1−α
, xn + t1n−−α1 sn  =  xn − t n−α1
1−
, x n + t1n−−α1 
 2 n 2 n  2 n −1 2 n − 1 
 
Exemple
On suppose que les conditions du théorème sont vérifiées. Soit α = 0.05 et n = 10
Puisque avec α = 0.025, et t 90.975 =2.26 l'intervalle de confiance de µ au niveau 95% est
2
 sn' 2 sn' 2 
 x n − 2.26 , x n + 2.26
 n n 
 
L’intervalle de confiance est plus grand que celui obtenu lorsqu’on connaît la variance !

Situations rencontrées dans la pratique
ε = t1n−−α1 × sn' n
2
2
 
(i) Précision ε et risque α fixés, on détermine n = t n−α1 × sn' ε  taille de l'échantillon
1−
 2 
(ii) Précision ε et taille de l'échantillon n fixés, t n−α1 = ε × n sn' -1 ⇒ α risque

1−
2
(iii) Risque α et taille de l'échantillon n fixés, on détermine la précision ε = t n−α1 × sn' -1 n

1−
2
111
Estimation par IC de la variance
n Sn2 α α
∼ χ 2 (n − 1) 2 2
σ2
u1 = χα2 u2 = χ 2 α
,n−1 1− ,n−1
n Sn2 2 2
Une réalisation de a une probabilité égale à 1- α d'appartenir à l'intervalle u1 ; u 2 
σ 2
n sn2 n sn2 n s2
u1 ≤ ≤ u2 ⇒ ≤σ2 ≤ n
σ 2 u2 u1
Théorème
Lorsque X ∼ N ( µ ,σ ), et µ est inconnue un intervalle de confiance au niveau 1-α de σ 2 est
 n × s2 n × s2   (n −1) s' 2 (n −1) s' 2 
 n, n =  n , n 
 2u u1   u2 u1 
où u1 = χ α2 et u2 = χ 2 α sont les quantiles d'ordre α 2 et 1 − α 2 de la loi χ 2 (n − 1)

, n−1 1− , n−1
2 2
Remarque Lorsque l’on s’intéresse à l’écart-type on prend les racines carrées des bornes des
intervalles obtenus pour la variance
Estimation par IC de la variance

Exemple
les données d’une expérience en biologie au cours de laquelle on a mesuré la hauteur (en cm)
de n =60 spécimens d’une plante herbacée vivace après une culture de six mois
14 14 16 17 17 18 18 18 18 18 18 18 19 19 19
19 19 19 20 20 20 20 20 20 20 20 21 21 21 21
21 21 22 22 22 22 22 22 22 23 23 23 23 23 23
On suppose la normalité des observations. 24 24 25 25 26 26 26 27 28 28 28 29 29 29 32
D'après les données on a : s 2n = 14.514

Déterminer un IC au niveau de confiance de 95% pour la variance de la population σ 2 , ensuite pour σ
Réponse n − 1 = 59 et α = 0.05 ⇒ α 2 = 0.025 et 1 − α 2 = 0.975
χ0.975
2
(
, 59 = 59 + 118 × Z 0.975 = 80.29 on approxime χ 59 par N (59, 118)
2
)
χ0.025 , 59 = 59 + 118 × Z 0.025 = 59 − 118 × Z 0.975 = 37.71 ( Z 0.025 = − Z 0.975 )
2
L'IC de la variance, au niveau 95%, s'obtient par :

 59 × 14.79 59 × 14.79 
 80.29 , 37.71  = 10.66 , 22.7 
 
L'IC au niveau 95% pour l'écat-type, σ , se calcule par :
 10.66 , 22.7  = 3.26 , 4.76
 
112
Estimateur d’une proportion
On cherche un estimateur de la proportion p dans une population
Sur chaque échantillon de taille n, on considère n v.a. définies par :

 1 si le i-ème élément de l'échantillon possède l'atribut A
Yi = 
0 sinon
La v.a. Yi suit une loi de Bernoulli de paramètre p
⇒ la v.a. Y = Y1 + Y2 + ⋯ + Yn suit une loi binomiale de paramètres n et p; Y ∼ B(n,p)
En conséquence : E (Y ) = np et V (Y ) = np (1- p )
1
∑ i=1Yi
n
Soit la v.a. F = → F correspond à la fréquence de la tribut A dans l'échantillon
n
D'après les propriètés de l'espérance et de la variance on a :

1 n 1 1 p(1 − p)
∑ E (Yi ) = p ∑ V (Yi ) = n2 ∑ i=1 p(1 − p) = n
n n
E(F ) = et V (F ) =
n i =1 n 2 i =1
Estimateur d’une proportion

Proposition
1 n
La fréquence de la tribut A dans l'échantillon F = ∑ Yi
n i =1
est un estimateur, sans biais, de la proportion p de l'attribut A dans la population
p (1 − p)
∗ V(F)= → la précision de l'estimateur F dépend de la véritable proportion p
n
∗ D'après le tableau de variations de la fonction f ( x) = x(1- x), x ∈ [0,1],

p(1 − p) 1
i V(F)= ≤
n 2n
i V(F) est d'autant plus petit que la véritable proportion p est proche de 0 ou de 1.
Elle est maximale pour p proche de 0.5
∗ L'estimateur F est plus précis lorsque la proportion p est proche de 0 ou de 1

que lorsque celle-ci est proche de 0.5
113
Distribution de la fréquence empirique
Proposition
Si la taille de l'échantillon, n, est suffisamment grande, alors la fréquence de l'échantillon F

suit approximativement une loi normale :
 p(1 − p) 
F ∼ N  p, 
 n 
Estimation ponctuelle d’une proportion

Exemple
Dans un lot d'articles, on a prélevé un échantillon de 100 articles et compté le nombre k=3
d'articles défectueux.
Nous pouvons estimer la proportion d'articles défectueux dans le lot par pɵ = 0.3
114
Estimation par IC d’une proportion
Si la taille de l'échantillon est siffusamment grande, on sait que
p(1 − p )
la fréquence de l'échantillon est approximativement normale et que : F ∼ N ( p, )
n
p (1 − p )
L'erreur type V ( F ) = dépend du véritable proportion p
n
En pratique, en la remplace par la valeur empirique sur l'échantillon pe
Théorème
Lorsque la taille de l'échantillon est siffusamment grande,
un IC de p au niveau de confiance 1-α est donné par :
 
pe (1 − pe )
p −z
1−α
, pe + z1−α pe (1 − pe ) 
 e n n 
 2 2 
Estimation par IC d’une proportion

Remarque
On peut également se placer dans une hypothèse pessimiste en choisissant un
écart-type maximal pour l'estimateur F .
Nous savons que la fonction f ( x ) = x (1- x) admet un maximum égal à 0.25 en x = 0.5
1
Ainsi l'écart type maximal est Il a l'avantage d'être indépendant de p.
4n
Dans ce cas l'IC donné dans le théorème précédent devient


F - z 1 ,F+z 1 
 1-α 4n 1-α 4n 
 2 2 
115

Cours ProbaStat F.PDF Version 1kkkkkkkkkk

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours ProbaStat F.PDF Version 1kkkkkkkkkk

Transféré par

Droits d'auteur :

Formats disponibles

FST de fès

Module : Probabilité et statistique descriptive

Année universitaire 2015-2016

Données statistiques, tableau, représentation

Statistique = est une discipline qui a pour objet :

a. de collecter, d’obtenir, et de réunir des informations (ou données), statistique

b. d’exploiter la synthèse de ces données pour établir, notamment Statistique

Qu’est ce que la statistique

Étapes d’une analyse statistique :

• Planifier la collecte de données;

• Récolter les données;

• Établir des modèles de prévisions à partir des données;

• Utiliser ces modèles de prévisions pour prendre des décisions.

Individu : chaque élément d’une population

Caractère : la variable étudiée, il désigne une grandeur ou un attribut observé sur

Modalités : différents états ou valeurs pris par un caractère.

Quelques définitions de base

1. Recensement = méthode exhaustive consistant à étudier tous les individus d’une

2. Sondage = recueil d’une partie de la population. La partie des individus étudiés

Le prélèvement d’un échantillon à partir de la population initiale se fait par des

b. Variable qualitative ordinale : lorsque les modalités peuvent être ordonnée.

Représentation des données

Il existe plusieurs niveaux de description statistique :

o La présentation de données brutes.

o Des présentations par des tableaux numériques

o Des représentations graphiques

o Des résumés numériques fournis par un petit nombre de paramètres caractéristiques

Remarque ∑n i = N, où N de la population ou la l'échantillon étidié

Représentation des données

c- fi ×100 : le pourcentage d'individus ayant la modalité xi

d- fi : la proportion d'individus ayant la modalité xi

1 215 0.215 • 57% de pièces sont saines

Représentation des données

Quand la variable est discrète, la représentation graphique des effectifs se fait

Exercice Tracer le graphique des données de l’exemple précédent

→ De la même façon, on définit l'effectif ni et la fréquence fi de chaque classe

Histogramme des effectifs

n'j s'appelle l'effectif corrigé,

o Le choix de l’amplitude élémentaire ne modifie pas l’allure de l’histogramme

Représentation des données

Effectif cumulé croissant (cas discret)

ECCi est l’effectif cumulé croissant c’est dire le

Fréquences et effectifs cumulés

On définit, de la même manière, la fréquence cumulée croissante FCC et la

Fréquences et effectifs cumulés

La représentation graphique de ECC et de ECD est un segment de droite à l’intérieur

Statistique descriptive univariée

Remarque Le mode n’est pas nécessairement unique

La médiane me est obtenue à partir de : me - a = ( N / 2) − ECC−1

Détermination grâce à ECD

On détermine la classe médiane, i.e. la première classe telle que ECD ≥ ( N / 2)

Détermination grâce à FCC

La médiane me est obtenue à partir de :

Soit α ∈]0,1[, le quantile d'ordre α , noté qα , est la modalité telle qu'un

Calcul du premier quartile (en utilisant ECC)

Calcul de Q1 On repére la première classe telle que ECC ≥ ( N / 4)

b. Intervalle interquartiles, notée IQ IQ = Q3 − Q1

Intérêt o Ce paramètre indique les 50% de modalités situées au centre de la distribution

o Il très peu sensible aux données extrêmes

avec n est le nombre d'individus,

Statistique descriptive bivariée

Couples de variables conjointes

x une variable pouvant prendre K modalités x1,⋯ , xK