Académique Documents
Professionnel Documents
Culture Documents
R. El khaoulani El idrissi
Chapitre 1
Généralités
1
Qu’est ce que la statistique
statistique
c. de se servir de ces modèles de prévisions comme un outil pour décisionnelle
prendre des décisions
• Les organiser;
• Les synthétiser;
2
Quelques définitions de base
Population : ensemble de personnes ou d’objets équivalents étudiés.
Série statistique : la suite des modalités prises par un caractère sur la population
toute entière ou sur un échantillon
Echantillonnage
L’échantillonnage représente l’ensemble des opérations qui ont pour objet de prélever
un certain nombre d’individus d’une population donnée.
L’échantillon doit être représentatif de la population i.e. qu’il doit refléter
fidèlement sa composition et ses caractéristiques.
3
Typologie des séries statistiques
Les séries statistiques se répartissent en deux groupes selon le caractère étudié :
1. Variable quantitative : lorsque toutes les valeurs possibles sont numériques et
s’expriment par des nombres entiers ou réels …
a. Variable quantitative discrète : l’ensemble des valeurs possibles est dénombrable.
Exemples : nombre d’enfant par famille
b. Variable quantitative continue : l’ensemble des valeurs possibles est continu, toutes
les valeurs réelles d’un intervalle sont susceptibles d’être prises.
Exemple : taille d’une personne
2. Variable qualitative : les modalités sont des attributs qualitatifs, et non des valeurs
numériques.
a. Variable qualitative nominale : la variable est dite qualitative nominale lorsque les
modalités ne peuvent pas être ordonnées.
Exemples : état civil : {célibataire, marié, veuf, divorcé},
couleur des yeux : {noir ; bleu ; vert}
4
Tableau statistique
Tableau statistique
Il s’agit de transformer les tableaux de données brutes en des tableaux qui se prêtent à
l’analyse des données.
Cas discret
À chaque modalité xi du caractère X peut correspondre un ou plusieurs individus.
Effectif
On appelle effectif de la modalité xi le nombre ni de fois que cette modalité est observée.
Fréquence
n
On appelle fréquence de la modalité xi le nombre fi tel que : fi = i
N
a- ∑ fi =1
b- 0 ≤ fi ≤ 1
5
Représentation des données
Exemple
Sur un échantillon de 1000 pièces tirés de la production journalière d’une usine, on compte
le nombre de défauts constatés sur chaque pièce
xi ni fi
0 570 0.57 • Les modalités sont : 0, 1, 2, 3 et 4
6
Représentation des données
Caractère continu
On répartit les modalités en classes. En règle générale, on choisit les classes de façon à ce
que chaque classe comprenne un nombre suffisant d’individus
Exemple Un technicien mesurant des tiges métalliques, il obtient les valeurs suivantes :
classe ni fi ai
[330,340[ 57 0.11 10
[340,343[ 195 0.39 3
[343,345[ 204 0.41 2
[345,350[ 30 0.06 5
[350,360[ 14 0.03 10
500
Histogramme
Représentation graphique
Dans le cas de données regroupées en classes on utilise un histogramme, il permet de
représenter les données par une suite de rectangles contigus.
7
Représentation des données
Exemple
a=2
classes n n’i
i
[1-2[ 2 4 En suite, on trace l’histogramme
[2-4[ 4 4
[4-6[ 8 8
[6-9[ 6 4
Remarques
o L’aire de chaque rectangle est proportionnelle à l’effectif de la classe qu’il représente.
Aire = a × ni' = a × ni
i
o La classe dont l’aire du rectangle associé est la plus grande est la classe ayant le plus d’effectif
Exemple
On mesure la taille en centimètres de 50 élèves d’une classe
f
f i' = i a
classe effectif amplitude fréquence fréquence ai
corrigée
[151.5 ; 155.5[ 10 4 0.2 0.05 On prend a=1
[155.5 ; 159.5[ 12 4 0.24 0.06
[159.5 ; 163.5[ 11 4 0.22 0.055
[163.5 ; 167.5[ 7 4 0.14 0.035
[167.5 ; 171.5[ 10 4 0.2 0.05
= 50 =1
8
Représentation des données
Variable qualitative
Dans le cas d’une variable qualitative (nominale ou ordinale), les données
peuvent être représentées par deux types de graphique :
1. Les effectifs sont représentés par un diagramme en barres
2. Les fréquences par un diagramme en secteurs (piechart)
Exemple
On s’intéresse à l’état civil de 20 personnes, on obtient la série statistique suivante
Diagramme en secteurs
xi ni fi en %
des fréquences
Diagramme en barres
des effectifs
C 9 45
M 7 35 10
8
V 2 10 C 6
D 4
D 2 10 M
2
V
0
Codification : C : célibataire C D M V
D : divorcé(e)
M : marié(e)
V : veuf(ve)
9
Fréquences et effectifs cumulés
Motivation
Dans le cas d’une variable quantitative, il est souvent intéressant, de pouvoir dire « il y a
tant d’observations » ou « il y a tel pourcentage d’observations » inférieures ou
supérieures à telle valeur. C’est à ce genre de préoccupation que répond le calcul des
fréquences ou des effectifs cumulés
Autrement dit, le ECC d’une valeur (ou d’une classe) est la somme des effectifs de cette
valeur (ou de cette classe) et des effectifs précédents
Autrement dit, le ECD d’une valeur (ou d’une classe) est la somme des effectifs de cette
valeur (ou de cette classe) et des effectifs suivants
Remarque
10
Fréquences et effectifs cumulés
Fréquence cumulée croissante FCC, fréquence cumulée décroissante FCD
Les définitions de FCC et FCD s’obtiennent en substituant pourcentage à nombre dans les
définitions précédentes.
Exemple (série discrète) On considère la série statistique suivante :
Calculer Les ECC, ECD, FCC et FCD
xi ni Combien y a-t-il d’individus ayant une modalité
0 11 a. au plus 3 ?
b. au moins 3 ?
1 33
c. plus de 3 ?
2 27 d. moins de 3 ?
3 12 Quel est le pourcentage et quelle est la proportion d’individus
4 4 ayant une modalité
a. au plus 3 ?
5 2 b. au moins 3 ?
Locution || Symbole
6 1 c. plus de 3 ? Vocabulaire au plus || ≤
d. moins de 3 ?
au moins || ≥
plus de || >
moins de || <
Remarques
1. Le ECC correspondant à une classe donnée [a-b[ indique le nombre d’individus dont la
modalité est strictement inférieure à b.
2. Le ECD correspondant à une classe donnée [a-b[ indique le nombre d’individus dont la
modalité est supérieure ou égale a.
3. Les mêmes remarques sont valables pour le FCC et le FCD en substituant
pourcentage à nombre.
Question
Qu’en est-il pour une modalité qui n’est pas extrémité d’une classe ?
11
Représentation graphique de ECC, ECD, FCC et FCD
Exemple 2 (série continue) classe ni
On considère la série statistique suivante
[0,2[ 2
[2,4[ 3
Exercice
[4,8[ 4
Tracer la courbe de ECC et de ECD
[8,11[ 1
Hypothèse
On suppose que l’effectif est uniformément réparti dans chaque classe
À l’intérieur de chaque classe, on fait une interpolation linéaire pour obtenir la valeur
de ECC et de ECD.
Remarque
Les représentations graphiques de FCC et FCD se font de la même manière
Chapitre 2
12
Caractéristiques statistiques
Les caractéristiques statistiques sont des indicateurs numériques qui permettent de décrire,
d’une manière synthétique, des données. On définit deux types de caractéristiques :
1. Caractéristiques de position
2. Caractéristiques de dispersion
Paramètres-clefs de position
Ils permettent d’avoir des informations sur l’ordre de grandeur de l’ensemble
des observations et de localiser la zone des fréquences maximales
a. Le mode, noté mo
Définition Le mode est la modalité la plus fréquente
Cas discret La modalité d’effectif maximal est repérée directement sur le tableau ou
sur la représentation graphique
Cas continu
On détermine la classe de densité maximale, la classe modale, à partir des n’i, c’est
la classe ayant le plus grand n’i. En suite, le mode est le centre de cette classe.
Caractéristiques statistiques
b. La médiane, notée me
Définition La médiane est la modalité qui divise l’effectif total en deux parties égales
Cas discret
i. Si l’effectif total, N, est impair, la médiane est la modalité qui occupe le rang central (N+1)/2
ii. Si l’effectif total, N, est impair, alors
a. si la modalité qui occupe le rang N / 2 est égale à la modalité qui occupe
le rang ( N / 2) + 1 alors la médiane est égale à cette modalité
b. sinon on dit que la médiane n'existe pas ou la médiane
n'est pas une valeur observée.
Exemples
N=10
xi ni ECC xi ni ECC N=12 xi ni ECC La 5ième modalité égale à
N=11 1 et la 6ième égale à 2.
0 2 2 me=2 0 2 2 La 6ième modalité 0 2 2 Elles sont différentes
et la 7ième sont
1 3 5 1 3 5 1 3 5
égales à 2
2 4 9 2 4 9 2 3 9 On peut prendre
Donc me=2
me=(x5+x6)/2=1.5
3 2 11 3 3 12 3 2 12
Mais ce n’est pas une
valeur observée
13
Caractéristiques statistiques
Cas continu
On détermine la classe médiane, i.e. la première classe telle que ECC ≥ ( N / 2)
( si N est pair c'est la classe contenant le ( N / 2)ième individu, noté [a, b[.
classe ni ECC
[0 - 2[ 2 2 On repére la classe modale
[2 - 4[ 3 5 N=14, N/2=7 ⇒ [4 - 8[ est la classe médiane
[4 - 8[ 5 10 La médiane me est obtenue à partir de : me -4 = 7 − 5 ==> me = 5.6
[8 - 15[ 4 14
8-4 5
Caractéristiques statistiques
Remarque On peut déterminer la médiane grâce à ECD, FCC et FCD
On détermine la classe médiane, i.e. la prmière classe telle que FCC ≥ 0.5, noté [a, b[.
14
Caractéristiques de position
c. La moyenne La moyenne ne peut être définie que sur une variable quantitative
Définition La moyenne est la somme des modalités devisée par leur nombre, on le note x
Cas discret 1 n
n∑
x = xi cas de données individuelles
i =1
p
1
n∑
= ni xi cas de données groupées
i =1
avec n est le nombre d'individus,
ni individus ayant la modalité xi et p est le nombre de modalités différentes
Cas continu
p e +e
1
x= ∑
N i =1
ni ci avec ci = i+1 i i.e. le centre de la classe [ei+1, ei [ et p : le nombre de classes
2
Caractéristiques de position
c. Quantiles - Fractiles
Définition
Soit α ∈]0,1[, le quantile d'ordre α , noté qα , est la modalité telle qu'une proportion α
des x i est plus petite que qα . Autrement dit, qα est la modalité vérifiant FCC(qα )=α
Définition équivalente
15
Caractéristiques de position
Détermination des quantiles On calcule les quantiles en suivant la même méthode vue
pour la détermination de la médiane.
Caractéristiques de position
Exemple Calculer la médiane Q1 , Q2 et Q3 pour la série statistique suivante
classe ni ECC
[0 - 2[ 2 2
[2 - 4[ 3 5
[4 - 8[ 5 10
[8 - 15[ 4 14
Calcul de Q2 Q2 = me = 5.6
16
Paramètres de dispersion
Grandeurs caractéristiques de dispersion
Ils précisent le degré de dispersion des différentes valeurs autour d’une valeur centrale.
Paramètres de dispersion
a. L’Etendue, noté e
Définition L’étendue est simplement la différence entre la plus grande et la plus petite
valeur observée
e = Max xi − Min xi
Intérêt Ce paramètre quantifie l’étalement total des données, il permet de détecter
d’éventuelles valeurs extrêmes
étendue
17
Paramètres de dispersion
c. La variance, V(x)
Définition La variance est la somme des carrées des écarts à la moyenne divisée par le
nombre d’individus
Cas discret 1 n
n∑
V(x) = ( xi − x )2 cas de données individuelles
i =1
1 p
ni ( xi − x ) 2
n∑
= cas de données groupées
i =1
o Plus la variance est grande plus les modalités peuvent être éloignées de la moyenne
i.e. plus elles sont dispersées.
o Plus la variance est petite plus les modalités sont proches de la moyenne
i.e. elles sont moins dispersées.
Remarques o La variance est sensible aux valeurs extrêmes
o L’unité de mesure de la variance est le carrée de celle de la série
Paramètres de dispersion
Théorème La variance peut aussi s'écrire
1 n 2
V(x) =
N∑ xi − x 2 cas de données individuelles
i =1
1 p
N∑
= ni xi 2 − x 2 cas de données groupées
i =1
Démonstration …
Remarque
L’expression de la variance donnée par le théorème est plus commode pour faire des calculs
Cas continu p p
1
ni (ci − x)2 = 1 ∑ ni ci 2 −
N∑
La variance est donnée par : V ( x) = x2
i =1 N i =1
18
Paramètres de dispersion
d. L’écart type
Définition L’écart type est une mesure de la distance moyenne à la moyenne
Intérêt σ x = V ( x)
o Il mesure la dispersion des modalités autour de la moyenne
o Plus l’écart type est grand plus les modalités peuvent être éloignées les unes des autres
i.e. plus elles sont dispersées.
o Plus l’écart type est petit plus les modalités sont proches de la moyenne
i.e. elles sont moins dispersées.
Remarque L’unité de mesure de l‘écart type est la même que celle des modalités
e. Le coefficient de variation σ
Le coefficient de variation est le rapport entre l'écart type et la moyenne Cv = x
Remarque x
o Plus le coefficient de variation est élevée, plus la dispersion autour de la moyenne est grande
o Le paramètre est sans unité
Remarque
Le coefficient de variation permet de comparer la variabilité de données situées dans des ordres
de grandeurs différents, par exemple la variabilité du poids des éléphants et des souris
Chapitre 3
19
Statistique descriptive à deux dimensions
Statistique descriptive bivariée
Dans la statistique bivariée, on traite deux variables conjointes, i.e. deux
variables observées simultanément sur les mêmes individus d’une population.
Remarque
L’intérêt se porte le plus souvent sur la relation entre les deux variables, recherche de
corrélation (d’interdépendance, le liaison, de correspondance) entre les deux variables,
mais sans tirer des conclusions sur l’existence de liens de causalités entre elles.
Objectif
La statistique descriptive bivariée vise à étudier l’existence d’éventuels liens
entre deux séries statistiques, quantifier l’intensité et caractériser sa forme
le cas échéant.
Comment réaliser une telle étude ?
L’étude d’un couple de variables conjointes se fait au moyen de
tableaux, graphiques et calcul de paramètres-clés
Hypothèses
On considère donc le cas où l’on dispose de deux variables x et y observées sur les
mêmes individus, par exemple poids et taille, présence en cours et note du module ….
Les deux variables peuvent être soit quantitatives soit qualitatives, mais on
examinera, dans ce cours, davantage le cas où les deux variables sont quantitatives
On s'intéresse à deux variables statistiques conjointes x et y. Ces deux variables sont observées
sur les mêmes individus d'une population. Pour chaque individus, on obtient donc deux mesures.
La série statistique est alors une suite de couples des valeurs prises par les deux variables sur
chaque individu (x1,y1 ),⋯,(x i ,yi ),⋯ ,(x n ,y n )
Les données observées peuvent être regroupées dans un tableau à doubles entrées
appelé tableau de contingence
20
Tableau de contingence
x/ y y1 ⋯ yl ⋯ yL K
x1 n n n
Total
n
1.
n .. = ∑ ni .
11 ⋯ 1l ⋯ 1L i
L
⋮ ⋮ ⋮ ⋮ ⋮ = ∑n j .
j
xk nk1 nk l nk L nk .
⋯ ⋯ K L
= ∑∑ ni j
⋮ ⋮ ⋮ ⋮ ⋮ i j
xK nK 1 nK l nKL nK .
⋯ ⋯ Distribution
marginale de x
Total n 1 . ⋯ . nl ⋯ . nL ..
n =n
Distribution Distribution
conjointe Distribution de y conditionnelle à x=xi marginale de y
. ⋯ f.l ⋯ f.L
Total f 1
1
fi j la fréquence d'individus présentant la modalité xi de x et la modalité y j de y
21
Tableau de contingence
Exemple Tri croisé des variables : sport préféré et taille pour les élèves d’un lycée
Athlétisme Basketball Football Totaux
[140-150[ 14 3 20 37
[150-160[ 25 10 32 67
[160-170[ 41 27 59 127
[170-180[ 30 19 45 94
[180-190[ 18 35 29 82
Totaux 128 94 185 407
22
Deux variables quantitatives conjointes
Cas de deux variables quantitatives
Etude graphique
Le nuage de points
Il s’agit de représenter les données dans le plan par un ensemble de points (xi,yi).
Ce nuage de points est très commode pour représenter les observations simultanées de
deux variables quantitatives. Il donne une idée assez bonne de la variation conjointe
des deux variables : nous pouvons détecter visuellement une forme de liaison entre les
deux variables.
Lorsque cela est réalisé on parle de corrélation linéaire entre x et y. Ce qui autorise de
faire une régression linéaire i.e. de supposer que le nuage de points (xi,yi) est aligné. On
construit alors une droite de régression ou d’ajustement linéaire de y par rapport à x. Par
la suite cette droite peut servir à pronostiquer pour une valeur possible de x une valeur
correspondante de y
23
Covariance
La covariance La covariance est un indicateur numérique d’éventuelle liaison linéaire entre x et y,
elle rend compte de la manière dont les deux variables varient simultanément
Définition
La covariance est la moyenne des produits des écarts à la moyenne
1 N 1 p
Cov(x,y)= ∑
N i=1
( xi − x )( yi − y ) = ∑ ni ( xi − x )( yi − y )
N i =1
où ni est le nombre d'individus ayant la modalité xi et p est le nombre de modalités différentes
Remarque
La covariance peut prendre des valeurs positives, négatives ou nulles
1 N 1 p
Cov(x,y)= ∑ x y
N i =1 i i
− x × y = ∑ n x y − x× y
N i =1 i i i
Démonstration …
Covariance
Remarques
2. Cov( x, x) = V ( x)
3. Cov( x, y ) = Cov( y, x)
24
Coefficient de corrélation linéaire
Coefficient de corrélation linéaire
Ce coefficient caractérise la liaison linéaire entre les deux variables,
son expression est donnée par
Cov( x, y)
rxy =
Remarques σ xσ y
1. rxy = ryx
1 N
2. − 1 ≤ rxy ≤ 1 car on peut démontrer que : ∑ ( y − axi − b)2 = V ( y )(1 − rxy 2 )
N i =1 i
3. rxy indique l'intensité de la liaisaon linéaire, plus cette valeur absolue est proche de 1, plus
la liaison est forte; à contrario, plus elle est proche de 0 plus la liaison linéaire est faible.
a. Si rxy ≤ 0.7 on considéra que la liaison linéaire est trop faible et que
l'ajustement linéaire n'est pas acceptable
x -2 -1 0 1 2
y 4 1 0 1 4
25
Corrélation linéaire
Il y a une forte corrélation linéaire entre les deux variables donc l’ajustement
linéaire de y par rapport à x peut être utilisé à des fins prédictives des valeurs de
y en fonction des valeurs connues de x. Mais ceci n’est possible que lorsque les
valeurs de x sont proches de l’intervalle [0.05 - 0.2]
Le problème consiste à trouver une droite d'équation yˆ = ax + b telle que le tracé de cette droite sur
le même graphique que le nuage de points (x i ,yi ) est celui qui s'ajuste le mieux au nuage de points.
26
Méthode des moindres carrés
Principe Faire passer la droite d'ajustement yˆ = ax + b, à travers le nuage de points, de
façon à ce que les différences (yˆ i -yi ) soient les plus faibles possible pour
l'ensemble des points ( xi , yi )
Pour déterminer la valeur des coefficients a et b, le principe
des moindres carrés consiste à chercher la droite qui minimise
la somme des carrés la somme des carrées des distances des
points à la droite mesurées verticalement i.e. la somme des
carrés des écarts ε i = yˆi − yi
.
Ce qui revient à minimiser la fonction critère, qui s'écrit sous
la forme d'un polynome de degré 2, suivante :
N
1 N 2 N
D
y/ x
( a, b) = ∑ ε i = 1 ∑ ( yˆi − yi )2 = 1 ∑ ( yi − axi − b)2
N i =1 N i =1 N i =1
Théorème La droite d'ajustement linéaire de y par rapport à x, obtenue par MMC,
27
Corrélation non linéaire
Ajustement non linéaire
Il peut arriver que les points représentant une série double ne soient pas alignés, mais soient
voisins d’une courbe connue. On se sert alors de ce que nous avons vu pour la corrélation et
l’ajustement linéaire, mais en transformant au préalable l’une ou les deux des variables.
Exemples
Remarque
28
Chapitre 4
Dénombrement
Dénombrement
Le dénombrement est une branche de l’analyse combinatoire qui étudie comment
compter des objets.
Le dénombrement permet le comptage des éléments de divers types de
groupements que l’on peut faire à partir d’ensembles finis, mais en procédant
d’une manière méthodique et non de compter d’une manière désordonnée.
Expérience aléatoire
Une épreuve est qualifié d’aléatoire si :
a- On ne peut prédire avec certitude son résultat
b- On peut décrire l'ensemble de tous les résultats possibles.
Exemple : jet d'un dé ; lancer d'une pièce de monnaie …
Univers ou espace d’échantillonnage
Il s’agit de l’ensemble formé de toutes les issues possibles de cette expérience
Événement Est une partie de l’univers, formée d’une ou plusieurs issues possibles
Événement élémentaire Est une partie de l’univers, formée d’une seule issue possible.
29
Opérations sur les événements
Exemple « Lancer un dé standard et noter le numéro de la face supérieure »
est une expérience aléatoire comportant 6 issues Ω = {1, 2,3, 4,5,6}
A = {2, 4,6} est l'événement "obtenir un nombre pair"
B = {1} est l'événement élémentaire "obtenir le nombre 1"
C = {1,6} est l'événement "obtenir 1 ou 6"
∅ est un événement impossible, Ω est un événement certain
Opérations sur les événements
L’union L'événement A ∪ B est réalisé dès que A ou B (ou les deux) sont réalisés.
i.e. A ∪ B se constitue des issues appartenant à A ou B.
Dans l'exemple ci-dessus, A ∪ B est l'événement "obtenier 1 ou un nombre pair"
L’intersection L'événement A ∩ B est réalisé si A et B sont simultanément réalisés.
i.e. A ∩ B se constitue des issues communes à A et B.
Dans l'exemple ci-dessus, A ∩ C est l'événement "obtenir le nombre 6"
Le complémentaire
L'événement complémentaire de A, noté A est réalisé dès que A n'est pas réalisée.
Dans l'exemple ci-dessus, A est l'événement "obtenir un nombre impair"
Evénements incompatibles
Evénements incompatibles
Deux événements sont dits incompatibles si leur intersection est un événement impossible
Exemples
Dans l'exemple précédent, A et B sont incompatibles
L'événement impossible ∅ est compatible avec tous les autres événements
Partition de l’univers
On appelle partition de Ω toute famille ( Ai )i∈I d'événements telle que :
∪ Ai =Ω et si i ≠ j , alors Ai ∩ A j = ∅
i∈I
C'est à dire une famille d'événements, deux à deux incompatibles et dont la réunion est Ω
30
Combinaison : addition ou multiplication ?
Question Quand on utilise plusieurs combinaisons, faut-il additionner ou multiplier ?
Ordonnée l’ordre d’obtention d’un élément est important i.e. un élément est
caractérisé non seulement par le nombre de fois ou il apparaît dans la
disposition, mais aussi par sa place dans la disposition
Non ordonnée
l’ordre des éléments ne compte pas dans la caractérisation de
la disposition
31
Dispositions ordonnées
Exemple
On dispose d’une urne avec 10 jetons numérotés de 1 à 10.
On tire 3 fois de suite un jeton dont on note le numéro avant de le remettre dans l’urne.
Quel est le nombre de résultats possibles ?
Réponse On a donc : 10 10 10 =103 triplets de résultats possibles
Exemple Combien de mots de trois lettres peut-on former avec les 26 lettres de l’alphabet ?
Réponse 263
Exemple Combien de numéros de téléphone portable, composés de 10 chiffres et commençant
par 06, existe-t-il ?
Réponse Un numéro est composé de 06 suivi 8 chiffres choisis, avec répétition éventuelle,
parmi 0,1, …,9 dont l’ordre est important. Il y a 108 Cent millions numéros!
Dispositions ordonnées
Exemple Combien de podiums sont possibles pour une épreuve avec 10 participants ?
Réponse Il faut choisir la médaille d’or parmi les 10, puis la médaille d’argent parmi
les neuf restants, puis la médaille de bronze parmi les 8 restants.
Soit 10 9 8 = 720 podiums possibles
Arrangement sans répétition
Définition Il s’agit d’une disposition ordonnée de p éléments pris parmi n éléments
discernables, sans répétition.
Il y a n possibilités pour le 1ier élément Exemple
Il y a (n-1) possibilités pour le 2ième élément Combien de mots de trois lettres,
Proposition
Le nombre d'arrangements, sans répétition, de p éléments choisis parmi n est :
n!
Anp = n(n − 1)⋯(n − p + 1) = ∀(n, p) ∈ ℕ 2 tel que p ≤ n
(n − p)!
32
Dispositions ordonnées
Exemple
Une assemblé de 15 personnes doit élire un bureau composé de 3 membres : un président un
secrétaire et un trésorier. Quel est le nombre de bureau possibles.
Réponse
Arrangements
Propriétés a. n ! = n × ( n − 1) × ( n − 2) × ... × 2 × 1 b. 0! = 1
c. =1
An0 d. A1n = n
e. Ann = n! f. Ann−1 = n!
p−1
g. Anp = Anp−1 + p An−1 ∀(n, p ) ∈ ℕ 2 , tel que p ≤ n
Démonstration …
33
Permutation
Permutation
Définition Tout classement ordonné de n éléments distincts est une permutation
de ces n éléments. Il s’agit d’un arrangement sans répétition de n éléments parmi n
Exemple : aebcd est une permutation des éléments a, b, c, d, e
n! n!
Le nombre de permutation de n éléments est Pn = Ann = = = n!
(n − n)! 0!
Réponse
Il suffit de choisir, parmi les 80 étudiants, celui qui sera 1ier ; on a 80 possibilités,
puis de choisir le 2ième parmi les 79 restants ; 79 possibilités, puis le 3ième, le 4ième
et ainsi de suite. Au total, il y a 80! Possibilités.
34
Exercices
Exercice 1
À la fin d'une réunion d'anciens élèves, tout le monde se serre la main. S'il y a n personnes
à la fête, combien de poignées de mains sont échangées ?
Exercice 2
Quel est le nombre de manières de placer 8 convives autour d’une table ?
Formules remarquables
Propriétés
Cnp = = Cnn− p
n!
∀(n, p) ∈ ℕ 2 , tel que p ≤ n
p!(n − p)!
Cn0 = Cnn = 1
C1n = Cnn−1 = n
35
Triangle de Pascal
p−1
p
La formule Cn = Cnp−1
+ Cn−1 permet de construire le triangle de Pascal : on porte p
p
horizontalement et n verticalement. Les Cn se trouvent à l'intérieur du tableau
Triangle de Pascal
Chapitre 5
Introduction à la probabilité
36
Expérience aléatoire
Un fabricant contrôle les produits sortis de ces chaînes : il y a deux issues possibles,
ou bien le produit est sans défaut et peut être vendu, ou bien le produit présente des
défauts et va être jeté. L’univers est fini (conforme non-conforme)
On choisit un nombre entier positif on parle là d’univers infini discret (les valeurs
possibles sont toutes isolées) et dénombrable
On choisit un point dans le plan, l’univers des possibles est infini continue non-dénombrable
Le concept de probabilité
Il existe deux manières d’introduire la probabilité
La probabilité subjective
La probabilité subjective d'un événement est un nombre qui caractérise la croyance
que l'on a que cet événement est réalisé avec plus ou moins de certitude
La probabilité assimilée à une fréquence
Dans ce cas la probabilité est définie à partir d'expériences indéfiniment dénombrables.
La probabilité de cet événement est la fréquence de son apparition.
37
Loi de probabilité
Probabilité
Une probabilité est une mesure qui permet d’évaluer les chances de réalisations
des événements d’une expérience aléatoire.
Modéliser une expérience aléatoire, c’est définir l’ensemble des événements et une
probabilité sur cet ensemble
Dans le cadre de ce cours, une probabilité est une fonction, notée p, qui attribue à un
événement A une valeur p(A) désignant la probabilité que A se réalise
Loi de probabilité
Une probabilité possède les propriétés suivantes
a. 0 ≤ p( A) ≤ 1 pour tout événement A
b. p(Ω) = 1
c. p (∅ ) = 0
d . p ( A) = 1 − p ( A)
38
Loi de probabilité
Remarques
39
Le cas particulier où Ω est fini
Proposition
Supposons Ω est fini Ω ={w1 , ..., wn }, et que l'on a équiprobabilité des événements élémentaires.
Nombre de cas favorables card ( A)
Alors pour énénement A, on a : p( A) = =
Nombre de cas possibles card (Ω)
Démonstration ….
Commentaire
Lorsque Ω est fini, la façon la plus simple de construire une probabilité sur ( Ω, P (Ω) )
1
est de choisir pi = (card (Ω) = n). C'est la modélisation qui s'impose naturellement
n
lorsque l'on a pas de raison de penser a priori qu'un résultat élémentaire de l'expérience
soit favorisé ou défavorisé par les autres.
Probabilité conditionnelle
Définition Soit Ω un univers muni d'une probabilité p. Soit B un événement tel que p( B) > 0.
La probabilité qu'un événement A se réalise sachant que l'événement B a eu lieu
p( A ∩ B)
(ou probabilité conditionnelle en B ) est définie par : p ( A / B) =
p( B)
On la note aussi pB ( A)
Exemple On jette un dé une seule fois, soient les deux événements suivants :
A : obtenir un chiffre pair
B : obtenir un chiffre inférieur à 3
Calculer p ( A / B) ?
Réponse P(B) = 3/6
P(A ∩ B) = 1/6
P( A/B) = (1/6) / (3/6) = 1/3
40
Probabilité conditionnelle
Soit B un événement tel que p( B) > 0, La fonction A → p( A / B) est une vraie probabilité
i.e. les règles de calcul avec les probabilités conditionnelles sont les mêmes qu'avec
les probabilités classiques.
b. p(Ω / B ) = 1
c. p (∅ / B ) = 0
d . p ( A / B ) = 1 − p( A / B)
e. Si A1 ⊂ A2 , alors p ( A1 / B ) ≤ p ( A2 / B )
Événements indépendants
Définition
On dit que deux événements A et B sont indépendants
si l'un des deux et de probabilité nulle,
ou bien, lorsque les deux sont de probabilités non nulles, le fait de savoir que
l'un est réalisé n'influe pas sur la probabilité que l'autre le soit.
Autrement dit les deux événements sont indépendants si p( A / B) = p( A)
ou d'une manière équivalente si p( B / A) = p( B)
Proposition
Deux événements A et B sont indépendants si et seulement si : p( A ∩ B) = p( A) p( B)
Remarque
Ne pas confondre les deux notions d'événements indépendants et d'événements incompatibles !
Deux événements incompatibles ne sont jamais indépendants (sauf si l'un, au moins,
est de probabilité nulle)
Démonstration…
41
Événements indépendants
Exemple On jette un dé une seule fois, soient les deux événements suivants :
A : obtenir un chiffre pair
B : obtenir un chiffre inférieur à 3
Les événements A et B sont-ils indépendants ?
Réponse p ( A) = 3/ 6 , p( B) = 3/ 6 , p( A ∩ B ) = 1/ 6
p ( A / B) = (1/ 6) / (3/ 6) = 1/ 3 ≠ 3/ 6 = P ( A)
Réponse
p ( A) = p (≠ 0), p ( B ) = p (≠ 0), p ( A ∩ B ) = p (( pile, pile)) = p 2 = P( A) × P( B )
Les deux événements A et B sont indépendants.
Événements indépendants
Exemple : considérons A="l'enfant à naître est un garçon" et B ="l'enfant à naître est une fille".
Les événements A et B sont incompatibles. Mais ils ne sont pas indépendants ! ! ! En effet,
p ( A ∩ B ) = 0 ≠ p(A) × p( B) = 0.5 × 0.5 = 0.25
42
Événements indépendants
Exercice
Soient A et B deux événements indépendants de probabilités respectives p(A) =0.3 et p(B) = 0.7.
Déterminer les probabilités : p( A ∩ B ), p( A ∪ B) et p ( A ∪ B)
Exemple Une urne avec 3 boules rouges, 3 blanches. On tire une boule trois fois sans remise.
Quelle est la probabilité d'obtenir trois boules blanches ?
Réponse
Soit Bi "tirer une boule blanche au i ième tirage"
p( B1 ∩ B2 ∩ B3 ) = p( B1 ) × p( B2 / B1 ) × p( B3 / B1 ∩ B2 )
3 2 1 1
= × × =
6 5 4 20
Probabilités composées dans le cas de deux événements
Soient A et B sont des événements de Ω tels que p( A ∩ B ) > 0 , alors
p( A ∩ B) = p ( A) × p( B / A) = p( B ) × p ( A / B )
43
Formule des probabilités totales
Théorème Soit ( Bi ) une partition de Ω (I est fini ou dénombrable) telle que p( Bi ) ≠ 0 ∀i ∈ I.
i∈I
Alors pour tout événement A de Ω on a : p(A)= ∑ p( A ∩ Bi ) = ∑ p( A / Bi ) × p(Bi )
i∈I i∈I
Remarque Cette formule permet de déterminer les probabilités d'un événement A si l'on dispose
des probabilités conditionnelles avec les événements d'une partition et les probabilités
des événements de la partition.
Exemple
Un sac contient des jetons de trois couleurs différentes, blancs (50%), verts (25%)
et jaunes (25%). Les jetons peuvent être ronds ou cubiques. On suppose que 50%
des jetons blancs sont ronds, 30% des jetons verts sont ronds et 40% des jetons jaunes sont ronds.
Quelle est la probabilité qu'un jeton soit rond ?
Remarque
On peut construire un arbre pondéré des probabilités pour modéliser la situation.
Mais dans les faits on va faire référence à la formule des probabilités totales
44
Formule de Bayes
Théorème
Soit A1,⋯, An une partition de Ω (des événements incompatibles deux à deux
et dont la réunion est égale à Ω). Soit B un événement tel que p ( B ) ≠ 0.
Supposons connaître les probabilités p ( Ai ) et le probabilités conditionnelles
p ( B / Ai ) pour i = 1,⋯, n.
On peut alors calculer les probabilités p( Ai / B) pour i = 1,⋯, n par :
Probabilité conditionnelle
p( Ai ) × p( B / Ai ) p( Ai ) × p( B / Ai ) p ( Ai ) × p( B / Ai )
p( Ai / B ) = = n = n
p ( B)
∑ p( B ∩ Ak )
k=1
∑ p( Ak ) × p(B / Ak )
k=1
Probabilité Probabilité
a posteriori a priori
Formule de Bayes
Exemple Dans une population 1 habitant sur 100 est atteint d'une maladie génétique A, on a
mis au point un test de dépistage. Le résultat du test est soit positif (P) soit négatif N.
On sait que p ( P / A) = 0.8 et p ( N / A) = 0.9
On soumet un patient au test. Celui-ci est positif.
Quelle est la probabilité que ce patient soit atteint de la maladie A ?
Réponse Il s'agit de déterminer p( A / P ).
Les événements A et A forment une partition de Ω
p( A ∩ P ) p( P / A) p ( A)
D'après la Formule de Bayes p( A / P ) = =
p( A) p( P / A) p( A) + p( P / A) p ( A)
0.01× 0.8
= = 0.075
0.01× 0.8 + 0.1× 0.99
Commentaire
Ainsi, avant le test, la probabilité d'être malade était p( A) = 0.01 (probabilité a priori)
Et après le test la probabilité d'être malade est p( A / P ) = 0.075 (probabilité a postériori)
Ainsi le test apporte un supplément d'information.
45
Chapitre 6
Variable aléatoire
46
Variable aléatoire
Définition : Une variable aléatoire X est le procédé qui relie l'expérience aléatoire à un nombre.
En termes mathématiques
Soit (Ω, p) espace probabilisé. Une v.a. X est une application de (Ω, p) dans un ensemble F
w ∈Ω → X ( w) ∈ F
On ne considère, dans le cadre de ce cours, que les v.a. réelles i.e. F=]a,b[ un intervalle de ℝ
Exemples
o Soit l'expérience "jeter un dé" et soit X la v.a. représentant la valeur inscrite sur la face
supérieure. Un joueur effectue une 1ère fois cette expérience, il obtient la réalisation x1 = 4.
Il recommence une 2ème fois l'expérience et obtient la réalisation x2 = 3, etc...
v.a. discrète finie
o Soit l'expérience "tirer une pièce parmi une production" et soit X la v.a. représentant la
longueur de la pièce tirée.
L'ingénieur d'usine effectue une 1ère fois cette expérience, il obtient la réalisation x1 =
10,2cm. Il recommence une 2ème fois l'expérience et obtient la réalisation x2 = 9,9cm, etc...
(toutes les valeurs d’un intervalle [a,b] peuvent être prises par X) v.a. continue
Une v.a. est dite discrète dénombrable infinie si ses résultats possibles sont infinis
dénombrables (illimités)
S ( X ) = {x1, x2 ,…, xn ,…}
47
Variable aléatoire : exemples
Exemples
A l'usine, on dispose d'un lot de 30 pièces prélevées dans la production sur lesquelles on
effectue un contrôle de qualité à l'issue duquel on déclare les pièces conformes ou
non-conformes. Soit X la v.a. qui compte le nombre de pièces non-conformes.
• L'ensemble des valeurs possibles pour X est S ( X ) = {0,1,…,30} X v.a. discrète finie
• L‘événement "2 pièces sont non-conformes" se note (X = 2).
• (X = 100) est un événement impossible
On s'intéresse au poids des pièces qui peut varier de 10g à 20g. Soit X la variable aléatoire
représentant le poids (en g) d'une pièce.
• L'ensemble des valeurs acceptables pour X est S ( X ) = [10,20] X v.a. continue
• (X = 12) = le poids d'une pièce est de 12g.
• (X = 100) est un événement impossible
• 10.5 ≤ X ≤ 12.5 le poids d'une pièce est compris entre 10.5g et 12.5g.
( )
Par exemple, p X ( ]a, b[ ) = p X −1 ( ]a, b[ ) = p{w ∈Ω, a < X ( w) < b} ∀( a, b) ∈ ℝ 2
Soit A un événement de ℝ, { X ∈ A} = p{w ∈ Ω, X ( w) ∈ A} = X −1 ( A).
Cela signifie aussi X −1 ( A) est un événemnet de Ω.
Soit p X l'application qui associe à tout événement A de ℝ le nombre p X ( A) = p ( X ∈ A) ∈ [0,1]
p X est une loi de probabilité sur ℝ, que l'on appelle loi de la v.a. X
48
Loi de probabilité et fonction de répartition
Loi de probabilité
Définition La loi (ou la distribution) de probabilité d’une v.a. décrit comment sont réparties
les probabilités en fonction des valeurs de la v.a.
Elle permet de connaître les valeurs de p X ( A) = p{w ∈Ω, X ( w) ∈ A} ∀A ⊂ ℝ
Fonction de répartition
Définition : la fonction de répartition d’une v.a. X est la fonction définie par :
FX ( x) = p( X ≤ x) = p( X −1 ]−∞, x ])
Elle permet de déterminer la probabilité que les valeurs prises par la v.a. X soient inférieures à
une valeur donnée. C’est également le pourcentage des valeurs de X inférieures à cette valeur.
Propriétés
La fonction de répartition est croissante, continue à gauche et à valeurs dans [0,1]
Loi de probabilité
Remarque
La donnée de la loi de probabilité d’une v.a. pour certains événements simples permet de définir
p X ( A) pour tout événement A ⊂ ℝ
49
Loi de probabilité d’une v.a. discrète
Loi d’une v.a. discrète La loi de probabilité d’une v.a. discrète X est la donnée de
p( X = x) si x ∈ S ( X )
Cela revient à définir une fonction sur ℝ comme suit : f X ( x) =
0 sinon
F ( x) = p( X ≤ x) = ∑ pi
i / xi ≤ x
Remarques
∀x ∈[ xi−1, xi [ FX ( x) = FX ( xi−1)
FX ( xi ) − FX ( xi−1) = p( X = xi ) = pi
En plus, des propriétés que l’on a vues dans le cas d’une v.a. quelconque, la fonction de
répartition d’une v.a. discrète, est une fonction en escalier, discontinue à gauche,
présentant des sauts pi en chaque xi
50
Variable aléatoire : cas discret
Exemple : on lance successivement deux dé.
On considère la v.a. X : la somme des deux chiffres obtenus.
Valeur de X 2 3 4 5 6 7 8 9 10 11 12
pi 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
P(X<= x) 1/36 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 35/36 1
Représentation graphique
Proba(X=x)
0,18 0,17
0,16
0,14 0,14
0,14
0,11 0,11
Ici F répartition
0,12
0,1 0,08 0,08
Proba(X=x)
0,08
0,06 0,06
0,06
0,04 0,03 0,03
0,02
0
0
1 2 3 4 5 6 7 8 9 10 11 12
51
Variable aléatoire
Cas continu b
p(a ≤ X ≤ b) = ∫f X (t ) dt = F (b ) − F ( a )
fX(t) a
t
a b
La probabilité d'obtenir une valeur de X dans l'intervalle [a, b] est égale à l'aire
du domaine situé sous la courbe de la densité f X entre les abscisses a et b
Fonction de répartition
Fonction de répartition d’une v.a. représentant le poids, en gramme, d’une pièce métallique.
52
Variable aléatoire
f X ( x)
a
FX (a) = p( X ≤ a) = p( X < a) = ∫ f X (t )dt
−∞
L’aire entre la courbe de la fonction densité, l’axe des abscisses et la droite x=a
53
Variable aléatoire
Définition : L’espérance mathématique d’une v.a. X est définie par :
+∞
Cas discret E( X ) = ∑ xi pi Cas continu E( X ) = ∫ x f X ( x) dx
i / xi∈S ( X ) −∞
L’espérance n’est définie que ces sommes le sont
Interprétation L’espérance d’une v.a. X représente la valeur moyenne de X : c’est celle
que l’on peut espérer en répétant un grand nombre de fois l’expérience
Exemple On lance une pièce truquée : p(pile)=0.6
Si on obtient pile, on perd 100 DH sinon on gagne 200 DH
X : v.a. égale au gain du joueur. Calculer E(X). Interpréter
Réponse E(X)= (-100) x 0.6 + 200 x 0.4 = 20 DH
Si l’on joue plusieurs fois, on peut espérer gagner 20 DH
Le jeu est plutôt favorable, mais ça reste une moyenne
L'espérance est linéaire
E (aX + bY ) = aE ( X ) + bE (Y ) a, b ∈ ℝ 2 , X ,Y deux v.a. d'espérances finies
Remarque Si la v.a. est constante égale à c ∈ ℝ alors E ( X ) = c
Variable aléatoire centrée Un e v. a. est dite c en trée si E(X ) = 0
n n
Cas discret σ X2 = V ( X ) = ∑ pi ( xi − E ( X )) 2 = ∑ pi xi 2 − E ( X ) 2
i =1 i =1
+∞
Cas continu σ X2 = V ( X ) = ∫x
2
f ( x) dx − E ( X )2
−∞
54
Coefficient de variation :
Le coefficient de variation d’une v.a. X se définit par :
σX
Cv = si E ( X ) ≠ 0
E(X )
Interprétation
o Le coefficient de variation est défini seulement pour des variables avec valeurs
possibles positives (il risquerait sinon d’être négatif, ce qui n’aurait pas de sens pour
une mesure de variabilité).
σ X = V (X )
Remarque
L‘écart type a la même échelle que les valeurs pouvant être prises par la v.a. X.
Interprétation
o L’écart type mesure la dispersion des valeurs d’une v.a par rapport à son espérance
o Plus l’écart type est grand plus la variable prend des valeurs qui peuvent être éloignées les
unes des autres.
o Plus l’écart type est petit plus la variable prend des valeurs proches de sa moyenne
55
Variable aléatoire
Grandeurs caractéristiques de position
Ils permettent d’avoir des informations probabilistes sur l’ordre de grandeur de
l’ensemble des valeurs prises par la v.a. et de localiser la (ou les) zone des valeurs
les plus probables
o l'espérance
o La médiane (lorsqu’elle est définie) est le réel telle que la v.a. X a autant de chance de
se réaliser au-dessus qu’en dessous. p ( X ≤ x ) ≥ 0.5 et p ( X ≥ x) ≥ 0.5
Variable aléatoire
Grandeurs caractéristiques de dispersion
Préciser le degré de dispersion des différentes valeurs prises
par la v.a. autour d’une valeur centrale.
La variance et L’écart type expriment à quel point les valeurs prises par X sont
dispersées autour de son espérance. Plus les valeurs de ces paramètres sont élevées, plus
la dispersion, autour de l’espérance, des valeurs de la v.a. est importante.
Définition
Soit α ∈[0,1]
Le quantile ou le fractile d'orde α de la v.a. X est la valeur qα tel que : p( X ≤ qα ) = α
La probabilité que les réalisations de la v.a. X soient inférieures à la valeur qα vaut α
Les quantiles permettent de fournir l'intervalle dans lequel X se réalise avec 50%, 75%,
95% .... de chances par exemple.
56
Couple de variables aléatoires
Définition Les v.a. X et Y sont dites indépendantes si tout événement relatif à une des
deux variables est indépendant de tout événement relatif à l’autre
Formellement
tout événement [ X ∈ I ], I ⊂ ℝ est indépendant de tout événement [Y ∈ J ], J ⊂ ℝ.
Autrement dit, ∀I , J ⊂ ℝ : p ( X ∈ I , Y ∈ J ) = p ( X ∈ I ) p (Y ∈ J )
57
Couple de variables aléatoires
Proposition
Si deux variables aléatoires X et Y sont indépendantes alors
(i) E ( XY ) = E ( X ) × E (Y )
(ii) V ( X + Y ) = V ( X ) + V (Y )
• S i r X Y = ± 1, a lo r s Y = a X + b
• Si rXY = 0, les v.a. X et Y sont dites non corrélées linéairement.
Ces deux nombres mesurent l’importance de la dépendance linéaire entre les deux v.a.
58
Couple de variables aléatoires
Remarque
Cov ( X , Y ) = rX Y = 0 n'implique pas que X et Y sont indépendantes
Exemple :
Soit la paire de v.a. discrètes (X,Y) où S(X)= {-1, 0, 1} et S(Y)= {-2, 0, 2}. Les valeurs de la
fonction de masse de probabilité conjointe de (X, Y) sont fournies dans le tableau suivant
-1 0 1/3 0 E ( XY ) = ∑ px y x y = 0 = E ( X ) = E (Y )
x, y
0 1/6 0 1/6 ⇒ Cov( X ,Y ) = 0 ⇒ rX Y = 0
1 0 1/3 0
Toutefois,
Chapitre 7
59
Exemples de distribution de probabilité discrète
o Loi de Bernoulli
o Loi Binomiale
o Loi hypergéométrique
o Loi de Poisson
Espérance E ( X ) = q × 0 + p ×1 = p
Variance V ( X ) = q × (0 − p )2 + p × (1 − p) 2 = pq = p (1 − p) ⇒ σ X = p(1 − p)
60
Loi de Binomiale
Contexte
( )
On considère une expérience aléatoire qui ne possède que deux résultats : le succès ( S ), échec S .
Soit p = p( S )
On répète n fois cette expérience et on suppose que les n répétitions sont indépendantes.
On pose X : le nombre de succès au cours de n répétitions.
Alors on dit que la v.a. X suit la loi binomiale de paramètres n et p, on note X ∼ B(n, p)
Caractéristiques d’une loi binomiale
Le support de X : S ( X ) = {0,1,⋯, n}
La fonction de masse : p X (k ) = Cnk p k (1 − p )n−k ∀k ∈ S ( X )
k
La fonction de répartition : FX ( k ) = ∑ Cni pi (1 − p)n−i ∀k ∈ S ( X )
i =0
Comme le calcul de FX (k ) est fastidieux lorsque n devient grand, on utilise souvent en pratique
une table de loi binomiale ou des logiciels qui fournissent les valeurs de cette fonction.
Espérance E ( X ) = n × p
Variance V ( X ) = npq = pn(1 − p) ⇒ σ X = np(1 − p )
Loi de Binomiale
Remarques (i) La loi binomiale modélise le nombre de succès dans une expérience aléatoire
équivalente à "n tirages indépendants et avec remise parmi N éléments, dans
lequel on s'intéresse au nombre de fois où un événement donné se réalise.
Elle permet de modéliser le nombre de succès lors d'un sondage avec remise
61
Loi de Binomiale
Proposition
Si X1 et X 2 sont deux variables indépendantes de lois respectives B (n1, p)
et B ( n2 , p) (lois de même paramètre p). Alors X1 + X 2 suit la loi B (n1 + n2 , p)
Exercice
Un lot contient 20 articles parmi lesquels 4 sont défectueux.
On tire avec remise 7 articles du lot. Calculer
1. La probabilité d'observer exactement un article défectueux.
2. La probabilité d'observer au moins 4 articles défectueux.
3. L'espérance et la variance du nombre d'articles défectueux.
Loi de Hypergéométrique
Contexte
Soit une population de N individus parmi lesquels une proportion p (c-à-d N p = N × p individus )
possède un caractètre donné.
On prélève un échantillon de n individus parmi cette population (le tirage pouvant s'effectuer d'un
seul coup ou au fur et à mesure mais sans remise)
Soit X le nombre aléatoire d'individus de l'échantillon possédant la propriété considérée.
Alors X suit la loi hypergéométrique de paramètre N , n et p. On note X ∼ H ( N , n, p )
Remarques
• N p = N × p est un entier représentant le nombre d'individus possédant le caractère étudié.
• N q = N − N p = N (1 − p ) = N × q : le nombre d'individus dans la population qui n'ont pas ce caractère.
62
Loi de Hypergéométrique
Caractéristiques d’une loi hypergéométrique
C Nk C Nn-k
p q
• La fonction de masse de X est donnée par : p( X = k ) = n ∀k ∈ S ( X )
CN
Loi de Hypergéométrique
Exemple On fait un sondage dans une population de 1000 personnes pour chercher un caractère C.
On fait un tirage au sort de 50 personnes.
Dans la population on considère que la répartition du caractère C est de 20 %.
Quelle est la probabilité que l'on ait dans le sondage 10 individus ayant le caractère C ?
Réponse X : le nombre d'individus ayant le caractère C dans l'échantillon
Alors X ∼ H (1000, 50, 0.2)
C10 × C 40
p ( X = 10) = 20050 800 = 0.1434
C1000
63
Loi de Hypergéométrique
Approximation d’une distribution hypergéométrique par une loi normale
Soit une v.a. X est distribuée selon une loi hypergéométrique ( X ∼ H ( N , n, p) ) ,
Si N est grand par rapport à n, on n'hésite pas à substituer la loi B(n, p) à la loi H ( N , n, p )
(en fait lorsque N → +∞ les tirages avec remise ou sans remise sont pratiquement équivalents)
C'est à dire que X peut être supposée binomiale avec X ~ B ( n, p )
∗ Lorsque N est grand par rapport à n et le sondage est effectué sans remise, on l'assimile à
un sondage avec remise et on parle de sondage avec remise assimilé
∗ En pratique, cette approximation sera valable, pour nous, lorsque 10 × n < N
∗ La loi hypergéométrique n'est utililée que lorque le rapport N / n est faible.
∗ Lorsque N / n augmente la distinction entre tirage avec ou sans remise est
de moins en moins pertinente
N 1000
∗ Dans l'exemple précédent on a : = = 1000 / 50 = 20 > 10
n 50
p ( X = 10) = 0.1434 loi hypergéométrique, p ( X = 10) = 0.1398 loi binomiale
Les deux lois donnent pratiquement la même probabilité
∗ Par contre dans l'exercice précédent, on ne peut pas substituer
la loi binomaile à la loi hypergéométrique
Loi de Poisson
La loi de Poisson
Soit λ un nombre réel strictement positif.
On dit qu'une variable aléatoire X suit une loi de Poisson de paramètre λ
lorsque S ( X ) = {0,1,⋯ , k ,⋯} avec les probabilités suivantes :
λk
p ( X = k ) = e −λ pour tout entier k
k!
On note alors X ∼
Po(λ )
La variable aléatoire X peut prendre tous entiers k ∈ ℕ. Cependant, lorsque k est suffisamment
grand, la probabilité correspondante devient extrèmement faible.
64
Loi de Poisson
Densité de probabilité
Loi de Poisson
Utilisation de la loi de Poisson
Il est courant d'utiliser la loi de Poisson lorsque l'on s'intéresse à la probabilité d'observer
un certain nombre de réalisations d'un événement faiblement probable, et les éventuelles
occurrences de cet événement sont indépendantes. et que le nombre de survenues
possibles est potentiellement élevé, de telle sorte que l'événement d'intérêt ait des
chances de se réaliser quelques fois.
Voici quelques exemples :
65
Loi de Poisson
La loi de Poisson peut également être uitilisée pour la modélisation du nombre d'occurrences
indépendantes d'un événement dans un intervalle de temps ou des intervalles saptiaux(longueur,
surface, volume), ou dans d'autres grandeurs
∗ Nombre d'accidents de circulation mortels par jour dans un pays
∗ Nombre de ponts sur un ségment 100 km de route
∗ Nombre de bactéries pathogènes en suspension dans un échantillon d'eau de distibution
∗ Nombre d'erreurs typographiques sur une page d'un livre
∗ Nombre de mutations aléatoires d'un gène
∗ Nombre de défauts sur une pièce usinée
Loi de Poisson
Exemple
Une machine utilisée dans une chaîne de production tombe en panne en moyenne 2 fois par mois.
Soit X le nombre de panne par mois. En supposant que X suit la loi de Poisson, quelle est la
probabilité que dans un mois donnée la machine
(i) ne tombe pas en panne ;
(ii) tombe en panne au moins deux fois ?
Solution
X ∼ Po(2 ×1) = Po(2) L'unité de temps est le mois. Le nombre d'occurrences moyen est 2
0
2
(i ) p ( X = 0) = e −2 = 0.1353
0!
(ii ) p ( X ≥ 2 ) = 1 − p( X < 2)
= 1 − p ( X ≤ 1)
= 1 − 0.406 (d'après la table de la loi de Poisson)
= 0.594
66
Loi de Poisson
Proposition
La somme de n v.a., X1,⋯ , X n , indépendentes, distribuées selon une loi de Poisson, de paramètres
n n n
λ1,⋯ , λn , suit une loi de Poisson de paramètre égale à ∑ λi c'est à dire ∑ X i ∼Po ∑ λi
i =1 i =1 i =1
la probabilité d'une absence est la même chaque jour et pour chaque employé, alors le
nombre X de personnes absentes un jour donné est X ~ B(130,0.01), le tableau suivant
donne les valeurs de p ( X = k ), qui sont très proches, pour les deux lois
P( X ≥ 1) = 1- 0.27 = 0.73
x 0 1 2 3 4 …
Il est assez probable qu'au
X ∼ B(130,0.01) 0.271 0.356 0.232 0.100 0.032 …
moins une personne soit
X ∼ Po(1.30) 0.273 0.354 0.230 0.100 0.032 …
absente chaque jour!
67
Approximation d’une loi binomiale par une loi de Poisson
Exemple 2 % des dossiers de crédit arrivent au service contentieux un an après leur signature.
Soit un lot de 100 dossiers. Quelle est la probabilité qu'aucun dossier ne devienne
contentieux à un an ?
Réponse X : "le nombre de dossier devenant contentieux en un an"
X ∼ B (n, p) n = 100 ≥ 30 ; p = 0.02 ≤ 0.1 et n × p = 2 ≤ 5
On est dans le domaine de validité de l'approximation d'une loi binomiale
par une loi de Poisson. Donc X ∼ Po(2)
P( X = 0) = 0.1353
Chapitre 8
Distributions de probabilité
usuelles continues
68
Exemples de distribution de probabilité continue
o Loi uniforme
o Loi exponentielle
o Loi normale
o Loi de Khi-deux
o Loi Student
Loi uniforme
Définition
Lorsque la fonction de densité de probabilité est constante sur un intervalle [a,b] et nulle par
tout ailleurs. On parlera de loi uniforme de paramètre a et b
69
Loi uniforme
Exemple
On choisit un nombre réel au hasard dans l’intervalle [0 ; 5]. On associe à X le nombre choisi.
Quelle la probabilité que ce nombre soit supérieur à 4 ?
La répartition des valeurs prises par la v.a. X dans chaque sous-intervalle de [0 , 5] est la même
X ∼ Un(0 ; 5)
p ( X > 4) = 1 − p ( X ≤ 4)
= 1 − FX (4)
4−0 1
= 1− =
5−0 5
Loi exponentielle
Définition
Soit un réel λ strictement positif. On dit qu’une v.a. X suit une loi exponentielle de
paramètre λ si elle admet la densité :
λ e
−λ x
x≥0
f X ( x) =
0 ailleurs
S ( X ) = [0, +∞[
Paramètres
Fonction de répartition
1
E( X ) =
λ
1 − e − λ x si x ≥ 0 1
FX ( x ) = V (X ) =
0 ailleurs λ2
1
σX =
λ
70
Loi exponentielle
Proposition
La loi exponentille est une loi sans mémoire (où sans vieillissement), i.e.
∀t > 0, ∀s > 0 on a p( X ≥ s + t / X ≥ t ) = p( X ≥ s)
Signification
Si par exemple X désigne la durée de vie, exprimée en années, d'un composant électronique.
La probabilité qu'il fonctionne t + s années sachant qu'il a déjà fonctionné pendant t années
est la même que la probabilité qu'il fonctionne pendant s années après sa mise en service.
Cette loi permet de modéliser la durée de vie d’un composant ou un appareil sans
vieillissement, dont la durée de vie est indépendante du fonctionnement passé. Ceci est
vrai si le composant n’est pas sujet à un phénomène d’usure.
Loi exponentielle
Exemple On suppose que le temps d'attente à la poste, noté T , suit une loi exponentille de moyenne
égale à 10 minutes.
a. Quel est le paramètre de T ?
b. Quelle est la probabilité qu'un client attende plus de 5 minutes ?
c. Quelle est la probabilité qu'un client attende au moins 15 minutes sachant qu'il déja attendu
10 minutes ?
Réponse
1 1
a. E (T ) = , il représente la valeur moyenne de la v.a. T donc λ =
λ 10
b. La probabilité qu'un client attende plus de15 minutes est
p (T ≥ 5) = 1 − p(T ≤ 5)
= 1 − FX (5)
−1 −1
= 1 − 1 + exp( × 5) = exp( ) ≃ 0.6065
10 2
71
Loi exponentielle
Autre utilisations
(i) Si le nombre Y d'occurrence d'un événement sur un intervalle de temps t suit une loi de Poisson
Y ∼ Po(λt )
Alors le temps X séparant deux événements consécutifs suit une loi exponentielle
X ∼ exp(λ )
(ii) Les lois exponentielles sont souvent utilisées pour modéliser les temps d'attente
Le temps d'attente entre l'arrivée de clients à un guichet automatique
Le prochain faux numéro sur une ligne téléphonique
La prochaine désintégration d'une atome radioactif
Le paramètre λ designe alors l'inverse du temps d'attente moyen
Loi exponentielle
Exercice
Une étude réalisée sur un grand nombre de pneus d’une marque donnée montre que leur durée
de vie (en km) est une variable aléatoire X de loi exponentielle de paramètre égal à 0,00007
Exercice
Montrer que la somme de deux variables aléatoires indépendantes qui suivent des lois
exponentielles de paramètres différentes ne suit pas une loi exponentielle
72
Distribution normale
Distribution normale
Définition
Une v.a. continue X est dite distribuée selon une loi normale si sa densité de probabilité est :
f X ( x) = 1 exp[− 1 ( x − m )²]
σ 2π 2 σ
On dit qu'elle suit une loi normale de paramètres m et σ , ce que l'on note X ∼ N (m,σ )
Le paramètre m est appelé la moyenne et σ l'écart type
Paramètres
Fonction de répartition
1 x exp[− 1 ( t − m )²] dt E( X ) = m
FX ( x) =
σ 2π ∫−∞ 2 σ V (X ) = σ 2
Remarques σ (X ) =σ
(i) La densité de probabilité d'une distribution normale n'admet pas de primitive
(ii) La fonction de répartition n'a donc pas d'expression analytique
x
(iii) Les probabilités FX ( x) = p ( X ≤ x ) = ∫ f (t ) dt sont calculées par des approximations
-∞ X
numériques des intégrales
73
Distribution normale
Les courbes de la fonction densité et de répartition de N (0,1)
Densité Répartition
1
≃ 0.4
2π
0.5
Caractéristiques importantes
La distribution est symétrique ; les valeurs prises par une v.a. suivant une
loi normale sont également reparties autour de la valeur centrale.
Du fait que la densité de probabilité tende rapidement vers 0, lorsque l’on s’éloigne du
centre de symétrie, on observera peu de valeurs extrêmes pour une variable normale
Distribution normale
x
0
La surface totale entre la courbe et l’axe des abscisses est égale à 1
74
Distribution normale
m x
0
La surface totale entre la courbe et l’axe des abscisses est égale à 1
(i) La courbe de la densité de probabilité de la loi N (m,σ ) est une translation
de celle de la densité de la loi normale centrée N (0,σ )
(ii) Elle est symétrique par rapport à l'axe x = m
Distribution normale
Lois normales d'espérances différentes et de variances identiques
σ σ
x
0 m m'
La courbe de la densité de probabilité de la loi N ( m,σ ) est une translation (sans déformation)
de celle de la densité de la loi N (m' ,σ )
75
Distribution normale
Lois normales d'espérances identiques et de variances différentes
y
σ grand
σ petit
0 m x
Distribution normale
Exemple : test de mémoire
Étude de la capacité de mémoire d’adultes atteints d’une maladie neurologique.
On considère une population de patients atteints de la maladie. Chaque individu lit 30
mots et doit ensuite en réciter le plus possible.
Variable aléatoire X = ”nombre de mots retenus”
Les valeurs prises par la v.a. X sont presque également réparties autour de la valeur centrale 8.
Lorsque l’on s’éloigne du centre de symétrie (X=8), on observera peu de valeurs extrêmes
76
Distribution normale
Dans plusieurs domaines, on observe souvent des distributions
plutôt symétriques autour d’une valeur donnée.
avec une forme de cloche
Pour pouvoir faire des calculs, on va parfois supposer que X suit une
distribution "modèle", la loi normale.
0 µ x
Distribution normale
Exemple Étude sur le QI de 515 enfants du même âge
77
Distribution normale
Exemple Étude sur le QI de 515 enfants du même âge
Toutefois, étant donnée qu'il existe une infinité de lois normales distinctes par leurs
paramètres, seulement la loi centrée réduite est tabulée et sert d’instrument pour faire des
calculs de probabilités pour les autres lois normales.
78
Distribution normale : calcul de probabilités
On la notera Z , une v.a. qui suit la loi N (0,1), et sa fonction de répartition sera notée φ
φ ( x) = p( Z ≤ x) , φ est tabulée
Propriété La fonction φ est continue et strictement croissante sur ℝ,
Elle est donc bijective de ℝ dans ]0,1[
La table de la loi normale fournit les valeurs de cette fonction
Passage d’une loi normale quelconque à une loi normale centrée réduite
X −m
Si une v.a. X ∼ N (m,σ ) alors la v.a. Z = suit la normale centrée réduite N (0,1)
σ
changement de variable
X −m
Z=
σ
0 z
m x
∗ Pour tout x ∈ ℝ, p( X < x) = p( Z < z = x − m ) = φ ( z )
σ
Il reste à savoir utiliser la table de la loi normale centrée réduite…
1 x
φ(x) = p(Z ≤ x) =
2π
∫ −∞
e 2 dt
79
Distribution normale : calcul de probabilités
t 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
Premier cas, x est positif 0 0,5 0,504 0,508 0,512 0,516 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
φ(x) = ?
0,2 0,5793 0,5832 0,5871 0,591 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,648 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,67 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,695 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,719 0,7224
0,6 0,7257 0,729 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,758 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,791 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8254 0,8289 0,8315 0,834 0,8365 0,8389
p ( Z ≤ 0.94) = 0.8254 1
1,1
0,8413
0,8643
0,8438
0,8665
0,8461
0,8686
0,8485
0,8708
0,8508
0,8729
0,8531
0,8749
0,8554
0,877
0,8577
0,879
0,8599
0,881
0,8621
0,883
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,898 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,937 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
p ( Z ≤ 0.9482) ≃ p( Z ≤ 0.94) 1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9508 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
= 0.8254 1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,975 0,9756 0,9761 0,9767
2 0,9772 0,9779 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,983 0,9834 0,9838 0,9842 0,9846 0,985 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,989
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,992 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,994 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,996 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,997 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,998 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
Interprétation
p( Z ≤ 1.56) = 0.9406
Pour 94.06% d'individus, la valeur de la v.a. X est inférieure à 1.56
80
Distribution normale
Exercice:
φ (0,53) = 0,7019
φ (2,54) = 0,9944
φ (3,30) = 0,9995
70,19% des valeurs prise par cette v.a. sont au plus égales à 0.53 (ou moins de 0.53)
Distribution normale
Deuxième cas, x est négatif
φ(x) = ?
φ (− x) = 1 − φ ( x) pour tout réel x
−x x
Exemples φ ( −1, 47) = 1 − φ (1.47)
A l ’aide de la table de la loi normale = 1 − 0.9292 = 0.0708
centrée réduite, calculer :
φ ( −2, 73) = 1 − φ (2.73)
= 0, 0032
φ ( −3) = 1 − φ (3)
= 0.0013
81
Distribution normale
P(a ≤ Z ≤ b) = φ (b) − φ (a)
a b
Exemples
p (0.98 ≤ Z ≤ 2.89) = φ (2.89) − φ (0.98)
= 0.9981 − 0.8365 = 0.1616
p ( −1.15 ≤ Z ≤ 2.12) = φ (2.12) − φ ( −1.15)
= φ (2.12) − (1 − φ (1.15) )
= 0.8579
Distribution normale
y
P ( Z ≥ t ) = 1 − φ (t ) P (T > 0 ,9 )
0,4
Exemples
p ( Z ≥ 1.44) = 1 − φ (1.44)
0,3
0,2
= 0, 0749
0,1
p ( Z ≥ 3, 05) = 1 − φ (3.05) -3 -2 -1 0 1 2 3
= 0.0012 y
-0,1
Φ
Π ((0.9)
0 ,9 )
0,4
= 1 − (1 − φ (2.1) ) 0,2
= φ (2.1) 0,1
= 0.9821
-3 -2 -1 0 1 2 3
82
Distribution normale
= 0.6266 0,3
0,2
p ( Z ≤ 2.2) = 2φ (2.2) − 1
= 0.9722
0,1
-3 -2 -1 0 1 2 3 x
p ( Z ≤ 3) = 2φ (3) − 1 -0,1
= 0, 9973
Distribution normale
Calcul des probabilités pour une v.a. normale quelconque
Exemple
X suit une loi normale N(345; 167)
On souhaite connaître la probabilité pour que les valeurs de X soit inférieures à 500.
On se ramène à N(0,1)
X − E ( X ) X − 345
Z= =
σ 167
On utilise la table de N(0,1)
500 − 345
p ( X < x) = p ( Z < ) = p ( Z < 0.93) = φ (0.93) = 0.8238
167
83
Distribution normale
Exemple Un club exige à ces adhérents un QI supérieur à 132.
Quel est la probabilité d'appartenir à ce club sachant que QI ∼ N (100,15) ?
σ =15 σ =1
Distribution normale
Calcul des probabilités pour une v.a. normale quelconque
Exercice X ∼ N (3;1.2)
Déterminer la probabilité que les observations de X soient au plus 4
X −3 4−3 On peut mettre directement
p ( X ≤ 4) = p ( ≤ )
1.2 1.2
4−3
≈ p ( Z ≤ 0.8333) p ( X ≤ 4) = φ ( )
1.2
≈ p ( Z ≤ 0.83) = φ (0.83)
= φ (0.83) = 0.7967
= 0.7967
79,67% des observations ne dépassent pas 4.
84
Distribution normale : intervalles remarquables
Intervalles remarquables
X ∼ N (m,σ ), alors
m + 2/ 3 σ − m m − 2/ 3 σ − m
i p[m − 2 /3σ < X < m + 2 /3 σ ] = φ − Φ
σ σ
= φ (0.67) − φ ( −0.67)
≃ 50%
i p[m − σ < X < m +σ ] ≃ 68.27%
Remarque Ce résultat donne un sens précis au fait qu’il n’y a pas beaucoup de
valeurs extrêmes dans une distribution normale
Distribution normale
Valeurs remarquables
X ∼ N (m,σ ), alors
i p[m − σ < X < m +σ ] ≃ 68.27%
m −σ m m +σ
m − 1.96σ m m − 1.96σ
m − 2.58σ m m − 2.58σ
85
Distribution normale
Exemple
Chez l’adulte normal (non diabétique) la glycémie est distribuée selon une
loi normale de moyenne 4.8 mmol/l et d’écart type 0.4 mmol/l
Donc 95% des sujets non diabétiques de cette population ont une glycémie
comprise entre 4.0 mmol/l et 5.6 mmol/l
86
Distribution normale : quantile d’ordre > 50%
Exemple
Notation
Le quantile d'ordre α pour la loi N (0,1) est noté zα
Par exemple : z0.975 = 1.96
On suppose qu'une certaine variable Z obéit à une loi normale centré réduite.
Soit α < 0.5 Quel est le quantile à (α ×100)% pour Z ?
zα = ?
87
Distribution normale : quantile d’ordre < 50%
p (Z ≤ zα ) = α p (Z ≥ x) = α
α α
zα x
On suppose qu'une certaine variable Z obéit à une loi normale centré réduite.
Quel est le quantile, z0.14 , à 14% pour Z ?
88
Distribution normale : quantile loi normale quelconque
Exemple Quel est le quantile à 95% pour une loi normale N (11,2) ?
Distribution normale
Proposition Soit α un nombre réel tel que 0 < α < 1
Il existe un unique nombre strictement positif uα tel que :
p(-uα ≤ Z ≤ uα ) = 1- α ⇔ p( Z ≤ uα ) = 1− α
−uα uα
89
Distribution normale : exercice
X ∼ N (0,1)
Déterminer les probabiliés suivantes
p(X=1.2) p(−1 ≤ X ≤ 0)
p( X ≤ 2) p(0 ≤ X ≤ 0.5)
p( X > 0.8) p(1.1 ≤ X ≤ 3.2)
p( X ≥ 1.5) p(−2 ≤ X < 2)
p( X > −0.23) p(0 ≤ X ≤ 0.83)
Distribution normale
Exercice
Le poids moyen de 500 colis est de 141kg et l’écart type est de 15kg, en supposant que
ces poids sont normalement distribués, calculer le nombre de colis pesant :
1. Entre 120 et 155kg
2. Plus de 185 kg
90
Distribution normale
Théorème : Somme de lois normales indépendantes
On en déduit, par récurrence, que la somme finie de v.a. normales est une v.a. suivant une loi normale
91
Lois dérivées de la loi normale : khi-deux
Définition
Soient X1 ,…, X n une suite de n v.a. indépendantes suivant une loi normale centrée réduite.
Alors la somme du carré de ces v.a., notée Y, suit une loi du khi deux avec n degrés de
liberté. On la note : n
Y = 2
∑ Xi , 2 Y ~ χ (n ), E (Y ) = n , V (Y ) = 2 n
i =1
0 χχx=?
22
1α−α ,ν
χ2
92
Lois dérivées de la loi normale : khi-deux
Exemple : pour ν = 8 et α = 0,05
Table du χ2
α
0,995 ... ... 0,05 0,005
ν
1 3,841
. .
8 ... ... ... ?
.
.
30
Remarque
Dans les tests statistiques et les estimations, on utilise souvent comme seuil de
risque : α = 5% soit pour ν =8 on a : χ 0.95 , 8 = 15.51
2
Proposition
Lorsque le nombre de ddl n est supérieur à 30 :
La loi χ 2 (n) peut être approximée par la loi N (n, 2n )
93
Lois dérivées de la loi normale : loi Student
94
Lois dérivées de la loi normale : loi Student
Densité de probabilité : Lois normale centrée réduite et loi Student
__ N(0,1) o S(T) = ] - ∞, + ∞ [
__ T avec 1 ddl
o Symétrique par rapport à la droite x = 0
o Courbe en cloche
o Plus aplatie que la courbe de Gauss
Surface plus
importante
Symétrique par
rapport à x=0
__
__
__
__N(0,1)
__N(0,1)
N(0,1)
N(0,1)
N(0,1)
__
__
__
__T
TTavec
avec
avec20
16
12
3 ddl
4
8 ddl
TTavec
__ avec21ddl
ddl
Remarques
Dans la pratique au-delà de ν = 30, La loi student sera approchée par la loi
normale centrée réduite N(0,1)
Dans la pratique, l’aire sous la courbe au voisinage des queues joue un rôle important pour
les deux lois, par conséquent, il y a une différence importante entre la loi normale et la
loi student et ce malgré que leurs courbes de densité de probabilité soient très proches.
95
Loi Student : table
Table de la fonction inverse
La table fournit la valeur de Tν ayant la probabilité α (α ∈ [0,1]) d'être dépassée
Elle fournit x qui vérifie p(Tν ≥ x) = α ⇔ p(Tν ≤ x) = 1 − α (l'aire sous la courbe est égale à 1)
ν
tx=?
1−α
Remarque Plusieurs tables de la loi Student ont été établies. Nous utilisons
la table correspondant à la figure ci-dessus
96
Loi normale : Excel
Calcul des probabilités et détermination des quantiles à l’aide d’Excel
LOI.NORMALE.STANDARD(z)
Renvoie la probabilité d'une v.a. suivant N(0.1).
LOI.NORMALE.STANDARD.INVERSE(probabilité)
Renvoie, pour une probabilité donnée, la valeur d'une v.a. suivant N(0.1).
Remarque
Grâce au théorème central limite, on peut voir que des phénomènes dont la
variation est engendrée par un nombre important de causes indépendantes, sont
généralement susceptibles d’être représentés par une loi normale.
97
Théorème central limite
Hypothèses
Soit X 1 ,… , X n une suite de v.a. indépendantes et identiquement distribuées iid
(i.e. ayant toutes la même loi de probabilité), possédant une espérance µ et une variance σ 2 finie.
Soit Sn = X1 + X 2 + ⋯ + X n alors E ( Sn ) = nµ et V(Sn ) = nσ (car elles sont indépendantes)
2
Sn − E ( Sn ) S n − nµ alors E ( Z n ) = 0 et V( Z n ) = 1
Soit Z n = =
V ( Sn ) nσ
Théorème
TCL : La v.a. Z n suit la loi normale centrée réduite N (0,1), pour n suffisamment grand
Sn n − µ
On remarque que Z n =
σ n
S σ
(i ) Z n ∼ N (0,1) (ii ) La moyenne arithmétique X n = n ∼ N ( µ , )
n n
Interprétation
i La moyenne de quantités aléatoires de même loi, de moyenne µ et de variance σ 2 ,
σ
mutuellement indépendantes fluctue autour de µ selon une loi gaussienne d'écart type
n
i Si l'on répète, un grand nombre de fois et d'une manière indépendante, une expérience aléatoire,
1 n σ
la moyenne observée ∑ x fluctue autour de µ selon une loi gaussienne d'écart type n
n i =1 i
98
Approximation d’une loi binomiale par une loi normale
Proposition
La loi binomiale B (n, p) peut être remplacée par la loi normale N (np, npq ) lorsque n tend vers l'infini.
Ceci est d'autant plus valable que p est plus proche de 0.5
Dans la pratique
Lorque n ≥ 30, np ≥ 5 et np(1 − p) ≥ 5 la différence des probabilités
calculées, par les deux lois, est très faible.
Lorsuqe les trois conditions précédentes sont remplies, on pourra approcher la loi binomiale B(n, p )
par une loi normale N (m,σ ), de même espérance et de même variance, i.e. m = np, σ = np(1- p )
Correction de continuité
Lorsque les conditions ci-dessus sont verifiées. On pose X ∼ B(n, p) et Y ∼ N (np, np(1 − p))
p( X = k ) est approchée par p (k - 0.5 < Y < k + 0.5)
p( X ≤ k ) est approchée par p (Y < k + 0.5)
p( X ≥ k ) est approchée par p (Y > k − 0.5)
p ( k1 ≤ X ≤ k2 ) est approchée par p ( k1 - 0.5 < Y < k2 + 0.5)
Chapitre 9
L’estimation statistique
99
Outline
o Echantillonnage
o Estimation ponctuelle
Estimation statistique
Contexte général d’une analyse statistique
Inférence
Types d’estimation
n
L'estimation d'un paramètre peut être faite _ µ
- par un seul nombre : estimation ponctuelle x σ2
- par 2 nombres entre lesquels le paramètre peut se s2 p
trouver : estimation par intervalle pe
100
Schéma d’une analyse statistique
Population Paramètres de la
population
Statistique inférentielle
Choix
à l’aide de la
Échantillonnage
théorie de probabilité
Échantillon Caractéristiques
représentatif Statistique de l’échantillon
Descriptive
o Les ré
résultats obtenus sur un échantillon repré
représentatif serviront à généraliser à
l’ensemble de la population.
o Mais le fait d’
d’utiliser un échantillon induit né
nécessairement une marge d’
d’erreur que
nous essayerons de contrôler.
Intérêts de l’échantillonnage
Pourquoi échantillonner ?
Impossibilité d’accéder à tous les individus d’une population
o Coût financier
o Trop lent
o Destructif
o Travailler sur un échantillon peut être plus précis (ex cas où une main-
d'œuvre hautement qualifiée est requise pour la collecte des données)
o D’autres raisons
101
Echantillonnage
Echantillonnage ?
L’échantillonnage consiste à choisir au hasard un échantillon représentatif et de taille limitée
d’une population de taille quelconque afin d’en étudier un où plusieurs caractères
Échantillonnage
x1 , x2 , …, xn
x1' , x2' , …, xn'
x1'' , x2'' , …, xn''
X1 , X 2 , …, X n
X1, X 2 , …, X n sont indépendantes et ont la
même loi de probabilité ; celle de la population
Définition Une statistique de l'échantillon est une fonction h( X1,…, X n ) des v.a. X i (i = 1,⋯, n) obtenues
à partir d'un échantillon
1 n
Exemples ∗ Moyenne de l'échantillon : X n = ∑ Xi
n i =1
n
1
∗ Variance de l'échantillon : Sn2 =
n
∑
i =1
( X i − X n )2
102
Estimation
Principe L'estimation est le procédé par lequel on estime les valeurs de paramètres de la population
à partir des observations faites dans un échantillon grâce à un estimateur
Soit un paramètre de la population, noté θ , à estimer
Estimation ponctuelle : on calcule une valeur vraisemblable θɵ de θ .
Définition d’un estimateur
Etant donné une statistique d'échantillon, T( X 1 ,… , X n ) de v.a. X i (i = 1,⋯, n) obtenues
à partir d'un échantillon de taille n. On dit qu'elle constitue un estimateur de θ si :
i son esperance mathematique tend vers θ quand n augmente indéfiniment ; lim E (T ) = θ
n →∞
i Si le biais est nul quel que soit n, on dit que T est un estimateur sans biais ou non-biaisé.
i L'estimateur est asymptotiquement sans biais si lim E (T ) = θ
n →∞
Qualité d’un estimateur Un estimateur est précis s’il est non-biaisé et si sa variance est petite
Estimateur de la moyenne
Soit X une v.a. définie sur une population telle que E ( X ) = µ et V ( X ) = σ 2 connue
1 n
σ2
On considère la moyenne de l'échantillon X n =
n
∑
i =1
Xi Alors E( X n ) = µ et V( X n ) =
n
Proposition
1 n
La moyenne de l'échantillon X n = ∑ X i est un estimateur sans biais de la moyenne de
n i =1
la population µ . (X1 ,⋯ , X n ) des mesures ou des observations de l'échantillon de taille n
i La variance d'un estimateur s'appelle aussi l'erreur type ou l'erreur standard de cet estimateur.
σ2
i L'erreur type de X n est égale à
n
Remarque
Une petite erreur type (variance) pour un estimateur non-biaisé est un gage de précision.
103
Estimateur de la moyenne
σ2
E( X n ) = µ et V (X n) =
n
Conséquences
La précision de l'estimateur X n dépend de n et de σ 2
Elle est d’autant plus précis que la taille de l’échantillon est grande
le hasard de l’échantillonnage aura mois d’impact dans un grand échantillon que dans
un petit échantillon
Elle est d’autant plus précis que la variabilité dans la population est petite
le hasard de l’échantillonnage aura moins d’impact si les individus de la population de laquelle
provient l’échantillon se ressemblent, que s’ils sont très différents les uns des autres
σ
∗ Si X ~ N ( µ ,σ ) alors X n ~ N (µ , )
n
∗ Si X suit une loi quelconque alors X n ~ N (µ , σ ) si n est assez grand (d'après le TCL)
n
Remarque
La taille n d'échantillon à partir de laquelle la moyenne de l'échantillon, X n peut être comme
approximativement normale dépend du degré de symétrie de la distribution des observations X i
(i ) Si les X i sont symétriques, en générale l'approximation est valable à partir de n = 10
(ii ) Si les X i sont loin d'être symétriques, n doit être supérieur à 100
104
Estimateur de la variance
Idée naturelle : variance de l’échantillon
1 n
La variance de l’échantillon ∑ ( X − X n )2
S2n =
n i =1 i
(n − 1)σ 2
L'espérance de cette statistique de l'échantillon est : E (S2n ) = <σ2
n
2( n − 1)σ 4
On peut aussi démontrer que la variance Sn2 est égale à : V( Sn2 ) =
n2
Proposition
1 n
S2n = ∑ ( X − X n )2 est un estimateur biaisé de σ 2 . Il est asymptotiquement sans biais
n i =1 i
Interprétation
L'utilisation de la variance de l'échantillon, S2n , comme estimateur de la variance de la
population, σ 2 , conduirait à une sous-estimation de la variabilité dans la population,
surtout lorsque la taille de l'échantillon, n, est petite
La variance empirique corrigée
Afin d'obtenir un estimateur sans biais de la variance de la population, σ 2 , on définit
n 2 1 n
la variance de l'échantillon corrigée comme suit : S'n 2 =
n −1
Sn = ∑ ( X − X n )2
n − 1 i =1 i
Estimateur de la variance
Calcul de l’espérance de la variance empirique corrigée
n 2 n 2 2σ 4
La variance Sn' 2 est égale à : V( Sn' 2 ) = V ( Sn ) =( ) V (Sn2 ) =
n −1 n −1 n −1
Proposition
1 n
Sn' 2 = ∑ ( X − X n )2 est un estimateur sans biais de σ 2
n − 1 i =1 i
105
Distribution d’échantillonnage de la variance
On suppose que X suit une loi normale
2
X −µ
∑ iσ est une loi de χ 2 à n ddl
2
X − Xn
∑ i σ est une loi de χ 2 à (n − 1) ddl
Sn2 =
∑ i X n )2 la variance d'un échantillon
( X −
n
n Sn2
suit une loi de χ 2 à (n − 1) ddl
σ2
Proposition
Lorsque les observations X i sont normales,
Sn2
la v.a. n suit une distribution de khi-deux avec (n - 1) ddl ; χ 2 (n - 1)
σ2
Estimation ponctuelle
Exemple
Estimation ponctuelle
Nous pouvons estimer la moyenne et l'écart type sur l'ensemble de tous les étudiants par
20
m = 175 cm et σ = 6 cm = 6.16 cm
19
106
Estimation par IC
Objectif de l’estimation par IC
Les estimateurs ponctuels ne tiennent pas compte des erreurs dues aux
fluctuations d’échantillonnage. En complément de l’estimation ponctuelle, on
veut donner un intervalle ayant de bonnes chances de contenir la vraie valeur
du paramètre
Estimation par IC
Estimation par intervalle de confiance
On cherche un intervalle dans lequel le paramètre θ se trouve avec une probabilité élevée.
Définition
Soit α ∈]0,1[ petit i.e. proche de 0
L'estimation par IC consiste à construire, autour de l'estimation ponctuelle, un intervalle qui
aura une grande probabilité, égale à (1- α ), de contenir la vraie valeur du paramètre estimé.
En pratique, on répartit le risque par moitié
Densité de probabilité de l'estimateur T
de part et d'autre de l'intervalle
p (θɵ − ε1 ≤ θ ≤ θɵ − ε 2 ) = 1 − α
θɵ − ε1 θɵ + ε 2 θɵ − ε1 θɵ θɵ + ε 2
107
Estimation par IC
Vocabulaires
(1- α ) est le coefficient de confiance
(1- α ) × 100% est le seuil de confiance
⇒ xn − ε ≤ µ ≤ xn + ε où ε =z
1−α
× σ n
2
ε s'appelle la marge d'erreur
108
Estimation par IC de la moyenne
Estimation par IC de la moyenne lorsque la variance est connue
Théorème Lorsque X est normale ou la taille de l'échantillon est assez grande
et lorsque σ 2 est connu un intervalle de confiance au niveau 1-α de
σ σ
la moyenne µ est : x n − z1−α , xn + z
n 1−α n
2 2
Avertissement
Cet IC suppose que la moyenne arithmitique X n suit une loi normale, il est valide si
(i) Les v.a. X i sont normales, dans ce cas X n est normale.
(ii) La taille de l'échantillon est suffisamment grande, dans ce cas X n est approximativement normale
Remarque
Bien que l’on ne connaisse pas toujours la véritable moyenne sur la population, après avoir calculé
la moyenne sur un échantillon, on est capable de la cerner avec une grande probabilité
109
Estimation par IC de la moyenne
Estimation de la moyenne lorsque la variance est inconnue
Comme la variance est inconnue on l'estime à partir de l'échantillon par :
1 n n
sn' 2 = ∑ ( x − x n ) 2 = n − 1 sn 2
n − 1 i =1 i
Proposition
Lorsque les observations X i sont normales
Xn −µ
la v.a. aura une distribution de Student avec (n -1) ddl
Sn' n
Démonstration nSn2
2
Xn − µ Xn − µ
=
S n' 2
=
Xn − µ nSn2 X −µ
= n σ
Sn' n σ n σ2 σ n σ (n − 1) σ n
2
n −1
∼ χ 2 (n − 1)
Xn −µ
∼ N (0,1)
⇒ ∼ Tn−1
Sn' n
−t1n−−α1 t1n−−α1
2 2
Xn −µ
Une réalisation de a une probabilité égale à 1- α d'appartenir à l'intervalle −t n−α1 ; t n−α1
1− 2 1− 2
'
Sn n
⇒ xn − ε ≤ µ ≤ xn + ε où ε = t n−α1 × sn' n
1−
2
110
Estimation par IC de la moyenne
Théorème
Lorsque les observations X i sont normales et σ 2 est inconnu un IC au niveau 1-α de µ est :
'
sn' sn sn
x n − t n−1
1−α
, xn + t1n−−α1 sn = xn − t n−α1
1−
, x n + t1n−−α1
2 n 2 n 2 n −1 2 n − 1
Exemple
On suppose que les conditions du théorème sont vérifiées. Soit α = 0.05 et n = 10
Puisque avec α = 0.025, et t 90.975 =2.26 l'intervalle de confiance de µ au niveau 95% est
2
sn' 2 sn' 2
x n − 2.26 , x n + 2.26
n n
L’intervalle de confiance est plus grand que celui obtenu lorsqu’on connaît la variance !
ε = t1n−−α1 × sn' n
2
2
(i) Précision ε et risque α fixés, on détermine n = t n−α1 × sn' ε taille de l'échantillon
1−
2
111
Estimation par IC de la variance
n Sn2 α α
∼ χ 2 (n − 1) 2 2
σ2
u1 = χα2 u2 = χ 2 α
,n−1 1− ,n−1
n Sn2 2 2
Une réalisation de a une probabilité égale à 1- α d'appartenir à l'intervalle u1 ; u 2
σ 2
n sn2 n sn2 n s2
u1 ≤ ≤ u2 ⇒ ≤σ2 ≤ n
σ 2 u2 u1
Théorème
Lorsque X ∼ N ( µ ,σ ), et µ est inconnue un intervalle de confiance au niveau 1-α de σ 2 est
n × s2 n × s2 (n −1) s' 2 (n −1) s' 2
n, n = n , n
2u u1 u2 u1
Remarque Lorsque l’on s’intéresse à l’écart-type on prend les racines carrées des bornes des
intervalles obtenus pour la variance
112
Estimateur d’une proportion
On cherche un estimateur de la proportion p dans une population
En conséquence : E (Y ) = np et V (Y ) = np (1- p )
1
∑ i=1Yi
n
Soit la v.a. F = → F correspond à la fréquence de la tribut A dans l'échantillon
n
p (1 − p)
∗ V(F)= → la précision de l'estimateur F dépend de la véritable proportion p
n
113
Distribution de la fréquence empirique
Proposition
Estimation ponctuelle
Nous pouvons estimer la proportion d'articles défectueux dans le lot par pɵ = 0.3
114
Estimation par IC d’une proportion
Si la taille de l'échantillon est siffusamment grande, on sait que
p(1 − p )
la fréquence de l'échantillon est approximativement normale et que : F ∼ N ( p, )
n
p (1 − p )
L'erreur type V ( F ) = dépend du véritable proportion p
n
En pratique, en la remplace par la valeur empirique sur l'échantillon pe
Théorème
Lorsque la taille de l'échantillon est siffusamment grande,
un IC de p au niveau de confiance 1-α est donné par :
pe (1 − pe )
p −z
1−α
, pe + z1−α pe (1 − pe )
e n n
2 2
115