Vous êtes sur la page 1sur 328

Analyse descriptive des données

MBA5500 – Automne 2023

Statistiques descriptives

David Djadjaglo, PhD.


École de gestion Telfer
Université d’Ottawa

6 septembre 2023
Automne 2023 MBA5500 Analyse descriptive des données 1
Aperçu

• Statistiques descriptives et inférentielles


• Échantillonnage
• Étapes d’une enquête statistique
• Démarche statistique
• Genre de données
• Sources et types de données
• Analyse de données
• Principales représentations graphiques

Automne 2023 MBA5500 Analyse descriptive des données 2


Qu'est-ce que les statistiques ?

“Statistics is a way to get information from data.”

D’une manière générale, la statistique est le terme qui


désigne un ensemble de méthodes mathématiques
permettant d'organiser, de résumer, d'analyser et
d'interpréter les informations recueillies dans le cadre d'une
étude.

Automne 2023 MBA5500 Analyse descriptive des données 3


Les statistiques descriptives et inférentielles

1. Les statistiques descriptives décrivent des échantillons


ou une population.
2. Les statistiques inférentielles permettent de tirer des
conclusions sur ce qui est probablement vrai dans une
population, sur la base des valeurs de l'échantillon.
o Les statistiques inférentielles utilisent les lois de la
probabilité pour fournir des indications sur ce qui est
probablement vrai.

Automne 2023 MBA5500 Analyse descriptive des données 4


Statistique inférentielle

Population
Échantillon

Données

Inférence Tests
statistiques
Paramètres

Automne 2023 MBA5500 Analyse descriptive des données 5


L’échantillonnage

Il existe deux types d’échantillonnage:


1. L’échantillonnage non probabiliste
2. L’échantillonnage probabiliste

Automne 2023 MBA5500 Analyse descriptive des données 6


L’échantillonnage non probabiliste

• L’échantillonnage non probabiliste est un moyen de


sélectionner des unités d’une population à l’aide d’une
méthode subjective. L’échantillonnage non probabiliste
est habituellement inapproprié pour un organisme
statistique et le présent manuel cible donc
l’échantillonnage probabiliste.
• L’échantillonnage non probabiliste est habituellement
inapproprié dans le cadre de ce cours qui sera surtout
concentré à l’échantillonnage probabiliste.

Automne 2023 MBA5500 Analyse descriptive des données 7


L’échantillonnage probabiliste
▪ L’échantillonnage probabiliste la sélection aléatoire d’unités de la population
(à l’aide d’un ordinateur ou d’un tableau de nombres aléatoires). Voici les
deux principaux critères de l’échantillonnage probabiliste : la sélection des
unités est aléatoire, toutes les unités de la population de l’enquête ont une
probabilité d’inclusion différente de zéro dans l’échantillon et il est possible
de calculer ces probabilités.
• Il y a de nombreux types différents de plans d’échantillonnage probabiliste.
o L’échantillonnage aléatoire simple
o L’échantillonnage systématique
o L’échantillonnage avec probabilité proportionnelle à la taille
o L’échantillonnage par grappes
o L’échantillonnage stratifié
o L’échantillonnage à plusieurs degrés
o L’échantillonnage à plusieurs phases
o L’échantillonnage par répliques

Automne 2023 MBA5500 Analyse descriptive des données 8


Statisque descriptive vs statistique inférentielle

Schématisation des principaux éléments de la statistique descriptive et inférentielle

Statistique descriptive Statistique inférentielle


• Collecte des données • Échantillonnage
• Tri de données • Estimation des paramétres
de la population
• Dépouillement selon une • Formulation des hypothèses
distribution de fréquence et tests statistiques
• Visualisation selon divers • Vérification des hypothèses
diagrammes réquises par le test
statistique
• Construction de tableaux • Établir les relations entre les
croisées variables
• Calcul de mesure de • Comparer les paramétres de
tendance centrale plusieurs populations
• Calcul de mesures de • Effectuer des prévisions
dispersion
Automne 2023 MBA5500 Analyse descriptive des données 9
Étapes d’une enquête statistique
Voici les étapes d’une enquête :
• formulation de l’énoncé des objectifs
• sélection d’une base de sondage
• choix d’un plan d’échantillonnage
• conception du questionnaire
• collecte des données
• saisie et codage des données
• vérification et imputation
• estimation
• analyse des données
• diffusion des données
Source: Statistiques Canada (2010). Méthodes et pratiques d'enquête. Document en ligne

Automne 2023 MBA5500 Analyse descriptive des données 10


Le cycle de vie de l’exploration
Méthodologie CRISP-DM d’IBM

CRISP-DM signifie Cross-Industry


Standard Process for Data Mining

Automne 2023 MBA5500 Analyse descriptive des données 11


Quelques notions fondamentales

• Le recensement est la collecte de renseignements pour


toutes les unités de la population.

• L’enquête ou l’échantillonnage retient une partie


seulement (habituellement très petite) des unités de la
population.

Dans les deux cas, l’information sert à établir des


statistiques pour la population dans l’ensemble et,
habituellement, pour des sous-groupes de la population.

Automne 2023 MBA5500 Analyse descriptive des données 12


Démarche statistique

Question de recherche:
On cherche à évaluer les grandes tendances du marché du
travail en se basant sur l’ Enquête sur la population active
(EPA).
L’EPA est une enquête mensuelle réalisée auprès d’environ
56 000 ménages canadiens (10 000 ménages au Québec)
par Statistique Canada. Les renseignements sont recueillis
pour tous les membres civils du ménage âgés de 15 ans et
plus. L’EPA est la source d’estimations mensuelles de
l’emploi et du chômage, ainsi que des différents indicateurs
du marché du travail comme le taux d'activité, le taux
d'emploi et le taux de chômage.

Automne 2023 MBA5500 Analyse descriptive des données 13


Démarche statistique

1. On cherche à caractériser un phénomène qui concerne


une certaine population:
L’EPA est une enquête mensuelle réalisée auprès d’environ
56 000 ménages canadiens (10 000 ménages au Québec)
par Statistique Canada. Les renseignements sont recueillis
pour tous les membres civils du ménage âgés de 15 ans et
plus.

Automne 2023 MBA5500 Analyse descriptive des données 14


Démarche statistique

2) On ramène ce phénomène à la mesure d'une ou


plusieurs variables, mesuré sur un élément.
L’EPA est une enquête mensuelle réalisée auprès d’environ
56 000 ménages canadiens (10 000 ménages au Québec)
par Statistique Canada. Les renseignements sont recueillis
pour tous les membres civils du ménage âgés de 15 ans et
plus.
L’EPA est la source d’estimations mensuelles de l’emploi et
du chômage, ainsi que des différents indicateurs du marché
du travail comme le taux d'activité, le taux d'emploi et le
taux de chômage.

Automne 2023 MBA5500 Analyse descriptive des données 15


Démarche statistique

3) Malheureusement, on ne peut pas faire les mesures sur


toute la population (ce serait alors un recensement). On se
restreint à un sous-ensemble, l'échantillon.
On cherche à évaluer les grandes tendances du marché du
travail en se basant sur l’ Enquête sur la population active
(EPA). L’EPA est une enquête mensuelle réalisée auprès
d’environ 56 000 ménages canadiens (10 000 ménages au
Québec) par Statistique Canada.

Automne 2023 MBA5500 Analyse descriptive des données 16


Genre de données
Formulation de la recherche: (Les données sont disponibles sur
Brightspace)
Il est reconnu depuis longtemps que les adultes de grande taille occupent des
emplois plus prestigieux et gagnent en moyenne plus que les autres travailleurs.
Un grand nombre d'hypothèses ont été avancées pour expliquer l'association
entre la taille et les revenus.
Dans les pays développés, les chercheurs ont mis l'accent sur des facteurs tels
que l'estime de soi, la domination sociale et la discrimination.
À l'aide de quatre ensembles de données provenant des États-Unis et du
Royaume-Uni, les auteurs cherchent à vérifier l’hypothèse selon laquelle les
adultes de grande taille occupent des emplois plus prestigieux et gagnent en
moyenne plus que les autres travailleurs.

Automne 2023 MBA5500 Analyse descriptive des données 17


Genre de données

Base de données
Une base de données est un document sur lequel on inscrit
l’ensemble des informations utiles à l’étude d’un
phénomène.
Exemple: (Voir le tableau Earnings_and _Weight affiché sur
Brighspace)

Automne 2023 MBA5500 Analyse descriptive des données 18


Genre de données
À partir du tableau présenté sur Brighspace, nous pouvons identifier les
variables suivantes:
Nom des Description Nom des Description
variables (2) variables (2)
(1) (1)
age Age, in years race race/ethnicity
cworker Class of worker region Region of the
U.S
earnings annual labor sex Sex
earnings, expressed
in 2012
educ years of education weight weight without
shoes (in
pounds)
mrd Marital Status
occupation Occupations in 15
categories:
Automne 2023 MBA5500 Analyse descriptive des données 19
Genre de données

Caractères qualificatifs et quantitatifs


Dans le tableau présenté sur Brightspace, nous avons le
caractère «age» qui correspond à un caractère quantitative
et le caractère «mrd» qui correspond à un caractère
qualificatif:
Married, Spouse in household
Married, Spouse not in household
Widowed
Divorced
Separated
Never Married

Automne 2023 MBA5500 Analyse descriptive des données 20


Genre de données
Il existe une variété de méthodes statistiques pour analyser les
données. Pour choisir la méthode appropriée, vous devez
déterminer le type et l’échelle de mesure de vos variables.
Avant de commencer les analyses, il faut determiner le type de
variables: variables qualitatives ou catégoriques et variables
quantitatives ou numériques
▪ Une variable qualitative (aussi appelée variable catégorique)
réfère à une caractéristique qui n’est pas quantifiable. Une
variable catégorique peut être nominale ou ordinale.
▪ Une variable quantitative est une caractéristique quantifiable
dont les valeurs sont des nombres ( à l’exclusion des nombres
qui correspondent en fait à des codes).

Automne 2023 MBA5500 Analyse descriptive des données 21


Caractère et variable statistique

Caractère

X variable statistique

Variable quantitative Variable qualitative

Variable Variable Variable Variable


continue discrete ordinale nominale

Automne 2023 MBA5500 Analyse descriptive des données 22


Genre de données
1. Variables nominales
Une variable nominale est une série de catégories qui sont simplement
des étiquettes ou des noms sans lien mathématique entre eux. On ne
peut affirmer qu’une catégorie en particulier est plus grande qu’une
autre, égale ou inférieure à une autre.
Par exemple, la variable «mrd» (Marital Status) est une variable
nominale:
1 = Married, Spouse in household
2 = Married, Spouse not in household
3 = Widowed
4 = Divorced
5 = Separated
6 = Never Married
Les codes n’ont aucune signification quantitative.
Automne 2023 MBA5500 Analyse descriptive des données 23
Genre de données
Variables nominales
Les codes n'ont pas d'importance, les chiffres n'ont aucune signification
quantitative. Ces chiffres ne peuvent pas être traités mathématiquement.
Par exemple, la variable «sex» est une variable nominale.
Elle est codée avec deux nombres arbitraires.

Marc Louise Anne Yves Claude Yvonne

Automne 2023 MBA5500 Analyse descriptive des données 24


Genre de données

2. Variables ordinales

Une variable ordinale est une série de catégories ordonnées


ou classées selon une échelle ou un continuum déterminé, et
une catégorie en particulier peut précéder ou suivre une autre.
Les différences entre les catégories ne sont pas
nécessairement équivalentes.

Automne 2023 MBA5500 Analyse descriptive des données 25


Genre de données

2. Variables ordinales (2/2)


Par exemple, nous pouvons ordonner la variable «age» de telle manière quelle devient une
variable ordinale (Voir le tableau Earnings_and _Weight affiché sur Brighspace)
Distribution par classe d’âges Effectifs Formules
=COUNTIFS(A2:A17871,">=0",A2:A17871,"<25")
0 à moins de 25 ans 0
=COUNTIFS(A2:A17871,">=25",A2:A17871,"<30")
25 ans à moins 30 ans 2459
=COUNTIFS(A2:A17871,">=30",A2:A17871,"<35")
30 ans à moins 35 ans 3110

35 ans à moins de 40 ans 3169


40 ans à moins de 45 ans 2848
45 ans à moins de 50 ans 2402
50 ans à moins de 55 ans 1766
55 ans à moins de 60 ans 1310
60 ans à moins de 65 ans 720
65 ans et plus 86
Automne 2023 MBA5500 Analyse descriptive des données 26
Genre de données

3. Variables discrètes
Une variable discrète est une variable quantitative ayant des
valeurs dénombrables (souvent des valeurs entières).
• Par exemple, la taille d’un ménage peut être, par exemple,
1, 2, 3. Toutefois, des valeurs comme 1,5 ou 4,75 ne sont
pas acceptables.
▪ Nombre de frères et sœurs : 0, 1, 2, etc. (1.2 n'est pas
possible)
4. Variables continues
Une variable continue est une variable quantitative dont toute
valeur dans une certaine étendue est possible. Par exemple,
la variable «earnings» (salaire) est une variable continue (Voir
le tableau Earnings_and _Weight affiché sur Brighspace)
Automne 2023 MBA5500 Analyse descriptive des données 27
Genre de données

Sources et types de données


Deux sources de données: données expérimentales et
données d’observation.
• Les données expérimentales proviennent d’experiences
conçues pour évaluer un traitement ou une politique.
• Les données obtenues en déhors d’un cadre experimental,
à partir de l’observation de comportements dans le monde
reel, sont appelées données d’observation.
Les données expérimentales et d’observation se répartissent
en trois categories: données transversales, temporelles et de
panel.

Automne 2023 MBA5500 Analyse descriptive des données 28


Sources et types de données
Données transversales: Les données observées sur une seule période de
temps et pour des entités différentes telles que les consommateurs, les
firmes, les pays, ect… sont appelées données transversales.
Parfois, les données sur toutes les unités ne correspondent pas
exactement à la même période. Par exemple, plusieurs familles peuvent
être interrogées pendant des semaines différentes au cours d'une année.
Exemple: Données transversales (Voir le tableau Earnings_and _Weight affiché
sur Brighspace)
sex age mrd educ cworker region race earnings height weight occupation

Automne 2023 MBA5500 Analyse descriptive des données 29


Sources et types de données
Données de séries temporelles ou series chronologiques: Les données
observées sur une seule entité pendant plusieurs périodes à fréquence
régulière.
Tableau: Indice des prix à la consommation

Période Canada Québec


2022-10 153.8 149.2
2022-09 152.7 148.3
2022-08 152.6 148.6
2022-07 153.1 148.6
….. --- ---
2021-12 144 140.2
2021-11 144.2 140.5

Source: Banque de données des statistiques officielles sur le Québec


Automne 2023 MBA5500 Analyse descriptive des données 30
Graphique d’une série temporelle

Indice des prix à la Consommation au Canada (Octobre 2022 – Février 2020)


156

154

Sep-22, 152.7
152

150

148
Indice des prix

Feb-22, 146.8
146

144

142

140
Feb-21, 138.9
138
Feb-20, 137.4

136

134
Dec-19Jan-20Mar-20Apr-20Jun-20Aug-20Sep-20Nov-20Jan-21Feb-21Apr-21Jun-21 Jul-21 Sep-21Oct-21Dec-21Feb-22Mar-22May-22Jul-22 Aug-22Oct-22Dec-22
Période
Automne 2023 MBA5500 Analyse descriptive des données 31
Sources et types de données
Données de panel ou données longitudinales: Elles sont des données
associées à plusieurs entités. Chaque entité est observée pendant au
moins deux périodes.
Tableau: Données de panel concernant le salaire et les autres
caractéristiques
Individus Temps Salaire Education
1 1
1 2
1 3
2 1
2 2
2 3
… …

Automne 2023 MBA5500 Analyse descriptive des données 32


Analyse de données

• Statistique descriptive
o Visualisation des données
o Construction de tableaux
o Calcul de mesures de tendance centrale
o Calcul de mesure de dispersion
Statistique inférentielle
o Méthodes d’échantillonnage
o Estimer les paramètres de population (Moyenne, variance,
proportion)
o Formuler les hypotheses
o Établir les relations entre variables
o Comparer les paramètres de plusieurs populations
o Effectuer des prévisions
Automne 2023 MBA5500 Analyse descriptive des données 33
Plan d’analyse des données

De nombreuses activités doivent se dérouler entre la


collecte des données et les analyses pour répondre aux
questions de recherche.
Les chercheurs doivent élaborer un plan d'analyse des
données minutieux qui définit les étapes analytiques à
suivre.

Automne 2023 MBA5500 Analyse descriptive des données 34


Principales représentations graphiques

Visualisation des données


Les représentations graphiques attirent généralement
l'attention qu'un tableau.
Les graphiques et diagrammes suivants pourraient être
considérées:
• Diagramme de bâtons ou à colomnes
• Histogramme et polygone de fréquences
• Courbe de fréquences cumulées
• Diagrammes à secteurs et diagrammes à barres
• Autres digrammes

Automne 2023 MBA5500 Analyse descriptive des données 35


Diagramme en bâtons

Automne 2023 MBA5500 Analyse descriptive des données 36


Principales representations graphiques

Le diagramme en bâtons Exemple: La variable


(1/2) «cworker» (Voir le tableau
Un diagramme à bâtons comprend une Earnings_and _Weight affiché sur
série de colonnes dont les hauteurs Brighspace
représentent les ordres de grandeur
(p. ex., totaux, moyennes ou proportions). Libellé de Signification
Le diagramme à bâtons peut être utilisé valeur
pour les variables qualitatives ou 1 Private company
quantitatives. Employee

Le diagramme en bâtons est constitué 2 Federal Government


en portant en abscisse les valeurs de la Employee
variable discrète et en traçant 3 State Government
parallèlement à l’axe des ordonnées un Employee
bâton de longueur proportionnelle à la 4 Local Government
fréquence (absolue ou relative) de Employee
chaque valeur de la variable. 5 Incorporated Business
Employee
6 Self Employed

Automne 2023 MBA5500 Analyse descriptive des données 37


Diagramme de batons

Décompte des travailleurs Diagramme en bâtons

14000
Field1 Count of Field1

Nombre de travailleurs selon la catégorie


12000
1 12475
10000
4 1913
8000
6 1487
6000
3 984
4000
2 656 2000
5 355 0

Grand Total 17870 1 4 6 3


Catégorie de travailleurs
2 5

Automne 2023 MBA5500 Analyse descriptive des données 38


Diagramme de bâtons
Exemple: La variable «earnings» (Voir le tableau
Earnings_and _Weight affiché sur Brighspace

Automne 2023 MBA5500 Analyse descriptive des données 39


Histogramme

L’histogramme est une representation graphique de la


distributionde fréquence est constitué de rectangles
justaposés.
• Chacune des bases de l’histogramme est égale à
l’intervalle à l’intervalle de chaque classe.
• La hauteur de chaque classe est proportionnelle à la
fréquence de chaque classe.

• Le tableau suivant représente la répartition de la variable


«age» (Voir le tableau Earnings_and _Weight affiché sur
Brighspace)

Automne 2023 MBA5500 Analyse descriptive des données 40


Histogramme

Variable Quantitative Qualitative

Valeurs/Intervalle
Discrète Qualité
de classe

Intervalle de
Continue X
classe

Automne 2023 MBA5500 Analyse descriptive des données 41


Histogramme

Automne 2023 MBA5500 Analyse descriptive des données 42


Histogramme
L’histogramme de la variable «age»
800

700

600

500

Fréquence
400

300

200

100

äge

Automne 2023 MBA5500 Analyse descriptive des données 43


Diagrammes à secteurs
• Le diagramme à secteurs consiste en un cercle dont l’aire est décomposée
en secteurs circulaires représentant respectivement la proportion de chacune
des composantes d’un tout.
Exemple: La variable «cworker» (Voir le tableau Earnings_and _Weight affiché sur
Brighspace).

Libellé de valeur Secteurs Effectif Pourcentage

1 Private company Employee


12475 69.81
2 Federal Government
Employee 656 3.67
3 State Government
Employee 984 5.51
4 Local Government
Employee 1913 10.71
5 Incorporated Business
Employee 355 1.99
6 Self Employed
1487 8.32
Total
17870 100.00
Automne 2023 MBA5500 Analyse descriptive des données 44
Diagrammes à secteurs
Tableau présentant Répartition du secteur d’activité des travailleurs

Self Employed
8%
Secteurs Pourcentage Incorporated
Business Employee
Private company 2%
Employee 69.81 %
Federal Government
Local Government
Employee 3.67 %
Employee
State Government 11%
Employee 5.51 %
Local Government State Government
Employee 10.71 % Employee
5%
Incorporated Business
Employee 1.99 %
Federal
Government
Self Employed 8.32 % Employee
4%
Private company
Employee
70%

Automne 2023 MBA5500 Analyse descriptive des données 45


Diagrammes à barres
Diagrammes à barres (rectangles horizontaux)
Exemple: La variable «cworker» (Voir le tableau Earnings_and _Weight affiché sur
Brighspace).

Self Employed 8.32

Incorporated Business Employee 1.99

Local Government Employee 10.71

State Government Employee 5.51


Pourcentage
Federal Government Employee 3.67

Private company Employee 69.81

0 20 40 60 80 100

RÉPARTTION EN POURCENTAGE DU SECTEUR D'ACTIVITÉ DES


TRAVAILLEURS

Automne 2023 MBA5500 Analyse descriptive des données 46


Diagrammes à barres
Diagrammes à barres (rectangles vertictaux)
Exemple: La variable «cworker» (Voir le tableau Earnings_and _Weight affiché sur
Brighspace).

100
90
80 69.81
70
60
50
40
30
20 10.71
5.51 8.32
10 3.67 1.99
0
Private Federal State Local Incorporated Self
company Government Government Government Business Employed
Employee Employee Employee Employee Employee
Réparttion en pourcentage du secteur d'activité des travailleurs

Automne 2023 MBA5500 Analyse descriptive des données 47


Essentiel à retenir

Population = ensemble sur lequel porteront les


conclusions de l'étude.

Échantillon = Sous-ensemble de la population


dans lequel seront collectées les données de
l'étude.

Variable = Quantité mesurée lors de l'étude

Automne 2023 MBA5500 Analyse descriptive des données 48


Analyse descriptive des données
MBA5500 – Automne 2023

Statistiques descriptives

Automne 2023 MBA5500 Analyse descriptive des données 49


Analyse descriptive des données
MBA5500 – Automne 2023

Mesures descriptives (1/2)

David Djadjaglo, PhD


École de gestion Telfer
Université d’Ottawa

13 septembre 2023

Hiver 2023 MBA5500 Analyse Descriptive des données 1


Aperçu

Caractéristiques d'une distribution de données


o Distribution de la forme
o Tendance centrale
o Variabilité
o La tendance centrale et la variabilité peuvent être
calculées.

Hiver 2023 MBA5500 Analyse Descriptive des données 2


Utilisations des statistiques descriptives

• Les caractéristiques de tendance centrale et de


dispersion sont utilisés pour :
o Comprendre les données, obtenir une « vue
d'ensemble »
o Évaluer les valeurs aberrantes
o Décrire les participants à la recherche (p. ex. leur âge,
leur niveau d'instruction, la durée de la maladie)
o Répondre aux questions relatives aux statistiques
descriptives,

Hiver 2023 MBA5500 Analyse Descriptive des données 3


La tendance centrale

• Le mode
• La médiane
• La moyenne arithmétique

Hiver 2023 MBA5500 Analyse Descriptive des données 4


Distribution des données

Hiver 2023 MBA5500 Analyse Descriptive des données 5


Distribution des données

Histogramme

Hiver 2023 MBA5500 Analyse Descriptive des données 6


Le mode
• Le mode est la variable
statistique la plus fréquence
que l’on observe dans une
série.
• Elle n’est un centrer d’équilibre,
ni un centre de position mais
plutôt un centre de
concentration.

Le mode
(M = 35)

Hiver 2023 MBA5500 Analyse Descriptive des données 7


Le mode: avantages et inconvénients

• Avantages:
o Il est la mesure de tendance centrale appropriée
lorsque la variable est qualitative.
• Désavantages:
o Ignore la plupart des informations de la distribution
o A tendance à être instable (c'est-à-dire que la valeur
varie beaucoup d'un échantillon à l'autre).
o Il peut ne pas exister.
o Il peut ne pas être unique. Certaines distributions
peuvent ne pas avoir de mode (par exemple, 10, 10,
11, 11, 12, 12).

Hiver 2023 MBA5500 Analyse Descriptive des données 8


La moyenne arithmétique (1/2)
• La moyenne arithmétique est la
somme des valeurs de la série
divisée par le nombre total
d’observations.
• Les valeurs des données sont
additionnées et divisées par N.

La Moyenne
ഥ = 40
𝑿

Hiver 2023 MBA5500 Analyse Descriptive des données 9


La moyenne arithmétique (2/2)

• Mesure de la tendance centrale la plus fréquemment


utilisée - généralement préférée pour les variables
d’échelle intervalle et ratio.
• Équation : M = X  N
o Où:
𝑀 = Moyenne arithmétique
𝛴 = La somme
𝑋 = Les données actuelles
𝑁 = nombre d′observations

Hiver 2023 MBA5500 Analyse Descriptive des données 10


La Moyenne arithmétique: avantages

• Elle depend de la grandeur de chaque donnée.


• Elle est unique pour une série de données.
• La somme des écarts au-dessus de la moyenne est
toujours exactement égale à celle des écarts au-dessous
de la moyenne.
• L'indice de tendance centrale le plus stable.
• L’inférence statistique est basée sur la moyenne.

Hiver 2023 MBA5500 Analyse Descriptive des données 11


La Moyenne arithmétique: inconvénients

• Elle est affectée par les valeurs aberrantes (faibles ou


élevées).
• Elle donne une vision déformée de ce qui est "typique"
lorsque les données sont asymétriques.
• La valeur de la moyenne arithmétique n'est souvent pas
une valeur réelle des données.

Hiver 2023 MBA5500 Analyse Descriptive des données 12


La médiane
• La médiane est la valeur de la
variable statistique, ordonnée en
ordre croissant ou décroissant, qui
partage cette série en deux parties:
o 50% au dessus de la médiane
o 50% au dessous de la
médiane

La Moyenne
ഥ = 40
𝑿

Hiver 2023 MBA5500 Analyse Descriptive des données 13


La médiane: avantages et inconvénients

• Avantages:
o Elle élimine l’effet des valeurs aberrantes
o Facile à calculer
o Elle permet de mieux évaluer la tendance centrale si
la distribution est asymétrique.
o Approprié pour les variables d’échelle
• Désavantages:
o Ne prend pas en compte les valeurs réelles des
données - seulement un indice de position.

Hiver 2023 MBA5500 Analyse Descriptive des données 14


Distribution de fréquences

Hiver 2023 MBA5500 Analyse Descriptive des données 15


Les symboles de la moyenne arithmétique

• Dans le cadre de l’échantillonnage:


o Dans les formule statistiques X

• Dans le cadre de la moyenne de la population:


o L’alphabet grecque  ( mu )

Hiver 2023 MBA5500 Analyse Descriptive des données 16


Tendance centrale dans les distributions asymétriques (2/2)

• Le graphique montre deux courbes en forme de cloche.


o La première courbe en forme de cloche, appelée distribution avec
asymétrie positive, commence à augmenter à partir de l'origine, atteint
une certaine hauteur, diminue et se termine au milieu. Trois lignes sont
tracées du milieu de la courbe vers la ligne de décroissance. La
première ligne représente le mode, la deuxième ligne la médiane et la
troisième ligne la moyenne.
o La deuxième courbe en forme de cloche étiquetée, appelée distribution
asymétrie négative, commence à augmenter à partir de la ligne
moyenne de la première courbe en forme de cloche et atteint une
hauteur près de l'extrémité de l'axe, puis diminue soudainement à
l'extrémité de l'axe. Trois lignes sont tracées à partir de la ligne
croissante jusqu'au milieu de la courbe. La première ligne représente la
moyenne, la deuxième ligne représente la médiane et la troisième ligne
représente le mode.

Hiver 2023 MBA5500 Analyse Descriptive des données 17


Variabilité (1/2)

• La variabilité concerne l'étalement ou la dispersion des


valeurs de données dans une distribution.
• Deux distributions ayant la même moyenne peuvent avoir
une dispersion différente.

Hiver 2023 MBA5500 Analyse Descriptive des données 18


La variabilité (2/2)

• Une grande variabilité:


Une distribution
hétérogène (A)

• Faible variabilité : Une


distribution homogène
(B)

Hiver 2023 MBA5500 Analyse Descriptive des données 19


La variabilité (2/2)

Hiver 2023 MBA5500 Analyse Descriptive des données 20


Principales mesures de dispersion (variabilité)

• Étendue
• Intervalle interquartile
• Variance
• Écart-type
• Coefficient de variation

Hiver 2023 MBA5500 Analyse Descriptive des données 21


L’étendue

C’est la difference entre la plus grande et la plus


petite valeur de la distribution.
Exemple:

Étendue = 65 ans - 25 ans = 40 ans

Hiver 2023 MBA5500 Analyse Descriptive des données 22


L’étendue: avantages (1/2)

• Facile à calculer
• Facile à comprendre
• Communique des informations intéressantes pour les
lecteurs d'un rapport.

Hiver 2023 MBA5500 Analyse Descriptive des données 23


L’étendue: inconvénients (2/2)

• Elle ne tient compte que de deux valeurs dans la série,


soit deux valeurs extrêmes. Par conséquent, elle est
influencée par les valeurs extrêmes.
• Elle ne prend pas en compte toutes les autres données.
• Elle est influencée par la taille de l'échantillon.

Hiver 2023 MBA5500 Analyse Descriptive des données 24


Premier quartile (𝑸𝟏 )
Les quartiles répartissent
les données en quatre parties :
Premier quartile: 25 % des
données simples sont
inférieures au premier quartile
(𝑸𝟏 ) et 75% ont une valeur
supérieur.

𝑸𝟏 =33

Hiver 2023 MBA5500 Analyse Descriptive des données 25


Deuxième quartile (𝑸𝟐 )
Les quartiles répartissent
les données en quatre parties :
Deuxième quartile: 50 % des
données simples sont
inférieures au deuxième
quartile (𝑸𝟐 ) et 50 %
ont une valeur supérieure.

𝑸𝟐 = 40

Hiver 2023 MBA5500 Analyse Descriptive des données 26


Troisième quartile (𝑸𝟑 )
Les quartiles répartissent
les données en quatre parties :
Troisième quartile: 75 % des
données simples sont
inférieures au troisième
quartile (𝑸𝟑 ) et 25 %
ont une valeur supérieur.

𝑸𝟑 = 48

Hiver 2023 MBA5500 Analyse Descriptive des données 27


L’intervalle interquartile
La quantité (𝑄3 - 𝑄1 ) s’appelle intervalle interquartile
∆𝑄 = (𝑄3 - 𝑄1 ) . 50 % des données de la distribution se
situent dans l’intervalle d’amplitude ∆𝑄.

Exemple:
𝑄1 = 33 ans
𝑄3 = 48 ans

∆𝑄 = (𝑄3 - 𝑄1 ) = (48 ans – 33 ans ) = 15 ans

Hiver 2023 MBA5500 Analyse Descriptive des données 28


L’intervalle interquartile: avantages

• Réduit l'influence des valeurs aberrantes et des scores


extrêmes,
• Utilise plus d'informations que l’étendue
• Important dans l'évaluation des valeurs aberrantes
• Approprié comme grandeur de variabilité avec des
variables ordinales

Hiver 2023 MBA5500 Analyse Descriptive des données 29


L’intervalle interquartile: avantages

• Réduit l'influence des valeurs aberrantes et des scores


extrêmes
• Utilise plus d'informations que l’étendue
• Important dans l'évaluation des valeurs aberrantes
• Approprié comme grandeur de variabilité avec des
variables ordinales

Hiver 2023 MBA5500 Analyse Descriptive des données 30


L’intervalle interquartile: inconvénients

• Elle n'est pas particulièrement facile à calculer.


• Elle n'est pas bien interprétée.
• Elle ne prend pas en compte toutes les valeurs.

Hiver 2023 MBA5500 Analyse Descriptive des données 31


Diagramme en boîte (1/2)

Le diagramme en boîte
est un résumé visuel du
sommaire numérique
d’une série de données,
sommaire constitué de
cinq nombres:
la médiane, les quartiles
(Q1, Q2 et Q3), la plus
petite valeur et la plus
grande valeur de la série,

Hiver 2023 MBA5500 Analyse Descriptive des données 32


Diagramme en boîte (1/2)

Max= 65
𝑸𝟐 = 40 𝑸𝟏 = 48

Min = 25 𝑸𝟏 = 33

Hiver 2023 MBA5500 Analyse Descriptive des données 33


Les valeurs aberrantes

Les valeurs aberrantes peuvent être vues dans les


histogrammes, mais les boîtes à moustaches donnent des
informations plus utiles sur le degré d'extrémité et les
nombres.
L’intervalle interquartile permet de détecter les valeurs
aberrantes ou valeurs extrêmes.
Toutes les données situées en dehors de :
𝑄3 + 1,5 𝑄3 − 𝑄1 ou 𝑄1 - 1,5 𝑄3 − 𝑄1 sont considérées
comme des valeurs aberrantes.

Hiver 2023 MBA5500 Analyse Descriptive des données 34


Les valeurs aberrantes

Example
𝑄1 = 33
𝑄3 = 48
∆𝑄 = (𝑄3 - 𝑄1 ) = (48 – 33 ) = 15
1,5 𝑄3 − 𝑄1 = 1,5*15 = 22,5
𝑄3 + 1,5 𝑄3 − 𝑄1 = 48 + 22,5 = 70,5
𝑄1 − 1,5 𝑄3 − 𝑄1 = 33 – 22,5 = 10,5

Toutes les données situées en dehors de 10,5 et 70,5 sont


considérées comme étant des valeurs aberrantes ou
extrêmes.

Hiver 2023 MBA5500 Analyse Descriptive des données 35


La tendance centrale
24 données

9 données 17 données

(𝑸𝟏 )

(𝑸𝟐 )

(𝑸𝟑 )

Hiver 2023 MBA5500 Analyse Descriptive des données 36


La Variance et l’écart-type (1/2)

• Contrairement à l’étendue et à l’écart interquartile, la


variance est une mesure qui permet de tenir compte de la
dispersion de toutes les valeurs d’un ensemble de
données.
• C’est la mesure de dispersion la plus couramment
utilisée, de même que l’écart-type, qui correspond à la
racine carrée de la variance.
• La variance est l’écart carré moyen entre chaque donnée
et le centre de la distribution représenté par la moyenne.

Hiver 2023 MBA5500 Analyse Descriptive des données 37


La Variance et l’écart-type (2/2)

• La variance mesure la divergence des données par


rapport à la moyenne. De façons techniques, c’est la
moyenne des écarts au carré des scores par rapport à la
moyenne.
• Si les valeurs de l’âge sont dispersées autour de la
moyenne, les écarts seront grands et la variance élevée.
Si elles sont concentrées autour de la moyenne, les
écarts seront petits et la variance faible.

Hiver 2023 MBA5500 Analyse Descriptive des données 38


La Variance

• La variance d’une population est donnée par:

 2
=
 (x − ) i
2

N
• L’estimateur de la variance à partir d’un échantillon est
donné par:

s 2
=
 (x − x) i
2

N −1
Degré de liberté de l’estimateur de la variance

Hiver 2023 MBA5500 Analyse Descriptive des données 39


L’écart-type (1/3)

• L’écart-type est la racine carrée de la variance

Pour une population, on a :


=  i
( x −  ) 2

N
L’estimateur de l’écart-type à
partir d’un échantillon est
donnée par :
s=
 (x − x)
i
2

N −1

Hiver 2023 MBA5500 Analyse Descriptive des données 40


L’écart-type (2/3)

• L’écart-type est plus souvent utilisé que la variance dans


l’interprétation des résultats puisqu’il est ramené à la
même échelle que les données originales

Hiver 2023 MBA5500 Analyse Descriptive des données 41


L’écart type (3/3)

• L’écart-type est sensible aux valeurs aberrantes. Une


seule valeur très aberrante peut accroître l’écart-type et,
par le fait même, déformer le portrait de la dispersion.
• Pour deux ensembles de données ayant la même
moyenne, celui dont l’écart-type est le plus grand est celui
dans lequel les données sont les plus dispersées par
rapport au centre.
• Une série de données qui peu dispersée autour de la
moyenne arithmétique (ce qui est souhaitable) conduit à
un écart-type faible
• L’écart-type est égal à 0 zéro si toutes les valeurs d’un
ensemble de données sont les mêmes (parce que
chaque valeur est égale à la moyenne).
Hiver 2023 MBA5500 Analyse Descriptive des données 42
Coefficient de variation

• Le coefficient de variation (CV) permet d’évaluer


l’importance relative de la dispersion d’une distribution. Il
permet ainsi de comparer la dispersion de 2 distributions
qui n’ont pas la même unité de mesure. Il est otenu en
divisant l’écart-type par la moyenne arithmétique;

sx
CV ( x) = *100
x
• Indique le degré d’homogénéité d’une distribution.
• Plus le CV est faible, plus la série de données est
homogène.

Hiver 2023 MBA5500 Analyse Descriptive des données 43


Coefficient de variation

• Le coefficient de variation (CV)

𝑠𝑥 10.03751
𝐶𝑉 𝑥 = ∗ 100 = ∗ 100 = 24,53 %
𝑥lj 40.91953

Hiver 2023 MBA5500 Analyse Descriptive des données 44


Statistiques descriptives et échelles de mesure

Échelle de mesure Mesures de tendance Mesures de dispertion


centrale

Nominale Mode --

Ordinale Médiane Étendue, I Q R

Intervalle et ratio Moyenne Variance, Écart type


CV

Hiver 2023 MBA5500 Analyse Descriptive des données 45


Les déciles et centiles

Dans le but de préciser et d'affiner encore l'analyse de la


dispersion d'une distribution, on peut faire appel aux notions
de déciles et de centiles. Le principe demeure le même que
pour les quartiles à la différence que la population est ici
divisée respectivement en 10 et 100 sous-populations
d'égal effectifs.

Hiver 2023 MBA5500 Analyse Descriptive des données 46


Les déciles
Décile 1 ou D1 10 % des effectifs de la population ont une valeur inférieur à D1 et 90 %
une valeur supérieure.

Décile 2 ou D2 20 % des effectifs de la population ont une valeur inférieur à D2 et 80 %


une valeur supérieure.
Décile 3 ou D3 30 % des effectifs de la population ont une valeur inférieur à D1 et 70 %
une valeur supérieure.
Décile 4 ou D4 40 % des effectifs de la population ont une valeur inférieur à D1 et 60 %
une valeur supérieure.
Décile 5 ou D5 50 % des effectifs de la population ont une valeur inférieur à Q1 et 50 %
une valeur supérieure. D5 correspond à la médiane
Décile 6 ou D6 60 % des effectifs de la population ont une valeur inférieur à D6 et 40 %
une valeur supérieure.
Décile 7 ou D7 70 % des effectifs de la population ont une valeur inférieur à D7 et 30 %
une valeur supérieure.
Décile 8 ou D8 80 % des effectifs de la population ont une valeur inférieur à D8 et 20 %
une valeur supérieure.
Décile 9 ou D9 90 % des effectifs de la population ont une valeur inférieur à D9 et 10 %
une valeur supérieure.

Hiver 2023 MBA5500 Analyse Descriptive des données 47


Règle interquartile pour trouver les valeurs aberrantes

• Calculez l'intervalle interquartile pour les données.


• Multipliez l'intervalle interquartile (IQR) par 1,5 (une
constante utilisée pour discerner les valeurs aberrantes).
• Ajoutez 1,5 x (IQR) au troisième quartile. Tout nombre
supérieur à cela est une valeur aberrante présumée.
• Soustrayez 1,5 x (IQR) du premier quartile. Tout nombre
inférieur à cela est une valeur aberrante présumée.

Hiver 2023 MBA5500 Analyse Descriptive des données 48


Scores standardisés (1/3)

Le score standardisé, aussi appelé cote Z est obtenu à


partir de la formule suivante :

xi − x
Zi =
sx
Une cote Z positive signifie que xi  x
Une cote Z négative signifie que xi  x

Hiver 2023 MBA5500 Analyse Descriptive des données 49


Scores standardisés (2/3)

• Un score standardisé mesure à combien d’écart-type de


la moyenne se situe une donnée spécifique (un score).

• Les scores standardisés sont utiles pour comparer des


données provenant de distributions dont les moyennes et
les écart-types sont différents, mais mesurant le même
« concept ».

Hiver 2023 MBA5500 Analyse Descriptive des données 50


Distribution normale

Hiver 2023 MBA5500 Analyse Descriptive des données 51


Distribution de fréquence

(Distribution asymétrique) = .37


Skewness

(Aplatissement = 2.25
kurtosis

Mode
Moyenne = Médiane
Hiver 2023 MBA5500 Analyse Descriptive des données 52
Caractéristiques de forme

Deux mesures descriptives caractérisent la forme des


distributions:
• La distribution asymétrique (« Skewness »)
• L’aplatissement (« Kurtosis »)

Hiver 2023 MBA5500 Analyse Descriptive des données 53


Caractéristiques de forme
Distribution symétrique :Une distribution est dite symétrique si la
moyenne, la médiane et le mode sont confondus.

Moyenne = Médiane= Mode


Le dégré d’aplatissement est caractérisé par un coefficient, noté 𝑆𝑥 , dont
la valeur est comprise entre -1 et +1.

Valeur de 𝑆𝑥 Type d’asymétrie


Positive Asymétrie negative ( Moyenne › Médiane › Mode )
Nulle Distribution symétrique ( Moyenne = Médiane = Mode )
Négative Asymétrie positive ( Moyenne ‹ Médiane ‹ Mode )

Hiver 2023 MBA5500 Analyse Descriptive des données 54


Tendance centrale dans les distributions asymétriques (1/2)

Dans une distribution asymétrique, la moyenne est tirée "hors du centre"


dans la direction de l'asymétrie.
o Positive skew = distribution avec asymétrie positive
o Positive skew = distribition avec asymétrie négative

Hiver 2023 MBA5500 Analyse Descriptive des données 55


Caractérisique de la forme

Age

Percentiles Smallest
1% 25 25
5% 26 25
10% 28 25 Obs 17,870
25% 33 25 Sum of wgt. 17,870

50% 40 Mean 40.91953


Largest Std. dev. 10.03752
75% 48 65
90% 56 65 Variance 100.7517
95% 59 65 Skewness .3734979
99% 64 65 Kurtosis 2.251647

Hiver 2023 MBA5500 Analyse Descriptive des données 56


Caractéristiques de forme

Aplatissement:
On démontre que pour une distribution normale, le dégré
d’aplatissement noté 𝛼4 = 3.

• Si 𝛼4 › 3, la courbe est leptokurtique (courbe aiguё)


• Si 𝛼4 = 3, la courbe est mésokurtique (courbe normale)
• Si 𝛼4 ‹ 3, la courbe est platykurtique (courbe aplatie)

Hiver 2023 MBA5500 Analyse Descriptive des données 57


Caractéristiques de forme

Exemple

Hiver 2023 MBA5500 Analyse Descriptive des données 58


Scores standardisés (3/3)

Les scores standard ont une moyenne arithmétique égale à


0 et un écart-type de 1 :

Hiver 2023 MBA5500 Analyse Descriptive des données 59


Utilisations des distributions de fréquence dans l'analyse des données

• Première étape pour comprendre vos données !


o Commencez par examiner les distributions de
fréquence pour toutes ou la plupart des variables,
pour « avoir une idée » des données.
o Grâce à l'inspection des distributions de fréquences,
vous pouvez commencer à évaluer dans quelle
mesure les données sont « propres »
Les distributions de fréquence peuvent vous aider à évaluer
l'omniprésence d'un problème épineux dans l'analyse des
données :
o Données manquantes

Hiver 2023 MBA5500 Analyse Descriptive des données 60


Caractéristiques de forme

Dans une distribution


normale, les trois
mesures de tendance
centrale sont égales.

( Moyenne = Médiane = Mode )

Hiver 2023 MBA5500 Analyse Descriptive des données 61


Distribution normale
• 68% des données se situent
dans l’intervalle 𝜇 − 1𝜎, 𝜇 + 1𝜎
• 95% des données se situent
dans l’intervalle 𝜇 − 2𝜎, 𝜇 + 2𝜎
• 99,7 des données se situent
dans l’intervalle 𝜇 − 3𝜎, 𝜇 + 3𝜎

Hiver 2023 MBA5500 Analyse Descriptive des données 62


Nettoyage des données

• Un aspect du nettoyage des données consiste à voir si la


distribution de fréquence contient :
o Valeurs aberrantes : valeurs qui se situent en dehors
de la plage normale de valeurs et qui peuvent ou non
être légitimes.
o Codes erronés (Wild codes) : Codes impossibles ou
invalides, comme un code de « 3 » pour la variable
genre lorsque les codes valides sont 1 (femelle) et 2
(mâle).

Hiver 2023 MBA5500 Analyse Descriptive des données 63


Analyse descriptive des données
MBA5500 – Automne 2023

Mesures descriptives (1/2)

Hiver 2023 MBA5500 Analyse Descriptive des données 64


Introduction à l’économétrie
MBA5500 – Automne 2023

Relation entre deux variables - Corrélation

David Djadjaglo, PhD


École de gestion de Telfer
Université d’Ottawa
27 septembre 2023

. Note : Les acétates dans ces notes de cours ont été adaptées de celles préparées par:Stock, James H. et Mark W. Watson (2012). Principes
d’économétrie, 3e édition, Pearson France. (en français, traduction par Jamel Trabelsi). .

Automne 2023 MBA 5500 Analyse descriptive des données 1


Régression linéaire simple
Aperçu:
• Le coefficient de corrélation
• Le modèle de régression linéaire
• L'estimateur des moindres carrés ordinaires (MCO) et
la ligne de régression de l'échantillon
• Mesures d'ajustement de la régression de l'échantillon
• Les hypothèses des moindres carrés pour l'inférence
causale
• La distribution d'échantillonnage de l'estimateur MCO
• Les hypothèses des moindres carrés pour la
prédiction

Automne 2023 MBA 5500 Analyse descriptive des données 2


Le coefficient de correlation (Pearson)

On dit qu’il y a corrélation entre deux variables observées


sur les éléments d’une même population lorsque les
variations de deux variables X et Y se produisent dans le
même sens (corrélation positive) ou lorsque les variations
sont de sens contraire (correlation positive).

Automne 2023 MBA 5500 Analyse descriptive des données 3


Le coefficient de correlation

Exemple

Automne 2023 MBA 5500 Analyse descriptive des données 4


Le coefficient de corrélation

Exemple

Automne 2023 MBA 5500 Analyse descriptive des données 5


Le coefficient de corrélation

Exemple

Automne 2023 MBA 5500 Analyse descriptive des données 6


Statistiques descriptives de la variable dépendante

Automne 2023 MBA 5500 Analyse descriptive des données 7


Corrélation
• Str: Ratio élèves-enseignants (Effectif des classes)
• Stscr: Score des tests

Ou ratio élèves-enseignants

Automne 2023 MBA 5500 Analyse descriptive des données 8


Le coefficient de corrélation

Exemple
• Le résultat contient trois informations
importantes : (1) le coefficient de corrélation de
Pearson ; (2) le niveau de signification
statistique ; et (3) la taille de l'échantillon.

• Comme le signe du coefficient de corrélation


de Pearson est positif, vous pouvez conclure
qu'il y a une corrélation positive mais faible
entre la taille et le poids.

• Le niveau de signification statistique (c'est-à-


dire la valeur p), et si le test est statistiquement
significatif, une étoile (*) à côté du coefficient
de corrélation de Pearson.
• Dans cet exemple, le niveau de signification
statistique (valeur p) du coefficient de
corrélation est de 0,0001, ce qui signifie qu'il
existe une relation statistiquement significative
entre les deux variables.

MBA 5500 Analyse descriptive des


Automne 2023 9
données
Le coefficient de corrélation

• Un coefficient descriptif qui résume l'ampleur et la nature


(direction) d'une relation entre deux variables dans un
échantillon.
• Peut également être utilisé pour faire des inférences sur
les relations au sein de la population.
• Le coefficient de correlation est independant des unites
de mesure.
• La valeur de r peut varier entre -1 (correlation négativete
parfait) et =1 (correlation parfait positive): -1 ≤ r ≤ +1

Automne 2023 MBA 5500 Analyse descriptive des données 10


Le coefficient de corrélation

Limites de la correlation
• Il ne peut pas prouver 100% de l’existence de lien de
cause à effet réel.
• Peu de contrôle ou absence de contrôle sur les variables
utilisées.
• L’existence de corrélation peut-être le fruit de hasard ou
d’une troisième variable qui n’a pas été prise en compte.

MBA 5500 Analyse descriptive des


Automne 2023 11
données
Le coefficient de corrélation

Facteurs influençant la corrélation

1. Les valeurs aberrantes (extrêmes)


2. Linéarité
3. Restriction de la taille
4. Hétérogénéité des échantillons

Automne 2023 MBA 5500 Analyse descriptive des données 12


Le coefficient de corrélation

A B

C D

Automne 2023 MBA 5500 Analyse descriptive des données 13


Le coefficient de corrélation

Automne 2023 MBA 5500 Analyse descriptive des données 14


Introduction à l’économétrie
MBA5500 – Automne 2023

Relation entre deux variables - Corrélation

Automne 2023 MBA 5500 Analyse descriptive des données 15


Analyse descriptive des données
MBA5500 – Automne 2023

Mesures descriptives (2/2)

David Djadjaglo, PhD


École de gestion Telfer
Université d’Ottawa

20 septembre 2023

Hiver 2023 MBA5500 Analyse Descriptive des données 1


Aperçu

Caractéristiques d'une distribution de données


o Distribution de la forme
o Tendance centrale
o Variabilité
o La tendance centrale et la variabilité peuvent être
calculées.

Hiver 2023 MBA5500 Analyse Descriptive des données 2


Utilisations des statistiques descriptives

• Les caractéristiques de tendance centrale et de


dispersion sont utilisés pour :
o Comprendre les données, obtenir une « vue
d'ensemble »
o Évaluer les valeurs aberrantes
o Décrire les participants à la recherche (p. ex. leur âge,
leur niveau d'instruction, la durée de la maladie)
o Répondre aux questions relatives aux statistiques
descriptives,

Hiver 2023 MBA5500 Analyse Descriptive des données 3


La tendance centrale

• Le mode
• La médiane
• La moyenne arithmétique

Hiver 2023 MBA5500 Analyse Descriptive des données 4


Distribution des données

Hiver 2023 MBA5500 Analyse Descriptive des données 5


Distribution des données

Histogramme

Hiver 2023 MBA5500 Analyse Descriptive des données 6


Le mode
• Le mode est la variable
statistique la plus fréquence
que l’on observe dans une
série.
• Elle n’est un centrer d’équilibre,
ni un centre de position mais
plutôt un centre de
concentration.

Le mode
(M = 35)

Hiver 2023 MBA5500 Analyse Descriptive des données 7


Le mode: avantages et inconvénients

• Avantages:
o Il est la mesure de tendance centrale appropriée
lorsque la variable est qualitative.
• Désavantages:
o Ignore la plupart des informations de la distribution
o A tendance à être instable (c'est-à-dire que la valeur
varie beaucoup d'un échantillon à l'autre).
o Il peut ne pas exister.
o Il peut ne pas être unique. Certaines distributions
peuvent ne pas avoir de mode (par exemple, 10, 10,
11, 11, 12, 12).

Hiver 2023 MBA5500 Analyse Descriptive des données 8


La moyenne arithmétique (1/2)
• La moyenne arithmétique est la
somme des valeurs de la série
divisée par le nombre total
d’observations.
• Les valeurs des données sont
additionnées et divisées par N.

La Moyenne
ഥ = 40
𝑿

Hiver 2023 MBA5500 Analyse Descriptive des données 9


La moyenne arithmétique (2/2)

• Mesure de la tendance centrale la plus fréquemment


utilisée - généralement préférée pour les variables
d’échelle intervalle et ratio.
• Équation : M = X  N
o Où:
𝑀 = Moyenne arithmétique
𝛴 = La somme
𝑋 = Les données actuelles
𝑁 = nombre d′observations

Hiver 2023 MBA5500 Analyse Descriptive des données 10


La Moyenne arithmétique: avantages

• Elle depend de la grandeur de chaque donnée.


• Elle est unique pour une série de données.
• La somme des écarts au-dessus de la moyenne est
toujours exactement égale à celle des écarts au-dessous
de la moyenne.
• L'indice de tendance centrale le plus stable.
• L’inférence statistique est basée sur la moyenne.

Hiver 2023 MBA5500 Analyse Descriptive des données 11


La Moyenne arithmétique: inconvénients

• Elle est affectée par les valeurs aberrantes (faibles ou


élevées).
• Elle donne une vision déformée de ce qui est "typique"
lorsque les données sont asymétriques.
• La valeur de la moyenne arithmétique n'est souvent pas
une valeur réelle des données.

Hiver 2023 MBA5500 Analyse Descriptive des données 12


La médiane
• La médiane est la valeur de la
variable statistique, ordonnée en
ordre croissant ou décroissant, qui
partage cette série en deux parties:
o 50% au dessus de la médiane
o 50% au dessous de la
médiane

La Moyenne
ഥ = 40
𝑿

Hiver 2023 MBA5500 Analyse Descriptive des données 13


La médiane: avantages et inconvénients

• Avantages:
o Elle élimine l’effet des valeurs aberrantes
o Facile à calculer
o Elle permet de mieux évaluer la tendance centrale si
la distribution est asymétrique.
o Approprié pour les variables d’échelle
• Désavantages:
o Ne prend pas en compte les valeurs réelles des
données - seulement un indice de position.

Hiver 2023 MBA5500 Analyse Descriptive des données 14


Distribution de fréquences

Hiver 2023 MBA5500 Analyse Descriptive des données 15


Les symboles de la moyenne arithmétique

• Dans le cadre de l’échantillonnage:


o Dans les formule statistiques X

• Dans le cadre de la moyenne de la population:


o L’alphabet grecque  ( mu )

Hiver 2023 MBA5500 Analyse Descriptive des données 16


Tendance centrale dans les distributions asymétriques (2/2)

• Le graphique montre deux courbes en forme de cloche.


o La première courbe en forme de cloche, appelée distribution avec
asymétrie positive, commence à augmenter à partir de l'origine, atteint
une certaine hauteur, diminue et se termine au milieu. Trois lignes sont
tracées du milieu de la courbe vers la ligne de décroissance. La
première ligne représente le mode, la deuxième ligne la médiane et la
troisième ligne la moyenne.
o La deuxième courbe en forme de cloche étiquetée, appelée distribution
asymétrie négative, commence à augmenter à partir de la ligne
moyenne de la première courbe en forme de cloche et atteint une
hauteur près de l'extrémité de l'axe, puis diminue soudainement à
l'extrémité de l'axe. Trois lignes sont tracées à partir de la ligne
croissante jusqu'au milieu de la courbe. La première ligne représente la
moyenne, la deuxième ligne représente la médiane et la troisième ligne
représente le mode.

Hiver 2023 MBA5500 Analyse Descriptive des données 17


Variabilité (1/2)

• La variabilité concerne l'étalement ou la dispersion des


valeurs de données dans une distribution.
• Deux distributions ayant la même moyenne peuvent avoir
une dispersion différente.

Hiver 2023 MBA5500 Analyse Descriptive des données 18


La variabilité (2/2)

• Une grande variabilité:


Une distribution
hétérogène (A)

• Faible variabilité : Une


distribution homogène
(B)

Hiver 2023 MBA5500 Analyse Descriptive des données 19


La variabilité (2/2)

Hiver 2023 MBA5500 Analyse Descriptive des données 20


Principales mesures de dispersion (variabilité)

• Étendue
• Intervalle interquartile
• Variance
• Écart-type
• Coefficient de variation

Hiver 2023 MBA5500 Analyse Descriptive des données 21


L’étendue

C’est la difference entre la plus grande et la plus


petite valeur de la distribution.
Exemple:

Étendue = 65 ans - 25 ans = 40 ans

Hiver 2023 MBA5500 Analyse Descriptive des données 22


L’étendue: avantages (1/2)

• Facile à calculer
• Facile à comprendre
• Communique des informations intéressantes pour les
lecteurs d'un rapport.

Hiver 2023 MBA5500 Analyse Descriptive des données 23


L’étendue: inconvénients (2/2)

• Elle ne tient compte que de deux valeurs dans la série,


soit deux valeurs extrêmes. Par conséquent, elle est
influencée par les valeurs extrêmes.
• Elle ne prend pas en compte toutes les autres données.
• Elle est influencée par la taille de l'échantillon.

Hiver 2023 MBA5500 Analyse Descriptive des données 24


Premier quartile (𝑸𝟏 )
Les quartiles répartissent
les données en quatre parties :
Premier quartile: 25 % des
données simples sont
inférieures au premier quartile
(𝑸𝟏 ) et 75% ont une valeur
supérieur.

𝑸𝟏 =33

Hiver 2023 MBA5500 Analyse Descriptive des données 25


Deuxième quartile (𝑸𝟐 )
Les quartiles répartissent
les données en quatre parties :
Deuxième quartile: 50 % des
données simples sont
inférieures au deuxième
quartile (𝑸𝟐 ) et 50 %
ont une valeur supérieure.

𝑸𝟐 = 40

Hiver 2023 MBA5500 Analyse Descriptive des données 26


Troisième quartile (𝑸𝟑 )
Les quartiles répartissent
les données en quatre parties :
Troisième quartile: 75 % des
données simples sont
inférieures au troisième
quartile (𝑸𝟑 ) et 25 %
ont une valeur supérieur.

𝑸𝟑 = 48

Hiver 2023 MBA5500 Analyse Descriptive des données 27


L’intervalle interquartile
La quantité (𝑄3 - 𝑄1 ) s’appelle intervalle interquartile
∆𝑄 = (𝑄3 - 𝑄1 ) . 50 % des données de la distribution se
situent dans l’intervalle d’amplitude ∆𝑄.

Exemple:
𝑄1 = 33 ans
𝑄3 = 48 ans

∆𝑄 = (𝑄3 - 𝑄1 ) = (48 ans – 33 ans ) = 15 ans

Hiver 2023 MBA5500 Analyse Descriptive des données 28


L’intervalle interquartile: avantages

• Réduit l'influence des valeurs aberrantes et des scores


extrêmes,
• Utilise plus d'informations que l’étendue
• Important dans l'évaluation des valeurs aberrantes
• Approprié comme grandeur de variabilité avec des
variables ordinales

Hiver 2023 MBA5500 Analyse Descriptive des données 29


L’intervalle interquartile: avantages

• Réduit l'influence des valeurs aberrantes et des scores


extrêmes
• Utilise plus d'informations que l’étendue
• Important dans l'évaluation des valeurs aberrantes
• Approprié comme grandeur de variabilité avec des
variables ordinales

Hiver 2023 MBA5500 Analyse Descriptive des données 30


L’intervalle interquartile: inconvénients

• Elle n'est pas particulièrement facile à calculer.


• Elle n'est pas bien interprétée.
• Elle ne prend pas en compte toutes les valeurs.

Hiver 2023 MBA5500 Analyse Descriptive des données 31


Diagramme en boîte (1/2)

Le diagramme en boîte
est un résumé visuel du
sommaire numérique
d’une série de données,
sommaire constitué de
cinq nombres:
la médiane, les quartiles
(Q1, Q2 et Q3), la plus
petite valeur et la plus
grande valeur de la série,

Hiver 2023 MBA5500 Analyse Descriptive des données 32


Diagramme en boîte (1/2)

Max= 65
𝑸𝟐 = 40 𝑸𝟏 = 48

Min = 25 𝑸𝟏 = 33

Hiver 2023 MBA5500 Analyse Descriptive des données 33


Les valeurs aberrantes

Les valeurs aberrantes peuvent être vues dans les


histogrammes, mais les boîtes à moustaches donnent des
informations plus utiles sur le degré d'extrémité et les
nombres.
L’intervalle interquartile permet de détecter les valeurs
aberrantes ou valeurs extrêmes.
Toutes les données situées en dehors de :
𝑄3 + 1,5 𝑄3 − 𝑄1 ou 𝑄1 - 1,5 𝑄3 − 𝑄1 sont considérées
comme des valeurs aberrantes.

Hiver 2023 MBA5500 Analyse Descriptive des données 34


Les valeurs aberrantes

Example
𝑄1 = 33
𝑄3 = 48
∆𝑄 = (𝑄3 - 𝑄1 ) = (48 – 33 ) = 15
1,5 𝑄3 − 𝑄1 = 1,5*15 = 22,5
𝑄3 + 1,5 𝑄3 − 𝑄1 = 48 + 22,5 = 70,5
𝑄1 − 1,5 𝑄3 − 𝑄1 = 33 – 22,5 = 10,5

Toutes les données situées en dehors de 10,5 et 70,5 sont


considérées comme étant des valeurs aberrantes ou
extrêmes.

Hiver 2023 MBA5500 Analyse Descriptive des données 35


La tendance centrale
24 données

9 données 17 données

(𝑸𝟏 )

(𝑸𝟐 )

(𝑸𝟑 )

Hiver 2023 MBA5500 Analyse Descriptive des données 36


La Variance et l’écart-type (1/2)

• Contrairement à l’étendue et à l’écart interquartile, la


variance est une mesure qui permet de tenir compte de la
dispersion de toutes les valeurs d’un ensemble de
données.
• C’est la mesure de dispersion la plus couramment
utilisée, de même que l’écart-type, qui correspond à la
racine carrée de la variance.
• La variance est l’écart carré moyen entre chaque donnée
et le centre de la distribution représenté par la moyenne.

Hiver 2023 MBA5500 Analyse Descriptive des données 37


La Variance et l’écart-type (2/2)

• La variance mesure la divergence des données par


rapport à la moyenne. De façons techniques, c’est la
moyenne des écarts au carré des scores par rapport à la
moyenne.
• Si les valeurs de l’âge sont dispersées autour de la
moyenne, les écarts seront grands et la variance élevée.
Si elles sont concentrées autour de la moyenne, les
écarts seront petits et la variance faible.

Hiver 2023 MBA5500 Analyse Descriptive des données 38


La Variance

• La variance d’une population est donnée par:

 2
=
 (x − ) i
2

N
• L’estimateur de la variance à partir d’un échantillon est
donné par:

s 2
=
 (x − x) i
2

N −1
Degré de liberté de l’estimateur de la variance

Hiver 2023 MBA5500 Analyse Descriptive des données 39


L’écart-type (1/3)

• L’écart-type est la racine carrée de la variance

Pour une population, on a :


=  i
( x −  ) 2

N
L’estimateur de l’écart-type à
partir d’un échantillon est
donnée par :
s=
 (x − x)
i
2

N −1

Hiver 2023 MBA5500 Analyse Descriptive des données 40


L’écart-type (2/3)

• L’écart-type est plus souvent utilisé que la variance dans


l’interprétation des résultats puisqu’il est ramené à la
même échelle que les données originales

Hiver 2023 MBA5500 Analyse Descriptive des données 41


L’écart type (3/3)

• L’écart-type est sensible aux valeurs aberrantes. Une


seule valeur très aberrante peut accroître l’écart-type et,
par le fait même, déformer le portrait de la dispersion.
• Pour deux ensembles de données ayant la même
moyenne, celui dont l’écart-type est le plus grand est celui
dans lequel les données sont les plus dispersées par
rapport au centre.
• Une série de données qui peu dispersée autour de la
moyenne arithmétique (ce qui est souhaitable) conduit à
un écart-type faible
• L’écart-type est égal à 0 zéro si toutes les valeurs d’un
ensemble de données sont les mêmes (parce que
chaque valeur est égale à la moyenne).
Hiver 2023 MBA5500 Analyse Descriptive des données 42
Coefficient de variation

• Le coefficient de variation (CV) permet d’évaluer


l’importance relative de la dispersion d’une distribution. Il
permet ainsi de comparer la dispersion de 2 distributions
qui n’ont pas la même unité de mesure. Il est otenu en
divisant l’écart-type par la moyenne arithmétique;

sx
CV ( x) = *100
x
• Indique le degré d’homogénéité d’une distribution.
• Plus le CV est faible, plus la série de données est
homogène.

Hiver 2023 MBA5500 Analyse Descriptive des données 43


Coefficient de variation

• Le coefficient de variation (CV)

𝑠𝑥 10.03751
𝐶𝑉 𝑥 = ∗ 100 = ∗ 100 = 24,53 %
𝑥lj 40.91953

Hiver 2023 MBA5500 Analyse Descriptive des données 44


Statistiques descriptives et échelles de mesure

Échelle de mesure Mesures de tendance Mesures de dispertion


centrale

Nominale Mode --

Ordinale Médiane Étendue, I Q R

Intervalle et ratio Moyenne Variance, Écart type


CV

Hiver 2023 MBA5500 Analyse Descriptive des données 45


Les déciles et centiles

Dans le but de préciser et d'affiner encore l'analyse de la


dispersion d'une distribution, on peut faire appel aux notions
de déciles et de centiles. Le principe demeure le même que
pour les quartiles à la différence que la population est ici
divisée respectivement en 10 et 100 sous-populations
d'égal effectifs.

Hiver 2023 MBA5500 Analyse Descriptive des données 46


Les déciles
Décile 1 ou D1 10 % des effectifs de la population ont une valeur inférieur à D1 et 90 %
une valeur supérieure.

Décile 2 ou D2 20 % des effectifs de la population ont une valeur inférieur à D2 et 80 %


une valeur supérieure.
Décile 3 ou D3 30 % des effectifs de la population ont une valeur inférieur à D1 et 70 %
une valeur supérieure.
Décile 4 ou D4 40 % des effectifs de la population ont une valeur inférieur à D1 et 60 %
une valeur supérieure.
Décile 5 ou D5 50 % des effectifs de la population ont une valeur inférieur à Q1 et 50 %
une valeur supérieure. D5 correspond à la médiane
Décile 6 ou D6 60 % des effectifs de la population ont une valeur inférieur à D6 et 40 %
une valeur supérieure.
Décile 7 ou D7 70 % des effectifs de la population ont une valeur inférieur à D7 et 30 %
une valeur supérieure.
Décile 8 ou D8 80 % des effectifs de la population ont une valeur inférieur à D8 et 20 %
une valeur supérieure.
Décile 9 ou D9 90 % des effectifs de la population ont une valeur inférieur à D9 et 10 %
une valeur supérieure.

Hiver 2023 MBA5500 Analyse Descriptive des données 47


Règle interquartile pour trouver les valeurs aberrantes

• Calculez l'intervalle interquartile pour les données.


• Multipliez l'intervalle interquartile (IQR) par 1,5 (une
constante utilisée pour discerner les valeurs aberrantes).
• Ajoutez 1,5 x (IQR) au troisième quartile. Tout nombre
supérieur à cela est une valeur aberrante présumée.
• Soustrayez 1,5 x (IQR) du premier quartile. Tout nombre
inférieur à cela est une valeur aberrante présumée.

Hiver 2023 MBA5500 Analyse Descriptive des données 48


Scores standardisés (1/3)

Le score standardisé, aussi appelé cote Z est obtenu à


partir de la formule suivante :

xi − x
Zi =
sx
Une cote Z positive signifie que xi  x
Une cote Z négative signifie que xi  x

Hiver 2023 MBA5500 Analyse Descriptive des données 49


Scores standardisés (2/3)

• Un score standardisé mesure à combien d’écart-type de


la moyenne se situe une donnée spécifique (un score).

• Les scores standardisés sont utiles pour comparer des


données provenant de distributions dont les moyennes et
les écart-types sont différents, mais mesurant le même
« concept ».

Hiver 2023 MBA5500 Analyse Descriptive des données 50


Distribution normale

Hiver 2023 MBA5500 Analyse Descriptive des données 51


Distribution de fréquence

(Distribution asymétrique) = .37


Skewness

(Aplatissement = 2.25
kurtosis

Mode
Moyenne = Médiane
Hiver 2023 MBA5500 Analyse Descriptive des données 52
Caractéristiques de forme

Deux mesures descriptives caractérisent la forme des


distributions:
• La distribution asymétrique (« Skewness »)
• L’aplatissement (« Kurtosis »)

Hiver 2023 MBA5500 Analyse Descriptive des données 53


Caractéristiques de forme
Distribution symétrique :Une distribution est dite symétrique si la
moyenne, la médiane et le mode sont confondus.

Moyenne = Médiane= Mode


Le dégré d’aplatissement est caractérisé par un coefficient, noté 𝑆𝑥 , dont
la valeur est comprise entre -1 et +1.

Valeur de 𝑆𝑥 Type d’asymétrie


Positive Asymétrie negative ( Moyenne › Médiane › Mode )
Nulle Distribution symétrique ( Moyenne = Médiane = Mode )
Négative Asymétrie positive ( Moyenne ‹ Médiane ‹ Mode )

Hiver 2023 MBA5500 Analyse Descriptive des données 54


Tendance centrale dans les distributions asymétriques (1/2)

Dans une distribution asymétrique, la moyenne est tirée "hors du centre"


dans la direction de l'asymétrie.
o Positive skew = distribution avec asymétrie positive
o Positive skew = distribition avec asymétrie négative

Hiver 2023 MBA5500 Analyse Descriptive des données 55


Caractérisique de la forme

Age

Percentiles Smallest
1% 25 25
5% 26 25
10% 28 25 Obs 17,870
25% 33 25 Sum of wgt. 17,870

50% 40 Mean 40.91953


Largest Std. dev. 10.03752
75% 48 65
90% 56 65 Variance 100.7517
95% 59 65 Skewness .3734979
99% 64 65 Kurtosis 2.251647

Hiver 2023 MBA5500 Analyse Descriptive des données 56


Caractéristiques de forme

Aplatissement:
On démontre que pour une distribution normale, le dégré
d’aplatissement noté 𝛼4 = 3.

• Si 𝛼4 › 3, la courbe est leptokurtique (courbe aiguё)


• Si 𝛼4 = 3, la courbe est mésokurtique (courbe normale)
• Si 𝛼4 ‹ 3, la courbe est platykurtique (courbe aplatie)

Hiver 2023 MBA5500 Analyse Descriptive des données 57


Caractéristiques de forme

Exemple

Hiver 2023 MBA5500 Analyse Descriptive des données 58


Scores standardisés (3/3)

Les scores standard ont une moyenne arithmétique égale à


0 et un écart-type de 1 :

Hiver 2023 MBA5500 Analyse Descriptive des données 59


Utilisations des distributions de fréquence dans l'analyse des données

• Première étape pour comprendre vos données !


o Commencez par examiner les distributions de
fréquence pour toutes ou la plupart des variables,
pour « avoir une idée » des données.
o Grâce à l'inspection des distributions de fréquences,
vous pouvez commencer à évaluer dans quelle
mesure les données sont « propres »
Les distributions de fréquence peuvent vous aider à évaluer
l'omniprésence d'un problème épineux dans l'analyse des
données :
o Données manquantes

Hiver 2023 MBA5500 Analyse Descriptive des données 60


Caractéristiques de forme

Dans une distribution


normale, les trois
mesures de tendance
centrale sont égales.

( Moyenne = Médiane = Mode )

Hiver 2023 MBA5500 Analyse Descriptive des données 61


Distribution normale
• 68% des données se situent
dans l’intervalle 𝜇 − 1𝜎, 𝜇 + 1𝜎
• 95% des données se situent
dans l’intervalle 𝜇 − 2𝜎, 𝜇 + 2𝜎
• 99,7 des données se situent
dans l’intervalle 𝜇 − 3𝜎, 𝜇 + 3𝜎

Hiver 2023 MBA5500 Analyse Descriptive des données 62


Nettoyage des données

• Un aspect du nettoyage des données consiste à voir si la


distribution de fréquence contient :
o Valeurs aberrantes : valeurs qui se situent en dehors
de la plage normale de valeurs et qui peuvent ou non
être légitimes.
o Codes erronés (Wild codes) : Codes impossibles ou
invalides, comme un code de « 3 » pour la variable
genre lorsque les codes valides sont 1 (femelle) et 2
(mâle).

Hiver 2023 MBA5500 Analyse Descriptive des données 63


Analyse descriptive des données
MBA5500 – Automne 2023

Mesures descriptives (2/2)

Hiver 2023 MBA5500 Analyse Descriptive des données 64


Analyse descriptive des données
MBA5500 – Automne 2023

Introduction aux probabilités (1/2)

David Djadjaglo, PhD


École de gestion Telfer
Université d’Ottawa

4 octobre 2023

Automne 2023 MBA5500 Analyse Descriptive des données 1


Aperçu

• Notion d’experience d’aléatoire


• Probabilités conditionnelles
• Probabilités composées
• Probabilités marginales
• Évènements indépendants
• Théoréme de Bayes

Automne 2023 MBA5500 Analyse Descriptive des données 2


Introduction aux probabilités

Expérience aléatoire:
Une expérience aléatoire est une expérience dont le résultat
dépend entièrement du hasard et dont les résultats possibles
sont connus.
Exemples:
Illustration 1. Expérience: «Jeu de pile ou face»
Résultats: Pile ou Face
Illustration 2. Expérience: Les notes d’un test statistique (sur 100 points).
Résultats: Notes comprises entre 0 et 100
Illustration 3. Expérince: Notes finales au cours MBA5500.
Résultats: A, B, C, D et F

Automne 2023 MBA5500 Analyse Descriptive des données 3


Introduction aux probabilités

• L’épreuve (expérience aléatoire) est tout processus qui fait


intervenir le hasard et qui est susceptible d’aboutir à un ou
plusieurs résultats.
o on ne peut prévoir avec certitude les résultats de
l’expérience
o on peut décrire, avant toute expérimentation, l'ensemble
des résultats possibles de l’expérience
• L’espace échantionnal 𝑆 est l’ensemble de tous les
résultats qui peuvent se produire dans l’expérience
aléatoire.
• L’évènement est une partie de l’ensemble de résultats. Il
constitue un sous-ensemble de l’espace échantionnal.

Automne 2023 MBA5500 Analyse Descriptive des données 4


Introduction aux probabilités

Expérience Évènement Espace échantionnal


Je lance une pièce de « Tomber sur pile (P) ou S = {pile, face}
monnaie face (F) »

Nous choissons au hasard Taux d’occupation S = {0, …,100 %}


un hôtel à Gatineau et nous
déterminons son taux
d’occupation.
Nous jouons au dé. { 1 }, { 2 }, { 3 }, {4}, { 5 }, S = {1, 2, 3, 4, 5, 6}
{6}

Automne 2023 MBA5500 Analyse Descriptive des données 5


Introduction aux probabilités

La probabilité d’un évènement E est le rapport entre le


nombe de résultats favorables 𝑛𝐸 à cet évènement et le
nombre de résultats possibles 𝑁 contenus dans l’espace
échantionnal , tous également vraisemblables.
𝑛𝐸
𝑝 𝐸 =
𝑁

Remarques:
• La probabilité d’un évènement impossible est nulle.
• La probabilité d’un évènement certain est égal à 1.
• Entre les deux extremes se situe toute une série
d’évènements probables.
• La probabilité d’un évènement est donc toujours comprise
entre 0 et 1.

Automne 2023 MBA5500 Analyse Descriptive des données 6


Introduction aux probabilités

Soient A et B, des évènements quelconques. Alors, les


propriétés suivantes doivent être satisfaites:
1. 0 ≤ 𝑃 𝐴 ≤ 1
2. 𝑃 𝑆 = 1
3. 𝑃 𝐴ҧ = 1 − 𝑃 𝐴

Si A et B sont deux évènements incompatibles (ils ne peuvent se réaliser


simultanément), alors la probabilité de realisation de l’un ou l’autre est égale à:
4. 𝑃 𝐴∪𝐵 =𝑃 𝐴 +𝑃 𝐵 −𝑃 𝐴∩𝐵
ou
▪ 𝑃 𝐴 𝑜𝑢 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃 𝐴 𝑒𝑡 𝐵

Automne 2023 MBA5500 Analyse Descriptive des données 7


Introduction aux probabilités

Exercice d’application
Une experience conduit à cinq résultats élémentaires et incompatibles 𝐸1 , 𝐸2 ,
𝐸3 , 𝐸4 et 𝐸5 . On sait que 𝑃 𝐸3 = 0,30, 𝑃 𝐸4 = 2 𝑃 𝐸5 ,
𝑃 𝐸1 = 𝑃 𝐸2 = 0,15.
1. Quel est l’espace échantionnal ?
Réponse: On a S = {𝐸1 , 𝐸2 , 𝐸3 , 𝐸4 et 𝐸5 }
2. Quel est la valeur de 𝑃 s ?
Réponse: On sait que 𝑃 𝑆 = 1
𝑃 𝑆 = 𝑃 𝐸1 + 𝑃 𝐸2 + 𝑃 𝐸3 + 𝑃 𝐸4 + 𝑃 𝐸5 = 1
3. Déterminez 𝑃 𝐸4 et 𝑃 𝐸5
𝑃 𝑆 = 𝑃 𝐸1 + 𝑃 𝐸2 + 𝑃 𝐸3 + 𝑃 𝐸4 + 𝑃 𝐸5 = 1
= 0,15 + 0,15 + 0,30 +2 𝑃 𝐸5 + 𝑃 𝐸5 = 1
= 0,60 +2 𝑃 𝐸5 + 𝑃 𝐸5 = 1
0,40
= 3𝑃 𝐸5 = 0,40 𝑃 𝐸5 = = 0,133
3
𝑃 𝐸5 =0,133 et 𝑃 𝐸4 = 2 𝑃 𝐸5 =0,266 𝑃 𝐸4 =0,266
Automne 2023 MBA5500 Analyse Descriptive des données 8
Introduction aux probabilités

Calcul des probabilités totales: Évènements ne s’excluant pas.


La probabilité de se voir réaliser dans une épreuve l’un ou l’autre de
deux évènements ne s’excluant pas mutuellement est égale à :
• 𝑃 𝐴∪𝐵 =𝑃 𝐴 +𝑃 𝐵 −𝑃 𝐴∩𝐵
ou
▪ 𝑃 𝐴 𝑜𝑢 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃 𝐴 𝑒𝑡 𝐵

Cette expression porte le nom de règle d’addition.

Automne 2023 MBA5500 Analyse Descriptive des données 9


Introduction aux probabilités

Exemple: Règle d’addition


Une enquête effectuée auprès de 1 500 Canadiens portant sur les jeux
d’argent indique:
• 1182 jouant à la loterie (A)
• 310 vont au casino (B)
• 190 jouent autant à la loterie qu’au casino (A et B)

Question: Si un Canadien est choisi au hasard, quelle est la probabilité


qu’il joue à la loterie ou au casino?

Solution:
1182 310 190
𝑃 𝐴 𝑜𝑢 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃 𝐴 𝑒𝑡 𝐵 = + − = 0,868
1500 1500 1500

Automne 2023 MBA5500 Analyse Descriptive des données 10


Introduction aux probabilités

Probabilités conditionnelles
Soit A et B deux évènements de S. On appelle probabilité conditionnelle
de B par rapport à A, la probabilité de réalisation de l’évènement B,
sachant que l’évènement A s’est réalisé et se note 𝑃 𝐵\A .

𝑃 𝐵\A = 𝑃𝑃𝐴∩𝐵
𝐴
, de même 𝑃 𝐴\B = 𝑃 𝐴∩𝐵
𝑃 𝐵

Automne 2023 MBA5500 Analyse Descriptive des données 11


Introduction aux probabilités

Probabilités composées
Soit A et B deux évènements de probabilité non nulle. La
probabilité de se voir réaliser à la fois (simultanément) deux
évènements A et B est:
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 . 𝑃 𝐵\A
ou
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 . 𝑃 𝐴\B

Cette expression porte le nom de règle de multiplication

Automne 2023 MBA5500 Analyse Descriptive des données 12


Introduction aux probabilités

Exemple: Probabilité composée et probabilité conditionelle


Une étude auprès de 1 000 individus concernant l’efficacité d’un est
pour dépister une maladie contagieuse conduit aux résultats suivants:

Test positif ( C ) Test négatif ( D)


Pas de maladie ( A ) 40 860
Maladie contagieuse (B) 80 30

On choisit au hasard un individu de cette population:


a) Quelle est la probabilité qu’il présente la maladie contagieuse?
𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑎𝑠 𝑝𝑟é𝑠𝑒𝑛𝑡𝑎𝑛𝑡 𝑙𝑎 𝑚𝑎𝑙𝑎𝑑𝑖𝑒 𝑐𝑜𝑛𝑡𝑎𝑔𝑖𝑒𝑢𝑠𝑒 100
𝑃 𝐵 = = = 0.10
𝑁𝑜𝑚𝑏𝑟𝑒 𝑡𝑜𝑡𝑎𝑙 𝑑 ′ 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑠 1000
b) Quelle est la probabilité que l’individu ait un test positif?
𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑎𝑠 𝑎𝑦𝑎𝑛𝑡 𝑢𝑛 𝑡𝑒𝑠𝑡 𝑝𝑜𝑠𝑖𝑡𝑖𝑓 120
𝑃 𝐶 = = = 0.12
𝑁𝑜𝑚𝑏𝑟𝑒 𝑡𝑜𝑡𝑎𝑙 𝑑 ′ 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑠 1000

Automne 2023 MBA5500 Analyse Descriptive des données 13


Introduction aux probabilités

Exemple: Probabilité composée et probabilité conditionelle (suite)


c) Quelle est la probabilité que l’individu avec un test négatif présente
la maladie contagieuse?
𝑃 𝐵∩𝐷 20Τ1000
𝑃 𝐵\D = = = 0,0227
𝑃 𝐷 880Τ1000

d) Quelle est la probabilité que l’individu avec un test positif ne


présente pas de maladie contagieuse ?
𝑃 𝐴∩𝐶 40Τ1000
𝑃 𝐴\C = = = 0,333
𝑃 𝐶 120Τ1000

Automne 2023 MBA5500 Analyse Descriptive des données 14


Introduction aux probabilités

Règle de calcul des probabiliés

Règle d’addition Règle de multiplication


𝑃 𝐴∪𝐵 𝑃 𝐴∩𝐵

Est-ce que A et B sont Est-ce que A et B sont


mutuellement exclusifs? dépendants?

Oui Non Oui Non

𝑃 𝐴∪𝐵 =𝑃 𝐴 +𝑃 𝐵 𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 ∗ P B − 𝑃 𝐵\A 𝑃 𝐴∩𝐵 =𝑃 𝐴 +𝑃 𝐵 𝑃 𝐴∩𝐵 =𝑃 𝐴 ∗𝑃 𝐵

Automne 2023 MBA5500 Analyse Descriptive des données 15


Introduction aux probabilités

Évènements indépendants
• Deux évènements A et B sont indépendants si:

𝑃 𝐵\A = 𝑃 𝐵 𝑜𝑢 𝑃 𝐴\B = 𝑃 𝐴

• Dans le cas d’indépendance , la formule des probabilités


composée devient:
𝑃 A∩𝐵 = 𝑃 𝐴 .𝑃 𝐵

Automne 2023 MBA5500 Analyse Descriptive des données 16


Introduction aux probabilités

Exercice d’application (1/2)


Dans une grande ville, deux journaux sont publiés, le Sun et
le Post.
Les services de diffusion indiquent que 22 % des ménages
de la ville sont abonnés au Sun et 35 % au Post. Une
enquête révèle que 6 % de tous les ménages sont abonnés
aux deux journaux.
Quelle est la proportion des ménages de la ville qui sont
abonnés à au moins un journal ?

Automne 2023 MBA5500 Analyse Descriptive des données 17


Introduction aux probabilités

Solution:
Nous pouvons reformuler la question comme suit : "Quelle
est la probabilité de choisir au hasard un ménage abonné
au Sun ou au Post ou aux deux ?

𝑃(𝑆𝑢𝑛 ou 𝑃𝑜𝑠𝑡)=𝑃(𝑆𝑢𝑛)+𝑃(𝑃𝑜𝑠𝑡)−𝑃(𝑆𝑢𝑛 et 𝑃𝑜𝑠𝑡)


𝑃(𝑆𝑢𝑛 ou 𝑃𝑜𝑠𝑡)=.22+.35−.06=.51

Interprétation:
Il y a une probabilité de 51 % qu'un ménage sélectionné
au hasard soit abonné à l'un ou l'autre ou aux deux
journaux.
Automne 2023 MBA5500 Analyse Descriptive des données 18
Introduction aux probabilités

Probabilités marginales
Supposons qu'un investisseur potentiel examine la relation entre la
performance d'un fonds commun de placement et l'université qui a délivré le
MBA au gestionnaire. Après l'analyse, le tableau des probabilités conjointes
suivant a été élaboré

Analysez et interprétez les résultats.

Automne 2023 MBA5500 Analyse Descriptive des données 19


Introduction aux probabilités
Probabilités marginales
Solution:
Représentons les événements comme suit :
• A1 = Le gestionnaire de fonds est diplômé d'un programme MBA du top 20
• A2 = Le gestionnaire de fonds n'est pas diplômé d'un programme MBA
du top 20
• B1 = Les fonds mutuels surpassent le marché
• B2 = Les fonds mutuels ne surpassent pas le marché
Par conséquent, les probabilities conjointes sont:
• 𝑃 𝐴1 𝑒𝑡 𝐵1 = .11
• 𝑃 𝐴2 𝑒𝑡 𝐵1 = .06
• 𝑃 𝐴1 𝑒𝑡 𝐵2 = .29
• 𝑃 𝐴2 𝑒𝑡 𝐵2 = .54

Automne 2023 MBA5500 Analyse Descriptive des données 20


Introduction aux probabilités

Les probabilités marginales apparaissent en marge du tableau (total de


chaque ligne divisée par le total du tableau).
• Prémière ligne: 𝑃 𝐴1 = 𝑃 𝐴1 𝑒𝑡 𝐵1 + 𝑃 𝐴1 𝑒𝑡 𝐵2 = .11 + .29 = .40
• Deuxième ligne: 𝑃 𝐴2 = 𝑃 𝐴2 𝑒𝑡 𝐵1 + 𝑃 𝐴2 𝑒𝑡 𝐵2 = .06 + .54 = .60
• Prémière colomne: 𝑃 𝐵1 = 𝑃 𝐴1 𝑒𝑡 𝐵1 + 𝑃 𝐴2 𝑒𝑡 𝐵1 = .11 + .06 = .17
• Deuxième colomne: 𝑃 𝐵2 = 𝑃 𝐴1 𝑒𝑡 𝐵2 + 𝑃 𝐴2 𝑒𝑡 𝐵2 = .29 + .54 = .83
Programme de Les fonds mutuels ont Les fonds mutuels ont Totaux
MBA enrégisté des enrégisté des rendements
rendements dépassant dépassant ceux du
ceux du marché marché

Les 20 meilleures 𝑃 𝐴1 𝑒𝑡 𝐵1 = .11 𝑃 𝐴1 𝑒𝑡 𝐵2 = .29 𝑃 𝐴1 = .40


universités
N’appurtenant 𝑃 𝐴2 𝑒𝑡 𝐵1 = .06 𝑃 𝐴2 𝑒𝑡 𝐵2 = .54 𝑃 𝐴2 = .60
aux 20 meilleures
universités
Totauz 𝑃 𝐵1 = .17 𝑃 𝐵2 = .83 1.00

Automne 2023 MBA5500 Analyse Descriptive des données 21


Exercice (Probabilité conditionnelle)
Déterminants de la réussite des gestionnaires de fonds mutuels
Supposons que, dans l'exemple ci-dessous, nous choisissions un fonds
mutuel au hasard et que nous découvrions qu'il n'a pas surperformé le
marché.
Quelle est la probabilité qu'un diplômé d'un programme de MBA du top
20 le gère ?

Automne 2023 MBA5500 Analyse Descriptive des données 22


Exercice (Probabilité conditionnelle)

Solution de l’exercice précédent:


Nous pouvons reformuler la probabilité conditionnelle que nous devons
calculer comme suit :

La probabilité qu'un fonds commun de placement choisi au hasard soit


géré par un diplômé d'un programme MBA du top 20 (événement A1),
compte tenu du fait que le fonds n'a pas surclasse le marché
(événement B2).
𝑃(𝐴1 et 𝐵2 ) .29
𝑃 𝐴1 𝐵2 = = = .349
𝑃(𝐵2 ) .83

Automne 2023 MBA5500 Analyse Descriptive des données 23


Exercice (Événements indépendants)

Supposons que, dans l'exemple ci-dessous, on vous


demande de déterminer si le fait que le gestionnaire soit
diplômé d'un programme de MBA parmi les 20 meilleurs et
le fait que le fonds surpasse le marché sont des
événements indépendants.

Automne 2023 MBA5500 Analyse Descriptive des données 24


Exercice (Événements indépendants)

Solution de l’exercice précédent:

A1 = Le gestionnaire de fonds diplômé d'un programme MBA du top 20


B1 = Le fonds mutuel qui surclasse le marché
Pour determiner si A1 et B1 are deux évènements indépendants, nous
devons calculer la la probabilité de réalisation de l’évènement A1,
sachant que l’évènement B1 s’est réalisé :
𝑃(𝐴1 et 𝐵1 ) .11
𝑃 𝐴1 𝐵1 = = = .647
𝑃(𝐵1 ) .17
La probabilité marginale qu'un manager soit diplômé d'un programme
MBA du top 20 est ::
𝑃 𝐴1 = .40
Les deux probabilités n'étant pas égales, on en conclut que les deux
événements sont dépendants.

Automne 2023 MBA5500 Analyse Descriptive des données 25


Introduction aux probabilités

Exemple A (Sans remplacement)


Un cours de statistiques de deuxième cycle compte sept étudiants et
trois étudiantes. Le professeur souhaite choisir deux étudiants au
hasard.
Quelle est la probabilité que les deux étudiants choisis soient des
femmes ?
Solution:
Soit:
A. la première participante choisie au cours est une femme
B. la deuxième participante choisie au cours est une femme

Nous avons besoin de: 𝑃 𝐴 et 𝐵 = 𝑃 𝐴 𝑃(𝐵|𝐴)


3 2
Avec: 𝑃 𝐴 = 10 et 𝑃 𝐵 𝐴 = 9
3 2 6
Par conséquent: 𝑃 𝐴 et 𝐵 = 10 9 = 90 = .067

Automne 2023 MBA5500 Analyse Descriptive des données 26


Introduction aux probabilités

Exemple B (Avec remplacement)


Un cours de statistiques de deuxième cycle compte sept étudiants et trois
étudiantes. Le professeur souhaite choisir deux étudiants au hasard.
Le professeur doit choisir au hasard un étudiant comme remplaçant pour les
deux prochains cours.
Quelle est la probabilité que les étudiants sélectionnés pour les deux cours
soient tous deux des femmes ?
Solution:
Cette fois, le même participant peut être sélectionné pour les deux classes.
Par conséquent, A et B sont désormais des événements indépendants.
Nous avons besoin de: 𝑃(𝐴 et 𝐵)=𝑃(𝐴)𝑃(𝐵)
Avec: 𝑃(𝐴)=3/10 et 𝑃(𝐵)=3/10
Par conséquent: 𝑃(𝐴 et 𝐵)=3/10 3/10=9/100=.09

Automne 2023 MBA5500 Analyse Descriptive des données 27


Diagramme en arbre

Dans un diagramme en arbre, les événements d'une


expérience sont représentés par des branches, qui sont des
lignes reliées entre elles. Nous calculons ensuite les
probabilités conjointes en multipliant les probabilités sur les
branches liées. Les branches parallèles issues d'un même
nœud s'excluent mutuellement et peuvent être
additionnées.

Automne 2023 MBA5500 Analyse Descriptive des données 28


Diagramme en arbre

Considérons à nouveau les exemples précédents (A et B)


de la probabilité de sélectionner au hasard deux étudiantes
dans un cours de statistiques de troisième cycle qui compte
sept étudiants et trois étudiantes, avec ou sans
remplacement.
Exercice A

Automne 2023 MBA5500 Analyse Descriptive des données 29


Diagramme en arbre
Exercice B

Notez qu'il y a deux événements possibles pour la sélection d'un étudiant et d'une étudiante. Dans ce cas, la forme spéciale de
la règle d'addition pour les événements mutuellement exclusifs peut être appliquée aux probabilités conjointes.
.Dans les deux diagrammes de probabilité, nous pouvons calculer la probabilité que l'un des étudiants choisis soit une femme et
l'autre un homme en additionnant simplement les probabilités conjointes.
Pour l’exemple A, nous avons:
P(F et M) + P(M et F) = 21/90 + 21/90 = 42/90

Dans l’exemple B, nous avons:


P(F et M) + P(M et F) = 21/100 + 21/100 = 42/100

Automne 2023 MBA5500 Analyse Descriptive des données 30


Le théorème de Bayes

Il existe parfois qu’une épreuve puisse être décomposée en


deux étapes successives:
• Dans un premier temps, on obtient un groupe
d’évènements incompatibles 𝐸1 , 𝐸2 … 𝐸𝑛 . À chacun de
ces évènements correspond une information initiale
permettant d’évaluer les probabilités 𝑃 𝐸1 , 𝑃 𝐸2 … 𝑃 𝐸3

• Dans un second temps, on obtient un événement A issu


du groupe précédent pour lequel on connaît les
probabilités condtionnelles 𝑃 𝐴 𝐸1 , 𝑃 𝐴 𝐸2 ,… 𝑃 𝐴 𝐸1 .
On demande alors de calculer 𝑃 𝐸𝑖 𝐴 c’est à dire d’évaluer
les probabilités de divers causes de A, sachant que A s’est
produit.
Automne 2023 MBA5500 Analyse Descriptive des données 31
Le théorème de Bayes

Le théorème de Bayes est une conséquence immédiate des


probabilités conditionelles et des probabilités totales.
1. Probabilités composées

P(A B)
P(A/ B)=
P(B)
2. Théoréme de Bayes

P(B/ A)P(A)
P(A/ B)=
P(B)

P(B/ Ai)P(Ai)
P(Ai / B)=
P(B/ Ak)P(Ak)
k

Automne 2023 MBA5500 Analyse Descriptive des données 32


Le théorème de Bayes

Exercice d’application (1/3)


Un candidat au MBA doit-il suivre un cours préparatoire ?
Supposons qu'une enquête menée auprès d'étudiants en
MBA révèle que parmi les étudiants ayant obtenu un score
d'au moins 650 au GMAT, 52 % ont suivi un cours
préparatoire, alors que parmi les étudiants ayant obtenu un
score inférieur à 650 au GMAT, seuls 23 % ont suivi un
cours préparatoire.
Un candidat à un programme de MBA sait que la probabilité
d'obtenir un score d'au moins 650 est de 10 %, et il est
disposé à suivre un cours de préparation si la probabilité
d'obtenir un score d'au moins 650 est au moins doublée,
soit 20 %.
Automne 2023 MBA5500 Analyse Descriptive des données 33
Le théorème de Bayes

Exercice d’application (2/3)


Un candidat au MBA doit-il suivre un cours préparatoire ?
Nous pouvons commencer par définir les événements A et
B comme suit :
A = score au GMAT égal ou supérieur à 650B
B= suivre un cours préparatoire
Ensuite, nous pouvons définir les probabilités fournies
comme suit :
P(Ac) = .10
P(B|A) = .52
P(B|Ac) = .23
En utilisant les règles de complément et de multiplication,
nous pouvons calculer le diagramme en arbre.
Automne 2023 MBA5500 Analyse Descriptive des données 34
Le théorème de Bayes

Exercice d’application (3/3)


Un candidat au MBA doit-il suivre un cours préparatoire ?
GMAT Cours préparatoire Probabilité composée

Automne 2023 MBA5500 Analyse Descriptive des données 35


Le théorème de Bayes

Exercice d’application (2/3)


Un candidat au MBA doit-il suivre un cours préparatoire ?
Nous devons calculer la probabilité qu'un candidat au MBA obtienne au moins 650 points
(événement A), étant donné qu'il a suivi un cours préparatoire (événement B).
En utilisant la formule de la probabilité conditionnelle, nous pouvons écrire : 𝑃 𝐴 𝐵 =
𝑃(𝐴 et𝐵)
𝑃(𝐵)

Le diagramme d’arbre donne: 𝑃 𝐴 et 𝐵 = .052


A partir du diagramme en arbre, nous pouvons également calculer la probabilité marginale
P(B) comme suit :
𝑃 𝐵 = 𝑃(𝐴 et 𝐵) + 𝑃(𝐴𝐶 et 𝐵) = .052 + .207 = .259

Ainsi, la probabilité qu'un candidat au MBA obtienne un score d'au moins 650, étant
donné qu'il a suivi un cours préparatoire, est la suivante :
𝑃(𝐴 et 𝐵) .052
𝑃 𝐴𝐵 = = = .201 ce qui est supéreur 20%.
𝑃(𝐵) .259

Automne 2023 MBA5500 Analyse Descriptive des données 36


Le théorème de Bayes

Exercice d’application (1/3)


Un candidat au MBA doit-il suivre un cours préparatoire ?
We define the events as follows:
• A1 = Le score au GMAT égal ou supérieur à 650
• A2 =Le score au GMAT est inférieur à 650
• B = L'étudiant a suivi un cours préparatoire
Les probabilités préalables fournies sont les suivantes :
• P(A1) = 0,10 (probabilité que l'étudiant obtienne 650 ou plus)
• P(A2) = 1 - 0,10 = 0,90
The provided conditional (likelihood) probabilities are:
• P(B|A1) = .52 (probabilité que l'étudiant ait suivi un cours de préparation parmi ceux qui ont obtenu 650 ou plus)
• P(B|A2) = .23 (probability student took prep course among those scoring less than 650)

La formule du théo rèkede Bayes donne la probabilité qu'un étudiant obtienne 650 ou plus après avoir
suivi le cours de préparation :
𝑃 𝐴1 𝑃 𝐵|𝐴1 .10(.52) .052
𝑃 𝐴1 |𝐵 = = = = .201
𝑃 𝐴1 𝑃 𝐵|𝐴1 + 𝑃 𝐴2 𝑃 𝐵|𝐴2 .10 .52 + .90(.23) .052 + .207

Automne 2023 MBA5500 Analyse Descriptive des données 37


Le théorème de Bayes
Pour ceux qui préfèrent une approche algébrique plutôt qu'un arbre de
probabilité, la loi de Bayes peut être exprimée sous la forme d'une
formule :
𝑃 𝐴𝑖 𝑃 𝐵|𝐴𝑖
𝑃 𝐴𝑖 |𝐵 =
𝑃 𝐴1 𝑃 𝐵|𝐴1 + 𝑃 𝐴2 𝑃 𝐵|𝐴2 + ⋯ + 𝑃 𝐴𝑘 𝑃 𝐵|𝐴𝑘


B est l’évènement donné,
A1, A2,…, Ak sont les événements avec des probabilités
préalables connues P(A1), P(A2),…, P(Ak),
P(B|A1), P(B|A2),…, P(B|Ak) sont les probabilités de
vraisemblace,
P(Ai|B), with i = 1, 2,…, k sont les probabilités postérieures que
nous recherchons.
Automne 2023 MBA5500 Analyse Descriptive des données 38
Identifier la bonne méthode
La question clé est de déterminer si les probabilités conjointes sont fournies ou requises :
Les probabilités conjointes sont fournies
1. Calculer les probabilités marginales en additionnant les lignes et les colonnes.
2. Utilisez les probabilités conjointes et marginales pour calculer les probabilités
conditionnelles.
3. Déterminez si les événements décrits dans le tableau sont indépendants.
4. Appliquez la règle de l'addition pour calculer la probabilité que l'un ou l'autre des deux
événements se produise.
Les probabilités conjointes sont nécessaires
1. Appliquer les règles de probabilité ou construire un arbre de probabilité.
2. Utilisez la règle de multiplication pour calculer la probabilité des intersections.
3. Appliquer les règles d'addition et de complément pour les événements mutuellement
exclusifs.
4. Calculer la probabilité postérieure à l'aide de la loi de Bayes.

Automne 2023 MBA5500 Analyse Descriptive des données 39


Analyse descriptive des données
MBA5500 – Automne 2023

Introduction aux probabilités (1/2)

Automne 2023 MBA5500 Analyse Descriptive des données 40


Analyse descriptive des données
MBA5500 – Automne 2023

Introduction aux probabilités (2/2)

David Djadjaglo, PhD


École de gestion Telfer
Université d’Ottawa

4 octobre 2023

Automne 2023 MBA5500 Analyse Descriptive des données 1


Aperçu

• Notion d’experience d’aléatoire


• Probabilités conditionnelles
• Probabilités composées
• Probabilités marginales
• Évènements indépendants
• Théoréme de Bayes

Automne 2023 MBA5500 Analyse Descriptive des données 2


Introduction aux probabilités

Expérience aléatoire:
Une expérience aléatoire est une expérience dont le résultat
dépend entièrement du hasard et dont les résultats possibles
sont connus.
Exemples:
Illustration 1. Expérience: «Jeu de pile ou face»
Résultats: Pile ou Face
Illustration 2. Expérience: Les notes d’un test statistique (sur 100 points).
Résultats: Notes comprises entre 0 et 100
Illustration 3. Expérince: Notes finales au cours MBA5500.
Résultats: A, B, C, D et F

Automne 2023 MBA5500 Analyse Descriptive des données 3


Introduction aux probabilités

• L’épreuve (expérience aléatoire) est tout processus qui fait


intervenir le hasard et qui est susceptible d’aboutir à un ou
plusieurs résultats.
o on ne peut prévoir avec certitude les résultats de
l’expérience
o on peut décrire, avant toute expérimentation, l'ensemble
des résultats possibles de l’expérience
• L’espace échantionnal 𝑆 est l’ensemble de tous les
résultats qui peuvent se produire dans l’expérience
aléatoire.
• L’évènement est une partie de l’ensemble de résultats. Il
constitue un sous-ensemble de l’espace échantionnal.

Automne 2023 MBA5500 Analyse Descriptive des données 4


Introduction aux probabilités

Expérience Évènement Espace échantionnal


Je lance une pièce de « Tomber sur pile (P) ou S = {pile, face}
monnaie face (F) »

Nous choissons au hasard Taux d’occupation S = {0, …,100 %}


un hôtel à Gatineau et nous
déterminons son taux
d’occupation.
Nous jouons au dé. { 1 }, { 2 }, { 3 }, {4}, { 5 }, S = {1, 2, 3, 4, 5, 6}
{6}

Automne 2023 MBA5500 Analyse Descriptive des données 5


Introduction aux probabilités

La probabilité d’un évènement E est le rapport entre le


nombe de résultats favorables 𝑛𝐸 à cet évènement et le
nombre de résultats possibles 𝑁 contenus dans l’espace
échantionnal , tous également vraisemblables.
𝑛𝐸
𝑝 𝐸 =
𝑁

Remarques:
• La probabilité d’un évènement impossible est nulle.
• La probabilité d’un évènement certain est égal à 1.
• Entre les deux extremes se situe toute une série
d’évènements probables.
• La probabilité d’un évènement est donc toujours comprise
entre 0 et 1.

Automne 2023 MBA5500 Analyse Descriptive des données 6


Introduction aux probabilités

Soient A et B, des évènements quelconques. Alors, les


propriétés suivantes doivent être satisfaites:
1. 0 ≤ 𝑃 𝐴 ≤ 1
2. 𝑃 𝑆 = 1
3. 𝑃 𝐴ҧ = 1 − 𝑃 𝐴

Si A et B sont deux évènements incompatibles (ils ne peuvent se réaliser


simultanément), alors la probabilité de realisation de l’un ou l’autre est égale à:
4. 𝑃 𝐴∪𝐵 =𝑃 𝐴 +𝑃 𝐵 −𝑃 𝐴∩𝐵
ou
▪ 𝑃 𝐴 𝑜𝑢 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃 𝐴 𝑒𝑡 𝐵

Automne 2023 MBA5500 Analyse Descriptive des données 7


Introduction aux probabilités

Exercice d’application
Une experience conduit à cinq résultats élémentaires et incompatibles 𝐸1 , 𝐸2 ,
𝐸3 , 𝐸4 et 𝐸5 . On sait que 𝑃 𝐸3 = 0,30, 𝑃 𝐸4 = 2 𝑃 𝐸5 ,
𝑃 𝐸1 = 𝑃 𝐸2 = 0,15.
1. Quel est l’espace échantionnal ?
Réponse: On a S = {𝐸1 , 𝐸2 , 𝐸3 , 𝐸4 et 𝐸5 }
2. Quel est la valeur de 𝑃 s ?
Réponse: On sait que 𝑃 𝑆 = 1
𝑃 𝑆 = 𝑃 𝐸1 + 𝑃 𝐸2 + 𝑃 𝐸3 + 𝑃 𝐸4 + 𝑃 𝐸5 = 1
3. Déterminez 𝑃 𝐸4 et 𝑃 𝐸5
𝑃 𝑆 = 𝑃 𝐸1 + 𝑃 𝐸2 + 𝑃 𝐸3 + 𝑃 𝐸4 + 𝑃 𝐸5 = 1
= 0,15 + 0,15 + 0,30 +2 𝑃 𝐸5 + 𝑃 𝐸5 = 1
= 0,60 +2 𝑃 𝐸5 + 𝑃 𝐸5 = 1
0,40
= 3𝑃 𝐸5 = 0,40 𝑃 𝐸5 = = 0,133
3
𝑃 𝐸5 =0,133 et 𝑃 𝐸4 = 2 𝑃 𝐸5 =0,266 𝑃 𝐸4 =0,266
Automne 2023 MBA5500 Analyse Descriptive des données 8
Introduction aux probabilités

Calcul des probabilités totales: Évènements ne s’excluant pas.


La probabilité de se voir réaliser dans une épreuve l’un ou l’autre de
deux évènements ne s’excluant pas mutuellement est égale à :
• 𝑃 𝐴∪𝐵 =𝑃 𝐴 +𝑃 𝐵 −𝑃 𝐴∩𝐵
ou
▪ 𝑃 𝐴 𝑜𝑢 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃 𝐴 𝑒𝑡 𝐵

Cette expression porte le nom de règle d’addition.

Automne 2023 MBA5500 Analyse Descriptive des données 9


Introduction aux probabilités

Exemple: Règle d’addition


Une enquête effectuée auprès de 1 500 Canadiens portant sur les jeux
d’argent indique:
• 1182 jouant à la loterie (A)
• 310 vont au casino (B)
• 190 jouent autant à la loterie qu’au casino (A et B)

Question: Si un Canadien est choisi au hasard, quelle est la probabilité


qu’il joue à la loterie ou au casino?

Solution:
1182 310 190
𝑃 𝐴 𝑜𝑢 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃 𝐴 𝑒𝑡 𝐵 = + − = 0,868
1500 1500 1500

Automne 2023 MBA5500 Analyse Descriptive des données 10


Introduction aux probabilités

Probabilités conditionnelles
Soit A et B deux évènements de S. On appelle probabilité conditionnelle
de B par rapport à A, la probabilité de réalisation de l’évènement B,
sachant que l’évènement A s’est réalisé et se note 𝑃 𝐵\A .

𝑃 𝐵\A = 𝑃𝑃𝐴∩𝐵
𝐴
, de même 𝑃 𝐴\B = 𝑃 𝐴∩𝐵
𝑃 𝐵

Automne 2023 MBA5500 Analyse Descriptive des données 11


Introduction aux probabilités

Probabilités composées
Soit A et B deux évènements de probabilité non nulle. La
probabilité de se voir réaliser à la fois (simultanément) deux
évènements A et B est:
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 . 𝑃 𝐵\A
ou
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 . 𝑃 𝐴\B

Cette expression porte le nom de règle de multiplication

Automne 2023 MBA5500 Analyse Descriptive des données 12


Introduction aux probabilités

Exemple: Probabilité composée et probabilité conditionelle


Une étude auprès de 1 000 individus concernant l’efficacité d’un est
pour dépister une maladie contagieuse conduit aux résultats suivants:

Test positif ( C ) Test négatif ( D)


Pas de maladie ( A ) 40 860
Maladie contagieuse (B) 80 30

On choisit au hasard un individu de cette population:


a) Quelle est la probabilité qu’il présente la maladie contagieuse?
𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑎𝑠 𝑝𝑟é𝑠𝑒𝑛𝑡𝑎𝑛𝑡 𝑙𝑎 𝑚𝑎𝑙𝑎𝑑𝑖𝑒 𝑐𝑜𝑛𝑡𝑎𝑔𝑖𝑒𝑢𝑠𝑒 100
𝑃 𝐵 = = = 0.10
𝑁𝑜𝑚𝑏𝑟𝑒 𝑡𝑜𝑡𝑎𝑙 𝑑 ′ 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑠 1000
b) Quelle est la probabilité que l’individu ait un test positif?
𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑎𝑠 𝑎𝑦𝑎𝑛𝑡 𝑢𝑛 𝑡𝑒𝑠𝑡 𝑝𝑜𝑠𝑖𝑡𝑖𝑓 120
𝑃 𝐶 = = = 0.12
𝑁𝑜𝑚𝑏𝑟𝑒 𝑡𝑜𝑡𝑎𝑙 𝑑 ′ 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑠 1000

Automne 2023 MBA5500 Analyse Descriptive des données 13


Introduction aux probabilités

Exemple: Probabilité composée et probabilité conditionelle (suite)


c) Quelle est la probabilité que l’individu avec un test négatif présente
la maladie contagieuse?
𝑃 𝐵∩𝐷 20Τ1000
𝑃 𝐵\D = = = 0,0227
𝑃 𝐷 880Τ1000

d) Quelle est la probabilité que l’individu avec un test positif ne


présente pas de maladie contagieuse ?
𝑃 𝐴∩𝐶 40Τ1000
𝑃 𝐴\C = = = 0,333
𝑃 𝐶 120Τ1000

Automne 2023 MBA5500 Analyse Descriptive des données 14


Introduction aux probabilités

Règle de calcul des probabiliés

Règle d’addition Règle de multiplication


𝑃 𝐴∪𝐵 𝑃 𝐴∩𝐵

Est-ce que A et B sont Est-ce que A et B sont


mutuellement exclusifs? dépendants?

Oui Non Oui Non

𝑃 𝐴∪𝐵 =𝑃 𝐴 +𝑃 𝐵 𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 ∗ P B − 𝑃 𝐵\A 𝑃 𝐴∩𝐵 =𝑃 𝐴 +𝑃 𝐵 𝑃 𝐴∩𝐵 =𝑃 𝐴 ∗𝑃 𝐵

Automne 2023 MBA5500 Analyse Descriptive des données 15


Introduction aux probabilités

Évènements indépendants
• Deux évènements A et B sont indépendants si:

𝑃 𝐵\A = 𝑃 𝐵 𝑜𝑢 𝑃 𝐴\B = 𝑃 𝐴

• Dans le cas d’indépendance , la formule des probabilités


composée devient:
𝑃 A∩𝐵 = 𝑃 𝐴 .𝑃 𝐵

Automne 2023 MBA5500 Analyse Descriptive des données 16


Introduction aux probabilités

Exercice d’application (1/2)


Dans une grande ville, deux journaux sont publiés, le Sun et
le Post.
Les services de diffusion indiquent que 22 % des ménages
de la ville sont abonnés au Sun et 35 % au Post. Une
enquête révèle que 6 % de tous les ménages sont abonnés
aux deux journaux.
Quelle est la proportion des ménages de la ville qui sont
abonnés à au moins un journal ?

Automne 2023 MBA5500 Analyse Descriptive des données 17


Introduction aux probabilités

Solution:
Nous pouvons reformuler la question comme suit : "Quelle
est la probabilité de choisir au hasard un ménage abonné
au Sun ou au Post ou aux deux ?

𝑃(𝑆𝑢𝑛 ou 𝑃𝑜𝑠𝑡)=𝑃(𝑆𝑢𝑛)+𝑃(𝑃𝑜𝑠𝑡)−𝑃(𝑆𝑢𝑛 et 𝑃𝑜𝑠𝑡)


𝑃(𝑆𝑢𝑛 ou 𝑃𝑜𝑠𝑡)=.22+.35−.06=.51

Interprétation:
Il y a une probabilité de 51 % qu'un ménage sélectionné
au hasard soit abonné à l'un ou l'autre ou aux deux
journaux.
Automne 2023 MBA5500 Analyse Descriptive des données 18
Introduction aux probabilités

Probabilités marginales
Supposons qu'un investisseur potentiel examine la relation entre la
performance d'un fonds commun de placement et l'université qui a délivré le
MBA au gestionnaire. Après l'analyse, le tableau des probabilités conjointes
suivant a été élaboré

Analysez et interprétez les résultats.

Automne 2023 MBA5500 Analyse Descriptive des données 19


Introduction aux probabilités
Probabilités marginales
Solution:
Représentons les événements comme suit :
• A1 = Le gestionnaire de fonds est diplômé d'un programme MBA du top 20
• A2 = Le gestionnaire de fonds n'est pas diplômé d'un programme MBA
du top 20
• B1 = Les fonds mutuels surpassent le marché
• B2 = Les fonds mutuels ne surpassent pas le marché
Par conséquent, les probabilities conjointes sont:
• 𝑃 𝐴1 𝑒𝑡 𝐵1 = .11
• 𝑃 𝐴2 𝑒𝑡 𝐵1 = .06
• 𝑃 𝐴1 𝑒𝑡 𝐵2 = .29
• 𝑃 𝐴2 𝑒𝑡 𝐵2 = .54

Automne 2023 MBA5500 Analyse Descriptive des données 20


Introduction aux probabilités

Les probabilités marginales apparaissent en marge du tableau (total de


chaque ligne divisée par le total du tableau).
• Prémière ligne: 𝑃 𝐴1 = 𝑃 𝐴1 𝑒𝑡 𝐵1 + 𝑃 𝐴1 𝑒𝑡 𝐵2 = .11 + .29 = .40
• Deuxième ligne: 𝑃 𝐴2 = 𝑃 𝐴2 𝑒𝑡 𝐵1 + 𝑃 𝐴2 𝑒𝑡 𝐵2 = .06 + .54 = .60
• Prémière colomne: 𝑃 𝐵1 = 𝑃 𝐴1 𝑒𝑡 𝐵1 + 𝑃 𝐴2 𝑒𝑡 𝐵1 = .11 + .06 = .17
• Deuxième colomne: 𝑃 𝐵2 = 𝑃 𝐴1 𝑒𝑡 𝐵2 + 𝑃 𝐴2 𝑒𝑡 𝐵2 = .29 + .54 = .83
Programme de Les fonds mutuels ont Les fonds mutuels ont Totaux
MBA enrégisté des enrégisté des rendements
rendements dépassant dépassant ceux du
ceux du marché marché

Les 20 meilleures 𝑃 𝐴1 𝑒𝑡 𝐵1 = .11 𝑃 𝐴1 𝑒𝑡 𝐵2 = .29 𝑃 𝐴1 = .40


universités
N’appurtenant 𝑃 𝐴2 𝑒𝑡 𝐵1 = .06 𝑃 𝐴2 𝑒𝑡 𝐵2 = .54 𝑃 𝐴2 = .60
aux 20 meilleures
universités
Totauz 𝑃 𝐵1 = .17 𝑃 𝐵2 = .83 1.00

Automne 2023 MBA5500 Analyse Descriptive des données 21


Exercice (Probabilité conditionnelle)
Déterminants de la réussite des gestionnaires de fonds mutuels
Supposons que, dans l'exemple ci-dessous, nous choisissions un fonds
mutuel au hasard et que nous découvrions qu'il n'a pas surperformé le
marché.
Quelle est la probabilité qu'un diplômé d'un programme de MBA du top
20 le gère ?

Automne 2023 MBA5500 Analyse Descriptive des données 22


Exercice (Probabilité conditionnelle)

Solution de l’exercice précédent:


Nous pouvons reformuler la probabilité conditionnelle que nous devons
calculer comme suit :

La probabilité qu'un fonds commun de placement choisi au hasard soit


géré par un diplômé d'un programme MBA du top 20 (événement A1),
compte tenu du fait que le fonds n'a pas surclasse le marché
(événement B2).
𝑃(𝐴1 et 𝐵2 ) .29
𝑃 𝐴1 𝐵2 = = = .349
𝑃(𝐵2 ) .83

Automne 2023 MBA5500 Analyse Descriptive des données 23


Exercice (Événements indépendants)

Supposons que, dans l'exemple ci-dessous, on vous


demande de déterminer si le fait que le gestionnaire soit
diplômé d'un programme de MBA parmi les 20 meilleurs et
le fait que le fonds surpasse le marché sont des
événements indépendants.

Automne 2023 MBA5500 Analyse Descriptive des données 24


Exercice (Événements indépendants)

Solution de l’exercice précédent:

A1 = Le gestionnaire de fonds diplômé d'un programme MBA du top 20


B1 = Le fonds mutuel qui surclasse le marché
Pour determiner si A1 et B1 are deux évènements indépendants, nous
devons calculer la la probabilité de réalisation de l’évènement A1,
sachant que l’évènement B1 s’est réalisé :
𝑃(𝐴1 et 𝐵1 ) .11
𝑃 𝐴1 𝐵1 = = = .647
𝑃(𝐵1 ) .17
La probabilité marginale qu'un manager soit diplômé d'un programme
MBA du top 20 est ::
𝑃 𝐴1 = .40
Les deux probabilités n'étant pas égales, on en conclut que les deux
événements sont dépendants.

Automne 2023 MBA5500 Analyse Descriptive des données 25


Introduction aux probabilités

Exemple A (Sans remplacement)


Un cours de statistiques de deuxième cycle compte sept étudiants et
trois étudiantes. Le professeur souhaite choisir deux étudiants au
hasard.
Quelle est la probabilité que les deux étudiants choisis soient des
femmes ?
Solution:
Soit:
A. la première participante choisie au cours est une femme
B. la deuxième participante choisie au cours est une femme

Nous avons besoin de: 𝑃 𝐴 et 𝐵 = 𝑃 𝐴 𝑃(𝐵|𝐴)


3 2
Avec: 𝑃 𝐴 = 10 et 𝑃 𝐵 𝐴 = 9
3 2 6
Par conséquent: 𝑃 𝐴 et 𝐵 = 10 9 = 90 = .067

Automne 2023 MBA5500 Analyse Descriptive des données 26


Introduction aux probabilités

Exemple B (Avec remplacement)


Un cours de statistiques de deuxième cycle compte sept étudiants et trois
étudiantes. Le professeur souhaite choisir deux étudiants au hasard.
Le professeur doit choisir au hasard un étudiant comme remplaçant pour les
deux prochains cours.
Quelle est la probabilité que les étudiants sélectionnés pour les deux cours
soient tous deux des femmes ?
Solution:
Cette fois, le même participant peut être sélectionné pour les deux classes.
Par conséquent, A et B sont désormais des événements indépendants.
Nous avons besoin de: 𝑃(𝐴 et 𝐵)=𝑃(𝐴)𝑃(𝐵)
Avec: 𝑃(𝐴)=3/10 et 𝑃(𝐵)=3/10
Par conséquent: 𝑃(𝐴 et 𝐵)=3/10 3/10=9/100=.09

Automne 2023 MBA5500 Analyse Descriptive des données 27


Diagramme en arbre

Dans un diagramme en arbre, les événements d'une


expérience sont représentés par des branches, qui sont des
lignes reliées entre elles. Nous calculons ensuite les
probabilités conjointes en multipliant les probabilités sur les
branches liées. Les branches parallèles issues d'un même
nœud s'excluent mutuellement et peuvent être
additionnées.

Automne 2023 MBA5500 Analyse Descriptive des données 28


Diagramme en arbre

Considérons à nouveau les exemples précédents (A et B)


de la probabilité de sélectionner au hasard deux étudiantes
dans un cours de statistiques de troisième cycle qui compte
sept étudiants et trois étudiantes, avec ou sans
remplacement.
Exercice A

Automne 2023 MBA5500 Analyse Descriptive des données 29


Diagramme en arbre
Exercice B

Notez qu'il y a deux événements possibles pour la sélection d'un étudiant et d'une étudiante. Dans ce cas, la forme spéciale de
la règle d'addition pour les événements mutuellement exclusifs peut être appliquée aux probabilités conjointes.
.Dans les deux diagrammes de probabilité, nous pouvons calculer la probabilité que l'un des étudiants choisis soit une femme et
l'autre un homme en additionnant simplement les probabilités conjointes.
Pour l’exemple A, nous avons:
P(F et M) + P(M et F) = 21/90 + 21/90 = 42/90

Dans l’exemple B, nous avons:


P(F et M) + P(M et F) = 21/100 + 21/100 = 42/100

Automne 2023 MBA5500 Analyse Descriptive des données 30


Le théorème de Bayes

Il existe parfois qu’une épreuve puisse être décomposée en


deux étapes successives:
• Dans un premier temps, on obtient un groupe
d’évènements incompatibles 𝐸1 , 𝐸2 … 𝐸𝑛 . À chacun de
ces évènements correspond une information initiale
permettant d’évaluer les probabilités 𝑃 𝐸1 , 𝑃 𝐸2 … 𝑃 𝐸3

• Dans un second temps, on obtient un événement A issu


du groupe précédent pour lequel on connaît les
probabilités condtionnelles 𝑃 𝐴 𝐸1 , 𝑃 𝐴 𝐸2 ,… 𝑃 𝐴 𝐸1 .
On demande alors de calculer 𝑃 𝐸𝑖 𝐴 c’est à dire d’évaluer
les probabilités de divers causes de A, sachant que A s’est
produit.
Automne 2023 MBA5500 Analyse Descriptive des données 31
Le théorème de Bayes

Le théorème de Bayes est une conséquence immédiate des


probabilités conditionelles et des probabilités totales.
1. Probabilités composées

P(A B)
P(A/ B)=
P(B)
2. Théoréme de Bayes

P(B/ A)P(A)
P(A/ B)=
P(B)

P(B/ Ai)P(Ai)
P(Ai / B)=
P(B/ Ak)P(Ak)
k

Automne 2023 MBA5500 Analyse Descriptive des données 32


Le théorème de Bayes

Exercice d’application (1/3)


Un candidat au MBA doit-il suivre un cours préparatoire ?
Supposons qu'une enquête menée auprès d'étudiants en
MBA révèle que parmi les étudiants ayant obtenu un score
d'au moins 650 au GMAT, 52 % ont suivi un cours
préparatoire, alors que parmi les étudiants ayant obtenu un
score inférieur à 650 au GMAT, seuls 23 % ont suivi un
cours préparatoire.
Un candidat à un programme de MBA sait que la probabilité
d'obtenir un score d'au moins 650 est de 10 %, et il est
disposé à suivre un cours de préparation si la probabilité
d'obtenir un score d'au moins 650 est au moins doublée,
soit 20 %.
Automne 2023 MBA5500 Analyse Descriptive des données 33
Le théorème de Bayes

Exercice d’application (2/3)


Un candidat au MBA doit-il suivre un cours préparatoire ?
Nous pouvons commencer par définir les événements A et
B comme suit :
A = score au GMAT égal ou supérieur à 650B
B= suivre un cours préparatoire
Ensuite, nous pouvons définir les probabilités fournies
comme suit :
P(Ac) = .10
P(B|A) = .52
P(B|Ac) = .23
En utilisant les règles de complément et de multiplication,
nous pouvons calculer le diagramme en arbre.
Automne 2023 MBA5500 Analyse Descriptive des données 34
Le théorème de Bayes

Exercice d’application (3/3)


Un candidat au MBA doit-il suivre un cours préparatoire ?
GMAT Cours préparatoire Probabilité composée

Automne 2023 MBA5500 Analyse Descriptive des données 35


Le théorème de Bayes

Exercice d’application (2/3)


Un candidat au MBA doit-il suivre un cours préparatoire ?
Nous devons calculer la probabilité qu'un candidat au MBA obtienne au moins 650 points
(événement A), étant donné qu'il a suivi un cours préparatoire (événement B).
En utilisant la formule de la probabilité conditionnelle, nous pouvons écrire : 𝑃 𝐴 𝐵 =
𝑃(𝐴 et𝐵)
𝑃(𝐵)

Le diagramme d’arbre donne: 𝑃 𝐴 et 𝐵 = .052


A partir du diagramme en arbre, nous pouvons également calculer la probabilité marginale
P(B) comme suit :
𝑃 𝐵 = 𝑃(𝐴 et 𝐵) + 𝑃(𝐴𝐶 et 𝐵) = .052 + .207 = .259

Ainsi, la probabilité qu'un candidat au MBA obtienne un score d'au moins 650, étant
donné qu'il a suivi un cours préparatoire, est la suivante :
𝑃(𝐴 et 𝐵) .052
𝑃 𝐴𝐵 = = = .201 ce qui est supéreur 20%.
𝑃(𝐵) .259

Automne 2023 MBA5500 Analyse Descriptive des données 36


Le théorème de Bayes

Exercice d’application (1/3)


Un candidat au MBA doit-il suivre un cours préparatoire ?
We define the events as follows:
• A1 = Le score au GMAT égal ou supérieur à 650
• A2 =Le score au GMAT est inférieur à 650
• B = L'étudiant a suivi un cours préparatoire
Les probabilités préalables fournies sont les suivantes :
• P(A1) = 0,10 (probabilité que l'étudiant obtienne 650 ou plus)
• P(A2) = 1 - 0,10 = 0,90
The provided conditional (likelihood) probabilities are:
• P(B|A1) = .52 (probabilité que l'étudiant ait suivi un cours de préparation parmi ceux qui ont obtenu 650 ou plus)
• P(B|A2) = .23 (probability student took prep course among those scoring less than 650)

La formule du théo rèkede Bayes donne la probabilité qu'un étudiant obtienne 650 ou plus après avoir
suivi le cours de préparation :
𝑃 𝐴1 𝑃 𝐵|𝐴1 .10(.52) .052
𝑃 𝐴1 |𝐵 = = = = .201
𝑃 𝐴1 𝑃 𝐵|𝐴1 + 𝑃 𝐴2 𝑃 𝐵|𝐴2 .10 .52 + .90(.23) .052 + .207

Automne 2023 MBA5500 Analyse Descriptive des données 37


Le théorème de Bayes
Pour ceux qui préfèrent une approche algébrique plutôt qu'un arbre de
probabilité, la loi de Bayes peut être exprimée sous la forme d'une
formule :
𝑃 𝐴𝑖 𝑃 𝐵|𝐴𝑖
𝑃 𝐴𝑖 |𝐵 =
𝑃 𝐴1 𝑃 𝐵|𝐴1 + 𝑃 𝐴2 𝑃 𝐵|𝐴2 + ⋯ + 𝑃 𝐴𝑘 𝑃 𝐵|𝐴𝑘


B est l’évènement donné,
A1, A2,…, Ak sont les événements avec des probabilités
préalables connues P(A1), P(A2),…, P(Ak),
P(B|A1), P(B|A2),…, P(B|Ak) sont les probabilités de
vraisemblace,
P(Ai|B), with i = 1, 2,…, k sont les probabilités postérieures que
nous recherchons.
Automne 2023 MBA5500 Analyse Descriptive des données 38
Identifier la bonne méthode
La question clé est de déterminer si les probabilités conjointes sont fournies ou requises :
Les probabilités conjointes sont fournies
1. Calculer les probabilités marginales en additionnant les lignes et les colonnes.
2. Utilisez les probabilités conjointes et marginales pour calculer les probabilités
conditionnelles.
3. Déterminez si les événements décrits dans le tableau sont indépendants.
4. Appliquez la règle de l'addition pour calculer la probabilité que l'un ou l'autre des deux
événements se produise.
Les probabilités conjointes sont nécessaires
1. Appliquer les règles de probabilité ou construire un arbre de probabilité.
2. Utilisez la règle de multiplication pour calculer la probabilité des intersections.
3. Appliquer les règles d'addition et de complément pour les événements mutuellement
exclusifs.
4. Calculer la probabilité postérieure à l'aide de la loi de Bayes.

Automne 2023 MBA5500 Analyse Descriptive des données 39


Analyse descriptive des données
MBA5500 – Automne 2023

Introduction aux probabilités (2/2)

Automne 2023 MBA5500 Analyse Descriptive des données 40


Analyse descriptive des données
MBA5500 – Automne 2023

Modèles probabilistes discrets et continus

David Djadjaglo, PhD


École de gestion Telfer
Université d’Ottawa

11 octobre 2023

Automne 2023 MBA5500 Analyse Descriptive des données 1


Aperçu

• Modèles probabilistes discrets


o Loi d’une variable aléatoire discrete
o Distribution bivariée
o La distribution binomiale
o La distribution de Poisson

• Modèles probabilistes continus


o Les fonctions de densité de probabilité
o La distribution normale

Automne 2023 MBA5500 Analyse Descriptive des données 2


Introduction aux probabilités

Expérience aléatoire:
Une expérience aléatoire est une expérience dont le résultat
dépend entièrement du hasard et dont les résultats possibles
sont connus.
Exemples:
Illustration 1. Expérience: «Jeu de pile ou face»
Résultats: Pile ou Face
Illustration 2. Expérience: Les notes d’un test statistique (sur 100 points).
Résultats: Notes comprises entre 0 et 100
Illustration 3. Expérince: Notes finales au cours MBA5500.
Résultats: A, B, C, D et F

Automne 2023 MBA5500 Analyse Descriptive des données 3


Modèles probabilistes discrets
Nous étendons les concepts et les techniques de probabilité en
présentant les variables aléatoires et les distributions de probabilité, qui
sont essentielles au développement de l'inférence statistique.
Prenons l'exemple d'une expérience au cours de laquelle nous jouons
100 fois à pile ou face et comptons le nombre de Pile. Il est raisonnable
de supposer que l'observation d'un nombre excessivement grand ou
petit de Pile serait une indication statistique d'une pièce déséquilibrée.
Mais où se situe la limite ?
Les concepts et techniques de probabilité présentés nous permettront
de calculer la probabilité d'observer un résultat expérimental donné
avant d'aborder les concepts plus avancés des distributions de
probabilités bivariées et autres distributions de probabilités discrètes.

Automne 2023 MBA5500 Analyse Descriptive des données 4


Modèles probabilistes discrets

Variables aléatoires et lois de probabilités


Rappelons qu’une expérience aléatoire est une procédure
répétable dans des conditions identiques; on connaît à
l’avance tous les résultats à possibles de l’expérience
possibles de l’expérience mais on ne peut prédire avec
certitude le résultat qui va se produire pour chacune des
réalisations particulières de la procédure.
Si chaque résultat d’une épreuve (expérience aléatoire), on
fait correspondre une valeur numérique ou si la réalisation
d’une épreuve nous met en presence de quantités
mesurables (ou dénombrables), nous définissons une
variable aléatoire.

Automne 2023 MBA5500 Analyse Descriptive des données 5


Modèles probabilistes discrets

Divers exemples de modèles probabilistes discrets


• Le responsable en contrôle industriel de l’entreprise
Comtec a soumis un essai de fiabilité un certain nombre
de dispositifs électroniques identiques et a noté la «
durée de vie en heures jusqu’à la défaillance». La
variable aléatoire peut prendre n’importe quelle valeur
positive ou nulle.
• Un vérificaeur prélève au hasard, dans un grand lot de
factures, 10 factures d’achat. Chaque facture est vérifiée
et celles qi ont été acquittées deux fois par erreur sont
notées. La variable aléatoire « nombre de factures
acquitées deux fois par erreur » peut prendre n’importe
quelle valeur positive ou nulle.
Automne 2023 MBA5500 Analyse Descriptive des données 6
Modèles probabilistes discrets
Loi d’une variable aléatoire discrete
Associer à chacune des valeurs possibles de la variable aléatoire
discrete la probabilité qui lui correspond , c’est définir la loi de
probabilité (ou distribution de la probabilité) de la variable
aléatoire.
La fonction que X prenne la valeur 𝑥𝑖 est notée :
𝑓 𝑥𝑖 = 𝑃 𝑋 = 𝑥𝑖 .
La loi de probabilité 𝑓 𝑥𝑖 a les propriétés suivantes:
• 𝑓 𝑥𝑖 ≥ 0 𝑝𝑜𝑢𝑟 𝑡𝑜𝑢𝑡 𝑖
• σ𝑖 𝑓 𝑥𝑖 = 1

Automne 2023 MBA5500 Analyse Descriptive des données 7


Modèles probabilistes discrets
Exemple: Le tableau suivant, publié dans «The Statistical Abstract of
the United States », résume le nombre de personnes vivant dans un
ménage.
Développez la distribution de probabilité pour le nombre de personnes
par ménage

Automne 2023 MBA5500 Analyse Descriptive des données 8


Modèles probabilistes discrets
Exemple (suite).
Solution: La probabilité de chaque valeur de X, le nombre de personnes
par ménage, est calculée comme suit la fréquence relative.

La probabilité d'un ménage avec au moins 4 personnes est :

𝑃(𝑋≥4)=.128+.058+.022+.013=.221

Automne 2023 MBA5500 Analyse Descriptive des données 9


Modèles probabilistes discrets
Exemple (1/3): Distribution de probabilité de quantités vendues d’un
produit

Un vendeur de fonds communs de placement a pris des dispositions


pour appeler trois personnes. Sur la base de son expérience passée, il
sait qu'il a 20 % de chances de conclure une vente lors de chaque
visite. Déterminer la distribution de probabilité du nombre de ventes que
le vendeur réalisera.
Solution:
• Soit S la conclusion d'une vente : P(S) = .2
• Par conséquent, SC la non-conclusion d’une vente: P(SC) = .8

Automne 2023 MBA5500 Analyse Descriptive des données 10


Modèles probabilistes discrets
Exemple (2/3): Distribution de probabilité de quantités vendues d’un
produit

Nous pouvons construire le diagramme en arbre suivant:

Automne 2023 MBA5500 Analyse Descriptive des données 11


Modèles probabilistes discrets
Exemple (3/3): Distribution de probabilité de quantités vendues d’un
produit
La distribution de probabilité de réaliser un certain nombre de ventes
du produit X est:

Par exemple:
X = 0, P(SCSCSC) = P(SC) P(SC) P(SC) = (.8)(.8)(.8) = .512
X = 1, P(SSCSC) = P(S) P(SC) P(SC) = (.2)(.8)(.8) = .128
X = 2, P(SSSC) = P(S) P(S) P(SC) = (.2)(.2)(.8) = .032
X = 3, P(SSS) = P(S) P(S) P(S) = (.2)(.2)(.2) = .008

Automne 2023 MBA5500 Analyse Descriptive des données 12


Modèles probabilistes discrets
Espérance mathématique d’une variable aléatoire discrète
𝑛

𝐸 𝑋 = 𝜇 = ෍ 𝑥𝑃(𝑥)
𝑥𝑖

Variance d’une variable aléatoire discrète


𝑛

𝑉 𝑋 = 𝜎 2 = ෍ 𝑥 − 𝜇 2 𝑃(𝑥)
𝑥𝑖
L’écart-type d’une variable aléatoire discrete
𝜎= 𝜎2

Automne 2023 MBA5500 Analyse Descriptive des données 13


Modèles probabilistes discrets
Espérance mathématique Variance

1. 𝐸 𝑐 = 𝑐 1. 𝑉 𝑐 = 0
2. 𝐸 𝑋 + 𝑐 = 𝐸 𝑋 + 𝑐 2. 𝑉 𝑋 + 𝑐 = 𝑉 𝑋
3. 𝐸 𝑐𝑋 = 𝑐𝐸(𝑋) 3. 𝑉 𝑐𝑋 = 𝑐 2 𝑉(𝑋)

c est une constante.

Automne 2023 MBA5500 Analyse Descriptive des données 14


Modèles probabilistes discrets
Exemple: Calculez la moyenne, la variance et l’écart-type du nombre de
personnes par ménages.

Automne 2023 MBA5500 Analyse Descriptive des données 15


Modèles probabilistes discrets
Exemple (suite): Calculez la moyenne, la variance et l’écart-type du
nombre de personnes par ménages.

La moyenne de X est:
𝐸 𝑋 = 𝜇 = ෍ 𝑥𝑃(𝑥) = 1𝑃 1 + 2𝑃 2 + ⋯ + 7𝑃 7 = 1 .279 + 2 .345 + ⋯ + 7 .013 = 2.46

La variance de X est:

𝑉 𝑋 = 𝜎 2 = ෍ 𝑥 − 𝜇 2 𝑃(𝑥) = 1 − 2.46 2
.279 + 2 − 2.46 2
.345 + ⋯ + 7 − 2.46 2
.013 = 1.931

L’écart-type de X est:
𝜎= 𝜎 2 = 1.931 = 1.39

Automne 2023 MBA5500 Analyse Descriptive des données 16


Modèles probabilistes discrets
Distribution bivariée
Une distribution à deux variables fournit des probabilités conjointes de la
combinaison de deux variables. La distribution de probabilité d'une variable que
nous avons vue précédemment est appelée distribution univariée.
Une distribution de probabilité conjointe de X et Y est un tableau ou une formule
qui énumère les probabilités conjointes pour toutes les paires de valeurs x et y,
et est notée P(x,y).
Ces deux conditions s'appliquent à une distribution discrète à deux variables :
1. 0 ≤ 𝑃 𝑥, 𝑦 ≤ 1 for all pair of values (𝑥, 𝑦)

𝑛 𝑛

2. ෍ ෍ 𝑃(𝑥, 𝑦) = 1
𝑖=1 𝑗=1

Automne 2023 MBA5500 Analyse Descriptive des données 17


Modèles probabilistes discrets
Distribution bivariée (exemple 1 sur 3)
Xavier et Yvette sont agents immobiliers. Soit X le nombre de maisons
que Xavier vendra en un mois et Y le nombre de maisons qu'Yvette
vendra en un mois.
Une analyse de leurs performances mensuelles passées donne les
probabilités conjointes suivantes :

Par exemple, la probabilité que Xavier ne vende pas de maison (0) et


Yvette 1 maison au cours du mois est P(0,1) = 0,21.

Automne 2023 MBA5500 Analyse Descriptive des données 18


Modèles probabilistes discrets
Distribution bivariée (exemple 2 sur 3)
Les distributions de probabilités marginales de X et Y sont les suivantes :

Automne 2023 MBA5500 Analyse Descriptive des données 19


Modèles probabilistes discrets
Distribution bivariée (exemple 3 sur 3)
Comme pour la distribution à une variable, nous pouvons décrire la
distribution à deux variables en calculant la moyenne, la variance et
l'écart type de chaque variable à l'aide des probabilités marginales
respectives.
La distribution marginale de X La distribution marginale de Y

𝐸 𝑋 = 𝜇𝑥 = σ 𝑥𝑃(𝑥) = 0 .4 + 1 .5 + 𝐸 𝑌 = 𝜇𝑦 = σall 𝑦 𝑦𝑃(𝑦) = 0 .6 +


2 .1 = 0.7 1 .3 + 2 .1 = 0.5
2
𝑉 𝑌 = 𝜎𝑦 2 = σ 𝑦 − 𝜇𝑦 𝑃 𝑦 =
𝑉 𝑋 = 𝜎𝑥 2 = σ 𝑥 − 𝜇𝑥 2 𝑃 𝑥 =
0 − .5 2 .6 + 1 − .5 2 .3 +
0 − .7 2 .4 + 1 − .7 2 .5 + 2 − .5 2 .1 = 0.45
2 − .7 2 .1 = 0.41
𝜎𝑦 = 𝜎𝑦 2 = 0.45 = 0.67
𝜎𝑥 = 𝜎𝑥 2 = 0.41 = 0.64

Automne 2023 MBA5500 Analyse Descriptive des données 20


Modèles probabilistes discrets
Covariance et coefficient de correlation
La covariance et le coefficient de corrélation décrivent la relation entre
les deux variables discrètes de la distribution bivariée.
La covariance

COV 𝑋, 𝑌 = 𝜎𝑥𝑦 = ෍ ෍ 𝑥 − 𝜇𝑥 𝑦 − 𝜇𝑦 𝑃 𝑥, 𝑦
𝑡𝑜𝑢𝑠 𝑡𝑜𝑢𝑠
𝑙𝑒𝑠 𝑋 𝑙𝑒𝑠 𝑌

Le coefficient of correlation est:


𝜎𝑥𝑦
𝜌=
𝜎𝑥 𝜎𝑦

Automne 2023 MBA5500 Analyse Descriptive des données 21


Modèles probabilistes discrets
Exemple (1 sur 2): La covariance et le coefficient de corrélation pour le
nombre de maison vendues
Une analyse de leurs performances mensuelles passées donne les
probabilités conjointes suivantes :

• La covariance est :
COV 𝑋, 𝑌 = 𝜎𝑥𝑦 ෍ ෍ 𝑥𝑦𝑃 𝑥, 𝑦 − 𝜇𝑥 𝜇𝑦

= 0 0 .12 + 1 0 .42 + + 2 0 .06 + 0 1 .21


+ 1 1 .06 + + 2 1 .03 + 0 2 .07 + 1 2 .02
+ + 2 2 .01 − (0.7)(0.5) = −0.15

Automne 2023 MBA5500 Analyse Descriptive des données 22


Modèles probabilistes discrets
Exemple (1 sur 2): La covariance et le coefficient de corrélation pour le
nombre de maison vendues
Une analyse de leurs performances mensuelles passées donne les
probabilités conjointes suivantes :

Compte tenu des écarts types calculés précédemment pour X et Y :


𝜎𝑥𝑦 −0.15
𝜌= = = −.35
𝜎𝑥 𝜎𝑦 (0.64)(0.67)

Il existe une faible relation négative entre les deux variables : le nombre
de maisons que Xavier vendra en un mois (X) et le nombre de maisons
qu'Yvette vendra en un mois (Y).

Automne 2023 MBA5500 Analyse Descriptive des données 23


Modèles probabilistes discrets
Espérance mathématique et variance de deux variables:

1. 𝐸(𝑋+𝑌)=𝐸(𝑋)+𝐸(𝑌)

2. 𝑉(𝑋+𝑌)=𝑉(𝑋)+𝑉(𝑌)+2 𝐶𝑂𝑉(𝑋,𝑌)

3. Si X et Y sont deux variables indépendants alors 𝐶𝑂𝑉 𝑋, 𝑌 = 0, par


conséquent: 𝑉 𝑋 + 𝑌 = 𝑉 𝑋 + 𝑉 𝑌

Automne 2023 MBA5500 Analyse Descriptive des données 24


Modèles probabilistes discrets

Exemple: Espérance et variance de la somme de deux


variables pour le nombre de ventes de maisons:

𝐸 𝑋 + 𝑌 = 𝐸 𝑋 + 𝐸 𝑌 = 0.7 + 0.5 = 1.2


𝑉 𝑋 + 𝑌 = 𝑉 𝑋 + 𝑉 𝑌 + 2 𝐶𝑂𝑉 𝑋, 𝑌 = .41 + .45 + 2 −0.15
= 0.56
𝜎𝑥+𝑦 = 𝑉(𝑋 + 𝑌) = 0.56 = .75

Automne 2023 MBA5500 Analyse Descriptive des données 25


Modèles probabilistes discrets

Moyenne et variance d'un portefeuille de deux actions


Les analystes financiers réduisent le risque associé au marché boursier
grâce à la diversification. La stratégie mathématique de diversification
développée par Harry Markowitz en 1952 a ouvert la voie au
développement de la théorie moderne du portefeuille.
La moyenne et la variance d'un portefeuille composé de deux actions
sont déterminées comme suit :
𝐸 𝑅𝑃 = 𝑤1 𝐸 𝑅1 + 𝑤2 𝐸 𝑅2
𝑉 𝑅𝑃 = 𝑤12 𝜎12 + 𝑤22 𝜎12 + 2𝑤1 𝑤2 𝜌𝜎1 𝜎2

Où w1 et w2 sont les poids des investissements 1 et 2, E(R1) et E(R2)


leurs valeurs attendues, σ1 et σ2 leurs écarts types et ρ le coefficient de
corrélation.

Automne 2023 MBA5500 Analyse Descriptive des données 26


Modèles probabilistes discrets
Moyenne et variance d'un portefeuille de deux actions (Exemple)
Un investisseur a décidé de constituer un portefeuille en investissant
25 % dans des actions McDonald's et 75 % dans des actions Cisco
Systems.
L'investisseur suppose que les rendements attendus seront de 8 % et
15 %, et que les écarts types seront de 12 % et 22 %, respectivement.
1. Trouvez le rendement attendu du portefeuille.
2. Calculez l'écart-type des rendements du portefeuille en supposant
que :
i. les rendements des deux actions sont parfaitement corrélés
positivement.
ii. le coefficient de corrélation est de 0,5.
iii. les rendements des deux actions ne sont pas corrélés.

Automne 2023 MBA5500 Analyse Descriptive des données 27


Modèles probabilistes discrets
Moyenne et variance d'un portefeuille de deux actions (Exemple suite)
1. Le rendement annuel prévu pour le portefeuille
𝐸 𝑅𝑃 = 𝑤1 𝐸 𝑅1 + 𝑤2 𝐸 𝑅2 = .25 .08 + .75 .15 = .1325
2. L'écart-type des rendements du portefeuille :
𝑉 𝑅𝑃 = 𝑤12 𝜎12 + 𝑤22 𝜎12 + 2𝑤1 𝑤2 𝜌𝜎1 𝜎2 =
=.252 .12 +.752 .22 + 2𝜌 .25 .75 .12 .22
= .0281 + .0099𝜌
i. Si ρ = 1: 𝑉 𝑅𝑃 = .0281 + .0099 = .0380
𝜎𝑃 = 𝑉 𝑅𝑃 = .0380 = .1949
ii. Si ρ = .5: 𝑉 𝑅𝑃 = .0281 + (.0099)(.5) = .0331
𝜎𝑃 = 𝑉 𝑅𝑃 = .0331 = .1819
iii. Si ρ = 0: 𝑉 𝑅𝑃 = .0281 + .0099(0) = .0281
𝜎𝑃 = 𝑉 𝑅𝑃 = .0281 = .167

Automne 2023 MBA5500 Analyse Descriptive des données 28


Modèles probabilistes discrets

Condition d’application du modèle binomial


a. L’issue de l’experience (ou de l’essai) ne comporte que deux
résultats possibles: succès ou insuccès.
b. On repète (successivement ou simultanément) n fois l’expérience et
on s’intéresse au nombre de fois que l’évènement « succès » n se
réalise dans ces n essais (ou tirages).
c. La probabilité de réalisation de l’évènement « succès » est la même
à chaque essai et est notée « p » .
d. Les essais sont indépendants et non exhaustifs c’est à dire les
conditions de sélection sont identiques, ne modifient pas la
composition de la populationet le résultat observe à un essai
n’affecte pas le résultat que l’on obtient à l’essai suivant.

Automne 2023 MBA5500 Analyse Descriptive des données 29


Modèles probabilistes discrets

La loi binomiale
Soit une série de n épreuves successives et indépendantes
dont l’issue de chaque épreuve est soit « succès » avec
une probabilité p, soit « insuccès » avec une probabilité
𝑞 = 1 − 𝑝, alors la probabilité d’avoir x succès en n
épreuves est donnée par l’expression :
𝑛 𝑥
𝑃 𝑋 = 𝑥 = 𝑝 𝑝 ∗ 1 − 𝑝 𝑛−𝑥
𝑛!
= 𝑝𝑥 ∗ 1−𝑝 𝑛−𝑥
𝑥! 𝑛−𝑥 !
x= 0,1,2, … . 𝑛, 0 ≤ 𝑝 ≤ 1
Cette loi est dite binomilae et depend de n et p.

Automne 2023 MBA5500 Analyse Descriptive des données 30


Modèles probabilistes discrets
Moyenne, Variance et Écart-type d’une variable binomiale

Si X est une variable aléatoire distribuée d’après une loi


binomiale, alors l’espérance mathématique (moyenne) de
X, la variance de l’écart-type sont respectivement:
𝐸 𝑋 = 𝑛𝑝
𝑉𝑎𝑟 𝑋 = 𝑛𝑝 1 − 𝑝
𝜎 𝑋 = 𝑛𝑝 1 − 𝑝

Automne 2023 MBA5500 Analyse Descriptive des données 31


Modèles probabilistes discrets

La loi binomiale (Exemple 1 sur 2)


Pat est un (mauvais) étudiant qui suit un cours de
statistiques. La stratégie d'examen de Pat consiste à s'en
remettre à la chance pour la prochaine interrogation.
Le test consiste en 10 questions à choix multiples. Chaque
question comporte cinq réponses possibles, dont une seule
est correcte. Pat prévoit de deviner la réponse à chaque
question.
1. Quelle est la probabilité que Pat n'obtienne aucune
réponse correcte ?
2. Quelle est la probabilité que Pat obtienne deux réponses
correctes ?

Automne 2023 MBA5500 Analyse Descriptive des données 32


Modèles probabilistes discrets

La loi binomiale (Exemple 2 sur 2)


Solution:
Il s’agit d’une experience qui suit une loi binomiale:
1. n = 10
2. Deux résultats: réponse correcte et réponse incorrecte.
3. Probabilité d’avoir une réponse correcte: p = 1/5 = .2.
4. Les réponses aux questions sont indépendantes
:Nous pouvons appliquer la distribution de probabilité binomiale pour
répondre aux deux questions:
10! 0 .8(10−0) =
a. x = 0: 𝑃 0 = 0! .2 1 1 (.8)10 = .1074
10−0 !
10! 2 .8(10−2) = 9∙10 (.2)2 (.8)8
b. x = 2: 𝑃 2 = 2! .2
10−2 ! 2
= 45 .04 .1678 = .3020

Automne 2023 MBA5500 Analyse Descriptive des données 33


Modèles probabilistes discrets

La probabilité cumulative
La probabilité qu'une variable aléatoire soit inférieure ou
égale à une valeur x est appelée probabilité cumulative et
est représentée par P(X ≤ x).
Dans le cas d'une distribution de probabilité discrète, telle
que la distribution binomiale, nous pouvons écrire :

𝑃 𝑋 ≤ 𝑥 = ෍ 𝑃(𝑋 = 𝑥)
𝑋=0

Automne 2023 MBA5500 Analyse Descriptive des données 34


Modèles probabilistes discrets

La probabilité cumulative (Exemple 1 sur 2)


Pat est un (mauvais) étudiant qui suit un cours de
statistiques. La stratégie d'examen de Pat consiste à s'en
remettre à la chance pour la prochaine interrogation.
Le test consiste en 10 questions à choix multiples. Chaque
question comporte cinq réponses possibles, dont une seule
est correcte. Pat prévoit de deviner la réponse à chaque
question.
Question:
Trouvez la probabilité que Pat échoue au test. Dans le
cadre de cet exercice, une note est considérée comme un
échec si elle est inférieure à 50 %.

Automne 2023 MBA5500 Analyse Descriptive des données 35


Modèles probabilistes discrets

La probabilité cumulative (Exemple 2 sur 2)


Solution:
Comme il y a 10 questions, 50% correspond à une note de
5. Les notes devant être des nombres entiers, une note
inférieure ou égale à 4 est un échec.
𝑃 𝑋 ≤4 =𝑃 0 +𝑃 1 +𝑃 2 +𝑃 3 +𝑃 4
= .1074 + .2684 + .3020 + .2013 + .0881 = .9672
Il y a une probabilité de 96,72 % que Pat échoue au test en
devinant la réponse à chaque question.

Automne 2023 MBA5500 Analyse Descriptive des données 36


Modèles probabilistes discrets

Exemple: Probabilités cumulées de la loi


binomiale B(n,p)
Par exemple, pour trouver la
probabilité que Pat réponde
exactement à deux questions :
𝑃 2 =𝑃 𝑋 ≤2 −𝑃 𝑋 ≤1
= .6778 − .3758 = .3020
La probabilité que Pat réussisse le
quiz est :
𝑃(𝑋≥5)=1−𝑃(𝑋≤4)=1−.9672=
.0328

Automne 2023 MBA5500 Analyse Descriptive des données 37


Modèles probabilistes discrets
Le modèle de Poisson
Une variable aléatoire X prenant le valeurs entières 0,1,,,n ..avec les
probabilités
𝑒 −𝜇 𝜆𝑘
𝑃 𝑥 = avec 𝜆 > 0, 𝑒 = 2,71828
𝑘!
est dite obéir à une loi de Poisson de paramètre 𝜆

• L’espérance mathématique (la moyenne) est égale à 𝐸 𝑋 = 𝜆


• La variance est: Var 𝑋 = 𝜆
• L’écart-type est: 𝜎 𝑋 = 𝜆

La loi de Poisson s’avère particulièrement utile pour décrire le


comportement d’évènements dont les chances de realidsation sont
faibles.
Automne 2023 MBA5500 Analyse Descriptive des données 38
Modèles probabilistes discrets

Le modèle de Poisson (Exemple)


Un professeur de statistiques a observé que le nombre de fautes de
frappe dans les nouvelles éditions de manuels scolaires est distribué
selon la loi de Poisson avec une moyenne de 1,5 pour 100 pages.
L'instructeur sélectionne au hasard 100 pages d'un nouveau livre.
Nous voulons déterminer la probabilité qu'une variable aléatoire de
Poisson avec une moyenne de 1,5 soit égale à 0.
Solution:
En utilisant la formule de la distribution de probabilité de Poisson, avec
x = 0, et 𝜆 = 1,5, on obtient :
𝑒 −𝜇 𝜆𝑘 𝑒 −1.5 1.50
𝑃 0 = = = 𝑒 −1.5 = .2231
𝑘! 0!
La probabilité que les 100 pages sélectionnées ne contiennent aucune
erreur est de 0,2231.

Automne 2023 MBA5500 Analyse Descriptive des données 39


Modèles probabilistes discrets

Le modèle de Poisson (Exemple 1 sur 2)


Un professeur de statistiques a observé que le nombre de fautes de
frappe dans les nouvelles éditions de manuels scolaires est distribué
selon la loi de Poisson avec une moyenne de 1,5 pour 100 pages.
L'instructeur sélectionne au hasard 100 pages d'un nouveau livre.

Calculez la probabilité que pour un livre de 400 pages, il n'y ait (a)
aucune faute de frappe, et (b) pas plus de cinq fautes de frappe.

Automne 2023 MBA5500 Analyse Descriptive des données 40


Modèles probabilistes discrets

Le modèle de Poisson (Exemple 2 sur 2)


Solution:
S'il y a 1,5 erreur pour 100 pages, alors il doit y avoir
4 x 1,5 = 6 erreurs pour 400 pages de manuel, soit 𝜆 = 6.
a. La probabilité qu’il n'y ait aucune faute de frappe :
𝑒 −𝜇 𝜆𝑘 𝑒 −6 60
𝑃 0 = = = 𝑒 −6 = .002479
𝑘! 0!
b. La probabilité qu’il n’y ait pas plus de cinq fautes de frappe :
𝑃 𝑋 ≤5 = 𝑃 0 +𝑃 1 +𝑃 2 +𝑃 3 +𝑃 4 +𝑃 5
= .002479 + .01487 + .04462 + .08924 + .1339 + .1606 = .4457

Automne 2023 MBA5500 Analyse Descriptive des données 41


Modèles probabilistes discrets
Calculons la probabilité qu’il y ait Probabilités cumulées de la loi de
exactement 10 fautes de frappes : Poisson

𝑃 10 = 𝑃 𝑋 ≤ 10 − 𝑃 𝑋 ≤ 9
= .9574 − .9161 = .0413

Calculons la probabilité qu’il y ait au


plus de 5 fautes de frappes :
𝑃 𝑋 ≥6 =1−𝑃 𝑋 ≤5
= 1 − .4457 = .5543

Automne 2023 MBA5500 Analyse Descriptive des données 42


Modèles probabilistes discrets

Résumé:
Il existe deux types de variables aléatoires :
• Une variable aléatoire discrète dont les valeurs sont dénombrables.
• Une variable aléatoire continue qui peut prendre un nombre indéfini
de valeurs.
Jusqu’à présent, nous avons défini la valeur attendue, la variance et
l'écart type d'une population décrite par une variable aléatoire discrète
et représentée par une distribution de probabilité discrète.
Nous avons également introduit les distributions discrètes bivariées sur
la base d'une application importante en finance.
Enfin, nous avons présenté les deux distributions discrètes les plus
importantes : la distribution binomiale et la distribution de Poisson.

Automne 2023 MBA5500 Analyse Descriptive des données 43


Modèles probabilistes continus

Aperçu:

• Les fonctions de densité de probabilité


• La distribution normale
• La distribution exponentielle

Automne 2023 MBA5500 Analyse Descriptive des données 44


Modèles probabilistes continus
On veut estimer la probabilité estimée La courbe de fréquence idéalisée porte le
entre 25 et 45 ans à partir de nom de densité de probabilité,
l'histogramme

Automne 2023 MBA5500 Analyse Descriptive des données 45


Modèles probabilistes continus

Utilisation d'une distribution continue pour approximer une


distribution discrète
Dans notre définition, nous distinguons les variables aléatoires
discrètes et continues en notant si le nombre de valeurs
possibles est dénombrable ou non.
Dans la pratique, nous utilisons une distribution continue pour
approximer une distribution discrète lorsque le nombre de valeurs
que la variable peut prendre est dénombrable mais important.
Exemple : les valeurs du revenu hebdomadaire, exprimées en
dollars.
Il s'agit d'une variable dénombrable, mais comme les résultats
sont très nombreux, il est préférable d'utiliser une distribution de
probabilité continue pour déterminer les probabilités associées à
la variable.
Automne 2023 MBA5500 Analyse Descriptive des données 46
Modèles probabilistes continus
La distribution normale est la plus importante de toutes les distributions de probabilité en raison de
son rôle crucial dans l'inférence statistique.

La fonction de densité de probabilité d'une


variable aléatoire normale est la suivante:
1 1 𝑥−𝜇 2
−2 𝜎
𝑓 𝑥 = 𝑒
𝜎 2𝜋
où e = 2,71828... et π = 3,14159...
La distribution normale est décrite par la
moyenne μ et l'écart-type σ.
• Remarquez qu'une distribution normale
est symétrique par rapport à sa
moyenne et que la variable aléatoire
varie entre -∞ et + ∞.
• Changer la valeur de μ déplace la
distribution vers la gauche ou la droite.
• L'augmentation de la valeur de σ élargit
la distribution
Automne 2023 MBA5500 Analyse Descriptive des données 47
Modèles probabilistes continus

Calcul de probabilités normales


Pour calculer la probabilité qu'une variable aléatoire
normale tombe dans un intervalle quelconque, nous devons
calculer l'aire de l'intervalle sous la courbe.
Cependant, comme l'aire sous la courbe pour tout intervalle
dépend de la moyenne, μ, et de l'écart type, σ, nous devons
d'abord normaliser la variable aléatoire en soustrayant μ et
en divisant par σ.
Lorsque la variable est normale, la variable transformée est
appelée variable aléatoire normale standard et notée Z :
𝑋−𝜇
𝑍=
𝜎

Automne 2023 MBA5500 Analyse Descriptive des données 48


Modèles probabilistes continus
Exemple (1 sur 3)
Supposons que la demande quotidienne d’essence P(X < 1,100)
ordinaire dans une station-service soit normalement
distribuée avec une moyenne de 1 000 gallons et un écart
type de 100 gallons.
Le directeur de la station vient d'ouvrir ses portes et a noté
qu'il y avait exactement 1 100 gallons d'essence ordinaire
entreposés.
Le gestionnaire aimerait connaître la probabilité qu’il y ait
suffisamment d’essence ordinaire pour satisfaire la
demande actuelle avant le nouvel approvisionnement.
Solution: P(Z < 1.00)
Soit X la demande d’essence ordinaire et nous voulons
trouver
P(X < 1 100), comme indiqué en haut à droite.
Tout d’abord, nous standardisons X :
𝑋 − 𝜇 1,100 − 1,000
𝑃 𝑋 < 1,100 = 𝑃 <
𝜎 100
= 𝑃(𝑍 < 1.00)

Automne 2023 MBA5500 Analyse Descriptive des données 49


Modèles probabilistes continus
Exemple (2 sur 3) Exemple (3 sur 3)
Nous trouvons la probabilité souhaitée dans le tableau Par exemple, pour trouver la probabilité que Z
suivant situé à gauche: soit supérieur à 1,80, on écrit :
𝑃 𝑍 > 1.80 = 1 − 𝑃 𝑍 ≤ 1.80
𝑃 𝑋 < 1,100 = 𝑃 𝑍 < 1.00 = .8413 = 1 − 𝑃 𝑍 < 1.80
Nous trouvons la probabilité souhaitée dans le
tableau suivant:
𝑃 𝑍 > 1.80 = 1 − .9641 = .0359

Automne 2023 MBA5500 Analyse Descriptive des données 50


Modèles probabilistes continus
Déterminer la probabilité qu'une
variable aléatoire normale standard se
situe entre deux valeurs de z.
Par exemple, on peut obtenir la
probabilité de l'intervalle entre -0,71 et
0,92 en calculant la différence entre
deux probabilités cumulées.
𝑃 −0.71 < 𝑍 < 0.92
= 𝑃 𝑍 < 0.92 − 𝑃 𝑍 < −0.71
D'après le tableau de droite, nous
trouvons :
𝑃 𝑍 < −0.71 = .2389
et
𝑃 𝑍 < 0.92 = .8212
par conséquent:
𝑃 −0.71 < 𝑍 < 0.92
= .8212 − .2389 = .5823
Automne 2023 MBA5500 Analyse Descriptive des données 51
Modèles probabilistes continus
Calcul des valeurs de Z

Il existe une famille de problèmes qui nécessite de déterminer la valeur de Z


en fonction d'une probabilité. Nous utilisons la notation 𝑍𝐴 pour représenter la
valeur de z telle que l'aire à sa droite sous la courbe normale standard soit A :

𝑃 𝑍 > 𝑍𝐴 = 𝐴

Automne 2023 MBA5500 Analyse Descriptive des données 52


Modèles probabilistes continus
Calcul de la valeur 𝒁𝟎.𝟎𝟓
Trouvez la valeur d’une variable aléatoire
distribuée normale telle que la probabilité
de la variable aléatoire soit supérieure à
cette quantité soit 5% (𝒁𝟎.𝟎𝟓 ).
Solution:
La probabilité que z soit inférieur à 𝒁𝟎.𝟎𝟓
doit être 1 - 0.05 = 0.9500. Pour trouver
𝒁𝟎.𝟎𝟓 , nous situons 0.9500 sur la table.
Comme vous pouvez le voir sur la table de
droite, deux valeurs de Z sont également
proches : 0,9495 et 0,9505.
Ces deux probabilités correspondent aux
valeurs Z de 1,64 et 1,65, respectivement.
On peut donc dire que : 𝒁𝟎.𝟎𝟓 = 1.645.

Automne 2023 MBA5500 Analyse Descriptive des données 53


Modèles probabilistes continus
Calcul de la valeur −𝒁𝟎.𝟎𝟓
Trouvez la valeur d’une variable aléatoire distribuée normale telle que la probabilité de la
variable aléatoire soit inférieure à cette quantité soit 5% (−𝒁𝟎.𝟎𝟓 ).
Solution:
Comme la courbe normale est symétrique par rapport à 0, et que nous savons que
Z.0.05 = 1.645, nous pouvons dire que : -Z.0.05 = -1.645,

Automne 2023 MBA5500 Analyse Descriptive des données 54


Autres probabilistes continus

Quelques distributions continues qui sont utilisées dans


l'inférence statistique.

• Distribution t de Student (Student t distribution)


• Distribution Chi-Carré (Chi-squared distribution)
• Distribution F de Fisher (F distribution)

Automne 2023 MBA5500 Analyse Descriptive des données 55


Analyse descriptive des données
MBA5500 – Automne 2023

Modèles probabilistes discrets et continus

Automne 2023 MBA5500 Analyse Descriptive des données 56

Vous aimerez peut-être aussi