Vous êtes sur la page 1sur 35

Aide à la décision - Statistique ULB - 2002

Aide à la décision - Statistique


Bertrand Mareschal
Université Libre de Bruxelles
Boulevard du Triomphe – CP210/01 – 1050 Bruxelles
Tél. 02 / 6505884 - Fax. 02 / 6505970
Email : bmaresc@ulb.ac.be
http://homepages.ulb.ac.be/~bmaresc

Résumé
1. Introduction
Statistique ?
Principes de Base
2. Statistique Descriptive
Représentations Graphiques
Paramètres usuels (position, dispersion, …)
3. Probabilités
Définitions, Propriétés, Théorèmes
Distributions de Probabilité
Distributions usuelles (Binomiale, Normale)
4. Echantillonnage
Echantillonnage Simple
Distributions d’Echantillonnage
Techniques Avancées
5. Inférence Statistique – Estimation
Estimateurs (proportion, moyenne, variance)
Intervalles de Confiance
6. Inférence Statistique – Tests d’Hypothèses
Principe
Tests Usuels (proportion, moyenne, variance)
7. Analyse de la Variance
8. Régression Linéaire et Corrélation
Régression Linéaire Simple
Coefficient de Corrélation
Régression Multiple
9. Tests du Chi-carré
10. Méthodes de Prévision
–1–
Aide à la décision - Statistique ULB - 2002

1. Introduction
Statistique ?
Données numériques : démographie, emploi, ventes, production,
stocks, index des prix, intentions de votes, habitudes de
consommation, …
Techniques et procédures pour la collecte, la description,
l’analyse et l’interprétation des données.
Vocabulaire de base :
- Population : Ensemble des éléments étudiés.
(individus, pays, entreprises, …)
- Echantillon : Sous-ensemble de la population pour laquelle
on récolte des observations et qui peut être analysé.
- Variable : Caractéristique mesurable de la population.
(chiffre d’affaire d’une entreprise, temps consacré par un
individu à l’utilisation d’une base de données, …)
- Paramètre : Quantité numérique qui résume un aspect de la
population.
(valeur moyenne d’une variable)
- Statistique : Quantité numérique qui résume un aspect d’un
échantillon.
(valeur moyenne observée sur un échantillon)
- Inférence statistique : Utiliser l’information relative à un
échantillon pour tirer des conclusions quant à la population.
Types de données :
- Données quantitatives : Valeurs numériques.
- Données qualitatives : Non numériques.
o Nominales : par ex. le pays d’origine d’un individu,
o Ordinales : par ex. le grade obtenu par un étudiant.
–2–
Aide à la décision - Statistique ULB - 2002

2. Statistique Descriptive
Objectif : Résumer les caractéristiques d’un (grand) ensemble de
données. Mettre en évidence les points importants.
Tableaux : Première étape. Tri et regroupement des observations.
Distribution de fréquences.
Graphiques : Visualisation des données.
Lignes, barres, histogrammes, diagrammes en secteurs, …
Mesures : Synthèse des données en quelques grandeurs
représentatives.
Quel est l’ordre de grandeur des valeurs observées ?
→ Paramètres de position (moyenne, médiane, …)
Y a-t-il de grands écarts entre les valeurs observées ?
→ Paramètres de dispersion (variance, écart-type, …)

Pour une population : Paramètres,


Pour un échantillon : Statistiques.

–3–
Aide à la décision - Statistique ULB - 2002

1. Trier les données

▪ Données brutes (telles que recueillies) : n observations


Exemple 1 : Ages de 100 employés d’une entreprise (échantillon)
60 39 23 30 29 26 29 41 40 32
63 22 32 52 46 35 25 28 33 33
20 25 42 34 29 43 41 31 30 36
58 21 24 55 51 28 18 40 44 38
32 21 30 31 25 49 31 26 33 36
43 34 35 22 33 38 34 34 33 34
23 26 57 23 26 36 39 31 35 34
34 51 40 50 35 45 28 36 32 39
26 48 17 45 45 25 25 30 36 30
43 25 27 21 53 25 38 33 37 33

▪ Données triées (par ordre croissant) :


Exemple 1 : Ages de 100 employés d’une entreprise
17 18 20 21 21 21 22 22 23 23
23 24 25 25 25 25 25 25 25 26
26 26 26 26 27 28 28 28 29 29
29 30 30 30 30 30 31 31 31 31
32 32 32 32 33 33 33 33 33 33
33 34 34 34 34 34 34 34 35 35
35 35 36 36 36 36 36 37 38 38
38 39 39 39 40 40 40 41 41 42
43 43 43 44 45 45 45 46 48 49
50 51 51 52 53 55 57 58 60 63

–4–
Aide à la décision - Statistique ULB - 2002

2. Distribution de fréquences
▪ Regrouper les données en classes (intervalles) :
- intervalles contigus disjoints,
- recouvrement de toutes les valeurs observées.
▪ Compter le nombre de valeurs observées dans chaque intervalle :
fréquence.
▪ Distribution de fréquences :
- présentation tabulaire :
Age Fréquence
15-19 2
20-24 10
25-29 19
30-34 27
35-39 16
40-44 10
45-49 6
50-54 5
55-59 3
60-64 2
Total 100

- nombre d’intervalles (k) ?


Trop petit → perte d’information.

Age Frequency
15-34 58
35-54 37
55-74 5
Total 100

–5–
Aide à la décision - Statistique ULB - 2002

Trop grand → pas de synthèse.

Age Frequency Age Frequency


15-17 1 42-44 5
18-20 2 45-47 4
21-23 8 48-50 3
24-26 13 51-53 4
27-29 7 54-56 1
30-32 13 57-59 2
33-35 18 60-62 1
36-38 9 63-65 1
39-41 8

→ En pratique : - entre 6 et 15 classes,


- règle de Sturge :
k ≈ 1 + 3.322 × log10 n
- largeur des intervalles :
W = Etendue / k
- arrondis éventuels.

Exemple 1 :
k ≈ 1 + 3.322 × log10 100 = 7.644 → 8
W = ( 63 − 17 ) / 8 = 5.75 → 6
→ plus facile de prendre 10 classes de largeur 5.

–6–
Aide à la décision - Statistique ULB - 2002

▪ Fréquences cumulées : nombre d’observations inférieures ou


égales à une valeur donnée.
▪ Fréquences relatives : proportions des observations situées dans
chaque classe (fréquence / n) → indépendant de n.

Age Fréquence Fréquence Fréquence Fr.


Cumulée Relative Relative
Cumulée
15-19 2 2 0.02 0.02
20-24 10 12 0.10 0.12
25-29 19 31 0.19 0.31
30-34 27 58 0.27 0.58
35-39 16 74 0.16 0.74
40-44 10 84 0.10 0.84
45-49 6 90 0.06 0.90
50-54 5 95 0.05 0.95
55-59 3 98 0.03 0.98
60-64 2 100 0.02 1.00
Total 100 1.00

–7–
Aide à la décision - Statistique ULB - 2002

3. Représentations graphiques

A. Données quantitatives

▪ Histogramme :
Histogramme

30

25

20
Fréquence

15

10

0
12 17 22 27 32 37 42 47 52 57 62 67
Age

▪ Polygone des fréquences :


Polygone des fréquences

30

25

20
Fréquence

15

10

0
12 17 22 27 32 37 42 47 52 57 62 67
Age

–8–
Aide à la décision - Statistique ULB - 2002

▪ Ogive :
Ogive

120

100
Fréquence cumulée

80

60

40

20

0
14,5 19,5 24,5 29,5 34,5 39,5 44,5 49,5 54,5 59,5 64,5
Age

▪ « Stem-and-Leaf » :
- Chaque valeur observée est divisée en deux parties : la tige
(stem – chiffres les plus significatifs) et la feuille (leaf –
chiffres les moins significatifs).
- Les valeurs correspondant à une même tige sont représentées
par leur feuilles sur une même ligne.

Exemple 1 : 17 → 1|7

1 78
2 01112233345555555666667888999
3 0000011112222333333344444445555666667888999
4 0001123334555689
5 01123578
6 03

–9–
Aide à la décision - Statistique ULB - 2002

B. Données qualitatives

▪ Tableau des fréquences : par rapport à la liste des catégories de


la variable.
Exemple 2 : On s’intéresse au type d’activité principale de 40
entreprises. Il y a 5 types possibles (catégories) :
I (industrie), T (transport), C (communications),
S (services), A (autres).

Activité principale Fréquence


Industrie 15
Communications 10
Transport 8
Services 3
Autres 4
Total 40

▪ Diagramme en bâtons :

Diagramme en bâtons

S
Fréquence

0 5 10 15 20
Activité

– 10 –
Aide à la décision - Statistique ULB - 2002

4. Mesures descriptives

A. Mesures de position (tendance centrale)

▪ Moyenne arithmétique :
Exemple 3 : échantillon de 7 observations :
99,8 101,7 102,2 104,0 97,4 96,5 102,2
99,8 + 101,7 + 102, 2 + 104,0 + 97, 4 + 96,5 + 102, 2
x =
→ 7
= 100,54
Formule :
n

x1 + x2 + … + xn ∑
xi
x= = i =1
n n
où : - n est le nombre d’observations,
- x1, x2, …, xn sont les n valeurs observées.
Inconvénient : fortement influencée par les valeurs extrêmes :
Exemples :
n = 7 : 99,8 101,7 102,2 104,0 97,4 96,5 202,2
→ x = 114,8
n = 7 : 99,8 101,7 102,2 104,0 97,4 96,5 1002,2
→ x = 229,1

– 11 –
Aide à la décision - Statistique ULB - 2002

▪ Population ↔ échantillon :
Echantillon Population
Taille n N
Moyenn x µ
e (statistique) (paramètre)

▪ Propriété :
n

∑ ( xi − x ) = 0
i =1

▪ Moyenne pondérée : lorsque les fréquences d’apparition (ou


l’importance) des valeurs observées varient :

xw = ∑
wi × xi
∑ wi
où wi est le poids de xi
Exemples :
- moyenne de plusieurs cours,
- nombres indices.

▪ Médiane : valeur telle que 50% des observations sont à sa


gauche et 50% à sa droite.
Exemple :
n = 7 : 99,8 101,7 102,2 104,0 97,4 96,5 102,2
→ valeurs triées :
96,5 97,4 99,8 101,7 102,2 102,2 104,0
→ valeur « centrale » : Médiane = 101,7

– 12 –
Aide à la décision - Statistique ULB - 2002

Calcul :
1° Trier les données par ordre croissant.
2° Si n est impair, la médiane est la valeur « centrale »,
Si n est pair, la médiane est la moyenne arithmétique
des deux valeurs « centrales ».
Exemple :
n = 6 : 99,8 101,7 102,2 104,0 97,4 96,5
→ valeurs triées :
96,5
97,4 99,8 101,7 102,2 104,0
99,8 + 101,7
→ Médiane = = 100,08
2
Avantage : moins influencée par les valeurs extrêmes.
Inconvénient : utilisation plus difficile en inférence statistique.

▪ Mode : valeur qui est observée le plus fréquemment.


Exemple :
n = 7 : 99,8 101,7 102,2 104,0 97,4 96,5 102,2
→ Mode = 102,2
Calcul : Valeur correspondant à la fréquence la plus grande.
Inconvénients :
- N’existe pas nécessairement (si valeurs toutes distinctes),
- N’est pas nécessairement unique.

Exemples :
n=6 : 99,8 101,7 102,2 104,0 97,4 96,5
→ 6 valeurs distinctes → Pas de mode.

– 13 –
Aide à la décision - Statistique ULB - 2002

n = 7 : 99,8 101,7 102,2 104,0 97,4 99,8 102,2


→ 2 modes : 99,8 et 102,2

→ Surtout pour de grands ensembles de données avec beaucoup


de valeurs répétées.

▪ Liens entre moyenne, médiane et mode :


Dépendent de la forme de la distribution.

S ymmetrical
Mean
Mode
Median

S kewed to the left S kewed to the right

Mode Mode
Median Median
Mean Mean

– 14 –
Aide à la décision - Statistique ULB - 2002

▪ Moyenne géométrique : pour des ratios, des taux, des


pourcentages (valeurs positives uniquement).
n
Moyenne géométrique = n
∏ xi
i =1

Exemple : ventes d’une entreprise sur 5 ans :


Année 1 2 3 4 5
Ventes 100 110 132 151,8 170,02
Variation +10% +20% +15% +12%

→ Augmentation moyenne annuelle des ventes ?


x = 14, 25% Moyenne géométrique = 14,19%
100 × (1,1425 ) = 170,38 100 × (1,1419 ) = 170,02
4 4

▪ Moyenne harmonique : pour des données exprimées par unité


de temps (vitesses).
1
H= n
∑ (1 xi ) n
i =1

Exemple : Une voiture parcourt 60 km : 30 km à 90 km/h et 30


km à 120 km/h.
→ Vitesse moyenne ?
x = 105 km/h H = 2 (1 90 + 1 120 ) = 102,86 km/h
Distance parcourue : 60 km
Temps écoulé : 1 3 h + 1 4 h = 7 12 h
→ Vitesse moyenne = 60 × 12 7 = 102.86 km/h = H

– 15 –
Aide à la décision - Statistique ULB - 2002

B. Mesures de dispersion (tendance centrale)


Dans quelle mesure les valeurs sont-elles différentes
les unes des autres ?
Dispersion

0,7

0,6

0,5

0,4 A

0,3 B

0,2

0,1

0
1 2 3 4 5 6 7 8 9 10 11 12 13
Relative frequencies

▪ Etendue : différence entre la plus grande et la plus petite valeur.


Exemple :
n = 7 : 99,8 101,7 102,2 104,0 97,4 96,5 102,2
→ Etendue = 104,0 − 96,5 = 7,5

Exemple : Cotes obtenues par 10 personnes à un test :


Personne 1 2 3 4 5 6 7 8 9 10
Cote 54 55 79 70 86 81 75 89 72 68
→ Etendue = 89 − 54 = 35
▪ Facile à calculer. Mais dépend directement des valeurs extrêmes.
N’utilise que deux valeurs sur n.

– 16 –
Aide à la décision - Statistique ULB - 2002

▪ Ecart moyen absolu : moyenne des écarts (absolus) entre les


valeurs et leur moyenne.
n

∑ xi − x
EMA = i =1

n
Exemple :
n = 7 : 99,8 101,7 102,2 104,0 97,4 96,5 102,2
→ x = 100,54
Valeurs Ecarts Ecarts
xi à la moyenne absolus
99,8 -0,74 0,74
101,7 1,16 1,16
102,2 1,66 1,66
104,0 3,46 3,46
97,4 -3,14 3,14
96,5 -4,04 4,04
102,2 1,66 1,66
Totaux : 0,02 15,86
→ EMA = 15,86 7 = 2, 27

Exemple : Cotes obtenues par 10 personnes à un test :


x = ( 54 + 55 + … + 68 ) 10 = 72,9
54 − 72,9 + 55 − 72,9 + … + 68 − 72,9
EMA =
10
18,9 + 17,9 + … + 4,9
= = 9,1
10
▪ Intuitif. Mais difficile à utiliser en inférence statistique.
– 17 –
Aide à la décision - Statistique ULB - 2002

▪ Variance : moyenne des carrés des écarts entre les valeurs et


leur moyenne.
n

∑ ( xi − x )
2

Variance = i =1

n
Exemple :
n = 7 : 99,8 101,7 102,2 104,0 97,4 96,5 102,2
→ x = 100,54
Valeurs Ecarts Carrés des
xi à la moyenne écarts
99,8 -0,74 0,5476
101,7 1,16 1,3456
102,2 1,66 2,7556
104,0 3,46 11,9716
97,4 -3,14 9,8596
96,5 -4,04 16,3216
102,2 1,66 2,7556
Totaux : 0,02 45,5572
→ Variance = 45,5572 7 = 6,51

▪ Variance population : (population finie)


N

∑ ( xi − µ )
2

σ2 = i =1

N
▪ Estimateur de la variance population : (pour un échantillon)
n

∑ ( xi − x )
2

s2 = i =1

n −1
Exemple : s 2 = 45,5572 6 = 7,59

– 18 –
Aide à la décision - Statistique ULB - 2002

▪ Ecart-type : racine carrée de la variance → même unité que les


xi .
n

∑ ( xi − x )
2

s= i =1

n −1
Exemple : s = 7,59 = 2,76

Exemple : Cotes obtenues par 10 personnes à un test :


( 54 − 72,9 ) + ( 55 − 72,9 ) + … + ( 68 − 72,9 )
2 2 2

s2 =
10 − 1
1248,9
= = 138,77
9
s = 138,77 = 11,8

▪ Ecart-type population :
N

∑ ( xi − µ )
2

σ= i =1

N
▪ Calcul :
( ∑ xi )
2

∑ x2 −i
n
s 2
=
n −1
n ∑ xi2 − ( ∑ xi )
2

=
n ( n − 1)

= ∑ xi2 − n × x 2
n −1

– 19 –
Aide à la décision - Statistique ULB - 2002

( ∑ xi )
2

∑ x2 −
i
σ 2
= N
N
N ∑ xi2 − ( ∑ xi )
2

=
N×N

= ∑ xi2
− µ2
N

▪ Coefficient de variation : rapport de l’écart-type à la moyenne.


s
CV =
x
▪ Utile pour comparer la dispersion de plusieurs jeux de données
avec différentes unités de mesure ou différentes moyennes.

Exemples :
CV = 2,76 100,54 = 0,0275 = 2,75%
CV = 11,8 72,9 = 0,1619 = 16,19%

▪ Théorème de Chebishev : relation entre la dispersion et l’écart-


type :
Etant donné un échantillon de n observations d’une variable X, la
probabilité que X prenne une valeur située à moins de k fois
l’écart-type de la moyenne est au moins égale à 1 − 1 k 2 .

– 20 –
Aide à la décision - Statistique ULB - 2002

C. Mesures pour données groupées


▪ Calcul à partir de la distribution de fréquences.
▪ Perte d’information → approximations des valeurs exactes.

▪ Moyenne :
Hypothèse : toutes les valeurs à l’intérieur d’une classe sont égal à
la valeur centrale de la classe (centre de l’intervalle).
∑ x×f
k

x = i =1 i i
n
où : - k est le nombre de classes,
- xi est le centre de la classe i,
- f i est la fréquence de la classe i.
Exemple : 100 observations groupées en 10 classes
2 × 17 + 10 × 22 + … + 2 × 62
x= = 34,8
100
▪ Variance et écart-type : même hypothèse.
∑ i =1 ( xi − x )
k 2
fi
s2 =
n −1

(∑ )
2
n∑ i =1 xi f i −
k 2 k
x fi
i =1 i
s =
2

n ( n − 1)
Exemple :
100 × 130,67 − 34802
s =
2
= 96,63
100 × 99
s = 96,63 = 9,8

– 21 –
Aide à la décision - Statistique ULB - 2002

▪ Médiane : valeur telle que la surface délimitée par


l’histogramme de la distribution est divisée en deux parties égales.
H istogram

12
M edian
10
Fre que ncy

4 A B
2

0
1 2 3 4 5 6 7
V a lue s

Hypothèse : toutes les valeurs à l’intérieur d’une même classe sont


distribuées de façon uniforme à l’intérieur de l’intervalle.
1° Déterminer la classe dans laquelle la médiane est située :
premier intervalle tel que la fréquence cumulée soit ≥ n 2
2° Utiliser la formule suivante :
j
Médiane = L + ×W
f
Où : - L est la limite inférieure de la classe médiane.
- j = n 2 − fréquence cumulative de la classe précédente.
- f est la fréquence correspondant à la classe médiane.
- W est la largeur de la classe.
Exemple :
1° Classe médiane : 30-34 (fréquence cumulée = 58)
2° L = 29,5 j = 50 − 31 = 19 f = 27 W =5
19
Médiane = 29,5 + × 5 = 33,02
27

– 22 –
Aide à la décision - Statistique ULB - 2002

▪ Mode : classe modale = classe dans laquelle la fréquence est


maximale.
▪ Quantiles : le quantile d’ordre p ( Q p ) est la valeur telle que p
pourcents des valeurs sont inférieures à Q p et 100-p pourcents
sont plus grandes que Q p .
→ Médiane = Q50
Exemple :
25 − 12
Q25 = 24,5 + × 5 = 27,92
19
60 − 58
Q60 = 34,5 + × 5 = 35,13
16
▪ Quartiles :
Q25 Q50 Q75
▪ Box plot : représentation graphique utilisant les quartiles.
1° La variable est représentée sur l’axe horizontal.
2° On contruit une boîte rectangulaire déterminée par Q25 et
Q75 .
3° Une ligne verticale traverse la boîte en Q50 .
4° Des lignes horizontales prolongent la boîte jusqu’aux valeurs
extrêmes observées.

m in Q 25 Q 50 Q 75 m ax

D. Autre types de mesures descriptives


▪ Mesures de symétrie.
– 23 –
Aide à la décision - Statistique ULB - 2002

▪ Mesures de forme.

– 24 –
Aide à la décision - Statistique ULB - 2002

3. Probabilités
Comme mesurer l’incertitude ?
▪ Expérience : processus qui fournit des observations.
Exemple :
- déterminer quelle marque de lessive un consommateur
préfère,
- enregistrer la consommation d’une voiture sur une semaine,

▪ Résultat : résultat d’une expérience.
Exemple :
- « Marque A » ou « Marque B »,
- 9 l/100km, 12 l/100km, …
▪ Evénement : ensemble constitué d’un ou de plusieurs résultats.
Exemple :
- moins de 8 l/100km, entre 10 et 12 l/100km, …
▪ Espace échantillon : ensemble de tous les résultats possibles
pour une expérience donnée.
Exemple :
- toutes les consommations possibles (nombres positifs).
▪ Probabilité : nombre compris entre 0 et 1 qui mesure la
vraisemblance de la réalisation d’un événement :
- un événement qui ne peut pas se produire a une probabilité
égale à 0,
- un événement qui se réalise avec certitude a une probabilité
égale à 1.

– 25 –
Aide à la décision - Statistique ULB - 2002

1. Permutations et combinaisons
Comment compter le nombre de résultats correspondant à un
événement donné ?
▪ Règle m × n :
Exemple : quel temps fera-t-il demain ?
- température : m=3 possibilités (basse, moyenne, élevée),
- pluie : n=2 possibilités (oui ou non),
→ au total, 3 × 2 = 6 possibilités.
▪ Factorielle : pour un nombre entier positif n :
factorielle de n = n! = n × (n − 1) × (n − 2) × … × 2 × 1
- 0! = 1
- n! = nombre de façons dont n objets peuvent être alignés.
Exemple : Comment affecter 4 employés à 4 tâches ?
4! = 4 × 3 × 2 × 1 = 24 façons
▪ Arrangement : sélection (ordonnée) de r objets parmi n.
→ Nombre d’arrangements :
n!
n Pr = n × ( n − 1) × … × ( n − r + 1) =
( n − r )!
Exemple : Comment affecter 2 des 4 employés à 2 tâches ?
4! 4 × 3 × 2 × 1
P
4 2 = = = 12 façons
2 2
▪ Combinaison : sélection (non ordonnée) de r objets parmi n.
→ Nombre de combinaisons :
n Pr n!
C = =
r ! r !× (n − r )!
n r

– 26 –
Aide à la décision - Statistique ULB - 2002

Exemple : Comment affecter 2 des 4 employés à 2 tâches (sans se


préocuuper de l’ordre d’affectation) ?
4! 4×3
C
4 2 = = = 6 façons
2× 2 2

2. Notion de probabilité

▪ Définition classique : Si une expérience peut donner lieu à N


résultats mutuellement exclusifs et également probables, et si m
d’entre eux correspondent à la réalisation d’un événement E, la
probabilité de l’événement E est donnée par m N :
m
P( E ) =
N
(nombre de cas favorables / nombre de cas possibles)
Exemple : On lance un dé.
- résultats possibles : 1, 2, 3, 4, 5 ou 6 ( N = 6 ),
- P(obtenir un point pair) = 3 6 .
▪ Définition fréquentielle : Si l’on répète un grand nombre de fois
(n) une expérience et que l’événement E se réalise m fois au cours
de ces n répétitions, la fréquence relative de l’événement E
(m n ) sera approximativement égale à la probabilité de E.
Exemple : On lance un dé n = 1000 fois. On obtient un point pair
m = 486 fois.
→ P(obtenir un point pair) ≈ 486 1000
L’approximation sera d’autant meilleure que le nombre de
répétitions est élevé.

– 27 –
Aide à la décision - Statistique ULB - 2002

3. Propriétés

! Pour tout événement E :


0 ≤ P( E ) ≤ 1
" S’il existe N résultats possibles O1 , O2 ,…, ON alors :
P(O1 ) + P(O2 ) + … + P (ON ) = 1
# Si deux événements A et B sont mutuellement exclusifs :
P( A ou B) = P( A) + P( B )

4. Calcul des probabilités

Exemple : On s’intéresse à 10000 observations () classées selon


deux caractéristiques (couleur et style).
Couleur
Style C1 C2 C3 Total
S1 1400 450 900 2750
S2 1300 350 800 2450
S3 900 700 750 2350
S4 1000 250 1200 2450
Total 4600 1750 3650 10000

▪ Probabilité non conditionnelle :


n(C1 ) 4600
P(C1 ) = = = 0, 46
n 10000

– 28 –
Aide à la décision - Statistique ULB - 2002

▪ Probabilité conditionnelle :
n(C1 ∩ S1 ) 1400
P(C1 S1 ) = = = 0,51
n( S1 ) 2750
1400
P (C1 ∩ S1 ) 10000 0,14
P(C1 S1 ) = = = = 0,51
P ( S1 ) 2750 0, 275
10000
▪ Probabilité jointe :
1400
P(C1 ∩ S1 ) = = 0,14
10000
▪ Probabilité marginale :
2750
P( S1 ) = = 0, 275
10000
▪ Règle d’addition :
P( A ∪ B) = P( A) + P( B) − P( A ∩ B )
P(C1 ∪ S1 ) = P (C1 ) + P( S1 ) − P(C1 ∩ S1 )
4600 2750 1400
+ =
− = 0,595
10000 10000 10000
▪ Règle de multiplication :
P( A ∩ B ) = P( A) × P( B A)
2750 1400
P(C1 ∩ S1 ) = P( S1 ) × P(C1 S1 ) = × = 0,14
10000 2750
▪ Evénements indépendants :
A et B sont indépendants si P( A B) = P ( A)
→ P( A ∩ B ) = P( A) × P( B)
▪ Evénements complémentaires :
A et A avec P( A) = 1 − P( A)
– 29 –
Aide à la décision - Statistique ULB - 2002

5. Distributions de probabilités
▪ Variable aléatoire : variable telle qu’il est possible d’associer
une probabilité à chacune des valeurs que cette variable peut
prendre.
▪ Variable aléatoire discrète : variable qui ne peut prendre que
certaines valeurs (dénombrables) dans un intervalle donné.
▪ Distribution de probabilités d’une variable aléatoire discrète :
table, graphe ou formule qui spécifie les différentes valeurs
possibles ainsi que les probabilités qui leur sont associées :
xi = valeur possible - P ( X = xi )

Exemple : Une entreprise emploie 50 délégués commerciaux. Soit


X le nombre de nouveaux clients obtenus l’année dernière pour un
délégué prélevé au hasard parmi les 50.
xi Fréquence P( X = xi )
0 1 1/50
1 2 2/50
2 4 4/50
3 3 3/50
4 6 6/50
5 8 8/50
6 10 10/50
7 7 7/50
8 5 5/50
9 3 3/50
10 1 1/50
Total 50 1
– 30 –
Aide à la décision - Statistique ULB - 2002

▪ Même structure qu’une distribution de fréquences :


- mais valeurs possibles au lieu de valeurs observées,
- probabilités au lieu de fréquences,
- peut être représentée graphiquement,
- distribution cumulée : P ( X ≤ xi )
▪ Moyenne et variance d’une distribution de probabilités discrète :
- Moyenne : valeur espérée de la variable aléatoire (espérance
mathématique).
- Variance : valeur espérée du carré de l’écart entre X et sa
moyenne.
▪ Distributions discrètes classiques :
- Distribution binomiale,
- Distribution de Poisson,
- Distribution hypergéométrique, …
▪ Variable aléatoire continue : variable qui peut prendre n’importe
quelle valeur dans un intervalle donné.
Exemple : Longueur d’une feuille d’acier produite dans une usine.
→ Infinité de valeurs distinctes possibles.
→ Travailler avec des intervalles (cf. distributions de fréquences
groupées) :
- peut-être représentée par un histogramme
Histogramme

30

25

20
Fréquence

15

10

0
12 17 22 27 32 37 42 47 52 57 62 67
Age

– 31 –
Aide à la décision - Statistique ULB - 2002

- la proportion correspondant à un intervalle de la surface


déterminée par l’histogramme et l’axe horizontal est égale à
la probabilité d’observer une valeur dans cet intervalle.
▪ Densité de probabilité : lorsqu’on réduit la largeur des
intervalles, leur nombre augmente et la forme de l’histogramme se
rapproche d’une courbe : la fonction de densité de probabilité (ou
fonction de fréquence).

→ Interprétation : la surface située entre la courbe de densité et


l’axe horizontal, déterminée par un intervalle de valeurs de X est
égale à la probabilité d’observer une valeur de X dans cet
intervalle.

▪ Distributions continues classiques :


- Distribution normale,
- Distribution t de Student,
- Distribution χ2, …

– 32 –
Aide à la décision - Statistique ULB - 2002

6. Distribution binomiale
Essais répétés.
Exemple : Quand trois chevaux a, b, et c participent à une course,
leurs probabilités de victoire sont :
P ( a ) = 1 2 P (b ) = 1 3 P ( c ) = 1 6
→ résultats possibles (vainqueur) {a, b, c}
Si les chevaux courent 2 fois, on a 2 essais répétés :
{aa, ab, ac, ba, bb, bc, ca, cb, cc}
→ P ac = × = a f
1 1 1
2 6 12
▪ Cas particulier : Chaque essai ne conduit qu'à 2 résultats
possibles : succès ou échec.
a
→ P succès = p f a
P échec = 1 − p = q f
→ Nombre de succès sur n essais ?
→ Probabilité d'exactement k succès :
b k ; n, p =an
k
f FGH IJK
× pk × q n− k

→ Distribution binomiale (n,p).


Exemple : Une pièce est lancée 6 fois. Succès = obtenir F
→ n = 6, p = q = 1/2
f FGH IJK FH IK FH IK
2 4

a f a
P 2 F = b 2;6, 12 =
6
2
×
1
2
×
1
2
=
15
64
15 6 1 11
P ( au moins 4 F ) = b ( 4;6, 1 2 ) + b ( 5;6, 1 2 ) + b ( 6;6, 1 2 ) = + + =
64 64 64 32
f FH IK
6

a f a
P pas de F = b 0;6, 12 =
1
2
=
1
64
a
P au moins une F = 1 − f1 63
64 64
=

– 33 –
Aide à la décision - Statistique ULB - 2002

7. Distribution normale
▪ Variable aléatoire continue : fonction de densité de probabilité
en forme de cloche :

▪ Propriétés : - Symétrie autour de µ .


- Théorème central limite.

– 34 –
Aide à la décision - Statistique ULB - 2002

▪ Normale réduite : avec µ = 0 et σ = 1


X −µ
Si X est normale alors Y = est normale réduite
σ
▪ Table normale réduite :

Fonction de distribution cumulée de la normale réduite


z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 z

0.00 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359 0.00
0.10 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753 0.10
0.20 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141 0.20
0.30 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517 0.30
0.40 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879 0.40

0.50 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224 0.50
0.60 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549 0.60
0.70 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852 0.70
0.80 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133 0.80
0.90 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389 0.90

1.00 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621 1.00
1.10 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830 1.10
1.20 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015 1.20
1.30 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177 1.30
1.40 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319 1.40

1.50 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441 1.50
1.60 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545 1.60
1.70 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633 1.70
1.80 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706 1.80
1.90 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767 1.90

2.00 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817 2.00
2.10 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857 2.10
2.20 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890 2.20
2.30 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916 2.30
2.40 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936 2.40

2.50 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952 2.50
2.60 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964 2.60
2.70 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974 2.70
2.80 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981 2.80
2.90 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986 2.90

3.00 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990 3.00
3.10 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993 3.10
3.20 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995 3.20
3.30 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997 3.30
3.40 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998 3.40

3.50 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 3.50
3.60 .9998 .9998 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 3.60
3.70 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 3.70
3.80 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 3.80

– 35 –

Vous aimerez peut-être aussi