Vous êtes sur la page 1sur 326

1

STATISTIQUE I
(STAT-D-101)
ECTS: 5 (théorie: 2, exercices: 2, travaux
personnels: 1)

Catherine Dehon
Bâtiment S - 11ème étage - bureau S11.226
Tél.: (02) 6503858 e-mail: cdehon@ulb.ac.be
Université libre de Bruxelles
Année 2009-2010

1ère année - Bachelier en sciences économiques

Version 2
2

AVERTISSEMENT

Ce syllabus a été rédigé dans le but de faciliter


la prise de notes pendant le cours théorique.
La mise à jour du présent syllabus sera faite via
le cours théorique.
Il est bien entendu que l’examen portera sur
l’ensemble de la matière vue au cours théorique
(des éléments pourraient être ajoutés oralement
au cours) ainsi que la matière des travaux pra-
tiques.
3

A savoir ....
• Buts du cours:
1. Introduction des concepts statistiques afin de
réaliser des analyses descriptives sur des vari-
ables quantitatives et/ou qualitatives.
2. Introduction des éléments du calcul de proba-
bilités et des lois de probabilité univariée discrète
pour préparer les problèmes d’inférence statis-
tique qui seront étudiés en 2ème année.
3. Mise en pratique des connaissances dans des
situations de la vie de tous les jours.

• Méthode d’enseignement et support:


Théorie : Cours ex cathedra. Syllabus de théorie
contenant la copie des transparents projetés (et
commentés) au cours disponible sur le site:
http://www.ulb.ac.be/soco/statrope/.
4

• Exercices:
Subdivision des étudiants en groupes de T.P.
Les énoncés des exercices sont disponibles sur
le site ci-avant. Quelques examens résolus des
années précédentes sont également téléchargeables
sur ce site. En outre, des permanences et
des guidances sont organisées.

• Méthode d’évaluation:
Une épreuve écrite dispensatoire est organisée
durant la session de janvier. L’examen com-
porte une partie théorique et une partie pra-
tique, sans interruption entre les deux. Aucune
note personnelle n’est autorisée. Les étudiants
peuvent (re)présenter une épreuve durant la ses-
sion de mai/juin. Dans ce cas, la note obtenue
remplace celle de l’épreuve de janvier.
Chapitre 1

INTRODUCTION A LA
STATISTIQUE

But: Transformer des données en information

La Statistique: ensemble de méthodes et ou-


tils mathématiques visant à collecter, décrire
et analyser des données afin d’obtenir de l’infor-
mation permettant de prendre des décisions
malgré la présence d’incertitude (erreur, bruit)

5
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 6

La statistique joue un rôle essentiel dans de nom-


breuses disciplines:

• en économie: taux de croissance, nombre de


brevets déposés, prix de l’immobilier,...
• en finance: rentabilité d’un investissement,...
• en marketing: étude de marché, ...
• en gestion des ressources humaines: absentéisme,...
• en médecine: mise sur le marché de nouveaux
médicaments, ...
• en sciences sociales, en sciences politiques,
etc


la statistique est l’outil de confrontation d’une
théorie scientifique à l’observation
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 7

1.1 EXEMPLES

1.1.1 RENTABILITE D’UN INVESTISSEMENT

Pour investir intelligemment vos économies, vous


allez voir le conseiller de votre banque qui vous
suggère 2 types d’investissement:
- investir dans le secteur de l’informatique
- investir dans le secteur agro-alimentaire.

Votre but est double:


- maximiser les profits
- minimiser les risques.

Pour prendre la décision, vous réalisez une étude


statistique.
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 8

1. Collecte des données


Sélectionner au hasard un échantillon de 100 en-
treprises dans le secteur de l’informatique et 100
dans le secteur de l’agro-alimentaire.

Calculer le taux de rentabilité de l’investissement


pour chaque entreprise (rate of return on in-
vestissment):
ROI = Bénéfice/Valeur de l’investissement.
Exemples:
- investir 100 euros en 2004 et avoir 106 euros
en 2005 donc bénéfice de 6 euros:
ROI = 6/100 = 0.06 = 6%
- investir 100 euros en 2004 et avoir 80 euros en
2005 donc perte de 20 euros:
ROI = -20/100 = -20%.
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 9

2. Statistique Descriptive:
Tableaux-Graphiques
• Variable étudiée: taux de rentabilité.
• Variable quantitative continue.
• Variable étudiée sur 2 populations:
Info et Agro alimentaire.
• Effectif: n=100 dans chaque secteur.

Informatique ROI(%) Agro-Ali ROI(%)


Entreprise 1 10 Entreprise 1 7
Entreprise 2 -5 Entreprise 2 3
··· ··· ··· ···
Entreprise 99 30 Entreprise 99 -2
Entreprise 100 -25 Entreprise 100 10
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 10

Graphiques: Histogrammes
8
6 Secteur de l’informatique
effectif

4
2
0

-10 -5 0 5 10

ROI

Secteur de l’agroalimentaire
12
10
8
effectif

6
4
2
0

-10 -5 0 5 10

ROI

Comparaison des 2 histogrammes:


• centre de la distribution plus à gauche pour
le secteur informatique donc moins rentable
• dispersion plus grande en informatique donc
plus risqué
=⇒ Investir dans l’agro alimentaire.
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 11

Statistiques descriptives: Paramètres

Calculs de quelques statistiques:

Paramètres Informatique Agro-Ali


Minimum -6.92 -0.66
Maximum 10.56 7.21
Médiane 1.79 3.53
Moyenne 1.50 3.40
Ecart-type 2.99 1.96
Asymétrie
...
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 12

3. Inférence statistique (BA2)

• Tester l’égalité des moyennes des taux de renta-


bilité dans les 2 secteurs
• Tester si la moyenne des ROI dans le secteur
de l’informatique est significativement plus
petite que dans le secteur agro alimentaire
(donc moins rentable en moyenne)
• Tester si la dispersion dans les 2 secteurs est
identique, tester si le secteur de l’informatique
est plus risqué
• ...
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 13

1.1.2 PROBLEME D’ABSENTEISME EN ENTREPRISES


(Chadhury, Ng, “Canadian Journal of Economics”, 1992)

L’absentéisme réduit la production de ± 10%



Deux économistes ont sélectionné 100 firmes et
mesuré le nombre moyen de jours d’absence par
employé sur une année. Cette variable (X1) est
quantitative.

Ils ont également mesuré plusieurs variables sus-


ceptibles d’influencer le taux d’absentéisme:
X2 = salaire moyen (quantitative continue)
X3 = % d’employés part-time (idem)
X4 = capacité à travailler en équipe (0=non,
1=oui =⇒ variable qualitatitve dichotomique)
X5 = qualité des relations avec le manager
(0=mauvais, 1=bon =⇒ Idem)
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 14

1. Statistique Descriptive: Graphiques

Histogramme du taux d’absenteisme Hist. du salaire moyen Hist. du pourcentage de Part Time

15
15
20

10
15

10
effectif

effectif

effectif
10

5
5
5
0

0
0 5 10 15 0 10000 30000 50000 0 10 20 30 40

Absenteisme Salaire Part Time

Graphique 2 dimensions Graphique 2 dimensions Graphique 2 dimensions


14

14

14
12

12

12
10

10

10
Absent

Absent

Absent
8

8
6

6
4

4
2

0.0 0.2 0.4 0.6 0.8 1.0 15000 25000 35000 0 5 10 15 20 25 30

Manager Salaire Part.Time


CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 15

2. Statistiques descriptives univariées

Absent Salaire PT Equipe Manager


Minimum 2.10 12023 0 0 0
Maximum 14.8 42986 30.80 1 1
Médiane 5.65 22586 9.10 1 1
Moyenne 6.23 23587 11.52 0.67 0.64
Ecart-type 3.36 6656.19 8.08 0.47 0.48
Skewness 0.66 0.80 0.58 - -
Kurtosis 2.44 3.38 2.46 - -

Différents types de variables

Attention aux interprétations !!!!


CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 16

3. Régression linéaire multiple (Stat2)


Le taux d’absentéisme peut être expliqué en par-
tie par les autres variables (en supposant un lien
linéaire). Dependent Variable: ABSENT
Variable Coefficient t-Statistic
SALAIRE -0.000211 -5.319899
PART-TIME -0.093396 -2.862929
EQUIPE 1.491396 2.671433
MANAGER -2.706436 -4.951130
C 13.01733 11.43809
R-squared 0.416499 F-statistic: 16.95260

Le taux d’absentéisme diminue si


- le salaire moyen augmente
- le pourcentage de part time augmente
- non capacité à travailler en équipe
- les relations avec le manager sont bonnes
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 17

1.2 MOTS CLEFS

• Population: collection complète (dans le sens


où elle inclut tous les individus à étudier) d’individus
sur laquelle porte l’étude

• Paramètre: mesure numérique décrivant une


caractéristique de la population

• Echantillon: sous-ensemble d’individus obtenus


à partir de la population (méthodes de sondage)

• Une statistique: mesure numérique décrivant


une caractéristique de l’échantillon

• Donnée: fait numérique ou non porteur d’infor-


mation
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 18

• Variable: Caractéristique dont la valeur change


d’un individu à l’autre dans la population

• Type de variable:
- variable directe: mesurable directement (salaire)
- indicateur: non mesurable directement (santé
des entreprises belges cotées en bourse: BEL20)
- variable qualitative: caractéristiques (modalités)
non numériques (profession)
- variable dichotomique: variable qualitative
ne prenant que 2 modalités (sexe)
- variable quantitative dicrète: valeurs numériques
discrètes, isolées (nombre d’enfants)
- variable quantitative continue: valeurs numériques
sur un intervalle continu (salaire)
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 19

• Le choix d’une échelle de mesure n’est pas


unique:

- échelle nominale: données non numériques


qui ne peuvent pas être ordonnées (type de film)
- échelle ordinale: données non numériques pos-
sédant un ordre naturel (avis pédagogiques)
- échelle d’intervalle: données numériques avec
interprétation possible des différences entre in-
dividus mais pas de zéro unique (date)
- échelle de rapport: échelle d’intervalle avec la
notion supplémentaire de zéro naturel (âge)

ECHELLE ECHELLE ECHELLE ECHELLE


NOMINALE ORDINALE D’INTERVALLE DE RAPPORT
Dénombrement Dénombrement Dénombrement Dénombrement
Comparaison Comparaison Comparaison
Différence Différence
Rapports
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 20

1.3 DEMARCHE SCIENTIFIQUE

Objectif(s) à atteindre, Question(s) à poser



Collecte des données:relevé direct, expérimentation,
enquête exhaustive (recensement),
enquête partielle (sondage)

Analyse descriptive:
univariée (Stat 1) et bivariée (Stat 1)
P-variée (Analyse des données)

Analyse confirmatoire: Inférence statistique
Estimation, Tests d’hypothèse (Stat 2)
Régression Linéaire et Séries Chrono. (Econométrie)

Prévisions, Conclusions, Décisions
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 21

=⇒ Deux grandes aires d’étude:

• Statistique descriptive: Etape préliminaire


qui étudie l’échantillon en produisant des graphiques
et des valeurs numériques (statistiques) résumant
l’information du jeu de données
• Inférence statistique: facilite le processus de
décision en utilisant des procédure d’estimation,
de problèmes de tests, ...qui permettent de tirer
des conclusions sur la populatipon à partir de
l’échantillon

Lien entre Statistique et Probabilité:


Probabilité
Population −→ Echantillon
Inférence Statistique
Echantillon −→ Population
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 22

1.4 PLAN DU COURS

• Introduction
• Analyse descriptive: série statistique univariée
• Probabilité
• Analyse descriptive: série statistique bivariée
• Analyse d’une série chronologique
• Variables aléatoires et lois de probabilités discrètes
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 23

1.5 REFERENCES

• Anderson D., Sweeney D., Williams T. (2001),


Statistiques pour l’économie et la gestion,
Bruxelles, De Boeck Université.
• Dagnelie P. (1998), Statistique théorique et
appliquée. Tome 1: Statistique descrip-
tive et bases de l’inférence statistique, Brux-
elles, De Boeck Université.
• Dehon, C. , Droesbeke, J-J. et Vermandele C.
(2008), Eléments de statistique, Bruxelles,
Editions de L’Unviversité de Bruxelles.
• http://www.ulb.ac.be/soco/statrope/ (notes
de cours)
Chapitre 2

STATISTIQUE DESCRIPTIVE
D’UNE SERIE UNIVARIEE

• Etape préliminaire à toute étude statistique.

• Permet de “prendre contact” avec l’échantillon.

• Se divise en 2 aires:
- élaboration de tableaux et graphiques
- valeurs numériques résumant l’échantillon
(statistiques).

24
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 25

2.1 NOTATIONS

Les données sont souvent collectées dans un tableau


Individus × Caractères
Var-Ind 1 2 ... j ... p
1 x11 x12 . . . x1j . . . x1p
2 x21 x22 . . . x2j . . . x2p
··· ··· ··· ··· ··· ··· ···
i xi1 xi2 . . . xij . . . xip
··· ··· ··· ··· ··· ··· ···
n xn1 xn2 . . . xnj . . . xnp

• n: Taille de l’échantillon
• p: nombre de variables

Matrice de données de dimension n × p
=⇒ Série statistique à p-dimension.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 26

Remarques
• Série univariée si p = 1:

{x1, x2, . . . , xn} = {xi; i = 1, . . . , n}

• Série bivariée si p = 2:

{(x1, y1), . . . , (xn, yn)} = {(xi, yi); i = 1, . . . , n}

• Série ordonnée:
Définition: La série ordonnée {x(1), x(2), . . . , x(n)}
est telle que : x(i) ≤ x(j) si i ≤ j, où ≤ définit
la relation d’ordre.
(i) est appelé le rang de l’observation x(i).

Exemple:
Série observée: {xi; i = 1, . . . , 6} = {2, 0, −1, 1, 4, 3}
Série ordonnée: {x(i); i = 1, . . . , 6} = {−1, 0, 1, 2, 3, 4}
Ainsi: x(1) = x3, x(3) = x4, x(6) = x5.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 27

2.2 TABLEAUX ET GRAPHIQUES

A. Données nominales (qualitatives)


Exemple 1: Données reprenant tous les achats
par carte de crédit aux USA durant les 6 pre-
miers mois de 1998. La variable étudiée est la
nature de la carte utilisée (The Nilson Report,
Oct. 8, 1998).
Sur les 200 milliards achats effectués, on a la
répartition suivante:
• 36 milliards d’achats avec la carte American
express
• 2 milliards d’achats avec la carte Diners Club
• 12 milliards d’achats avec la carte Discover
• 50 milliards d’achats avec la Master card
• 100 milliards d’achats avec la carte VISA
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 28

Résumé de l’information: Tableau des effectifs


xj nj (unité: milliard)
American express 36
Diners Club 2
Discover 12
Master card 50
Visa 100
PJ
j=1 nj = n=200

• x1, x2, x3, x4, x5 représentent les 5 modalités


disctinctes observées
• J est le nombre de modalités disctinctes ob-
servées (ici J = 5).
• nj est l’effectif associé à xj pour j = 1, . . . , 5
• La série univariée est donc résumée par
{ (xj , nj ); j = 1, . . . , J} =
{ (AE, 36), (DC, 2), (D, 12), (M C, 50), (V, 100)}
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 29

Alternative aux effectifs (nj ) : l’utilisation des


fréquences:
nj
fj = (j = 1, . . . , J)
n
Les fréquences représentent le pourcentage d’ober-
vations égales à xj .
Tableau des fréquences

xj nj fj
American express 36 0.18
Diners Club 2 0.01
Discover 12 0.06
Master card 50 0.25
Visa 100 0.50
200 1

PJ
Remarque: j=1 fj = 1.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 30

Représentations graphiques

Bar Chart
Ordre AlphabØtique Ordre DØcroissant
100

100
80

80
60

60
Effectif(nj)

Effectif(nj)
40

40
20

20
0

AE DC D MC VISA VISA MC AE D DC

ModalitØ ModalitØ

=⇒ Choix arbitraire sur les axes puisqu’il n’existe


pas d’ordre naturel entre les modalités.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 31

Diagramme en secteurs (Pie Chart)


Concept de proportion

6.0%
1.0%

25.0%

18.0%

50.0%

xj nj fj (%) Degré
American express 36 0.18 64.8
Diners Club 2 0.01 3.6◦
Discover 12 0.06 21.6
Master card 50 0.25 90◦
Visa 100 0.50 180◦
200 1 360◦
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 32

Tableau disjonctif complet

• Nombre de lignes = nombre d’individus (achats)


• Nombre de colonnes = nombre de modalités
(5 cartes de crédit)
• Chaque colonne est une variable binaire prenant
la valeur 1 si l’individu possède cette modalité
et 0 sinon.
Individu 1 2 3 4 . . . 200 ∗ 109
Type de cartes V D AE V . . . DC

0 0 0 0 1
0 0 1 0 0
X= 1 0 0 0 0
0 0 0 0 1
··· ··· ··· ··· ···
0 1 0 0 0
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 33

B. Données ordinales (qualitatives)


Exemple 1: Avis pédagogique: évaluation d’un
cours par les étudiants.

• Tableau des effectifs


avec n = 100 et J = 5:
xj TD D M F TF
nj 1 9 40 35 15

Ordre naturel entre les modalités

Tableau des fréquences cumulées où:


• Effectif cumulé: Nj = n1 + . . . + nj
(nombre d’observations ≤ xj )
Nj
• Fréquence cumulée: Fj = n
(pourcentage d’observations ≤ xj )
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 34

• Tableau des effectifs cumulés et des


fréquences cumulées
xj nj Nj Fjfj
TD 1 0.01 1 0.01
D 9 0.09 10 0.10
M 40 0.40 50 0.50
F 35 0.35 85 0.85
TF 15 0.15 100 1
100 1

• 10% des élèves interrogés ont un avis très


défavorable ou défavorable.
• 85 élèves sur 100 ont un avis égal ou inférieur
à la notation favorable.
• 15% des élèves ont un avis très favorable.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 35

Représentations graphiques
Diagramme en barres des effectifs et des fréquences
(Bar Chart)
Diagramme en barres (effectifs) Diagramme en barres (frØquences)

0.4
40

0.3
30

Frequence(fj)
Effectif(nj)

0.2
20

0.1
10

0.0
0

TD D M F TF TD D M F TF

Avis PØdagogiques Avis PØdagogiques

Diagramme en blocs

120

TD D
100

80 M F

60 TF

40

20

0
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 36

Exemple 2: Etude sur le niveau de diplôme des


25 managers américians les mieux payés (Forbes,
May 17, 1999).
Top Noms Société Niveau de diplôme
1. Michael d. Eisner Walt Disney Bachelier
2. Mel Karmazin CBS Bachelier
3. Stephen M. Case American Online Bachelier
4. Stephen C. Hilbert Conseco None
5. Craig R. Barrett Intel Doctorat
6. Millard Drexler Gap Master
7. John F. Welsch, Jr. General Electric Doctorat
... ... ... ...
10. Reuben Mark Colgate-Palmolive Master
... ... ... ...
13. Margaret C. Whitman eBay Master
14. Louis V. Gerstner,Jr. IBM Master
... ... ... ...
17. M. Douglas Ivester Coca-Cola Bachelier
... ... ... ...
20. William R. Steere, Jr Pfizer Bachelor
21. Nolan D. Archibald Black-Decker Master
... ... ... ...
25. Richard Jay Kogan Schering-Plough Master
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 37

• Tableau des effectifs: n = 25, J = 4


xj None Bachelier Master Doctorat/Droit
nj 1 7 11 6

Diagramme en barres (Bar Chart)

25 Best−Paid Executives
6
5
4
Effectif(nj)

3
2
1

None Bachelor Master Doctorate


0
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 38

• Tableau des fréquences cumulées où:


Effectif cumulé: Nj = n1 + . . . + nj
(nombre d’observations ≤ xj )
Nj
Fréquence cumulée: Fj = n
(pourcentage d’observations ≤ xj )

Highest Degree nj fj Nj Fj
None 1 0.04 1 0.04
Bachelors 7 0.28 8 0.32
Masters 11 0.44 19 0.76
Doctorale/law 6 0.24 25 1
25 1
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 39

Remarque: on peut aussi calculer les effectifs


et fréquences cumulés à droite:
• Effectif cumulé à droite: Nj∗ = nj + nj+1 +
. . . + nJ (nombre d’observation ≥ xj )
N ∗
• Fréquence cumulée à droite: Fj∗ = nj

(pourcentage d’observations ≥ xj )

Exercice: réaliser le tableau des effectifs et


fréquences cumulés à droite.
Highest Degree nj fj Nj∗ Fj∗
None 1 0.04
Bachelors 7 0.28
Masters 11 0.44
Doctorale/law 6 0.24
25 1
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 40

C. Données quantitatives
Exemple 1 - Variable discrète: Pour étudier
la qualité de la recherche à l’ULB, on utilise
comme indicateur le nombre de publications par
an. L’échantillon est constitué de 25 jeunes pro-
fesseurs.
• Tableau récapitulatif de la série observée:
xj nj fj Nj Fj Nj∗ Fj∗
0 5 0.20 5 0.20 25 1
1 10 0.40 15 0.60 20 0.80
2 4 0.16 19 0.76 10 0.40
3 3 0.12 22 0.88 6 0.24
4 2 0.08 24 0.96 3 0.12
5 1 0.04 25 1 1 0.04
25 1
Remarque: Nj = Nj−1 + nj
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 41

Représentations graphiques
Diagramme en bâtons

Etude sur la qualitØ de la recherche


10
8
6
Effectif

4
2

0 1 2 3 4 5

Nombre de publications
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 42

Courbe cumulative: y = N (x)


N (x) étant le nombre d’observations ≤ x.
25
20
15
Nj

10
5
0

0 2 4 6

Nombre de publications
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 43

Courbe cumulative à droite : y = N ∗(x)


N ∗(x) étant le nombre d’observations ≥ x.
Etude sur la qualitØ de la recherche

25
20
15
Nj

10
5
0

0 2 4 6

Nombre de publications

Remarques:
• Si x = xj =⇒ N (x) + N ∗(x) = n + nj

• Si x 6= xj =⇒ N (x) + N ∗(x) = n

De façon générale: N (x) + N ∗(x) ≥ n


CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 44

Exemple 2 - Variable continue: Le manager


du marketing d’une compagnie téléphonique com-
mande une étude sur le profil des nouveaux abonnés.
Pour ce faire il récolte la 1ère note en Euro de
téléphone de 120 nouveaux clients.

Série Statistique:

83 83 18 65 99 96 7 94 62 98 71 20 97 88 38 55
81 51 68 19 36 41 56 49 33 85 75 97 35 36 32 59
88 28 63 60 99 7 31 13 34 33 15 12 62 41 13 27
74 24 67 98 22 13 32 9 54 84 35 62 14 90 91 59
77 38 31 22 92 39 54 90 47 89 81 79 9 88 30 50
41 16 49 44 45 87 23 5065 20 88 83 7 53 73 64
45 78 60 38 75 83 28 11 27 34 15 94 33 76 86 36
42 52 61 52 78 54 53 58
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 45

Série Ordonnée:

7 7 7 9 9 11 12 13 13 13 14 15 15 16 18 19 20 20
22 22 23 24 27 27 28 28 30 31 31 32 32 33 33 33
34 34 35 35 36 36 36 38 38 38 39 41 41 41 42 44
45 45 47 49 49 50 50 51 52 52 53 53 54 54 54 55
56 58 59 59 60 60 61 62 62 62 63 64 65 65 67 68
71 73 74 75 75 76 77 78 78 79 81 81 83 83 83 83
84 85 86 87 88 88 88 88 89 90 90 91 92 94 94 96
97 97 98 98 99 99

• Grands nombres de valeurs distinctes


• Beaucoup de petits effectifs
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 46

Diagramme en bâtons

Diagramme en b tons
4
3
Effectif

2
1
0

20 40 60 80 100

note

MAIS ... Grand nombre de valeurs distinctes

Résumer l’information
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 47

Solution 1: Diagramme en tiges et feuilles


(stem and leaf display).

0|77997 0|77799

1|89352334615 1|12333455689

2|0874223087 2|0022347788

3|8635621432581908436 3|0112233344556668889

4|1917194552 4|1112455799

5|516949400322438 5|001223344456899

6|528302725401 6|001222345578

7|1547938568 7|1345567889

8|338158491878336 8|113333456788889

9|9648779801204 9|0012446778899

Remarque: Autre alternative: Dot Plots


CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 48

Solution 2: Regrouper les individus par classes


Comment faire les classes ?
• Logique: le minimum est inclus dans la 1ère
classe, le maximum est inclus dans la dernière
classe, même largeur des classes (pas obligatoire
mais facilite la lecture des graphes).

• Règle empirique de Sturges: choisir le nom-


bre de classes:

J ≈ 1 + log2 n

Notations: Classes: 1,. . . ,J.

−−|−−−−−−−|−−−−−−−|−−
lj− xcj lj+
où nj = nombre d’observations dans la classe j
et hj = longueur de la classe.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 49

Série regroupée par classe

Regroupement des 120 observations


en 5 classes (j = 1, . . . , 5)
de longueur égale hj = 20 ∀j ∈ {1, . . . , 5}.

[lj−, lj+[ xcj nj fj Nj Fj Nj∗ Fj∗


[0, 20[ 10 16 0.13 16 0.13 120 1
[20, 40[ 30 29 0.24 45 0.37 104 0.87
[40, 60[ 50 25 0.21 70 0.58 75 0.63
[60, 80[ 70 22 0.19 92 0.77 50 0.42
[80, 100[ 90 28 0.23 120 1 28 0.23
n=120 1

NB Attention aux arrondis !!!

NB La règle de Sturges proposait 8 classes


CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 50

Histogramme des effectifs


25
20
15
nj

10
5
0

0 20 40 60 80 100

Note de tØlØphone

nj
NB: Parfois, on prends comme ordonnée hj de
telle sorte que la surface de chaque barre est
égale à nj
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 51

Polygone des effectifs


30
25
20
15
nj

10
5
0

0 20 40 60 80 100

Note de tØlØphone
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 52

Histogramme des effectifs cumulés et Courbe


cumulative: y = N (x)
120
100
80
60
Nj

40
20
0

0 20 40 60 80 100

Note de tØlØphone

Nj : nombre d’observations ≤ lj+

N (x) étant le nombre d’observations ≤ x


(hypothèse d’équirépartition)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 53

Courbe cumulative à droite : y = N ∗(x)


Exercice: Construisez la courbe cumulative à
droite.

N ∗(x) étant le nombre d’observations ≥ x


(hypothèse d’équirépartition)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 54

Remarques (exercices)
• Si x 6= xj ∀j:
N (x) + N ∗(x) = n
• Fonctions N (x) et N ∗(x):

0 x < l −
1



 n1 −) − ≤ x < l+
(x − l l




 h1 1 1 1

 ... ...
N (x) = nj −) l− ≤ x < l+


 N +
j−1 hj (x − lj j j





 ... ...
lJ+ ≤ x

n

 n x < l −
1




 ... n ...



N ∗(x) = Nj∗ − hj (x − lj−) lj− ≤ x < lj+
 j




 ... ...
lJ+ ≤ x

0

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 55

D. Conclusions

• Inclure toutes les informations utiles à la compré-


hension du graphique

• Eviter les informations, mentions, lignes inu-


tiles

• Un graphique simple sera préféré à un graphique


sophistiqué

• Choisir les unités et les axes de la manière la


plus neutre possible (ne pas influencer le lecteur)

• Comparer des graphiques ayant des unités


communes
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 56

• Il existe d’autres types de graphiques: Car-


tographie, Pyramide des âges, Graphiques de
comparaison, ...
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 57

2.3 TECHNIQUES DESCRIPTIVES NUMERIQUES

Après les graphiques, il est nécessaire de décrire


les différentes caractéristiques des données de
manière plus précise.

Rappel:
• mesure d’une caractéristique de la population
(lettre grecque)
• mesure d’une caractéristique de l’échantillon
(lettre latine).

Bien souvent il est impossible d’étudier l’ensemble


de la population (N grand ou infini)

Se limiter à l’étude d’un échantillon de taille n


CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 58

Exemple: Etude sur le salaire des belges


=⇒ N ≈ 4 millions de travailleurs
La moyenne population µ est inconnue.

Pour la connaitre il faudrait interroger tous les


travailleurs belges, mais on n’a pas les moyens
financiers

Sélectionner un échantillon de taille n <<< N .

Calcul sur base de l’échantillon de la moyenne


échantillon x̄.

On espère que x̄ est une “bonne ” estimation de
la moyenne population µ.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 59

Trois types de caractéristiques


• Tendance centrale (position): moyenne, mode,
médiane, quantiles, . . .

-2 0 2
x

0 2 4 6
y
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 60

• Variabilité, dispersion, risque: écart-type,


variance, étendue, . . .

-40 -20 0 20
x

-40 -20 0 20
y
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 61

• Forme (asymétrie, aplatissement): Skew-


ness, Kurtosis, . . .

1 2 3
x

-2 0 2
y
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 62

2.3.1 A. MESURES DE POSITION (tendance centrale)

BUT: Déterminer une valeur centrale.

1. Moyenne arithmétique x̄
Soit {x1, . . . , xn} un échantillon de données numériques,
alors n
1 X
x̄ = xi
n
i=1
Exemples:
• Soit l’échantillon {1, 1, 2, 2, 2, 2, 3, 3}


1
x̄ = (1 + 1 + 2 + 2 + 2 + 2 + 3 + 3) = 2.
8
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 63

• Reprenons l’exemple de la société téléphonique


récoltant la 1ère note en Euro de téléphone de
120 nouveaux clients.
Série Statistique:

83 83 18 65 99 96 7 94 62 98 71 20 97 88 38 55
81 51 68 19 36 41 56 49 33 85 75 97 35 36 32 59
88 28 63 60 99 7 31 13 34 33 15 12 62 41 13 27
74 24 67 98 22 13 32 9 54 84 35 62 14 90 91 59
77 38 31 22 92 39 54 90 47 89 81 79 9 88 30 50
41 16 49 44 45 87 23 5065 20 88 83 7 53 73 64
45 78 60 38 75 83 28 11 27 34 15 94 33 76 86 36
42 52 61 52 78 54 53 58

1
x̄ = (83+83+18+65+. . .+53+58) = 53.12
120
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 64

Calcul reprenant la somme de 120 chiffres (long)



Même base de données mais regroupées en classes:

[lj−, lj+[ xcj nj fj Nj Fj Nj∗ Fj∗


[0, 20[ 10 16 0.13 16 0.13 120 1
[20, 40[ 30 29 0.24 45 0.37 104 0.87
[40, 60[ 50 25 0.21 70 0.58 75 0.63
[60, 80[ 70 22 0.19 92 0.77 50 0.42
[80, 100[ 90 28 0.23 120 1 28 0.23
n=120 1

J
1 X
x̄ = nj xcj
n
j=1
10 × 16 + 30 × 29 + . . . + 90 × 28
=
120
= 52.83
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 65

Propriétés
• Sensible face aux points aberrants.
Echantillon {1, 1, 2, 2, 2, 2, 3, 3} → x̄ = 2.
Echantillon {1, 1, 2, 2, 2, 2, 3, 300} → x̄ = 39.125.

• Valeurs centrées:
Echantillon {1, 1, 2, 2, 2, 2, 3, 3} =⇒ x̄ = 2.
Alors l’échantillon des valeurs centrées:
{xi − x̄} = {−1, −1, 0, 0, 0, 0, 1, 1}
est de moyenne nulle:
n
1 X
(xi − x̄) = 0
n
i=1
(exercice).
• Réécriture de la formule de la moyenne:
Xn
xi = nx̄
i=1
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 66

• Agrégation de 2 échantillons.
Echantillon 1: {n1, x̄1}, Echantillon 2:{n2, x̄2}

la moyenne de l’échantillon global comprenant
n = n1 + n2 individus est donné par:
n1x̄1 + n2x̄2
x̄ =
n

Remarque: Posons w1 = nn1 et w2 = nn2 , ainsi


la moyenne globale n’est rien d’autre qu’une
moyenne pondérée:
x̄ = w1x̄1 + w2x̄2

Cas particulier: Ajout d’une observation x̃ à


l’échantillon {n1, x̄1} → n2 = 1 et n = n1 + 1

n1x̄1 + x̃
x̄ =
n
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 67

• Moyenne pondérée.
- La moyenne est par unité élémentaire.
- La moyenne pondérée est par unité de poids.

Remarque: Soit C est le nombre d’éléments à


pondérer, alors
C
X
wi = 1
i=1
Par exemple:
- La moyenne des points de vos cours est votre
“moyenne par cours”.

- Votre grade final est une moyenne pondérée,


utilisant comme poids le crédit d’heures (1 crédit
pour 12 h de cours théorique, 2 crédits pour 24
h, etc). La moyenne pondérée est donc votre
“moyenne par crédit d’heures”
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 68

Exemple: Rentabilité d’un portefeuille

La rentabilité attendue d’un portefeuille est donnée


par la moyenne pondérée des rentabilités atten-
dues des investissements de celui-ci, pondéré par
le montant investi en $.

Le portefeuille est composé de 3 actions:


-la 1ére ($1, 000) est supposée rapporter 20%
-la 2ème ($1, 800 investis) 15%
-la 3ème ($2, 200 investis) 30%.

Total investi:

1, 000 + 1, 800 + 2, 200 = $5, 000


CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 69

Les poids sont donc:

w1 = $1, 000/$5, 000 = 0.20


w2 = $1, 800/$5, 000 = 0.36
w3 = $2, 200/$5, 000 = 0.44

Moyenne pondérée:
3
X
wixi = 0.20 × 20% + 0.36 × 15% + 0.44 × 30%
i=1
= 22.6%

La rentabilité attendue du portefeuille est donc


de 22.6%.

Chacun des investissement est représenté par le


montant en $ investi.

NB: Si tous les poids sont égaux, on revient à la


moyenne arithmétique (exercice).
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 70

2. Médiane x1/2
• Calcul de la médiane:
a) Mettre les observations en ordre croissant:

{x(1), . . . , x(n)}

b) Prendre l’observation centrale (ou la moyenne


des 2 observations centrales si n est pair).

Si n est impair: x1/2 = x( n+1 )


2

x( n )+x( n +1)
Si n est pair: x1/2 = 2 2
2

• Exemples:
Echantillon: {2, 5, 9, 11, 13} =⇒ x1/2 = 9
Echantilon: {2, 5, 9, 11, 13, 20} =⇒ x1/2 = 9+11
2
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 71

• Pas influencée par des valeurs extrêmes.

• Pour des distributions dissymétriques, la médiane


offre une meilleure représentation que la moyenne.

Par exemple: les revenus des ménages:


- Le revenu moyen pour un pays somme tous
les revenus dont certains peuvent être extrèmement
élevés
- Le revenu médian représente le revenu de la
personne au centre (la moitié ayant plus, l’autre
moitiè ayant moins).

• Echantillon donné avec des classes:


− , l+ )
- Déterminer la classe médiane: (lm m
- Valeur de la médiane:
n−N
−+h 2 m−1
x1/2 = lm m
nm
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 72

3. Quantiles xp où p ∈ (0, 1)


• Construire la série ordonnée. Soit p ∈ (0, 1)
(appelé ordre du quantile), on cherche xp tel que

N (xp) ≥ np et N ∗(xp) ≥ n(1 − p)

p 1-p
-l————-l—————l
x(1) xp x(n)

• Quantiles particuliers:
-Mediane x1/2: quantile 50%

-Premier quartile x1/4: quantile 25%

-Troisième quartile x3/4: quantile 75%

-Déciles: p = 0.10, 0.20, . . . , 0.90


CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 73

• Graphique basé sur les quantiles: Box Plot


(boı̂te à moustache)

Exercice (ELST, P114): Résultats de 10 étudiants


pour 7 cours.
C1 C2 C3 C4 C5 C6 C7
04 42 19 33 21 14 18
12 44 23 47 24 75 19
23 46 25 59 27 76 21
35 47 27 67 29 77 23
46 49 31 69 77 78 24
52 51 43 73 79 79 25
67 54 48 75 83 80 27
75 56 51 77 85 81 29
83 57 63 83 86 83 30
92 58 73 85 87 84 93
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 74
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 75

4. Mode xM
• Définition: Valeur la plus fréquente.

• Problèmes:
- dépend de la manière dont vous construisez
l’histogramme (bin width)
- il est possible d’avoir plusieurs modes

• Utiliser pour les données qualitatives.


CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 76

5. Autres valeurs centrales

x(1) + x(n)
c1 =
2
x1/4 + 2x1/2 + x3/4
c2 =
4
x1/4 + x3/4
c3 =
2
Moyenne tronquée:
n−1
1 X
c4 = x(i)
n−2
i=2
Moyenne géométrique:
p
c5 = Πixi

···
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 77

6. Cas particulier : Distribution gaussienne


• Distribution normale (introduite en 2ème année).

Distribution gaussienne

Moyenne, Médiane et Mode

-2 -1 0 1 2

Caractéristique: distribution symétrique avec


un unique mode

La moyenne est égale à la médiane et au mode
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 78

• Distribution asymétrique.

Distribution asymétrique

Mode 5 Moyenne 10 15

Médiane x

La moyenne, la médiane et le mode sont différents:


• les grandes observations rares influencent beau-
coup la moyenne
• la valeur la plus fréquente est décentrée.

A priori, il vaut mieux utiliser la médiane (ex-


emple: revenus des ménages).
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 79

7. Résumé en fonction du type de la variable

Quantitative Ordinale Nominale


Moyenne OUI NON NON
Médiane OUI OUI NON
Quantiles OUI OUI NON
Mode OUI OUI OUI
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 80

2.3.2 MESURE DE DISPERSION

Aussi connue sous le nom de variabilité, diver-


sité, risque, . . .
Questions:
• Sur le marché, les valeurs boursières changent
jours après jours =⇒ incertitude !

• Risk of a business venture


Les gains sont possibles mais également les pertes.

• Aversion au risque:
Préférez-vous avoir
- 100$ avec certitude
- 0 ou 200$ avec probabilité égale
Les 2 ont la même moyenne (100$)! Préférez
vous réduire l’incertain ou aimez vous le risque?
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 81

1. Etendue

E = x(n) − x(1)
• Facile et rapide à calculer
• Très sensible aux points aberrants

2. Ecart interquartile
Il contient 50% des observations:

EQ = x3/4 − x1/4

3. Ecart interdécile
Il contient 80% des observations:

ED = x9/10 − x1/10
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 82

4. Le peigne
x1/2 Dispersion Position
x3/4+x1/4
Q x1/4 x3/4 x3/4 − x1/4 2
x(1)+x(n)
E x(1) x(n) x(n) − x(1) 2

5. Le Box Plot
• Définition de base:

• Définition des valeurs pivots:

a1 = x1/4 − 1.5(x3/4 − x1/4)


a2 = x3/4 + 1.5(x3/4 − x1/4)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 83

• Définition des valeurs adjacentes:


xg : plus petite observation ≥ a1
xd: plus grande observation ≤ a2
=⇒ Deuxième définition du box plot:

NB: si tous les xi ∈ (a1, a2):

xg = x(1) et xd = x(n).

• Définition des valeurs extérieures:


Observations en dehors de l’intervalle [xg , xd]
⇒ Présomption de valeurs extrêmes (aberrantes).

Exercice (ELST, P114-116): Résultats de 10


étudiants pour 7 cours.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 84

6. Ecart moyen absolu

n
1X
em = |xi − x̄|
n
i=1
Remarque: Changeons le paramètre de posi-
tion. Alors,
n
1 X
em(c) = |xi − c|
n
i=1
est minimum quand c = x1/2.

7. Ecart médian absolu

n
1
e∗m =
X
|xi − x1/2|
n
i=1
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 85

8. Variance
Version française:
n
2 1X
s = (xi − x̄)2
n
i=1
Version anglaise (on l’utilisera en 2ème année)
n
1
S2 = (xi − x̄)2
X
n−1
i=1
• Agrégation: Soient 2 échantillons:
n1 n2
x̄1 s21 x̄2 s22

Notons n = n1 + n2, x̄ et s2 la moyenne et la


variance de l’échantillon regroupant les 2 échantillons.
Exercice:
n s 2 + n s2 n (x̄ − x̄)2 + n (x̄ − x̄)2
1 2 2
s2 = 1 + 1 1 2 2
n1 + n2 n1 + n2
(variance dans les groupes) +(variance entre les groupes)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 86

• Théorème de Konig-Huyghens:
1X
(xi − c)2 = s2 + (x̄ − c)2 c ∈ IR
n
i
Démonstration
1X 1
(xi − c)2 = (xi − x̄ + x̄ − c)2
X
n n
i i
1X n o
= (xi − x̄)2 + 2(xi − x̄)(x̄ − c) + (x̄ − c)2
n
i
1X
= (xi − x̄)2 + (x̄ − c)2
n
i  
1 X
+ 2(x̄ − c)  (xi − x̄)
n
i
= s2 + (x̄ − c)2

1
Conséquence: n i(xi−c)2 est minimum quand
P

c = x̄

Exercice: Appliquez ce théorème avec c = 0.


CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 87

9. Ecart-type

p
s= s2

• Interprétations:

- 2 échantillons: l’échantillon avec l’écart-type


le plus grand est le plus dispersé des deux

- 1 échantillon: Règle de Chebyshev:


au moins (1 − k12 ) des observations se trouvent
dans l’intervalle (x̄ ± ks)
Pour k = 2:
au moins 75% des observations ∈ à l’intervalle (x̄ ± 2s)
Pour k = 3:
au moins 89% des observations ∈ à l’intervalle (x̄ ± 3s)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 88

Pour les distributions en “forme de cloche ” et


relativement symétrique, on a des intervalles re-
marquables plus précis:

Distribution gaussienne

Moyenne, Médiane et Mode

-2 -1 0 1 2

2
3 des observations ∈ à l’intervalle (x̄ ± s)
95% des observations ∈ à l’intervalle (x̄ ± 2s)
99% des observations ∈ à l’intervalle (x̄ ± 3s)

=⇒ Pour faciliter les interprétations: construc-


tion des valeurs centrées réduites (z-score):
x − x̄
z=
s
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 89

9. Coefficient de variation

s
CV =

• Mesure relative de variabilité. Nombre sans
unité (pure number).

• Answers:
“Typically, in percentage terms, how far are
data values from average?”

• Utile pour comparer des situations pour lesquelles


les unités diffèrents
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 90

2.3.3 MESURES DE FORMES

GRAPHIQUES

1. Box Plot
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 91

2. Graphique des quantiles


CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 92

ASYMETRIE - SKEWNESS

• Moment centré d’ordre 3


n
1X
m3 = (xi − x̄)3
n
i=1
m3 > 0: asymétrie à gauche
m3 < 0: asymétrie à droite
m3 = 0: symétrie

• Coefficient de Fisher: g1 = m
s3
3

• Coefficient empirique de Yule et Kendall:


x1/4 − 2x1/2 + x3/4
Yk =
x3/4 − x1/4

• Coefficient empirique de Pearson:


x̄ − xM
Sk =
s
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 93

APLATISSEMENT - KURTOSIS

• Coefficient de Pearson
m4
b2 = 4
s
où m4 est le moment centré d’ordre 4
n
1
(xi − x̄)4
X
m4 =
n
i=1

• Coefficient de Fisher: g2 = b2 − 3

b2=3, g2=0
b2>3, g2>0
b2<3, g2<0

-2 -1 0 1 2
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 94

2.3.4 INDICE DE CONCENTRATION DE GINI ET COURBE


DE LORENTZ

Exemple: Mesurer le degré d’inégalité dans la


distribution des revenus des familles belges.

Formalisation: Soit une distribution, d’une


variable continue positive, regroupée en J classes.
Notons xjc le centre de la classe j et nj l’effectif
de la classe j pour (j = 1, . . . , J).
Courbe de concentration de Lorentz:
Pj
k=1 nk xck
pj = Fj et qj = PJ
k=1 nk xck
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 95

Indice de concentration de Gini:

γ = 2A

où A est l’aire comprise entre la courbe de Lorentz


et la 1ère bissectrice.
Propriétés
•0≤γ≤1
• γ ≈ 0: équirépartion
• γ ≈ 1: concentration.

Exemple: Site de la CIA reprenant “Distribu-


tion of family income - Gini index“
http://www.odci.gov/cia/publications/factbook/fields/2172.html

Belgium 28, 7%
Paraguay 57, 7%
Sweden 25%
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 96

2.4 TRANSFORMATION DE VARIABLES ET IN-


DICES

BUTS:
• Facilité l’encodage, la lecture des données

• “Linéariser” une relation entre 2 variables

• Se rapprocher d’une distribution symétrique

• Remédier à d’éventuelles inégalités de vari-


ances lorsque l’on étudie plusieurs échantillons

• ...
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 97

2.4.1 TRANSFORMATION LINEAIRE

But: Changer l’origine et l’unité pour facilité


la lecture des données sans changer le forme
(asymétrie, aplatissement,. . .).

Définition: Soit xi, 1, . . . , n un échantillon de


taille n. Appelons zi, 1, . . . , n la série translatée
de la constante c et réduite par la constante d:
xi − c
zi = i = 1, . . . , n
d
Influence sur les mesures de position:
Toutes ces mesures vont subir la même trans-
formation que les données. Par exemple:
x̄ − c
z̄ =
d
Exercices: Preuve pour z̄, z1/2, zM , . . ..
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 98

Influence sur les mesures de dispersion:


• Changement d’origine (translation)
- pas d’influence sur E, EQ, ED , s2, s
- influence sur CV = x̄s
• Changement d’unité
- influence sur E, EQ, ED , s2, s
- pas d’influence sur CV = x̄s
Exemple:
n n
2 1 X
2 1 X xi − c x̄ − c 2
sz = (zi − z̄) = ( − )
n n d d
i=1 i=1
n n
1 xi x̄ 2 1
(xi − x̄)2
X X
= ( − ) = 2
n d d d n
i=1 i=1
1 2
= 2 sx
d

Influence sur les mesures de formes: Pas


d’influence sur g1, SK , YK , b2, g2, . . ..
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 99

Exemple
Soit un échantillon reprenant le salaire brut de
10 travailleurs en FB. La variable z aura comme
unité l’Euro et comme moyenne 0.
i xi zi
1 98000FB 114,03
2 96000FB
3 104000FB
4 66000FB
5 120000FB
6 75000FB
7 88000FB
8 84000FB
9 93000FB
10 110000FB 411,50

70000 80000 90000 100000 110000


x

-500 0 500

z
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 100

2.4.2 TRANSFORMATION LOGARITHMIQUE

Objectifs: Simplifier l’analyse en rendant les


phénomènes plus symétriques, plus linéaires, de
variabilité plus constante,. . .
Exemple: Relation entre deux variables

1.2
3.5

1.0
3.0

log(y)

0.8
y

2.5

0.6
2.0

0.4
1.5

0.0 0.5 1.0 1.5 2.0 2.5 3.0 -3 -2 -1 0 1

x log(x)

NB: Les relations du type: y = axb devien-


nent après transformation logarithmique (log − log):
log y = log a + b log x
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 101

Exemple: Comparaison de plusieurs échantillons.


Comparons le nombres d’iules (mille-pattes) soumises
à 4 substances nocives (“Statistique Théorique
et Aplliquée, Tome 2”, Pierre Dagnelie, page
97).
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 102

2.4.3 TRANSFORMATIONS DE BOX-COX

Définition: Soit xi, 1, . . . , n un échantillon de


taille n. Appelons zi, 1, . . . , n la série trans-
formée par une relation de Box-Cox de paramètre
λ: 
 (xλi−1)
λ si λ 6= 0
zi =
 log x si λ = 0
e i
Ces transformations ont les mêmes objectifs que
la transformation logarithmique.
Remarque
• La transformation logarithmique est un cas
particulier (λ = 0)

• Si λ = 1/2 alors zi = xi − 1
• Ce groupe de transformation englobe aussi
les transformations racine carrée inverse √1x ,
inverse x1 , . . .
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 103

2.4.4 TRANSFORMATION ´´DIFFERENCE”

But: Utilisé en série chronologique pour éliminer


un trend (tendance) constant.

Définition: Soit xt(1, . . . , T ) une série chrono-


logique. La série différencie est donnée par:

∇xt = xt − xt−1

Exemple ELST, p. 29: Population en millions


Années 1910 1920 1930 1940 1950 1960 1970 1980
xt 1.1 1.3 2.2 4.0 6.6 8.3 9.3 9.6
∇xt - 0.2 0.9 1.8 2.6 1.7 1.0 0.3
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 104

2.4.5 LES INDICES

But: Mesurer l’évolution d’une variable (ou de


plusieurs variables) dans le temps.

INDICE ELEMENTAIRE
Définition. Soit 0 l’époque de base (référence).
L’indice de la variable x pour le temps t est:
xt
it/0(x) = .
x0
L’indice mesure le pourcentage d’augmentation
ou diminution de la variable par rapport à l’époque
de référence.

Remarque:
La variable étudiée peut être le prix (p), la
quantité (q) ou la valeur (v=pq) d’un bien.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 105

Exemple: Etudions l’évolution du prix d’un


bien de consommation de janvier 1989 à janvier
1996. Année de base: 1989 (ELST, p. 69).
Années 1989 1990 1991 1992 1993 1994 1995 1996
xt 25 25 27 28 32 33 34 35
it/0(x) 1.00 1.00 1.08 1.12 1.28 1.32 1.36 1.40

Commentaires: 8% d’augmentation en 1991 par


rapport à 1989. Forte augmentation entre 1992
et 1993, . . ..
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 106

INDICE SYNTHETIQUE SIMPLE

But: Etude de l’évolution dans le temps d’un


panier de consommation.

Soit x = (x(1), x(2), . . . , x(n)) le vecteur don-


nant le prix (ou quantité, . . .) des n produits du
panier de consommation.

• Indice de Bradstreet:
P (j)
j xt
Bt/0(x) = P
(j)
x
j 0
• Indice Moyenne arithmétique:
(j)
1 X xt
At/0(x) =
n (j)
j x0
• Autres indices: moyenne harmonqiue, moyenne
géométrique, . . .
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 107

INDICE SYNTHETIQUE PONDERE

But: Etude de l’évolution dans le temps d’un


panier de consommation en mettant des poids
associés à chacun des produits.

Soit x = (x(1), x(2), . . . , x(n)) le vecteur don-


nant le prix (ou quantité, . . .) des n produits du
panier de consommation.

• Indice de Laspeyres:
(j) (j)
P
j w 0 xt
Lt/0(x) = P
(j) (j)
j w 0 x0
(j)
où w0 peut donner représenter le prix ou la
quantité du produit j au temps de référence.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 108

• Indice de Paasche:
P (j) (j)
j wt xt
Pt/0(x) = P
(j) (j)
j t x0
w
(j)
où wt peut donner représenter le prix ou la
quantité du produit j au temps t.

• Indice de Sidgwick:
Lt/0(x) + Pt/0(x)
St/0(x) =
2
• Indice de Fisher:
q
Ft/0(x) = Lt/0(x) × Pt/0(x)

• Indice de Edgeworth:
P (j) (j) (j)
(w
j 0 + w t )xt
Et/0(x) = P
(j) (j) (j)
(w
j 0 + w t )x0
Chapitre 3

INTRODUCTION A LA THEORIE
PROBABILISTE

“Le hasard est le pseudonyme de Dieu quand


il ne voulait pas signer”
Anatole France

“Un coup de dés jamais n’abolira le hasard”


Mallarmé

“Rien ne dépasse la beauté du mystère”


Einstein

109
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 110

1. Quelles sont les chances que les ventes dans


les friteries baissent si le prix des pommes de
terre augmente?
2. Quelle est la probabilité que Justine devienne
numéro 1 à l’ATP?
3. Quelles sont les chances qu’un nouvel investisse-
ment soit rentable?
4. Quelle est la probabilité de réussir l’examen
de statistique en 1ère session?
5. Quelle est la probabilité de gagner au Lotto?
6. . . .
La probabilité peut:
• exprimer une propriété intrinsèque
d’une expérience
• mesurer la vraisemblance d’un évé-
nement.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 111

3.1 UN PEU D’HISTOIRE

“ . . . un problème relatif aux jeux de hasard,


proposé par un austère janséniste par un homme
du monde, a été à l’origine du Calcul des pro-
babilités . . .”

Il s’agit du problème des partis, proposé par le


Chevalier de Méré à Blaise Pascal et résolu
par celui-ci, ainsi que par Pierre de Fermat en
1654:
“2 joueurs, rompant de gré à gré le jeu avant
la fin, cherchent à opérer entre eux la juste
répartition de l’enjeu suivant la probabilité
qu’avait chacun d’eux de gagner.”
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 112

3.2 LOGIQUE ET INTUITION . . .

Exemple 1: Théorie des sept garçons

Quelle est la probabilité d’avoir 7 garçons?


 7
1 1
P (7G) = =
2 128
Peu, mais pourquoi n’y a-t-il pas plus de familles
de 7 garçons??

Réponse: parce que ceci est la probabilité d’avoir


7 garçons si on a 7 enfants, or il y a peu de
familles de 7 enfants.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 113

Exemple 2: Articles de presse.


“ Il y a eu plus de tués dans des accidents d’avion
en 1993 qu’en 1920 ”
Peut-on en déduire que les avions sont devenus
plus dangereux?

“ Pendant la 1ère guerre mondiale, le nombre


de blessés à la tête était nettement plus grand
parmi ceux qui portaient un casque ”
Peut-on en déduire que le port du casque est
dangereux ?

“ En 2002, il y a eut 20.343 chômeurs ayant


un diplôme universitaire et 8.657 chômeurs de
l’enseignement non universitaire type long ” (voir
ECOPOL)
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 114

Exemple 3: 1er Problème du chevalier


de Méré.

”Supposez qu’on joue plusieurs fois avec un dé,


combien faudra-t-il de lancés au minimum pour
que l’on puisse parier avec avantage, après avoir
joué ces coups, d’avoir au moins un 6 ? ”

Réponse: 4 lancés en effet, (voir exercice)

P (avoir au moins un 6) = 671/1296 > 0.5

Scéma du développement:

P (avoir au moins un 6) = 1−P (ne jamais avoir de 6)

et nous savons que:

P (ne pas avoir de 6 sur un lancé) = 5/6


P (ne pas avoir de 6 sur n lancé) = (5/6)n
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 115

Exemple 4: Paradoxe du jour


d’anniversaire.

Si vous rencontrez quelqu’un par hasard au bistrot


du coin, il y a environ 1 chance sur 365 que vous
soyez né le même jour.

Maintenant supposez que vous êtes 10 dans une


même pièce, quelle est la probabilité que deux
personnes aient la même date d’anniversaire ?????

(réponse: 11,69% de chance)

Et avec 23 personnes dans la pièce?

(réponse: 50,7% de chance)


CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 116

Exemple 5: Témoignage
Etre un bon juré.

Accident avec délit de fuite MAIS il y a un


témoin oculaire.

Faits:
• le témoin affirme avoir vu un taxi jaune
• il y a 2 types de taxi: jaune et orange
• difficulté: le soir tombait et un test pratiqué
dans des conditions similaires a montré que
le témoin ne pouvait distinguer correctement
la couleur que dans 80% des cas

Conclusion a priori: L’hypothèse la plus


probable est celle du taxi jaune.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 117

Information manquante: Proportion de taxis


jaunes et de taxis oranges?
Réponse: 85% d’oranges et 15% de jaunes.

Conclusion correcte: (Théorème de Bayes)


La probabilité que le taxi soit jaune sachant que
le témoin affirme qu’il était jaune est de 41.38%.

Donc il y a plus de chance que le taxi soit orange.


CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 118

Exemple 6: Le jeu de la Cadillac

Jeu télévisé: 3 portes et derrière l’une d’elle


il y a une cadillac.

Etape1: Le candidat choisit au hasard une


porte: 1 chance sur 3 de gagner la cadillac.
Etape2: Le présentateur ouvre une des 2 portes
restantes mais bien évidemment pas la porte à
la cadillac.

Question: Le candidat a-t-il intérêt de changer


de porte ou de garder son choix initial ?
Réponse:
Choix initial: 1 chance sur 3 de gagner
S’il change de porte: 2 chance sur 3 de gagner!!
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 119

3.3 PROBABILITE, EXPERIENCE ALEATOIRE, EVEN-


EMENT

3.3.1 DEFINITIONS

• Probabilité: sera définie par une approche


classique, fréquentiste et axiomatique.

• Expérience aléatoire: action ou processus qui


engendre des observations et dont on ne peut
prédire avec certitude le résultat.

• Ensemble (espace) fondamental Ω: ensemble


de tous les résultats possibles.

• Evénement: sous-ensemble ou partie de Ω.

• Famille F des évènements: ensemble de tous


les évènements associés à une expérience aléatoire.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 120

3.3.2 EXEMPLES

Lancement d’un dé


L’ensemble fondamental Ω:
1 2 3
4 5 6

Exemples d’évènements et Diagramme de Venn:


• Avoir le nombre “1” : A={1}
• Avoir un nombre divisible par 3: B={3,6}
• Avoir un nombre pair: C={2,4,6}
• Avoir un nombre impair: D={1,3,5}
• Avoir un nombre plus petit que 7: E={1,2,3,4,5,6}.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 121

3.3.3 CAS PARTICULIERS D’EVENEMENTS

• Evèvement élementaire: ne contient qu’un


seul élément de Ω:
Exemple: Avoir le nombre “1”: A = {1}

• Evènement impossible: ne contient aucun évè-


nement:
Exemple: Avoir un nombre plus grand que 6:

F = {} = ∅

• Evènement certain: contient tous les éléments


de Ω:
Exemple: Avoir un nombre plus petit que 7:

E = {1, 2, 3, 4, 5, 6} = Ω
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 122

3.3.4 OPERATIONS SUR LES EVENEMENTS

Soient E1, E2, . . . des événements de F.

• Implication (= inclusion): E1 ⊂ E2 signifie:

E1 se réalise ⇒ E2 se réalise.
• Conjonction (= intersection = produit logique)
E1 ∩ E2: E1 et E2 se réalisent tous les deux

Evénements mutuellement exclusifs (incom-


patibles): E1 ∩ E2 = ∅
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 123

• Réunion (= somme logique)


E1 ∪ E2: E1 ou E2 se réalisent (au moins
un des deux)

• Différence
E1\E2: E1 se réalise sans que E2 se réalise
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 124

• Complémentaire: Soit E un événement, le


complémentaire de E est noté E:

E = Ω\E

Remarques
1. E ∩ E = ∅
⇒ E et E sont mutuellement exclusifs

2. E ∪ E = Ω

3. E et E constituent une partition de Ω.


CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 125

• Partition de E
{E1, E2, . . . , Em} tel que:
1. E1, E2, . . . , Em ⊂ E
2. Ei ∩ Ej = ∅ (i 6= j)
3. E = E1 ∪ E2 ∪ . . . ∪ Em

• Système complet d’événements:


Partition de Ω
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 126

• Fonction d’ensemble: Fonction qui associe à


chaque événement de Ω un nombre réel.

Exemples: Soit E ∈ F
1. n(E) = nombre d’éléments de E
n(E)
2. f (E) = n(Ω)
Propriétés:
1. f (E) ≥ 0, pour tout E ⊂ Ω
2. f (Ω) = 1
3. Si E1, E2, . . . sont mutuellement exclusifs
(Ei ⊂ Ω):

f (E1 ∪ E2 ∪ . . .) = f (E1) + f (E2) + . . .


CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 127

3.3.5 FAMILLE F D’EVENEMENTS

Rappel: F est l’ensemble de tous les évènements


associés à une expérience aléatoire.

• Si Ω est fini alors à tout sous-ensemble cor-


respond un évènement =⇒ la famille F des
évènements est confondue avec l’ensemble des
parties de Ω.

• Si Ω est infini

on se restreint à une classe F de parties, stricte-
ment contenue dans l’ensemble des parties de
Ω, qui contient les évènements élémentaires, les
évènements impossibles et certain, ainsi que tous
ceux qui sont obtenus par les opérations ci-avant.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 128

3.3.6 TROIS DEFINITIONS DE LA PROBABILITE

• Définition classique
Expérience: - N résultats possibles “équivalents”
(symétrie des résultats)
- NS résultats donnent le succès S.
=⇒ Probabilité de succès:
NS
P (S) = .
N

Exemple: Lancement d’un dé équilibré. Succès


si nombre pair. Probabilité de succès:
3
P (pair) = = 0.5
6

Remarque: Cette définition n’est valable que si


tout les évènements élémentaires sont équiprobables
(contre exemple: avion).
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 129

• Définition fréquentiste
(approche expérimentale)

Expérience répétée n fois de manière indépendante


et identique (ex: lancé d’un dé).

On s’intérèsse à l’évènement E (ex: avoir 3).

Notons n(E) le nombre de réalisations de E


n(E)
Fréquence: fn(E) = n .

On définit alors la fréquence théorique (proba-


bilité) par:

P (E) = lim fn(E).


n→∞
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 130

• Définition axiomatique
Cas où Ω est fini

P (.) est une fonction d’ensemble à valeurs réelles,


définie sur F = P(Ω), satisfaisant aux axiomes
suivants:

A.1: P (E) ≥ 0, pour tout E ∈ F

A.2: P (Ω) = 1

A.3: Si E1, E2, E3, . . . sont mutuellement


exclusifs (Ei ∩ Ej = ∅, ∀i =
6 j):
P (E1 ∪ E2 ∪ E3 ∪ . . .) = P (E1) + P (E2) + P (E3) + . . .

N.B. Les définitions classique et fréquentiste sat-


isfont à ces axiomes
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 131

Cas où Ω est infini


Ici, l’ensemble des événements ne sera plus P(Ω)
mais une famille F de sous-ensembles possédant
les propriétés suivantes:
1. Ω ∈ F
2. si E ∈ F, alors E ∈ F
3. Pour tout ensemble fini ou dénombrable d’événe-
ments E1, E2, E3, . . . de F, (∪Ei) ∈ F
Une telle famille est appelée une σ-algèbre (ou
corps de Borel ou encore tribu).

Remarques:
1. Les propriétés ci-dessus impliquent que
∅ ∈ F et ∩Ei ∈ F
2. (Ω, F) est appelé un espace probabiliste
3. (Ω, F, P ) est appelé un espace probabilisé
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 132

3.3.7 QUELQUES PROPRIETES SIMPLES

• Propriété 1
Si un événement E est partitionné en deux évé-
nements E1 et E2:
P (E) = P (E1) + P (E2).

• Propriété 2
Extension à plus de 2 événements.

• Propriété 3
Si E1 ⊂ E2:
P (E1) ≤ P (E2).
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 133

• Propriété 4
Pour tout événement E, P (E) ≤ 1.

• Propriété 5
Si E est le complémentaire de E:

P (E) = 1 − P (E)

• Propriété 6
Le complémentaire de Ω est ∅

⇒ P (∅) = 0.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 134

3.3.8 LOI D’ADDITION

Cas de deux événements


Soient A et B ∈ F:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

Démonstration:
A ∪ B = (A\B) ∪ (A ∩ B) ∪ (B\A)

P (A ∪ B) = P (A\B) + P (A ∩ B) + P (B\A)

⇒ P (A ∪ B) = P (A) − P (A ∩ B)
+P (A ∩ B) + P (B)
−P (A ∩ B)
= P (A) + P (B) − P (A ∩ B).
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 135

Exemple:
B = {3, 6}, C = {2, 4, 6}

P (B ∪ C) = P (B) + P (C) − P (B ∩ C)
2 3 1 4
= + − =
6 6 6 6
Si A et B sont mutuellement exclusifs:

A∩B =∅

⇒ P (A ∪ B) = P (A) + P (B) (Axiome 3)

Exercice théorique: Cas de 3 évènements ou


plus
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 136

3.3.9 REGLE DE MULTIPLICATION

• Probabilité conditionnelle
Présentation à partir de l’exemple 4.1 (ELST,
p.149)

1. Prenons C (=nbre pair) comme condition,


donc on suppose que C se réalise:
1 1/6 P (B ∩ C)
⇒ P (B|C) = = =
3 3/6 P (C)
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 137

2. Prenons B = {3, 6} comme condition:

1 1/6 P (B ∩ C)
P (C|B) = = =
2 2/6 P (B)

Définition des probabilités conditionnelles


Soient A et B deux événements de F
(P (A) 6= 0; P (B) 6= 0):
P (A ∩ B)
P (A|B) =
P (B)
P (A ∩ B)
P (B|A) =
P (A)
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 138

• Règle de multiplication
Cas de deux événements
Soient A et B deux événements de probabilité
non nulle:
P (A ∩ B) = P (A).P (B|A)
P (A ∩ B) = P (B).P (A|B)

Exemple: Choix de 2 cartes sans remise dans


un jeu de 52 cartes
Evénements: R1=choix d’un roi pour la
première carte
R2=choix d’un roi pour la
seconde carte

P (R1 ∩ R2) = P (R1).P (R2|R1)


4 3 1
= . =
52 51 221
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 139

Cas de trois événements


• Soient A, B, C ∈ F:

P (A∩B ∩C) = P (A).P (B|A).P (C|A∩B)

• Ordre de prise en compte de A, B et C

• Exemple: Choix de trois cartes sans remise


dans un jeu de 52 cartes:
P (R1 ∩ R2 ∩ R3)

= P (R1).P (R2|R1).P (R3|R1 ∩ R2)


4 3 2 1
= . . =
52 51 50 5525

Extension à plus de trois événements


CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 140

3.3.10 INDEPENDANCE STOCHASTIQUE

Cas de 2 événements

1. Définition
Deux événements A et B de probabilité non
nulle sont (stochastiquement) indépendants
si et seulement si:

P (A ∩ B) = P (A).P (B)

2. Si deux événements sont indépendants alors:

P (A|B) = P (A) et P (B|A) = P (B)

3. Exemple 4.6 (ELST, p.166)


F1: première pièce =face
F2: deuxième pièce =face
11 1
P (F1 ∩ F2) = P (F1).P (F2) = =
22 4
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 141

Cas de trois événements


1. Définition
A, B et C sont indépendants ssi:
P (A ∩ B) = P (A).P (B)
P (A ∩ C) = P (A).P (C)
P (B ∩ C) = P (B).P (C)
P (A ∩ B ∩ C) = P (A).P (B).P (C)
⇒ Règle de multiplication dans le cas d’évé-
nements indépendants
2. Exemple
Lancement de 3 pièces de monnaie:
P (F1 ∩ F2 ∩ F3) = P (F1).P (F2).P (F3)
111 1
= . . =
222 8
Cas de plus de trois événements
Exercice théorique
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 142

3.3.11 THEOREME DES PROBABILITES TOTALES ET DE


BAYES

• Définition d’un système complet d’événe-


ments ou système exhaustif
Soit la partition {E1, . . . , Em} de Ω telle que

P (Ei) ≥ 0 (i = 1 . . . , m).

• Théorème des probabilités totales


Soit {E1, . . . , Em} un système exhaustif défini
sur Ω et un événement quelconque de A ∈ F:
Xm
P (A) = P (Ei)P (A|Ei).
i=1
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 143

• Théorème de Bayes
Soit {E1, . . . , Em} un système exhaustif défini
sur Ω et un événement quelconque de A ∈ F, de
probabilité non nulle. Supposons connaı̂tre les
probabilités a priori P (Ei) et les probabilités
conditionnelles P (A|Ei) (pour i = 1, . . . , m).
On peut alors calculer les probabilités a poste-
riori par la relation:

P (Ei)P (A|Ei)
P (Ei|A) = Pm .
j=1 P (Ej )P (A|Ej )
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 144

3.3.12 QUELQUES APPLICATIONS DES PROPRIETES FON-


DAMENTALES

• La formule du binôme
Schéma de Bernoulli
Dans une expérience aléatoire ξ, nous nous intérès-
sons à l’avènement ou non de l’événement E:
P (E) = p et P (Ē) = q = 1 − p.

L’expérience ξ est répétée n fois de façon indépen-


dante et sous des conditions identiques (p cons-
tant).

P (E se réalise n fois) = pp . . . p = pn
P (E ne se réalise jamais) = qq . . . q = q n
P (E se réalise au moins 1 fois) = 1 − q n
P (E se réalise r fois dans ordre précis) = pr q n−r
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 145

Par la formule du binôme, on peut aussi cal-


culer des probabilités plus difficiles:
P (E se présente r fois dans ordre quelconque)
!
n
= pr q n−r
r
!
n n!
où = r!(n−r)! = Cnr
r
!
n
Il existe en effet suites mutuellement ex-
r
clusives et de même probabilité contenant r éléments
E et (n − r) éléments Ē.
Remarque:
n
!
X n
pr q n−r = (q + p)n = 1.
r=0 r
Exemple: 10 lancés d’une pièce équilibrée:
!
10 1 3 1 7 120
P (3 fois face) = ( ) ( ) = = 0.117
3 2 2 1024
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 146

• Prélèvements avec ou sans remise


Soit un sac de billes avec N1 billes jaunes (J)
¯ Notons
et N2 billes de couleurs différentes (J).
N = N1 + N2.

1. Prélèvement de n billes avec remise (AR)


!
n
P (r fois Jaune) = pr q n−r
r
où

N1 N2
p= et q =
N N
(formule du binôme)
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 147

2. Prélèvement de n billes sans remise (SR)


Formule hypergéométrique:

! !
N1 N2
r n−r
P (r fois Jaune) = !
N
n
si r ≤ N1 et n − r ≤ N2.
3. Remarque
! !
N1 N2
!
r n−r n
! −→ pr q n−r
N r
n
pour N1, N2 → ∞ et N
N
1 = p.
Chapitre 4

STATISTIQUE DESCRIPTIVE
D’UNE SERIE BIVARIEE
• Données : Série statistique bivariée:

{(xi, yi); i = 1, 2, . . . , n}

collectées dans un tableau Individus × Caractères


Var-Ind 1 2
1 x1 y1
2 x2 y2
··· ··· ···
i xi yi
··· ··· ···
n xn yn

• But : Mettre en évidence les relations existant


entre 2 séries d’observations
148
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 149

Exemple Mode de payement


La société X gère une chaı̂ne de supermarché,
et elle s’intéresse aux modes de payement.
Le tableau suivant reprend pour 100 clients le
montant en euros dépensé sur 1 mois en liq-
uide et par carte bancaire (Source : données
simulées).
Payement liquide 115 45 99 154 201 27 62 32 44 ...
Payement par carte 227 459 151 376 321 555 698 159 323 . . .
Payement liquide ... 95 93 83 103 103 100 95 95 94
Payement par carte . . . 298 59 73 80 13 253 175 175 164

Questions:
• Quel est le mode de payement favori des clients?
• Les clients qui dépensent plus que la moyenne
en liquide dépensent-ils également plus que la
moyenne par carte ?
• etc
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 150

Exemple Bourse: Données contenant les in-


formations financières de 25 entreprises.
Entreprises Place boursière Prix de l’action (en dollars)
Award Software OTC 11.500
Chesapeake Energy NYSE 7.880
Craig Corporation NYSE 17.000
Edisto Resources AMEX 9.688
Franklin Elect. Pbls. NYSE 12.880
Gentia Softaware OTC 5.750
Giant Group NYSE 6.563
Hot Topic OTC 15.750
Hudson General AMEX 39.750
ICU Medical OTC 8.500
Jackpot Enterprises NYSE 10.875
Kentek Information OTC 9.500
Larscom, Inc OTC 10.313
Lumisys, Inc OTC 7.375
Maynard Oil OTC 10.750
Mechanical Dynamics OTC 6.688
Metrika Systems AMEX 15.250
National Home Health OTC 5.130
National Tech Team OTC 10.875
OrCad OTC 11.375
OroAmerica OTC 5.125
Overland Data OTC 7.000
PIA Merchandising OTC 7.500
Plenum Publishing OTC 44.000
Premier Research OTC 8.250

Source : Stock Investor Pro, Association américaine


des investisseurs individuels , 31 août 1997.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 151

Place boursière : Endroit où les titres des en-


treprises sont échangés:
• NYSE (bourse de New York)
• AMEX (Bourse américaine)
• OTC (marché parallèle)


Variable nominale.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 152

Exemple Seconde session: Echantillon com-


posé de 20 bacheliers en économiques. L’étude
porte sur le nombre de 2èmes sessions présentées
dans le secondaire (x) et à l’université (y).

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 2 2 2 2 3
Y 0 0 1 1 1 2 2 2 2 3 3 3 3 4 4 0 1 3 4 5

Commentaires:
• Beaucoup d’étudiants s’engageant dans les
études en économie n’ont jamais eu de 2ème ses-
sion dans le secondaire.
• Ne pas avoir eu de 2ème session dans le sec-
ondaire n’est pas une garantie de réussite en 1ère
session à l’université
• Les étudiants sans 2ème session dans le sec-
ondaire ont-ils plus de chances de réussite en
1ère session que les autres ?
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 153

Nous envisagerons 4 situations en fonc-


tion de la nature des variables

x/y Quantitatif Ordinal Nominal


Quantitatif I IV IV
Ordinal IV II III
Nominal IV III III

Etude dans 2 directions:


• Elaboration de tableaux et graphiques
• Réduction des données.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 154

4.1 RELATIONS ENTRE 2 VARIABLES QUANTI-


TATIVES

4.1.1 VISUALISATION DES DONNEES (Scatter Plot)

Exemple Mode de payement


Mode de payement

50 100 150 200

Dépenses mensuelles en liquide

Conclusion : Lien positif entre les deux vari-


ables donc une personne dépensière en liquide
le sera également par carte. (Logique ? Autres
variables à prendre en compte ? Nombre de
personnes dans le ménage, . . .)
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 155

4.1.2 DISTRIBUTION MARGINALE, DISTRIBUTION CON-


DITIONNELLE

1. Tableau de contingence (TC)


Soit {(xi, yi); i = 1, 2, . . . , n} la série statis-
tique bivariée =⇒ construction d’un tableau de
contingence:
x|y y1 y2 . . . yk . . . yK
x1 n11 n12 . . . n1k . . . n1K
x2 n21 n22 . . . n2k . . . n2K
··· ··· ··· ··· ··· ··· ···
xj nj1 nj2 . . . njk . . . niK
··· ··· ··· ··· ··· ··· ···
xJ nJ1 nJ2 . . . nJk . . . nJK

où njk : effectif associé au couple (xj , yk ).


=⇒ Réécriture de la série statistique bivariée:
{(xj , yk , njk ), j = 1, . . . J, k = 1, . . . K}.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 156

Exemple sur les secondes sessions


P
njk y = 0 y = 1 y = 2 y = 3 y = 4 y = 5
x=0 2 3 4 2 0 0 11
x=1 0 0 0 2 2 0 4
x=2 1 1 0 1 1 0 4
x=3 0 0 0 0 0 1 1
P
3 4 4 5 3 1 20

Commentaires :
• Deux étudiants de l’échantillon n’ont jamais
eu de 2ème session
• Un étudiant a eu trois 2èmes sessions en
secondaire et cinq 2èmes sessions à l’université
• L’effectif maximal est 4 pour des étudiants
n’ayant jamais eu de 2ème session en secondaire
mais deux 2èmes sessions à l’université
• ...
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 157

Si le nombre de lignes et de colonnes d’un


TC sont trop grands =⇒ faire des classes
Exemple: Mode de payement
P
njk [0, 175[ [175, 350[ [350, 525[
[0, 100[ 26 24 1 51
[100, 200[ 16 25 7 48
[200, 300[ 0 1 0 1
P
42 50 8 100
xcj et yck : valeurs centrales des classes
∆x et ∆y: longueurs de classes.
Commentaires:
• 26 clients sur 100 ont acheté en liquide entre 0 et 100
euros et par carte entre 0 et 175 euros.
• Plus de la moitié de l’échantillon (51 sur 100) ont
acheté pour moins de 100 euros en liquide
• 8% ont acheté entre 350 et 525 euros par carte.
NB : Parfois on a des distributions de type mixte
où une des deux séries est regroupée en classes.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 158

2. Distributions marginales
Etude d’une seule série observée (abstraction de
l’autre série) =⇒ étude de séries univariées.

a) Série marginale en x :{xi; i = 1, 2, . . . , n}


ou encore {(xj , nj.); j = 1, . . . , J} où
K
X
nj. = njk
k=1
sont les effectifs marginaux.

Fréquence marginale en x :
nj.
fj. = où j = 1, . . . , J =⇒
n
n J
1X 1X
x̄ = xi = nj.xj
n n
i=1 j=1
n J
2 1 2 1X
nj.(xj − x̄)2
X
sx = (xi − x̄) =
n n
i=1 j=1
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 159

b) Série marginale en y :{yi; i = 1, 2, . . . , n}


ou encore {(yk , n.k ); k = 1, . . . , K} où
J
X
n.k = njk
j=1
sont les effectifs marginaux.

Fréquence marginale en y :
n.k
f.k = où k = 1, . . . , K =⇒
n
n K
1 X 1 X
ȳ = yi = n.k yk
n n
i=1 k=1
n K
2 1 1
(yi − ȳ)2 = n.k (yk − ȳ)2
X X
sy =
n n
i=1 k=1
Exercice:
X J K
X J X
X K
nj. = n.k = njk = n
j=1 k=1 j=1 k=1
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 160

Exemple sur les secondes sessions


njk y = 0 y = 1 y = 2 y = 3 y = 4 y = 5 nj.
x=0 2 3 4 2 0 0 11
x=1 0 0 0 2 2 0 4
x=2 1 1 0 1 1 0 4
x=3 0 0 0 0 0 1 1
n.k 3 4 4 5 3 1 20
{(xj , nj.), j = 1, . . . , J} = {(0, 11), (1, 4), (2, 4), (3, 1)}
{(yk , n.k ), k = 1, . . . , K} = {(0, 3), (1, 4), (2, 4), (3, 5), (4, 3), (5, 1)}

Diagramme en bâtons des effectifs marginaux


en x.
11

4 4

0.0 0.5 1.0 1.5 2.0 2.5 3.0


xj
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 161

3. Distributions conditionnelles
Etude d’une série observée en fixant la valeur
de l’autre série observée.

Questions :
• Parmi les étudiants n’ayant jamais eu de
2ème session dans le secondaire, quel est le pour-
centage d’étudiants réussissant sans 2ème ses-
sion à l’université ?
• Quelle est la moyenne du prix d’une action
pour les titres échangés sur la bourse de New
York ?
• Sachant que les dépenses en liquides par
mois sont inférieures à 100 euros pour certains
individus de l’échantillon, quelle sera la moyenne
des dépenses de ces individus par carte ?
• ...
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 162

Distribution conditionnelle de y en x :

Fixons x = xj : {(yk , njk ), k = 1, . . . , K}


=⇒ étude sur un échantillon de taille nj.

Fréquence conditionnelle (profil-lignes) :

njk
fyk |xj = fk|j = j fixé ; k = 1, . . . , K
nj.
On peut calculer les moyennes, variances,. . . con-
ditionnelles :

K
1 X
ȳ|xj = njk yk
nj.
k=1
K
2 1
njk (yk − ȳ|xj )2
X
sy|x =
j nj.
k=1
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 163

Distribution conditionnelle de x en y:

Fixons y = yk : {(xj , njk ), j = 1, . . . , J}


=⇒ étude sur un échantillon de taille n.k

Fréquence conditionnelle (profil-colonnes) :

njk
fxj |yk = fj|j = k fixé ; j = 1, . . . , J
n.k
On peut calculer les moyennes, variances,. . . con-
ditionnelles :

J
1 X
x̄|yk = njk xj
n.k
j=1
J
2 1
njk (xj − x̄|yk )2
X
sx|y =
k n.k
j=1
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 164

Exemple sur les secondes sessions


Nombre moyen de secondes sessions à l’université
sachant le nombre de secondes sessions dans le
secondaire :
xj ȳ|xj
0 1.5455
1 3.5
2 2
3 5

Exemple : Bourse
Moyenne des prix d’une action pour les titres
échangés sur la bourse de New York :

7.88 + 17.000 + 12.888 + 6.563 + 10.865


ȳx=N Y SE = = 11.0396
5
9.688 + 39.750 + 15.250
ȳx=AM EX = = 21.5627
3

Exercice: ȳx=OT C = . . .
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 165

4.1.3 MOMENTS, COVARIANCE ET CORRELATION

1. Les moments
Généralisation à 2 dimensions de la notion de
moment :
a) Moments centrés
n
1
(xi − x̄)r (yi − ȳ)s
X
mrs = r, s ∈ IN
n
i=1
Cas particuliers :

n
1X
m20 = (xi − x̄)2 = s2x
n
i=1
n
1
(yi − ȳ)2 = s2y
X
m02 =
n
i=1
n
1 X
m11 = (xi − x̄)(yi − ȳ) = sxy
n
i=1
où sxy est appelé covariance
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 166

b) Moments par rapport à l’origine


n
0 1
xri yis
X
mrs =
n
i=1
Cas particuliers
m010 = x̄ m001 = ȳ

c)Propriétés de mrs

Soient x0, y0 ∈ IR et dx, dy ∈ IR+


Posons : ui = xid−x0 , vi = yid−y0 (i = 1, . . . , n)
x y
et n
1
(ui − ū)r (vi − v̄)s
X
m̃rs =
n
i=1

mrs
m̃rs = r s (exercice)
dxdy
Cas particulier :
sxy
suv =
dxdy
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 167

2. Covariance
Moment centré d’ordre (1,1):
n
1 X
m11 = sxy = cov(x, y) = ((xi − x̄)(yi − ȳ))
n
i=1
La covariance sera positive (négative) s’il existe
une relation croissante (décroissante) entre les 2
variables.
Exemple: Mode de payement

Modes de payement

-
+
50 100 150 200

Dépenses mensuelles en liquide


CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 168

Propriétés
• Influencée par les changements d’unités mais
pas d’origine. Soient
xi − x0 yi − y0
ui = et vi = (i = 1, . . . , n)
dx dy
cov(x, y)
=⇒ cov(u, v) = (exercice)
dxdy
• |cov(x, y)| ≤ sxsy (exercice)
Aide: développer l’expression suivante:
n
1
(b(xi − x̄) − (yi − ȳ))2
X
n
i=1
• Expression liant m11 et m011 (exercice):
n
1 X
m11 = sxy = ((xi − x̄)(yi − ȳ))
n
i=1
n
1X
= xiyi − x̄ȳ = m011 − m001m010
n
i=1
1 Pn
Mettre en parallèle avec : sx = n i=1 x2i − x̄2.
2
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 169

3. Coefficient de corrélation
(Bravais-Pearson)
Définition:
sxy
r= où sx 6= 0, sy 6= 0
s x sy
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 170

Commentaires:
r = 1 quand tous les points observés se trou-
vent sur une même droite de pente positive
r ≈ 1 quand tous les points observés sont
situés à proximité d’une telle droite
r = 0 quand le nuage de points est allongé
parallèlement à l’un des axes de coordonnées ,
ou forme arrondie
r = −1 quand tous les points observés se trou-
vent sur une même droite de pente négative
r ≈ −1 quand tous les points observés sont
situés à proximité d’une telle droite

=⇒ r mesure l’intensité de la “dépendance”


linéaire entre x et y
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 171

Propriétés
• Ne peut pas être utilisé avec des variables
qualitatives

• signe(r) = signe(cov(x, y))

• −1 ≤ r ≤ 1

• r est indépendant des unités de mesures (orig-


ine et unité des échelles de mesure) =⇒ r est
indépendant de toute transformation linéaire.
Ainsi, on a que rxy = ruv quand
xi − x0 yi − y0
ui = et vi = (i = 1, . . . , n)
dx dy
avec dx et dy strictement positifs.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 172

!!Corrélation n’implique pas toujours


causalité!!
Une forte corrélation n’implique pas automa-
tiquement une relation directe de cause à effet.
Ceci peut simplement être dû au fait que les
2 variables sont soumises à des influences com-
munes.
Exemple des cigognes.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 173

4.1.4 VECTEUR MOYENNE ET MATRICE DE VARIANCE-


COVARIANCE

Il est fréquent de représenter les moments du


1er et du 2ème ordres d’une sérié bivariée sous
forme matricielle (notation aisée, temps de cal-
culs réduits).

Soit {xi, yi; i = 1, . . . , n}, une série bivariée:

a) Vecteur moyenne:
!

ḡ =

NB: ḡ définit le centre de gravité des données.

b) Matrice variance-covariance:
!
s2x sxy
V =
sxy s2y
NB: V est une matrice symétrique.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 174

c) Soit X la matrice des observations:


 
x1 y1
 
x y2 
 2
X=

 .. .. 

 
xn yn
et Xc la matricedes valeurs centrées:

x − x̄ y1 − ȳ
 1 
 x − x̄ y − ȳ 
 2 2
Xc =  ,

 . . .
. 
 
xn − x̄ yn − ȳ

=⇒ V = n1 Xc0 Xc
 
x − x̄ y1 − ȳ
! 1 
1  x2 − x̄ y2 − ȳ
x1 − x̄ x2 − x̄ . . . xn − x̄  
= .

 . ..
n y1 − ȳ y2 − ȳ . . . yn − ȳ  . 
 
xn − x̄ yn − ȳ
Exercice: Ecriture matricielle avec trois vari-
ables (x, y, z).
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 175

4.1.5 REGRESSION LINEAIRE SIMPLE

Objectif : Définir une relation de dépendance


statistique entre 2 variables.
La variable à expliquer sera notée Y (variable
réponse, variable dépendante), et la variable ex-
plicative sera noté X (variable indépendante)

Exemples
4
2
0
y2
-2
-4

1 0 1 2 -2 -1 0 1
x1 x1
2
1
y4
0
-1
-2

1 0 1 2 -2 -1 0 1
x1 x1
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 176

Dépendance simple : relation linéaire


=⇒ détermination d’une droite de régression.

Exemple: Essayons d’estimer le prix d’une


maison PRICE (en milliers de dollars) en fonc-
tion de la superficie totale FLR (en pieds carrés).
La variable dépendante est PRICE, la variable
explicative est FLR.
Ajustons “au mieux” ces données par une droite
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 177

L’erreur commise entre la vraie valeur Price et la


valeur ajustée par la droite est appelée “résidu”
(residual)

Remarquons qu’en moyenne nous ne faisons pas


d’erreur, en effet la moyenne des résidus est nulle
dès qu’un terme constant est dans le modèle.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 178

CADRE THEORIQUE

Soit {(xi, yi); i = 1, . . . , n} une série statistique


bivariée. Soit y la variable dépendante et x la
variable explicative.
Notons la droite de regression:

ŷi = a + bxi (a, b ∈ IR).

Alors, il est possible de calculer les résidus:

ei = yi − ŷi = yi − a − bxi

Idée: Minimiser les erreurs commises entre la


vraie valeur de l’observation yi et la prévision
basée sur la variable explicative ŷi.
Différentes pistes: Minimiser
n n
e2i
X X
ou |ei| ou médiane(ei) ou . . .
i=1 i=1
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 179

CRITERE DES MOINDRES CARRES (MC)

Point de vue mathématique: critère simple.

But: Minimiser:

n n
e2i = (yi − a − bxi)2.
X X

i=1 i=1

=⇒ Système d’équations normales. Pour avoir


un minimum, il faut que


(i) Q(a, b) = 0
∂a

(ii) Q(a, b) = 0.
∂b
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 180

Résolution:
Dérivons la somme des résidus carrés par rap-
port à a:
n
∂ X
Q(a, b) = −2 (yi − a − bxi)
∂a
i=1
Il s’ensuit de (i) que
n
X
⇔ (yi − a − bxi) = 0
i=1
Xn n
X
⇔ yi − na − b xi = 0
i=1 i=1
Xn Xn
⇔ yi = na + b xi
i=1 i=1
⇔ ȳ = a + bx̄,

ce qui implique que le centre de gravité est sur


la droite de régression.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 181

Dérivons la somme des résidus carrés par rap-


port à b:
n
∂ X
Q(a, b) = −2 (yi − a − bxi)(xi)
∂b
i=1
Il s’ensuit de (ii) que
Xn
⇔ (yi − a − bxi)(xi) = 0
i=1
n n n
x2i = 0
X X X
⇔ xi y i − a xi − b
i=1 i=1 i=1
n n n
1 1 1
x2i = 0
X X X
⇔ xiyi − (ȳ − bx̄) xi − b
n n n
i=1 i=1 i=1
n n
1 1
xiyi − ȳ x̄ + bx̄2 − b x2i = 0
X X

n n
i=1 i=1
n n
1 1
x2i − x̄2) =
X X
⇔ b( xiyi − ȳ x̄
n n
i=1 i=1
1 Pn 1 Pn
n i=1 xiyi − ȳ x̄ n i=1(xi − x̄)(yi − ȳ)
⇔ b = 1 Pn 2
= 1 Pn
x − x̄ 2 (x − x̄) 2
n i=1 i n i=1 i
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 182

Solution au problème de minimisation:

a = ȳ − bx̄
sxy
b = 2
sx

Remarque: en calculant les dérivées secondes,


on peut montrer que la solution est bien un min-
imum (exercice).
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 183

Variances résiduelle et de régression


Décomposons la variance de la variable à ex-
pliqué (y) en deux parties: d’une part la partie
expliquée par la droite de régression (variance
de régression) et d’autre part la partie non ex-
pliquée (variance résiduelle)

n n
1 1
s2y = (yi −ŷi)2 + (ŷi −ȳ)2 = s2e +s2reg
X X
n n
i=1 i=1
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 184

Démonstration:
n n
2 1 2 1
(yi − ŷi + ŷi − ȳ)2
X X
sy = (yi − ȳ) =
n n
i=1 i=1
n n
1 2 1
(ŷi − ȳ)2
X X
= (yi − ŷi) +
n n
i=1 i=1
n
2 X
+ (yi − ŷi)(ŷi − ȳ)
n
i=1
Montrons que le double produit est nul. Rappel:
ŷi = a + bxi = ȳ − bx̄ + bxi = ȳ + b(xi − x̄)
Donc, nous avons que:
n n
2X 2X
(yi − ŷi)(ŷi − ȳ) = (yi − ȳ − b(xi − x̄))(b(xi − x̄))
n i=1 n i=1
n n
2b X X
= [ (yi − ȳ)(xi − x̄) − b (xi − x̄)2]
n i=1 i=1
sxy
= 2b[sxy − bs2x] = 2b[sxy − 2 s2x] = 0
sx

Ceci prouve la décomposition de la variance en


une variance résiduelle et une variance de régression.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 185

Coefficient de corrélation (r) et coeffi-


cient de détermination (R2)
• Lien entre le signe de r et la pente de la
droite de régression. On peut prouver que
sy
ŷi − ȳ = r (xi − x̄)
sx
De cette relation, il est aisé de voir que:
r > 0 =⇒ pente positive
r < 0 =⇒ pente négative

• Pourcentage de variance de la variable y


expliqué par la variable x. On peut montrer:
s 2
reg
s2e = s2y (1 − r2) ⇐⇒ r2 = 2
sy
Interprétation : r2 qui sera étendu dans le cas
de régression multiple à R2 mesure le % de vari-
ance de la variable réponse (y) expliqué par la
variable explicative (x).
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 186

Démonstration: s2e = s2y (1 − r2)


n n
1 1
s2e = (yi − ŷi)2 = (yi − ȳ − b(xi − x̄))2
X X
n n
i=1 i=1
n 2Xn
1 2 b
(xi − x̄)2
X
= (yi − ȳ) +
n n
i=1 i=1
n
2b X
− (yi − ȳ)(xi − x̄)
n
i=1
s 2
2 xy 2 sxy
= sy + 4 sx − 2 2 sxy
sx sx
s 2
xy
= s2y − 2
sx
s 2
2 xy
= sy (1 − 2 2 )
s x sy
= s2y (1 − r2)
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 187

Exemple

Argent de poche donné à de jeunes adolescents:


• x = âge
• y = montant hebdomadaire moyen en euro

xi 12 12 15 14 16 14 12 13 11 11
yi 4.1 3.4 11.3 10.2 11.5 7.2 6.0 7.8 3.5 3.0
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 188

xi yi xi − x̄ yi − ȳ (xi − x̄)2 (yi − ȳ)2 (xi − x̄)(yi − ȳ)


12 4.1 -1 -2.7 1 7.29 2.7
12 3.4 -1 -3.4 1 11.56 3.4
15 11.3 2 4.5 4 20.25 9
14 10.2 1 3.4 1 11.56 3.4
16 11.5 3 4.7 9 22.09 14.1
14 7.2 1 0.4 1 0.16 0.4
12 6 -1 -0.8 1 0.64 0.8
13 7.8 0 1 0 1 0
11 3.5 -2 -3.3 4 10.89 6.6
11 3 -2 -3.8 4 14.44 7.6
130 68 0 0 26 99.88 48

! ! ! !
x̄ 13 s2x sxy 2.6 4.8
ḡ = = et V = =
ȳ 6.8 sxy s2y 4.8 9.99

Donc la droite de régression est donnée par:


4.8
ŷ = 6.8 + (x − 13) = −17.2 + 1.85x
2.6
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 189

Importance de l’analyse des graphiques


• Examen du graphique des données =⇒ in-
formation sur la relation éventuelle entre deux
variables
• Analyse des résidus ei = yi−ŷi (i = 1, . . . , n).
• Exemple dû à Anscombe (p. 398)
Ensemble A Ensemble B Ensemble C Ensemble D
x y x y x y x y
10 8.04 10 9.14 10 7.46 8 6.58
8 6.95 8 8.14 8 6.77 8 5.76
13 7.58 13 8.74 13 12.74 8 7.71
9 8.81 9 8.77 9 7.11 8 8.84
11 8.33 11 9.26 11 7.81 8 8.47
14 9.96 14 8.10 14 8.84 8 7.14
6 7.24 6 6.13 6 6.08 8 5.25
4 4.26 4 3.10 4 5.39 19 12.50
12 10.84 12 9.13 12 8.15 8 5.56
7 4.82 7 7.26 7 6.42 8 7.91
5 5.68 5 4.74 5 5.73 8 6.89
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 190

Représentations graphiques des exemples d’Anscombe:

Que pensez-vous de l’hypothèse de relation linéaire


entre x et y pour chacun de ces cas?

• N.B.: Calculez les résidus et commentez leurs


graphiques.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 191

4.2 RELATIONS ENTRE UNE VARIABLE QUAN-


TITATIVE ET UNE VARIABLE QUALITATIVE

Soient:
- Y une variable quantitative (p.e. le salaire)
- X une variable qualitative (p.e. le niveau
de diplôme) prenant les modalités x1, . . . , xj , . . . , xJ .

• Moyennes conditionnelles: Quel est le salaire


moyen pour un travailleur ayant un diplôme de
bachelier ??
1 X
ȳ|xj = yj
nj.
y tq x=xj

=⇒ Graphique des moyennes conditionnelles.


CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 192

• Mesure de l’intensité de la dépendance non


linéaire de y en x. Effectuons une décomposition
de la variance marginale :

n K
1 1
s2y = (yi − ȳ)2 = n.k (yk − ȳ)2
X X
n n
i=1 k=1
J XK
1
njk (yk − ȳ)2
X
=
n
j=i k=1
J X K
1
njk (yk − ȳ|xj + ȳ|xj − ȳ)2
X
=
n
j=i k=1
J X K
1
njk (yk − ȳ|xj )2
X
=
n
j=i k=1
J
1
nj.(ȳ|xj − ȳ)2
X
+
n
j=i
= moyenne des variances conditionnelles
+ variance des moyennes conditionnelles
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 193

• Le rapport de corrélation ηy.x est défini par


son carré:

1 PJ n (ȳ|x − ȳ)2
2 n j=i j. j
ηy.x =
s2y

Interprétation: Pourcentage de la variance ex-


pliquée par la connaissance de la variable X.

Remarques:
- expression à comparer avec R2
2 est indépendant des origines et des
- ηy.x
unités
2 ≤1
- 0 ≤ ηy.x
- Si ȳ|xj = ȳ 2 =0
∀j =⇒ ηy.x
- Si s2y|x = 0 2 =1
∀j =⇒ ηy.x
j
2 − r2
- Indice de non linéarité: ηy.x
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 194

4.3 RELATION ENTRE 2 VARIABLES QUALITA-


TIVES ORDINALES

Exemple: Sondage d’opinion auprès de 10 clients


du restaurant Lobster Pot dans l’Etat de Floride.

i 1 2 3 4 5 6 7 8 9 10
QN E B B E S S I B E S
QS B B B E S B I E B S
R B B E B B I I E B B
P S B E E B I I B S B
G B B E B E B I S S E
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 195

4.3.1 CORRELATIONS DE RANG

Echelle ordinale donc il n’existe plus de lien


linéaire ⇒ Information à exploiter pour com-
parer les 2 seriés: ORDRE.

Soit {(xi, yi); i = 1, . . . , n} la série statistique


bivariée. Soient les 2 séries marginales ordonnées:
{x(1), . . . , x(n)} et {y(1), . . . , y(n)}.

L’indice (i) est appelé rang de l’observation


correspondante. Notons R(xi) le rang de l’obser-
vation xi et R(yi) le rang de l’observation yi.

Exemples:
Série observée: QNi = {E, B, E, B, S, S, I, B, E, S}
Série ordonnée: QN(i) = {I, S, S, S, B, B, B, E, E, E}
Rang de la série ordonnée: R(QN(i)) = {1, 3, 3, 3, 6, 6, 6, 9, 9, 9}
Rang de la série observée: R(QNi) = {9, 6, 9, 6, 3, 3, 1, 6, 9, 3}
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 196

• Corrélation de Spearman (rs)


Définition:

Rs = corr(R(x), R(y)).

Par définition de la corrélation de Pearson:


1
Pn  
n i=1 R(xi ) − R̄x R(yi) − R̄y
Rs = q P
1 n 2
 1 Pn 2

n i=1 (R(xi ) − R̄x ) n i=1 (R(yi ) − R̄y )

• Corrélation du quadrant
Basé sur la division de l’espace en 4 parties au
moyen des médianes.

• Corrélation de Kendall
Basé sur la notion de paire d’observations con-
cordantes et discordantes.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 197

4.4 RELATIONS ENTRE 2 VARIABLES QUALITA-


TIVES NOMINALES

Série statistique bivariée

{(xj , yk , njk ); j = 1, . . . , J et k = 1, . . . , K}

• Exemple: Enquête auprès de 200 étudiants


Variable X: “Provenance des étudiants”
3 modalités: R1, R2, R3 (3 régions).

Variable Y : “Choix de l’université”


3 modalités: U1, U2, U3 (3 universités).

Tableau de contingence
njk U1 U2 U3 nj.
R1 28 73 29 130
R2 0 2 18 20
R3 12 25 13 50
n.k 40 100 60 200
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 198

Formalisation
• 2 variables qualitatives (nominales) X et Y :
- X prend J modalités: A1, . . . , AJ

- Y prend K modalités: B1, . . . , BK .


• X et Y sont observés sur un échantillon de
taille n =⇒ Tableau de contingence (N):
PK
X|Y B1 . . . Bk . . . BK k=1
A1 n11 . . . n1k . . . n1K n1.
··· ··· ··· ··· ··· ···
Aj nj1 . . . njk . . . niP nj.
··· ··· ··· ··· ··· ···
AJ nJ1 . . . nJk . . . nJK nJ.
PJ
j=1 n.1 . . . n.k . . . n.K n

où les effectifs njk représentent le nombre d’individus


ayant simultanément les modalités Aj et Bk .
PK PJ
Notons que nj. = k=1 njk et n.k = j=1 njk .
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 199

Tableau des fréquences relatives F


Proportion d’individus possédant simultanément
les modalités Aj et Bk :
njk
fjk = (j = 1 . . . , J; k = 1, . . . , K).
n

Fréquences relatives marginales sont données par:


nj.
fj. = (j = 1 . . . , J)
n
et
n.k
f.k = (k = 1, . . . , K).
n

Remarquons que:
fjk est une estimation de

πjk = P (X ∈ Aj , Y ∈ Bk )

fj. est une estimation de πj. = P (X ∈ Aj )


f.k est une estimation de π.k = P (Y ∈ Bk )
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 200

Exemple Régions-Universités.
fjk U1 U2 U3 fj.
R1 0.14 0.365 0.145 0.65
R2 0 0.010 0.090 0.10
R3 0.06 0.125 0.065 0.25
f.k 0.20 0.50 0.30 1

Commentaires
• 14% des 200 étudiants viennent de la région
R1 et sont à l’université U1
• 65% des étudiants viennent de la région R1
• 30% des étudiants sont à l’université U3
• ...
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 201

Tableaux des fréquences conditionnelles


• Tableau des profils-lignes
Proportion des individus présentant la modalité
Bk parmi les individus ayant la modalité Aj :
njk njk /n fjk
fk|j = = = (j = fixé; k = 1, . . . , K).
nj. nj./n fj.
=⇒ estimation de la probabilité conditionnelle:
P (Y ∈ Bk |X ∈ Aj )
fjk
fj. U1 U2 U3 Totaux
R1 0.215 0.562 0.223 1
R2 0 0.100 0.900 1
R3 0.240 0.500 0.260 1
f.k 0.200 0.500 0.300 1

Commentaires
• Dans les étudiants venant de la région R2,
10% ont choisi l’université U2.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 202

• Tableau des profils-colonnes


Proportion des individus présentant la modalité
Aj parmi les individus ayant la modalité Bk :
njk njk /n fjk
fj|k = = = (j = 1, . . . , J; k = fixé).
n.k n.k /n f.k
=⇒ estimation de la probabilité conditionnelle:
P (X ∈ Aj |Y ∈ Bk )
Exemple 1:
fjk
f.k U1 U2 U3 fj.
R1 0.700 0.730 0.483 0.65
R2 0 0.020 0.300 0.10
R3 0.300 0.250 0.217 0.25
Totaux 1 1 1 1

Commentaires
• Dans les étudiants ayant choisi l’université
U3, 30% viennet de la région R2.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 203

Situation d’indépendance
• Si 2 variables aléatoires X et Y sont indépendantes,
alors ∀j ∈ {1, . . . , J} et ∀k ∈ {1, . . . , K}:

a)P (X ∈ Aj , Y ∈ Bk ) = P (X ∈ Aj )P (Y ∈ Bk )
b)P (Y ∈ Bk |X ∈ Aj ) = P (Y ∈ Bk )
c)P (X ∈ Aj |Y ∈ Bk ) = P (X ∈ Aj )

• L’échantillon de taille n nous permet d’estimer


ces quantités, dès lors sous l’hypothèse d’indé-
pendance, on devrait avoir:

a )fjk ≈ fj.f.k ∀j ∈ {1, . . . , J} ∀k ∈ {1, . . . , K}


fjk
b )fk|j = ≈ f.k ∀j, ∀k
fj.
fjk
c )fj|k = ≈ fj. ∀j, ∀k.
f.k
Ainsi tous les profils-lignes et les profils-colonnes
sont pratiquement égaux.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 204

• Définissons les fréquences (relatives) théoriques


espérées sous l’hypothèse d’indépendance:
∗ ∗ ∗ nj.n.k
fjk = fj.f.k et njk = nfjk =
n
• Exemple Régions-Universités.
Effectifs et effectifs théoriques:
njk U1 U2 U3 nj.
R1 28 73 29 130
R2 0 2 18 20
R3 12 25 13 50
n.k 40 100 60 200
n∗jk U1 U2 U3 nj.
R1 26 65 39 130
R2 4 10 6 20
R3 10 25 15 50
n.k 40 100 60 200
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 205

Fréquences observées et fréquences théoriques


espérées sous l’hypothèse d’indépendance:

fjk U1 U2 U3 fj.
R1 0.14 0.365 0.145 0.65
R2 0 0.010 0.090 0.10
R3 0.06 0.125 0.065 0.25
f.k 0.20 0.50 0.30 1
∗ U
fjk U2 U3 fj.
1
R1 0.13 0.325 0.195 0.65
R2 0.02 0.050 0.030 0.10
R3 0.05 0.125 0.075 0.25
f.k 0.20 0.50 0.30 1
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 206

Ecarts à l’indépendance
Les écarts à l’indépendance sont donnés par

ejk = njk − n∗jk

La matrice des écarts est calculée en soustrayant


de la matrice des effectifs observés N , la matrice
des effectifs théoriques espérés sous l’hypothèse
d’indépendance N ∗.

• Exemple Régions-Universités
njk U1 U2 U3 nj. n∗jk U1 U2 U3 nj.
R1 28 73 29 130 R1 26 65 39 130
R2 0 2 18 20 R2 4 10 6 20
R3 12 25 13 50 R3 10 25 15 50
n.k 40 100 60 200 n.k 40 100 60 200
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 207

=⇒
ejk U1 U2 U3
R1 2 8 -10
R2 -4 -8 12
R3 2 0 -2

• Interprétations:
ejk > 0 ↔ njk > n∗jk ↔ fjk > fjk ∗ =f f
j. .k
→ on dit que les modalités Aj et Bk “s’attirent”

ejk < 0 ↔ njk < n∗jk ↔ fjk < fjk∗ =f f


j. .k
→ on dit que les modalités Aj et Bk “se re-
poussent”.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 208

Mesures d’association du chi-carré:


J XK (n − n∗ )2 J XK e2
2
X jk jk X jk
D = =
n∗jk n∗jk
j=1 k=1 j=1 k=1
Exemple Régions-Universités:
e2jk
n∗jk
U1 U2 U3 Totaux

R1 0.1538 0.9846 2.5641 3.7025


R2 4.0000 6.4000 24.0000 34.4000
R3 0.4000 0.0000 0.2667 0.6667
Totaux 4.5538 7.3846 26.8308 38.7692

• Interprétation : Plus la valeur est grande, plus


on s’écarte de l’indépendance donc association
(en 2ème année dans le chapitre des problèmes
de test, vous utiliserez cette statistique pour
tester l’indépendance).
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 209

4.5 EXTENSIONS (cours à option en 4ème):


ANALYSE DES DONNEES MULTIDIMENSION-
NELLES

But: présenter les différentes méthodes statis-


tiques permettant de visualiser et résumer l’infor-
mation contenue dans des bases de données con-
tenant un grand nombre de variables.

Analyse en composantes principales (ACP)


Technique de représentation et de réduction d’un
ensemble de variables quantitatives continues.

Analyse des correspondances binaires


(ACOBI)
Méthode adaptée à l’étude des éventuelles re-
lations existantes entre 2 variables nominales
(étude des tableaux de contingence).
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 210

Analyse des correspondances multiples


(AFCM)
Généralisation de l’analyse des correspondances.
Permet de décrire les relations entre plusieurs
variables nominales.

Méthodes de classification
Méthodes permettant de grouper les individus
ou variables suivant certains critères de prox-
imité.

Analyse discriminante
Techniques destinées à classer (affecter à des
classes préexistantes) des individus caractérisés
par un certain nombre de variables quantitatives
ou qualitatives
Chapitre 5

SERIES CHRONOLOGIQUES

211
Chapitre 5 : Analyse
d’une série chronologique
1. Introduction.
Série chronologique :
Suite de valeurs observées {yt1, yt2, ….ytn}
d’une variable Y effectuées dans le temps
aux instants : {t1, t2, …, tn}.

1
Hypothèse simplificatrice :
On suppose que les dates d’observations sont
équidistantes → {y1, y2, …yn}.

Variable de niveau :
Etat à un moment donné :
- montant des avoirs le 31 décembre
- nombre de chômeurs le 1er de
chaque mois
- etc

Variable de flux :
Mouvement intervenu durant une certaine
période :
- quantité produite pendant 1 mois
- nombre de navetteurs sur la E411 sur
une journée
- etc

2
Prévisions :Exemples

Prévision à court terme :


- prévision des ventes futures du
produit X pour faire face à la demande

Prévision à moyen terme :


- rendement d’un investissement

Prévision à long terme :


- prévisions des besoins en service publics
(hôpitaux, écoles, etc).

Les méthodes présentées dans ce chapitre se


rapportent à la prévision à court terme

Origine de la prévision (T) : moment où le


prévision est effectuée

Horizon de la prévision (h) : intervalle de


temps qui sépare l’origine de la prévision et
le moment pour lequel on désire la prévision

Prévision ponctuelle : yˆT ( h)


3
2. Composante d’une série
chronologique
Le principe de décomposition est basé sur la
maxime : «diviser pour régner».
Décomposition en 4 composantes :

T= tendance

C= composante cyclique

S= composante saisonnière

E= composante résiduelle (irrégulière)

Combinaisons possibles des composantes :

Modèle additif : yt = Tt + Ct + St + Et
NB : composante extra-saisonnière : ft = Tt + Ct

Modèle multiplicatif : yt= Tt * Ct * St * Et


NB : composante extra-saisonnière : ft = Tt * Ct

Modèle mixte : tout autre modèle où


additions et multiplications sont utilisées.
4
Composition d’une série chronologique.

Modèle additif : yt = Tt + Ct + St + Et

Graphique 1 : T = Tendance linéaire

Graphique 2 : T + C = Tendance linéaire +


composante cyclique

5
Graphique 3 : T + C + S = idem+
composante saisonnière

Graphique 4 : T + C + S + E= idem+
composante résiduelle

6
Modèle multiplicatif : yt = Tt * Ct * St * Et

Graphique 1 : T = Tendance linéaire

Graphique 2 : T * C = Tendance linéaire *


composante cyclique

7
Graphique 3 : T * C * S = idem *
composante saisonnière

Graphique 4 : T * C * S * E= idem *
composante résiduelle

CONCLUSION :

8
3. Etude de la tendance
a) Approche exploratoire

Difficulté pratique de procéder, souvent lié


à: - la longueur de la série
- l’importance des fluctuations

Solution : essayer de « lisser » la série pour


avoir une idée générale de la tendance

Outils :
- filtres linéaires (moyenne mobile, etc)
- régression linéaire simple après avoir
linéarisé par différenciation,
transformation logarithmique, etc
9
b) Filtres linéaires.

Soit {y1,…,yt,…,yn} la série chronologique

→ une valeur filtrée linéairement:

Donc la série filtrée est donnée par :

où wt est indépendant de t

Exemple : {y1, y2, …, y8}, posons p1=1, p2=2


2

Donc y =
*
t ∑w y
j =−1
j t+ j = w−1 yt −1 + w0 yt + w1 yt +1 + w2 yt + 2

Série filtrée : {y*2, y*3,…,y*6}


10
Cas particuliers :Moyennes Mobiles (MM)

11
12
13
14
15
5°) Choix de l’ordre de la moyenne mobile.

16
17
Donc le choix « idéal » dépend de la
saisonnalité.

18
c) Ajustement analytique (régression
linéaire)

Variable y fonction du temps : y=f(t) + erreur

Procédure :
- étape 1 : si y n’est pas une fonction
linéaire : f(t) = a + bt, essayer de la
linéariser

Tendance lineaire Tendance quadratique


100

120
80
60

20 40 60 80
y1

y2
40
20

0
0

0 10 20 30 40 50 0 10 20 30 40 50

t t

Tendance exponentielle Tendance hyperbolique


100 120

-0.2
80
y3

y4
60

-0.6
40
20

-1.0

0 10 20 30 40 50 0 10 20 30 40 50

t t

- étape 2 : utiliser la méthode des


moindres carrés sur les données
linéarisées (modèle de régression)
19
Etape 1 : Linéariser la relation.

NB : en série chronologique, la variable


explicative x est le temps t

Régression exponentielle :

y = 10 a +bx ⇒ log10 y = a + b x

⇒ régression linéaire pour {(xi , zi)} où


zi = log10 yi

Régression hyperbolique :
1 1
y= ⇒ = a + bx
a + bx y

⇒ régression linéaire pour {(xi , zi )} où

zi = 1 yi

20
Régression quadratique: la parabole

y = b0 + b1 x + b 2 x 2

Min Q (b0 , b1 , b2 ) = ∑
i
( yi − b0 − b1 xi − b2 xi)
2 2

Système d’équations normales :


 ∂ Q = −2 y − b − b x − b x 2 = 0
 ∂ b0
∑ i
i
( 0 1 i 2 i )

∂Q

 ∂ b1 i
( )
= −2 ∑ yi − b0 − b1 xi − b2 xi2 (xi ) = 0


∂Q
 ∂ b2
( )( )
= −2 ∑ yi − b0 − b1 xi − b2 xi2 xi2 = 0
i


21
Etape 2 : Estimation de la tendance par la
méthode des moindres carrés

Soit {(ti,yi); i=1,2,…,n} la série statistique


bivariée. Soit y la variable dépendante et t le
temps

Notons la droite de régression par:

yˆi = a + bti
(a, b ∈ R)

⇒ on peut calculer les résidus:

ei = yi − yˆi = yi − a − bti

Idée : Minimiser les erreurs commises entre la


vraie valeur de l’observation yi et la prévision
basée sur la tendance :

∑ei
2
i =1
Critère des moindres carrés :

22
Critère des moindres carrés (MC)

On veut minimiser : Q(a,b)=Σi ei2 = Σi (yi- a- b ti)2

⇒ Système d’équations normales : pour avoir un


minimum il faut que :

∂Q (a, b)
=0
∂a
∂Q (a, b)
=0
∂b
On obtient donc comme solution du problème de
minimisation :
a = y − bt
s ty
b = 2
st
Remarque : en calculant les dérivées secondes,
on peut montrer que la solution est bien un
minimum

23
Cas particulier :

Soit l’échantillon : {(y1,1), (y2,2), …(yT,T)}

⇒ 1+ 2+...+T =
T(T +1)
⇒ t = T +1
2 2

T 2 −1

et 12 + 22 +...+T 2 =
T(T +1)(2T +1)
⇒ st2 =
6 12

Ce qui implique que l’ajustement linéaire au


sens des MCO est donné par :

yˆt = a +b t

où a= y −bT +1
2
T T
T +1 yt
∑ tyt −
2 ∑
b= t =1 t =1
et 1 T(T 2 −1)
12

24
4. Etude de la composante
saisonnière
a). Introduction.

25
b) Modèle additif

26
27
28
29
30
31
32
33
34
c) Modèle multiplicatif

35
5. Elimination de la tendance
ou/et de la composante
saisonnière

a) Elimination de la tendance.
Solution 1 :
On détermine T et ensuite on effectue les
opérations suivantes :

1°) Cas additif : y-T

2°) Cas multiplicatif : y/T

Solution 2 : Utilisation des différences

Cas d’une tendance linéaire :

Cas d’une tendance quadratique :

36
b) Elimination de la saisonnalité.
Solution 1 :
On détermine Sj (ou 1+ sj) et ensuite on
effectue les opérations suivantes :

1°) Cas additif : dij = yij - Sj

2°) Cas multiplicatif : dij = yij / (1+sj)

Solution 2 : Utilisation des différences


saisonnières.

37
6. Méthodes de Prévision

38
39
40
41
42
43
44
45
46
Chapitre 6

VARIABLES ALEATOIRES ET LOIS


DE PROBABILITE DISCRETES

Citibank, Long Island City, Etat de New York


(Anderson, Sweeney, & Williams, 2001)

212
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES213

6.1 Définitions, Variables aléatoires

Expérience aléatoire: processus dont on ne


peut pas prévoir le résultat:
• lancer un dé
• jouer au lotto
• faire une offre de vente
• qualité d’une pièce (défectueuse ou non) dans
un processus industriel, . . .

Espace-échantillon: ensemble des résultats


possibles
Exemple : on lance 2 pièces de monnaie
'
Ω $

ω1 : P 1 ∩ P 2

ω2 : P 1 ∩ F 2

ω3 : F1 ∩ P2

ω4 : F 1 ∩ F 2
& %
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES214

Variable aléatoire: sa valeur est déterminée


par le résultat d’une expérience aléatoire.

Exemple: on lance 2 pièces de monnaie et on


s’intéresse au nombre X de résultats face obtenus

'
Ω $

V
ω1 : P 1 ∩ P 2 H H ' $
HH
H
jH
H
HH

0
HH

ω2 : P1 ∩ F2 XXXX
XzXX
XXX

 
X
 1


2
*
ω3 : F1 ∩ P2  
,
,
,
,
,
,

,
, & %

ω4 : F 1 ∩ F 2 ,
,
,

& %
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES215

Notons Ex l’événement composé des résultats


associés à la valeur x ∈ V

'
Ω $
' $
V
P1 ∩ P2 %
E0 & HH ' $
H
HH
jH
HH
' $ H
0
HH

P1 ∩ F2 XXXX
X
zXX
E1 X XXX


1


2
*
F1 ∩ P2
&

%


,
,
,
,
,
,
' $, 
, & %

F 1 ∩ F2
,
E2 & ,
%
,

& %

On a donc:
1
P (E0) = P (X = 0) =
4
1 1 1
P (E1) = P (X = 1) = + =
4 4 2
1
P (E2) = P (X = 2) =
4
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES216

px
1 6

3
4
1
2
1
4
-

0 1 2 x

Définition d’une variable aléatoire: Une


variable aléatoire (v.a.) X est une fonction définie
sur Ω à valeurs dans un ensemble noté V.
A chaque ω de Ω on associe une valeur

x = X(ω) ∈ V.

'
Ω $
V
' $

•```````z``
ω ```
`•
x
& %

& %
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES217

Discrète et continue
Si V est un ensemble discret, la v.a. est dite
discrète (par exemples V = {0, 1, . . . , n} où
n ∈ N ; V = Z)
Expérience Variable aléatoire X Valeurs possibles V
Contacter 5 clients Nbre de clients 0, 1, 2, 3, 4, 5
qui commandent
Inspecter une Nbre de radios défectueuses 0, 1, . . . , 50
cargaison de 50 radios
Gérer un restaurant Nombre de clients 0, 1, 2, 3, . . .
pendant une journée

Si V est continu, la v.a. sera dire continue (par


exemple V = IR)
Expérience Variable aléatoire X Valeurs possibles V
Jouer au lotto Montant gagner Intervalle de IR+
Gérer un restaurant Bénéfices Intervalle de IR+
pendant une journée
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES218

6.2 Loi d’une v.a. discrète

Associons à la valeur x ∈ V l’ensemble d’évènements:


Ex = {w tel que w ∈ Ω et X(w) = x}
On peut donc calculer pour tout x ∈ V :
px = PX (x) = P (X = x) = P (Ex)

Loi de probabilité de X:

{(x, px), x ∈ V }.

Remarque : {(x, px), x ∈ V } est une DP ssi


X
px ≥ 0 ∀x ∈ V et px = 1
x
Exemples: distribution uniforme, binomiale, de
Bernouilli, de Poisson, géométrique, binomiale
négative, hypergéométrique, etc
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES219

6.3 Fonction de répartition d’une v.a. dicrète

• Rappel: Statistique descriptive


Fj est la fréquence cumulée c’est-à-dire le pour-
centage d’observations ≤ xj .

• Définition au niveau population:

F (x) = P (X ≤ x) où x ∈ IR

Donc pour une DP {(xj , pj ), j = 1 . . . , J}:


X
F (x) = pj
xj ≤x
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES220

Propriétés
• F (x) ∈ [0, 1]

• F (−∞) = 0 et F (∞) = 1

• F (a) ≤ F (b), ∀a ≤ b (a, b ∈ IR)

• P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a)
= F (b) − F (a), (a < b)

• Si xi et xj sont deux valeurs de la v.a. telle


que xi ≤ xj alors:

P (xi ≤ X ≤ xj ) = F (xj ) − F (xi−1)

En particulier P (X = xj ) = F (xj ) − F (xj−1).

• F(x) est continue à droite ∀x ∈ IR.


CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES221

6.4 Espérance mathématique (EPM)

1. Approche historique: Problème des


partis
• 2 joueurs misent chacun 32 euros
• La partie comprends plusieurs jeux successifs
où chacun à la même probabilité de gagner
• On gagne la mise dès que on a gagné 3 jeux.
La partie est déjà commencée :

1 1
E[gain pour A] = 64 + 32 = 48
2 2
1 1
E[gain pour B] = 0 + 32 = 16
2 2
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES222

2. Définition
Soit la distribution de probabilité:

{(x, px), x ∈ V }

et la fonction X → g(X) : x → g(x). Alors


l’espérance mathématique est définie
X
E[g(X)] = g(x)px
x

3. Propriétés
• Si b est une constante: E(b) = b
Démonstration:
X X
E(b) = bpx = b px = b.
x x
• Si a est une constante : E(aX) = aE(X)
Démonstration:
X X
E(aX) = (ax)px = a xpx = aE(X).
x x
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES223

• Si a et b sont des constantes:

E(aX + b) = aE(X) + b

Démonstration: exercice

• Notons E(X) = µ. Alors Y = X − µ est tel


que E(Y ) = 0 =⇒ Y est la v.a. centrée.
Démonstration:

E(Y ) = E(X − µ) = E(X) − µ = 0.

• Soient a et b deux constantes, g(X) et h(X)


deux fonctions de X à valeurs réelles :

E[ag(X) + bh(X)] = aE(g(X)) + bE(h(X))

Démonstration: exercice.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES224

6.5 Paramètres (moyenne, variance, moments, médiane,...)

• Moyenne
Cas particulier de l’EPM pour g(X) = X:
X
E(X) = xpx := µ
x
Remarque : analogie avec la statistique descrip-
tive basée sur un échantillon :
1X X
x̄ = nj xj = f j xj
n
j j
Exemple: Lancement de 2 pièces
px
1 6

3
4
1
2
1
4
-
0 1 2 x

X 1 1 1
µ= xpx = 0 + 1 + 2 = 1
x
4 2 4
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES225

• Variance et Ecart-type
Cas particulier de l’EPM: g(X) = (X −E(X))2

E((X−E(X))2) = (x−µ)2px := σ 2 = V (X)


X

x
Remarque : analogie avec la statistique descrip-
tive basée sur un échantillon :
1
s2 = nj (xj − x̄)2 = fj (xj − x̄)2
X X
n
j j

Exemple: Lancement de 2 pièces


px
1 6

3
4
1
2
1
4
-
0 µ=1 2 x

2 1 1 1 1
σ = (0 − 1) + (1 − 1) + (2 − 1) =
4 2 4 2
p
Ecart-type: σ = (σ 2).
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES226

PROPPRIETES:
1. Si b est une constante: V (b) = 0
Démonstration: Puisque E(b) = b, on a:
2 (b−E(b))2px = 0.
X
V (b) = E((b−E(b)) ) =
x

2. Si a est une constante: V (aX) = a2V (X)


Démonstration: Puisque E(aX) = aE(X):
V (aX) = E((aX − E(aX))2)
= E[a2(X − E(X))2]
= a2E[(X − E(X))2]
= a2V (X).

3. Si Y = X − a alors V (Y ) = V (X)
Démonstration: Exercice.

La variance est indépendante d’un changement
d’origine.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES227

4. En particulier, si Y = X−µ alors V(Y)=V(X)


Démonstration: Puisque E(X − µ) = 0, on a:

V (Y ) = E((Y − E(Y ))2)


= E[((X − µ) − E(X − µ))2]
= E[(X − µ)2] = V (X).

5. Soit Z = X−µ
σ alors V (Z) = 1

Z est dite v.a. centrée-réduite


Démonstration:
X −µ
V (Z) = V( )
σ
1
= V ( (X − µ))
σ
1
= 2
V (X − µ)
σ
= 1.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES228

• Les Moments
Définition: Moments d’ordre r par rapport à c

µr (c) = E[(X − c)r ] r ∈ IN , c ∈ IR

Cas particuliers:

1. Moment par rapport à l’origine (c = 0):


0 r xr p x
X
µr = E[X ] =
x
Exemple: La moyenne est le moment par rap-
port à l’origine d’ordre 1 (r = 1)

2. Moment centré (c = µ):


r (x − µ)r px
X
µr = E[(X − µ) ] =
x
Exemple: La variance est le moment centré d’ordre
2 (r = 2)
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES229

PROPRIETES:

µ00 = µ0 = 1
µ01 = E(X) = µ
µ1 = 0
µ2 = E[(X − µ)2] = σ 2

Démonstration: exercice.

Expression utile: E(X 2) = σ 2 + µ2

Démonstration:

σ 2 = E[(X − µ)2] = E(X 2 − 2Xµ + µ2)


= E(X 2) − 2µE(X) + µ2 = E(X 2) − µ2
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES230

• Médiane
Définition: La médiane x1/2 est telle que:
1 1
P (X < x1/2) ≤ et P (X ≤ x1/2) ≥
2 2

Remarque: analogie avec la statistique descrip-


tive.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES231

6.6 Fonctions génératrices des moments

• Définition: Soit une DP {(x, px), x ∈ V }. La


fonction génératrice des moments est:
tX etxpx ∀t ∈ IR.
X
MX (t) = E[e ] =
x
Remarque: MX (t) n’existe pas toujours (con-
dition d’existence).

• Décomposition en utilisant le développement


en série de etx:
X t2x2 tr xr
MX (t) = (1 + tx + + ... + + . . .)px
x
2! r!
X X tr X r
= px + t xpx + . . . + x px + . . .
x x
r! x
t r
= 1 + tµ01 + . . . + µ0r + . . .
r!
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES232

Ce résultat nous fournit la propriété suivante:


• Propriété: Si M (t) existe et admet des dérivées
d’ordre r (r = 1, 2, . . .):
d r M (t)
µ0r = [ r ]t=0
dt
px
• Exemple: 1 6
3
41
21
4
0 1 2 x
-

2
1 1 t 1 2t
M (t) = E(etX ) = tx
X
e px = + e + e
4 2 4
x=0

dM (t) 1 t 1 2t
→µ = [ ]t=0 = [ e + e ]t=0 = 1
dt 2 2
d 2M (t) 1 t 3
0
→ µ2 = [ 2t
]t=0 = [ e + e ]t=0 =
dt2 2 2
2 0 2 3 1
⇒ σ = µ2 − µ = − 1 =
2 2
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES233

6.7 Lois discrètes particulières

1. Distribution uniforme
a) Définition: X ∼ U [1, . . . , n] si
1
P (X = x) = ∀x ∈ V = {1, . . . , n}
n

b) Exemples
• valeur obtenue par un lancé de dé (n=6)
• dans une étude basée sur un échantillon de
taille n, il est souvent assumé que chaque indi-
vidu de l’échantillon à un poids 1/n.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES234

c) Quelques paramètres
• Moyenne (paramètre de position):
n n
X 1X n+1
µ = E(X) = xpx = x=
n 2
x=1 x=1
Aide: n
X n(n + 1)
x=
2
x=1

• Variance (paramètre de dispersion):


(n + 1) 2
σ 2 = E(X−µ)2 = E(X 2)−µ2 = E(X 2)−
4
or n n
2 2 1
x2
X X
E(X ) = x px =
n
x=1 x=1
Aide:
n
X
2 n(n + 1)(2n + 1)
x =
6
x=1
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES235

Preuve:
(x + 1)3 = x3 + 3x2 + 3x + 3
⇒ (x + 1)3 − x3 = 3x2 + 3x + 1
n
[(x + 1)3 − x3] = (n + 1)3 − 1
X
et
x=1
En outre
n n
[(x + 1)3 − x3] = (3x2 + 3x + 1)
X X

x=1 x=1
= 3(1 + 22 + . . . + n2)
+ 3(1 + 2 + . . . + n) + n
Nous avons donc que:
n n
(n + 1)3 − 1 = 3 x2 + 3
X X
x+n
x=1 x=1
n
X
2 1 3 n(n + 1)
⇒ x = [(n + 1) − 1 − 3 − n]
3 2
x=1
n
X
2 1
⇒ x = n(n + 1)(2n + 1)
6
x=1
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES236

Donc nous avons:


(n + 1)(2n + 1) (n + 1) 2
σ 2 = E(X 2) − µ2 = −
6 4
(n + 1)
= [4n + 2 − 3(n + 1)]
12
(n + 1)(n − 1) n2 − 1
= =
12 12
• Skewness (paramètre d’asymétrie): La dis-
tribution étant symétrique µ3 = 0.

Exercice: Prouver formellement le résultat en


utilisant l’aide:
n 2(n + 1)2
n
x3 =
X
4
x=1
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES237

2. Distribution de Bernouilli
a) Définition: X ∼ B(1, p) si les valeurs pos-
sibles pour X sont succès (x = 1) et échec
(x = 0). En outre la probabilité de succès est
égale à p (P (X = 1) = p).

b) Exemples
• inspection d’une pièce dans un processus in-
dustriel (défectueux ou pas)
• résultat (réussite ou échec) à l’examen de
statistique.

c) Quelques paramètres (exercice)

µ = p
σ 2 = pq où q = 1 − p
µ3 = pq(q − p)
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES238

d) Schéma de Bernouilli: Soient


- X ∼ B(1, p) ⇒ Expèrience où l’évènement
“succès” a une probabilité p de se réaliser
- Nous réalisons n expérience sous des condi-
tions uniformes (p est constant)
- Les n expériences sont indépendantes
Notons x le nombre de succès, y le nombre
d’échec

Plusieurs distributions peuvent être déduites:
- si Z=nombre de succès
→ distribution binomiale
- si Z=nombre d’échec avant le premier succès
→ distribution géométrique
- si Z=nombre d’échec avant le rième succès
→ distribution négative binomiale
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES239

3. Distribution binomiale

a) Définition: X ∼ B(n, p) si on procède à un


schéma de Bernouilli (n expériences uniformes
et indépendante avec probabilité de succès égale
à p) et que X=nombre de succès.

b) Exemples
• Sélection aléatoire n pièces dans une produc-
tion et on compte le nombre de pièces conformes
• On compte le nombre de fois que l’on gagne
(avoir pile) dans un jeu de n pile ou face.

c) Distribution de probabilité:
- x ∈ {0, 1, !
. . . , n}
n
- px = pxq n−x (formule du binôme)
x
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES240

d) Fonction génératrice des moments


Rappel: Puissance d’un binôme
n
!
X n
n
(a + b) = bxan−x
x=0 x
Avec cette aide, nous pouvons développer la
fonction génératrice des moments:
n n
!
n
M (t) = E(etX ) = etxpx = etx pxq n−x
X X
x
n
! x=0 x=0
n
(pet)xq n−x = (q + pet)n
X
=
x=0 x
d) Quelques paramètres
• Moyenne:
dM (t)
µ = [ ]t=0
dt
= [n(q + pet)n−1pet]t=0
= n(q + p)n−1p = np
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES241

• Variance:
dM 2(t)
µ02 = [ 2
]t=0
dt
= np[(n − 1)(q + pet)n−2pe2t + (q + pet)n−1et]t=0
= np[(n − 1)p + 1] = np(np + q)

Ainsi la variance est déduite par:

σ 2 = µ2 = µ02 −µ02
1 = n2p2 +npq −n2p2 = npq

• Paramètre d’asymétrie (exercice):

µ3 = npq(q − p)
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES242

e) Fréquence de succès
• Soit X le nombre de succès et Y la fréquence
de succès:
X
Y =
n

• Valeurs de Y: y ∈ {0, n1 , . . . , 1}

• Calculs des probabilités:


X
py = P (Y = y) = P ( = y) = P (X = ny)
n!
n
= P (X = x) = pxq n−x
x
• Liens entre les moments de X et Y :
X
E(Y ) = E( ) = p
n
X pq
V (Y ) = V ( ) =
n n
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES243

4. Distribution de Poisson

a) Contexte: Décrit le nombre d’évènements se


produisant sur une période de temps donnée T

b) Exemples
• Le nombre de faillites sur une journée dans
un secteur industriel.
• Le nombre d’accidents d’avion sur une année.

c) Distribution de probabilité: X ∼ P (λ) avec


comme support x ∈ {0, 1, 2, . . .} où
e−λλx
P (X = x) = px = λ ∈ IR+
0
x!
Remarque:
∞ ∞ −λ x ∞ x
e λ −λ λ
= e−λeλ = 1
X X X
px = =e
x! x!
x=0 x=0 x=0
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES244

d) Fonction génératrice des moments:


∞ ∞ −λλx
e
M (t) = E(etX ) = etxpx = etx
X X
x!
x=0 x=0
∞ x
(λet) t t−1)
= e−λ −λ λe λ(e
X
=e e =e
x!
x=0
e) Quelques moments:
• La moyenne:
dM (t) t λ(e t−1)
µ=[ ]t=0 = [λe e ]t=0 = λ
dt
• Moments d’ordre 2
dM 2(t) t−1) t−1)
0
µ2 = [ t
]t=0 = λ[e e λ(e t t
+ e λe e λ(e ]t=0
dt2
= λ + λ2

σ 2 = µ2 = µ02 − µ02
1 = λ + λ2 − λ2 = λ

• Moments d’ordre 3 et 4
µ3 = λ µ4 = λ + 3λ2
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES245

f) Limite de la distribution binomiale quand la


probabilité de succès est faible (p → 0) et que
le nombre d’essais est grand (n → ∞)
Preuve: Soit X ∼ Bin(n, p) où p = λ/n
n!
P (X = x) = pxq n−x
x!(n − x)!
nx x n−x n!
= x p (1 − p)
n x!(n − x)!
nx x (1 − p)n n!
= xp
n (1 − p)x x!(n − x)!
(np)x 1 n n!
= x (1 − p) x
x! (1 − p) n (n − x)!
(λ)x 1 λ n
= x (1 − )
x! (1 − p) n
n(n − 1) . . . (n − x + 1)
nx

Pour n → ∞, p → 0 et np → λ, on obtient:
(λ)x −λ
P (X = x) → e ∗1
x!
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES246

La qualité de l’approximation dépend des valeurs


de n et p.
Exemples
• X ∼ Bin(50, 0.10)
P(X=5)=0,1849
F(5)=0,6161

• X ∼ Bin(100, 0.05)
P(X=5)=0,1800
F(5)=0,6160

• X ∼ P (5)
P(X=5)=0,1755
F(5)=0,6160
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES247

g) Introduction intuitive de la loi de Poisson:


Soit X le nombre d’arrivées d’un phénomène
dans l’intervalle de temps:

−−−|−−−−|−−−−−−|−−−−|−−−−|−−−−
0 ↑ ↑ t t + ∆t

Posons les hypothèses suivantes:


• P(1 arrivée dans ∆t) = α∆t
• P(plus qu’une arrivée dans ∆t) ≈ 0
• Des événements arrivant dans des intervalles
disjoints sont indépendants.

Notons px(t+∆t) la probabilité d’avoir x arrivée


dans l’intervalle de temps [0, t + ∆t]
Deux possibilités:
• x arrivées dans [0, t] et 0 arrivée dans [t, ∆t]
• x − 1 arrivées dans [0, t] et une dans [t, ∆t]
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES248

Donc,

px(t + ∆t) = px(t)[1 − α∆t] + px−1(t)α∆t


= px(t) − α∆tpx(t) + α∆tpx−1(t)

px(t + ∆t) − px(t)


⇒A= = α[px−1(t)−px(t)]
∆t
En prenant comme conditions initiales:
• p0(0) = 1
• px(0) = 0,
la dérivée:
dpx(t)
lim A = = α[px−1(t) − px(t)]
∆t→0 dt
a comme solution:
e−λλx
px(t) = où λ = αt
x!
qui est la fonction de probabilité d’une variable
aléatoire de Poisson de paramètre αt.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES249

5. Distribution géométrique
a) Définition: Schéma de Bernouilli (expériences
uniformes et indépendantes avec probabilité de
succès égale à p) où n n’est pas fixé a priori.
X=nombre d’essais précédant le premier succès.
b) Exemples:
• Nombre de lancé d’un dé avant d’avoir 1.
• En répondant au hasard: le nombre de QCM
faux avant d’avoir une bonne réponse.
c) Distribution de probabilité:

P (X = x) = px = pq x x ∈ {0, 1, 2, . . .}

d) Fonction génératrice des moments:


∞ ∞
p
M (t) = E(etX ) = etxpq x = p (qet)x =
X X
1 − qet
x=0 x=0
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES250

e) Quelques moments:
• La moyenne:
dM (t) pqet pq q
µ=[ ]t=0 = [ t 2
]t=0 = 2 =
dt (1 − qe ) p p
• Moments d’ordre 2
dM 2(t)
µ02 = [ 2
]t=0
dt
et(1 − qet)2 + 2etqet(1 − qet)
= pq[ t 4
]t=0
(1 − qe )
(1 − q)2 + 2qp q(p + 2q) q(1 + q)
= pq 4
= 2
=
p p p2
q(1 + q) q 2 q
⇒σ = 2 − 2= 2
p 2 p p
e) Définition alternative: Y =nombre d’essais
nécessaire pour avoir le premier succès.
• Y = X+1; P(Y=y)=pqy−1 y ∈ {1, 2, . . .}
tY pet
• M (t) = E(e ) = 1−qet
dM (t)
• µ = [ dt ]t=0 = p1 et σ 2 = pq2 .
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES251

6. Distribution binomiale négative


a) Définition: Schéma de Bernouilli (expériences
uniformes et indépendantes avec probabilité de
succès égale à p) où n n’est pas fixé a priori.
X=nombre d’échec avant le rième succès.
b) Exemples
• Nombre de pile obtenus avant d’avoir 5 faces.
• En répondant au hasard: le nombre de QCM
faux avant d’avoir 3 bonnes réponses.
c) Distribution de probabilité:
r−1 pr q x
P (X = x) = Cx+r−1 x ∈ {0, 1, 2, . . .}

d) Fonction génératrice des moments:



M (t) = E(etX ) = r−1 pr q x
etxCx+r−1
X

x=0

r−1 (qet)x = pr
= pr
X
Cx+r−1
(1 − qet)r
x=0
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES252

e) Quelques moments (exercice):


• La moyenne:
rq 2 rq
µ= σ = 2
p p

e) Définition alternative: Y =nombre d’expérience


nécessaire pour avoir r succès.
b) Exemples
• Nombre de lancés nécessaires pour obtenir 5
faces.
• En répondant au hasard: le nombre de QCM
nécessaires avant d’avoir 3 bonnes réponses.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES253

7. Distribution hypergéométrique
a) Définition: On prélève n individus dans une
population de taille N de manière aléatoire, mais
sans remise. Chaque individu possède (succès)
ou ne possède pas (échec) une certaine caractéristique.
Dans la population M individus possèdent cette
caractéristique. Soit X=nombre de succès.
b) Distribution de probabilité:
! !
M N −M
x n−x
P (X = x) = !
N
n
où x ∈ {max(0, n−(N −M )), . . . , min(n, M )}.

c) Moyenne et variance: Notons π = M


N
2 N −n
µ = nπ σ = nπ(1 − π)
N −1
Université Libre de Bruxelles Année académique 2009-2010

STAT-D-101
Catherine Dehon

Séance 1 : Introduction1

Exercice 1
Utilisez le signe de sommation pour écrire les expressions suivantes :
1. y1 + y2 + y3 + y4 + y5 ;
2. n1 x1 + n2 x2 + . . . + nJ xJ ;
3. f1 (x1 − a)2 + f2 (x2 − a)2 + . . . + fJ (xJ − a)2 .

Exercice 2
L’étudiant nommé Crésus reçoit de ses parents chaque mois 100 Euros comme argent de
poche.
1. Calculez l’argent de poche reçu sur une année.
Crésus, étant relativement dépensier, travaille également pour gagner de l’argent. La
somme d’argent gagnée varie selon les mois :

Mois Jan Fev Mars Avril Mai Juin Juil Aôut Sept Oct Nov Dec
Somme d’argent 100 125 100 150 175 125 150 200 250 100 150 125

2. Calculez le montant total d’argent dont Crésus peut disposer sur une année.
Néanmoins, Crésus a un GSM dont le coût fixe par mois est de 15 Euros.
3. Calculez la somme d’argent disponible pour une année aprés avoir retenu les frais de
son GSM.

Exercice 3
Considérons la série statistique de taille 5 :{x1 = 1; x2 = 4; x3 = 5; x4 = 3; x5 = 2}. Déterminez
la valeur des sommes suivantes :
P5
1. i=1 xi ;
P5
2. i=1 4xi ;
3. x = 15 5i=1 xi ;
P
P5
4. i=1 (xi − x) ;
P5 2
5. i=1 xi .
1
Les énoncés sont disponibles sur le site www.ulb.ac.be/soco/statrope

1
Exercice 4
Trouver la valeur minimale de n (n ≥ 1) tel que :
  n 5
2
1− ≥ 0.95.
3

Exercice 5
Considérons l’ensemble E de R suivant : {1, 3, 15, 31, 42, 100}. On note A = {1, 15, 42},
B = {1, 15, 100} et C = {3, 31}.
1. Déterminer les ensembles A, A ∪ B, A ∩ B et A \ B.
2. Vérifier que A ∪ B = A ∩ B, A ∩ B = A ∪ B et A ∪ B = (A \ B) ∪ (A ∩ B) ∪ (B \ A).

Exercice 6
Calculer les sommes suivantes :
P10 2 k P10 2 k
1. k=1 ( 5 ) et k=0 ( ) ;
P∞ 1 k P∞ 51 k
2. k=1 ( 5 ) et k=0 ( 5 ) .

Exercice 7
Soient p et n deux entiers naturels tel que, 1 ≤ p ≤ n. Montrez que :
   
n n
1. = .
p n−p
     
n n n+1
2. + = .
p+1 p p+1
 
Pn k n
3. k=0 (−1) = 0.
k
 
Pn n
4. k=0 = 2n .
k

Exercice 8
Considérons la série de variables suivante : nombre d’enfants dans une famille, couleur des
yeux, catégorie socio-professionnelle, commune de naissance, niveau de scolarité, revenu,
poids, sexe, age, langue maternelle, type de voiture, taille, nombre de grains de beauté sur
la peau, taille de grains de beauté.
Spécifier pour chacune de ces variables si elle est qualitative, quantitative, continue,
discrète, ordinale ou nominale.

2
Université Libre de Bruxelles Année académique 2009-2010

STAT-D-101
Catherine Dehon

Séances 2, 3 et 4 : Statistique descriptive d’une série


univariée 1

Exercice 1
Un constructeur d’automobiles a demandé à 150 individus de faire part de leur préférence
concernant la couleur de la voiture. Les résultats qu’il obtient sont les suivants :

Couleurs Blanc Noir Rouge Bleu Vert


Effectifs 43 30 15 32 30

1. De quel type est la variable ?


2. Donnez le tableau de la distribution observée.
3. Représentez graphiquement la distribution de la variable.
4. Quels paramètres de cette distribution peuvent être calculés ?
5. Déterminez la valeur de ces paramètres.

Exercice 2
Lors d’une étude en psychologie sociale sur la mobilité géographique, on a interrogé 50
personnes pour savoir si elles passaient leurs vacances à l’étranger. Les effectifs obtenus
sont les suivants :
Vacances à l’étranger Jamais Parfois Souvent Toujours
Effectifs 5 19 23 3

1. De quel type est la variable ?


2. Donnez le tableau de la distribution observée (effectifs et effectifs cumulés).
3. Représentez graphiquement la distribution de la variable.
4. Quels paramètres de cette distribution peuvent être calculés ?
5. Déterminez la valeur de ces paramètres.
1
Les énoncés sont disponibles sur le site www.ulb.ac.be/soco/statrope

1
Exercice 3
Soit la population des étudiants de première bachelor à l’ULB en ingénieur de gestion. Une
étude de la Communauté Française (en charge de l’enseignement secondaire) s’intéresse
à l’âge de ces étudiants. Pour ce faire, on prélève un échantillon de taille n = 50. Les
résultats sont les suivants :

17 20 19 18 21 18 18 19 19 18
18 18 17 18 18 20 20 17 18 17
21 18 19 20 18 17 21 19 17 18
17 17 19 18 18 17 21 19 17 20
18 17 19 21 18 20 18 17 19 17

1. De quel type est la variable ?


2. Donnez le tableau de la distribution observée (effectifs et effectifs cumulés).
3. Représentez graphiquement la distribution de la variable.
4. Quels paramètres de cette distribution peuvent être calculés ?
5. Déterminez la valeur de ces paramètres.

Exercice 4
On a mesuré, en millisecondes, à quelle vitesse 50 enfants de quatre ans identifiaient des
images simples (ours, lapin, chat . . . ). Les résultats sont les suivants :

24 27 33 21 27 19 23 23 24 19
27 30 15 27 24 34 18 20 21 15
33 27 20 32 28 27 22 17 30 18
21 25 25 29 25 24 32 31 28 20
29 24 23 27 17 15 21 28 24 23

1. De quel type est la variable ?


2. Regroupez les 50 valeurs en classes. Prenez des classes de longueur 4 et le début de
la première classe en 14,5. Donnez le tableau de la distribution groupée (effectifs et
effectifs cumulés).
3. Représentez graphiquement la distribution groupée.
4. Quels paramètres de cette distribution groupée peuvent être calculés ?
5. Déterminez la valeur de ces paramètres.

2
Exercice 5
Considérons une série statistique {x1 , . . . , xi , . . . , xn } relative à un caractère quantitatif
X et le changement d’origine et d’unité suivant :
xi −a
yi = d ,i = 1, . . . , n.
Soient x et s2x la moyenne et la variance de la série {x1 , . . . , xi , . . . , xn } et y et s2y celles de
la série {y1 , . . . , yi , . . . , yn }. Démontrez que :
x−a
1. y = d ;
2
2. s2y = sdx2 .

Exercice 6
Une enquête sur le taux de chômage des jeunes femmes en 2002 dans les directions
subrégionales de Namur et Charleroi a été réalisée. La direction subrégionale de Namur
comprend 31 communes et celle de Charleroi 26 communes. Le taux de chômage moyen
des jeunes femmes à Namur est de x1 = 32% avec un écart-type de s1 = 10%. Le taux
de chômage moyen des jeunes femmes à Charleroi est de x2 = 34% avec un écart-type de
s2 = 5%.
1. Enoncez les formules d’agrégation de la moyenne et de la variance en définissant
soigneusement chacune des composantes.
2. Calculez la moyenne globale x et la variance globale s2 du taux de chômage pour
l’échantillon obtenu en regroupant les communes de Namur et de Charleroi.

Exercice 7
Roméo quitte son domicile à 20 heures pour se rendre chez Juliette à la vitesse moyenne
de 200 km/h. Il la quitte à 23 heures et retourne chez lui à la vitesse moyenne de 40 km/h.
Supposons que la distance à l’aller égale celle du retour.
1. Quelle est dans ce cas la vitesse moyenne de Roméo sur l’aller-retour ?
2. Comment calculer cette vitesse rapidement ?

Exercice 8
Une personne place une somme d’argent K dans une banque pendant une période de 3
ans. Dans cette banque le taux d’intérêt varie d’une année à une autre. Il est de 20% la
première année, 10% la seconde année et de 6% la troisième année.
1. Le taux d’intérêt moyen pour l’ensemble de ces trois années est-il de 12% ?
2. Comment calculer ce taux rapidement ?

3
Exercice supplémentaire 1
Considérons la série statistique de taille n : {x1 ; x2 ; . . . ; xn }. Montrez que :
Pn 1
Pn
1. i=1 (xi − x) = 0, si x = n xi ;
1
Pn 1
Pn i=1 2
2. sx = n i=1 (xi − x) = n i=1 xi − x2 .
2 2

Exercice supplémentaire 2
Soit {x1 , . . . , xn } une série statistique univariée de moyenne x et de variance s2x . Calculez la
moyenne et la variance de la série des valeurs centrées et réduites {z1 , . . . , zn } où zi = xis−x
x
.

Exercice supplémentaire 3
On a calculé la moyenne et la variance d’une série de 10 observations et on a obtenu
les résultats suivants : x = 5.9 et s2x = 4.83. On a constaté ultérieurement qu’une des
observations initiales avait été transcrite de façon erronée : la valeur considérée au cours
des calculs était 8.5 alors que la valeur exacte est en réalité 6.5. La moyenne et la variance
sont recalculées sur les données corrigées. Calculez la moyenne et la variance exactes.

Exercice supplémentaire 4 (suite de l’exercice 6)


Dans les 2 échantillons, nous avons centré les données par rapport à la moyenne globale
x de telle sorte que la moyenne globale sur les données centrées soit : xnew = 0.
1. Calculez les nouvelles moyennes et variances des 2 comités subrégionaux : x1,new ,
x2,new , s21,new et s22,new .
2. Calculez la variance globale s2new pour l’échantillon obtenu en regroupant les com-
munes de Namur et de Charleroi.

Exercice supplémentaire 5
Construisez deux séries statistiques univariées constituées de 6 observations chacune,
{x1 , x2 , . . . , x6 } et {y1 , y2 , . . . , y6 }, telles que,
1. x1/2 = y1/2 mais x̄ > ȳ, où x1/2 et y1/2 désignent les médianes des deux séries
statistiques.
2. x1/2 = y1/2 mais EDx > EDy , où EDx et EDy désignent les deux écarts interdéciles
des deux séries statistiques.
3. Ex = Ey mais x̄ > ȳ, où Ex et Ey désignent les deux étendues des deux séries
statistiques.
4. xM = yM et x̄ > ȳ, où xM et yM désignent les modes des deux séries statistiques.
5. x̄ = ȳ et sx > sy .

4
Université Libre de Bruxelles Année académique 2008-2009

STAT-D-101
Catherine Dehon

1
1
Séances 5, 6 et 7 2 : Introduction à la théorie probabiliste

Exercice 1
a) Avec les chiffres 0 et 1, on peut former 8 séquences de longueur 3 : 000, 001, 010, 011, 100,
101, 110, 111. Combien de séquences de longueur 10 peut-on former ?
b) Combien de mots de longueur 100 peut-on former avec les lettres K, A, H, J, D, I ?
c) Combien de mots de longueur n peut-on former avec un alphabet de m lettres ?

Exercice 2
Trois filles (Annie, Julie et Nathalie) et trois garçons (Damien, Eric et Jonathan) font la file devant
un distributeur automatique de billets.
a) Il y a combien d’arrangements possibles ?
b) Il y a combien d’arrangements possibles si les trois filles doivent être ensemble et les trois
garçons doivent être ensemble ?
c) Il y a combien d’arrangements possibles si on exige seulement que les trois filles soient
ensemble ?

Exercice 3
On lance simultanément deux dés numérotés de 1 à 6. Déterminer l’ensemble fondamental Ω dans
les cas suivants :
a) les deux dés sont distincts (par exemple un rouge et un bleu).
b) les deux dés sont identiques.
c) les deux dés sont identiques et on s’intéresse seulement à la parité du résultat.

Exercice 4
Soit L’expérience aléatoire consistant au lancé de deux dés à 6 faces. Nous sommes intéressés par
les deux évènements suivants :
– A : avoir comme résultat deux fois le même nombre (la même face)
– B : avoir au moins une fois la face numérotée 5.
a) Démontrez à partir des 3 axiomes définissant la probabilité que :

P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

b) Calculez chacune des 4 probabilités énoncées dans la formule par rapport au cas concret
explicité ci-dessus et montrez que l’égalité énoncée ci-dessus est bien correcte.
c) Les événements A et B sont-ils dépendants ? mutuellement exclusifs ?
1
Les énoncés sont disponibles sur le site www.ulb.ac.be/soco/statrope

1
Exercice 5
Dix couples sont réunis dans une soirée. On admet que, pour danser, chaque homme choisit une
femme au hasard.
a) Quelle est la probabilité pour que chacun des 10 hommes danse avec son épouse ?
b) Quelle est la probabilité pour que monsieur Dupond danse avec son épouse ?
c) Quelle est la probabilité pour que monsieur Dupond et monsieur Durand dansent avec leur
épouse ?
d) Quelle est la probabilité pour que monsieur Dupond ou monsieur Durand dansent avec leur
épouse ?

Exercice 6
On cherche une lettre qui a la probabilité 0.2 de se trouver dans l’un des quatre tiroirs d’un
secrétaire. On note A l’événement “la lettre est dans le quatrième tiroir” et B l’événement “la
lettre n’est pas dans les trois premiers tiroirs”.
a) Calculez les probabilités P (A ∩ B), P (B ∩ Ā) et P (A ∩ B̄).
b) En déduire les probablités P (A), P (B) et P (A|B).
c) Les événements A et B sont-ils indépendants ?

Exercice 7
Sept personnes prennent place au rez-de-chaussée dans un ascenseur d’un immeuble de dix étages.
Chacune choisit l’étage où elle sort de l’ascenseur. Quelle est la probabilité que :
a) elles sortent toutes à des étages différents ?
b) deux personnes au moins descendent à un même étage ?
c) trois personnes déterminées à l’avance descendent à un même étage et toutes les autres à
des étages différents ?
d) trois personnes (n’importe lesquelles) descendent à un même étage et toutes les autres à des
étages différents ?
e) trois personnes (n’importe lesquelles) descendent à un même étage, deux autres (n’importe
lesquelles) descendent à un autre étage et les deux dernières encore à un autre étage ?

Exercice 8
Un livre contient cinq fautes d’orthographe. A chaque relecture, on a une probabilité de 1/3 de
détecter et de corriger une faute. On effectue successivement plusieurs relectures indépendantes.
Soit n le nombre de relectures nécessaires pour qu’il ne reste aucune faute avec une probabilité
supérieure ou égale à 0.9.
a) Pour chaque faute, quelle est la probabilité pour qu’elle soit corrigée en n relectures ?
b) Quelle est la valeur minimale de n ?

Exercice 9
Dans une rue, un panneau publicitaire est remarqué par un passant sur quatre. On suppose que,
pour un passant, l’événement ” remarquer le panneau numéro i ” est indépendant de l’événement
” remarquer le panneau numéro j ”.
a) Sachant que l’on dispose de deux panneaux dans la même rue, calculer la probabilité qu’un
passant remarque exactement un seul panneau publicitaire.

2
b) Sachant que l’on dispose de trois panneaux dans la même rue, calculer la probabilité qu’un
passant remarque au moins un panneau publicitaire.
c) Combien doit-il y avoir de panneaux pour que plus de 95% des passants remarque au moins
une publicité ?

Exercice 10
Dans l’entrepôt d’une certaine usine de fabrication de clous, 50% des clous ont été fabriqués par
la machine A, 30% par la machine B et 20% par la machine C. Parmi les clous fabriqués par la
machine A, 3% sont défectueux. Parmi ceux fabriqués par la machine B, 5% sont défectueux et
parmi ceux fabriqués par la machine C, 8% sont défectueux. On tire un clou au hasard d’un lot
constitué de clous fabriqués.
a) Quelle est la probabilité que ce clou ne soit pas défectueux ?
b) Sachant que le clou est défectueux, quelle est la probabilité qu’il soit fabriqué par la machine
B?

Exercice supplémentaire 1
Une personne rentre chez elle après une soirée un peu trop arrosée. Elle ne sait plus laquelle des 10
clés qui se trouvent dans sa poche ouvre la porte de son domicile. Elle essaie donc les clefs une à
une sans utiliser deux fois la même. Déterminer la probabilité pour que la k-ième clé soit la bonne
(1 ≤ k ≤ 10).

Exercice supplémentaire 2
On cherche un parapluie qui se trouve dans un immeuble de sept étages. La probabilité qu’il se
trouve dans l’un des sept étages est 0.6 et qu’il se trouve au rez-de-chaussée est 0.4. Chacun des sept
étages est susceptible de cacher le parapluie avec la même probabilité. On a fouillé les six premiers
étages et on en a rien trouvé. Quelle est la probabilité que le parapluie se trouve au septième étage ?

Exercice supplémentaire 3
Deux étudiants et 14 étudiantes sont assis au hasard sur 16 chaises formant une ligne.
a) Quelle est la probabilité que les deux étudiants soient assis un à côté de l’autre ?
b) Quelle est la probabilité que les deux étudiants occupent les deux extrémités de la ligne ?

Exercice supplémentaire 4
Deux étudiants et 14 étudiantes sont assis au hasard sur 16 chaises formant un cercle.
a) Quelle est la probabilité que les deux étudiants soient assis un à côté de l’autre ?
b) Quelle est la probabilité que les deux étudiants occupent deux chaisses diamétralement op-
posées ?

Exercice supplémentaire 5
On tire au hasard un nombre de 9 chiffres. Calculez la probabilité p que tous les chiffres soient
différents.

3
Exercice supplémentaire 6
Soient A et B des événements tels que P (A) = 51 et P (A ∪ B) = 12 .
a) Supposons que A et B soient des événements mutuellements exclusifs. Calculez P (B).
b) Supposons que A et B soient des événements indépendants. Calculez P (B).

Exercice supplémentaire 7
Une étude a classé les gérants de portefeuilles en deux catégories : ceux qui sont bien informés et
ceux qui ne le sont pas. Lorsqu’un gérant bien informé achète une valeur boursière pour son client,
la probabilité que le cours de celle-ci monte est de 0,8. Dans le cas d’un gérant mal informé, cette
probabilité ne vaut que 0,5. Si on choisit au hasard un gérant dans un annuaire professionnel, la
probabilité qu’il soit bien informé est de 0,2. Calculez la probabilité qu’un gérant choisi au hasard
soit mal informé, sachant que la valeur qu’il a achetée a monté.

Exercice supplémentaire 8
Un étudiant répond à une question à choix multiple. De deux choses l’une : soit il connaı̂t la réponse,
soit il la devine. Soit p la probabilité que l’étudiant connaise la réponse (et donc 1 − p celle qu’il
la devine). On admet que l’étudiant qui tente de deviner la réponse, répondra correctement avec
une probabilité 1/m, où m est le nombre de modalité qu’offre la question. Quelle est la probabilité
qu’un étudiant connaisse la réponse à la question s’il y a répondu correctement ?

Exercice supplémentaire 9
Un étudiant doit suivre 2 cours de math (M1, M2), 3 cours de chimie (C1, C2, C3), et 4 cours de
physique (P1, P2, P3, P4). Il décide de n’assister qu’à 3 cours. S’il choisit au hasard, quelle est la
probabilité qu’il assiste aux deux cours de math ? n’assiste à aucun cours de math ? n’assiste qu’à
un cours de math ?

Exercice supplémentaire 10
On considère une classe de 42 élèves. On suppose qu’il n’y a pas d’année bissextile.
a) Quelle est la probabilité pour que deux élèves au moins aient la même date d’anniversaire ?
b) Quelle est la probabilté pour qu’au moins un élève ait la même date d’anniversaire que
Socrate ?

Exercice supplémentaire 11
Dans une classe de 21 étudiants, une personne raconte une histoire à une seconde personne qui la
raconte à une troisième et ainsi de suite. A chaque étape, l’individu, à qui l’on raconte l’histoire,
est choisi au hasard. Chacune des étapes est indépendantes des autres. Notons p1 la probabilité que
l’histoire ne revienne pas à son inventeur et p2 la probabilité qu’elle ne soit jamais répétée deux
fois à la même personne. L’histoire étant racontée 8 fois, calculer p1 et p2 .

Exercice supplémentaire 12
Dans une population donnée, un individu peut être atteint d’une affection A avec la probabilité
pA = 1/100 et d’une affection B, indépendante de A, avec une probabilité pB = 1/20. Quelle est la
probabilité pour qu’un individu choisi au hasard soit atteint d’au moins une des deux maladies ?

4
Université Libre de Bruxelles Année académique 2008-2009

STAT-D-101
Catherine Dehon

1
Séances 7 2 et 8 : Statistique descriptive d’une série
bivariée 1

Exercice 1
Une enquête réalisée auprès des familles d’une ville comporte les deux questions suivantes :
– Combien avez-vous eu d’enfants jusqu’à ce jour ?
– Combien de télévisions avez-vous ?
En ne considérant que 257 familles ayant au moins une télévision et au moins un enfant, on
construit un tableau de contingence résumant les réponses données à ces deux questions.
Le tableau de contingence observé est le suivant :

Nombre d’enfants Y
Nombre de télévision X 1 2 3 4 5 6
1 12 11 15 15 7 10
2 9 6 8 3 4 6
3 11 12 11 15 17 10
4 10 12 11 15 17 10

1. Déterminez les distributions marginales.


2. Déterminez les moyennes et variances marginales.
3. Déterminez le nombre moyen de téléviseurs que possède une famille de 4 enfants.
Déterminez également la variance dans ce cas.
4. Calculez la covariance entre X et Y .
5. Calculez le coefficient de corrélation entre X et Y .

Exercice 2
L’association nationale des entrepreneurs du bâtiment évalue les marchés immobiliers les
plus abordables et les moins abordables. Les données sur le revenu moyen (en milliers de
dollars) et le prix de vente moyen (en milliers de dollars) d’un échantillon de 12 marchés
immobiliers choisis parmi la liste des marchés les plus abordables, sont présentés ci-dessous
(The Wall Street Journal Almanac 1998).

1
Les énoncés sont disponibles sur le site www.ulb.ac.be/soco/statrope

1
Marché Revenu Prix
Syracuse, NY 41.8 76
Springfield, IL 47.7 91
Lima, OH 40 65
Dayton, OH 44.3 88
Beaumont, TX 37.3 70
Lakeland, FL 35.9 73
Baton Rouge, LA 39.3 85
Nashau, NH 56.9 118
Racine, WI 46.7 81
Des Moines, IA 48.3 89
Minneapolis-St. Paul, MN 54.6 110
Wilmington, DE-MD 55.5 110

1. Déduisez de cet énoncé la variable explicative et la variable réponse.


2. Représentez graphiquement ces données.
3. Déterminez les moyennes et variances marginales, ainsi que la covariance.
4. Déterminez l’équation de la droite de régression correspondante.
5. Est-ce que cette équation est bien adaptée aux données ? Expliquez.
6. Calculez les variances résiduelle et de régression.
7. Le revenu moyen à Binghamton, dans l’Etat de New York, s’élève à 40100 dollars.
Utilisez l’équation estimée de la régression pour prévoir le prix de vente moyen des
maisons vendues sur le marché de Binghamton.
8. Calculez la valeur prédite et le résidu correspondants à l’observation Springfield.
9. Que valent la moyenne des résidus et la moyenne des valeurs prédites ?

Exercice 3
Dans une enquête réalisée auprès de 200 personnes en activité, deux variables qualitatives
étaient mesurées. La première consistait à savoir leur niveau d’études et la deuxième
portait sur le secteur où ils travaillaient.
Le tableau de contingence observé est le suivant :

njk Public Privé Autre


Primaire 10 4 30
Secondaire 25 16 15
Supérieur 35 60 5

1. Déterminez les profils-lignes et les profils-colonnes.


2. Calculer les effectifs théoriques espérés sous l’hypothèse d’indépendance.
3. Calculer les écarts à l’indépendance. Interpréter ces écarts.
4. Calculer la mesure d’association D2 .

2
Exercice supplémentaire 1
Une société de consultance a relevé le revenu annuel X (en milliers d’euros) et l’épargne
correspondante Y (en milliers d’euros) de 12 familles. Les résultats sont dans le tableau
suivant :

Famille 1 2 3 4 5 6 7 8 9 10 11 12
Revenu 21 21 19 23 19 20 24 18 19 21 21 22
Epargne 2.2 1.8 1.9 1.9 2.3 1.9 2.0 2.4 1.8 1.9 2.1 2.2

1. Déterminez les moyennes et les variances marginales.


2. Déterminez la moyenne et la variance de l’épargne des familles qui ont un revenu
supérieur ou égal à 21 mille euros.
3. Déterminez l’équation de la droite de régression de Y en X.
4. Est-ce que cette équation est bien adaptée aux données ? Expliquez.
5. Calculez les variances résiduelle et de régression.
6. Calculez la valeur prédite et le résidu correspondant à la famille 8.

Exercice supplémentaire 2
Un échantillon de 82 femmes âgées de plus de 40 ans et ayant au moins un enfant, a été
classé selon les deux critères suivants : le nombre de frères et soeurs (vivants ou décédés)
(Y ) et le nombre d’enfants (X). Les résultats obtenus sont présentées dans le tableau
suivant :

Nombre de frères et soeurs Y


Nombre d’enfants X 0 1 2 3 4
1 4 4 1 1 0
2 9 15 5 2 0
3 4 11 9 2 0
4 1 5 1 1 2
5 0 2 1 0 2

1. Déterminez les distributions marginales.


2. Déterminez les moyennes et variances marginales.
3. Déterminez les distribution conditionnelles de Y en X = 3 et de X en Y = 2.
Déterminez également les moyennes et variances conditionnelles.
4. Calculez la covariance entre X et Y .
5. Calculez le coefficient de corrélation entre X et Y .

3
Exercice supplémentaire 3
Le tableau suivant donne la répartition de 200 étudiants de première année universitaire
selon deux caractères statistiques : l’âge X et le principal sport pratiqué Y .

njk Football Natation Tennis Equitation


18 ans 45 23 15 3
19 ans 29 18 8 2
20 ans 18 10 3 2
21 ans 14 8 2 0

1. De quels types sont les deux variables ?


2. Quels paramètres peuvent être calculés pour chacune de ces deux variables ?
3. Calculer la moyenne et la variance de la distribution marginale en X.
4. Calculer les effectifs théoriques espérés sous l’hypothèse d’indépendance entre X et
Y.
5. Calculer les écarts à l’indépendance.
6. Calculer la mesure d’association D2 .

Exercice supplémentaire 4
Dans une classe, on a mesuré la taille (en pouces) et le poids (en livres) de 10 élèves.
L’objectif est d’étudier le poids (Y ) en fonction de la taille (X). Le tableau ci-dessous
présente les résultats obtenus par les 10 élèves

Nom Albert Alice Cindy Carol Henry July Jane Janet Jack John
Taille 69.0 56.5 65.3 62.8 63.5 57.3 59.8 62.5 62.5 59.0
Poids 112.5 84.0 98.0 102.5 102.5 83.0 84.5 112.5 84.0 99.5

1. Calculez le coefficient de corrélation entre X et Y .


2. Déterminez l’équation de la droite de régression de Y en X.
3. Est-ce que cette équation est bien adaptée aux données ? Expliquez.
4. Calculez les variances résiduelle et de régression.
5. Sachant que 1 pouce = 2.54 cm et 1 livre = 0.454 kg. A quel poids (en kg) peut-on
s’attendre chez un élève qui mesure 177.8 cm ?

4
Université Libre de Bruxelles Année académique 2009-2010

STAT-D-101
Catherine Dehon

1
1
Séances 9 et 10 2 : Analyse d’une série chronologique

Exercice 1
Pendant trois semaines consécutives, on a observé le nombre de visiteurs d’un musée dont les
jours de fermeture sont le samedi et le dimanche.

Lundi Mardi Mercredi Jeudi Vendredi


Première semaine 7 5 35 5 6
Deuxième semaine 8 9 45 8 9
Troisième semaine 10 11 25 9 11

Considérons un modèle additif sans composante cyclique : Y = T + S + E.


1. Représentez graphiquement Y en fonction du temps. Pourquoi prend-on un modèle additif ?
2. Calculez les moyennes mobiles d’ordre 5, notées M M (5). Représentez graphiquement cette
moyenne mobile. Pourquoi prend-on un ordre 5 ?
3. Effectuez un ajustement linéaire sur cette série chronologique Y . Représentez graphique-
ment cet ajustement.
4. Déterminez les composantes saisonnières par la méthode de comparaison à la tendance.
5. Sur base du modèle additif et des résultats ci-dessus, donnez la prévision pour le lundi et
le mardi de la 4ième semaine.

Exercice 2
Les 12 observations suivantes représentent le nombre de magasins ouverts, par trimestre et
pendant trois années, dans une station de sport d’hiver :

Trimestres
Années T1 T2 T3 T4
2002 60 30 10 85
2003 72 36 18 74
2004 86 29 20 100

1. Calculez les moyennes mobiles centrées d’ordre 4, notées M M C(4).


2. Déterminez les composantes saisonnières par la méthode de comparaison à la moyenne
mobile.
1
Les énoncés sont disponibles sur le site www.ulb.ac.be/soco/statrope

1
Exercice 3
Les 10 observations suivantes représentent la valeur d’une action observée pendant 10 mois
consécutifs :

t 1 2 3 4 5 6 7 8 9 10
Y 40 41 40 39 77 70 40 17 25 39

1. Effectuez une prévision par lissage exponentiel simple de la valeur de cette action pour le
11ième mois, avec comme valeur de α = 0.3.
2. Supposons que l’observation pour le 11ième mois soit 50. Effectuez alors une prévision de
la valeur de cette action pour le 12ième mois en utilisant votre résultat en 1.

Exercice supplémentaire 1
Le tableau ci-dessous contient des valeurs expérimentales de la pression P (en Pascals) d’un
certain gaz en fonction de son volume V (en m3 ) :

P 65 50 40 35 50
V 50 60 70 80 55

On suspecte entre P et V une relation de la forme ” P.V b = c ”, où b et c sont des constantes.
1. Estimez la valeur de ces constantes en utilisant les résultats d’un certain ajustement linéaire
au sens des moindres carrés.
2. En utilisant cet ajustement, estimez la valeur de P pour le cas où V vaut 100 m3 .

Exercice supplémentaire 2
La production annuelle d’électricité pour les entreprises publiques d’un pays pendant ces 7
dernières années est :

t 1998 1999 2000 2001 2002 2003 2004


Y 3.5 2.5 4.3 3 1.5 3.2 3

1. Effectuez un ajustement hyperbolique ( prendre une hyperbole équilatère) sur ces données.
2. Sur base de cet ajustement, donnez une prévision de la production annuelle d’électricité
pour l’année 2005.

2
Université Libre de Bruxelles Année académique 2008-2009

STAT-D-101
Catherine Dehon

1
Séances 10 2 , 11 et 12 : Variables aléatoires et lois de
probabilité discrètes 1

Exercice 1
Soit X la variable aléatoire dont la loi est définie par le tableau suivant :

k 1 2 3 4 5
P (X = k) 0.25 0.1 0.2 p 0.35

1. Déterminer la valeur de p.
2. Calculer l’espérance mathématique et la variance de X.
3. Calculer le mode et la médiane de X.
4. Calculer la valeur de la fonction de répartition de X en 2, 2.76 et 7.

Exercice 2
On désigne par X la variable aléatoire qui représente le nombre de boules rouges obtenues
après cinq tirages avec remise dans une urne qui contient deux boules rouges et six boules
blanches.
1. Déterminer la loi de probabilité de X.
2. Calculer E(X) et V ar(X).
3. Calculer la probabilité de tirer au moins une boule rouge.
4. Calculer la probabilité que le nombre de boules rouges soit supérieur ou égal à 1 et
inférieur àu égal à 3.
5. Calculer les quantiles d’ordre 0.25, 0.5, 0.75 de X.
6. Déterminer la distribution du nombre de boules blanches, parmi les 5 boules tirées.
1
Les énoncés sont disponibles sur le site www.ulb.ac.be/soco/statrope

1
Exercice 3
Le nombre de micro-ordinateurs vendus chaque jour dans un magasin informatique suit
une loi de Poisson de moyenne 8. Calculer la probabilité que dans une journée :
1. on ne vende aucun micro-ordinateur,
2. on vende au moins un micro-ordinateur,
3. le nombre de micro-ordinateurs vendus soit supérieur ou égal à 2 et inférieur ou égal
à 6.

Exercice 4
On lance 8 balles pour atteindre une cible. Les différents lancements sont indépendants.
Si on lance une balle, la probabilité qu’elle atteingne la cible est 0.95. Soit X la variable
aléatoire qui compte le nombre de fois que la cible a été atteinte.
1. Déterminez la loi de probabilté de X.
2. Combien de balles seront nécessaires pour être sûr que la cible ait été atteinte au
moins une fois avec une probabilité supérieure ou égale à 0.99.
3. Calculez la probabilité que la cible soit atteinte au moins quatre fois.
4. Supposons qu’on lance 100 balles, calculez la probabilité que :
i) la cible soit atteinte exactement 96 fois,
ii) la cible soit atteinte plus que 92 fois.

Exercice 5
Un gardien de nuit doit ouvrir une porte dans le noir, avec 10 clefs dont une seule est
la bonne. Soit X la variable aléatoire qui compte le nombre d’essais nécessaires jusqu’à
l’ouverture de la porte. Le gardien étant ivre, il mélange toutes les clefs à chaque tentative.
1. Quelles sont les valeurs possibles de X ?
2. Calculez la probabilité de l’événement [X = k], où k est une valeur prise par X.
3. De quel type de distribution s’agit-il ?
4. Donnez les valeurs de la moyenne et de la variance de X.
5. Quelle est la probabilité que la porte soit ouverte après n tentatives ?
6. Le gardien se dit avant de commencer : “ Si j’essaie n fois, j’ai une probabilité d’au
moins 0.95 de réussir à ouvrir la porte”. Quelle est la valeur minimale de n ?

Exercice 6
Dans une urne qui contient 10 boules numérotées de 1 à 10, on extrait 3 boules avec
remise. Soient X la variable aléatoire égale au plus grand des 3 numéros tirés.
1. Quelles sont les valeurs possibles de X ?

2
2. Calculez la probabilité de l’événement [X ≤ k], où k est une valeur prise par X.
3. Déduire la loi de probabilité de X.
4. Calculez P (1 < X ≤ 3).
5. Les deux événements (X = 1) et (X = 3) sont-ils indépendants ? (Justifiez votre
réponse).
6. Calculez la probabilité que X soit paire.

Exercice 7
Soit X une variable aléatoire discrète qui ne peut prendre que les valeurs 1, 3 et 6 avec
des probabilités 14 , 12 et 14 .
1. Quelle est la fonction génératrice des moments de X ?
2. En utilisant le résultat précédent, calculez l’espérance mathématique et la variance
de X.

Exercice supplémentaire 1
Dans une entreprise travaillent 6 ouvriers et 5 employés. Le PDG, souhaitant prendre l’avis
de son personnel, interroge 7 personnes choisies au hasard parmi ces 11 personnes. Soit
X la variable aléatoire : ”nombre d’ouvriers interrogés”. Déterminer la loi de probabilité
de X.

Exercice supplémentaire 2
Une variable aléatoire X peut prendre l’une des trois valeurs 0, 1 ou 2 avec des probabilités
positives. Déterminer sa loi de probabilité sachant que E(X) = 1 et V ar(X) = 1/2.

Exercice supplémentaire 3
Soit X la variable aléatoire discrète qui associe à chaque enfant de 8 ans le nombre de
bonnes réponses qu’il fournit lors d’un test de discrimination droite-gauche des mains. X
obéit à la distribution de probabilité suivante :

Nombre de bonnes réponses k 0 1 2 3 4 5 6


P (X = k) 0.05 0.15 0.20 0.25 0.20 0.10 0.05

1. On choisit au hasard un enfant de 8 ans. Calculez la probabilité des événements


suivants :
i) L’enfant fournit au moins 2 bonnes réponses mais pas plus de 5.
ii) Le nombre de bonnes réponses fournies par l’enfant est strictement supérieur à
4.

3
2. Calculez le mode et la médiane de X.
3. Calculez la moyenne de X et la valeur de la fonction de répartition de X en 3.4.
4. Supposons que l’on sélectionne, par tirages aléatoires à probabilités égales avec re-
mise, un échantillon de 25 enfants de 8 ans.
i) Quelle est la distribution de probabilité de la variable aléatoire Y correspondant
au nombre d’enfants donnant 4 bonnes réponses dans l’échantillon ?
ii) A combien d’enfants donnant 4 bonnes réponses peut-on raisonnablement s’at-
tendre dans l’échantillon ?

Exercice supplémentaire 4
Soit X une loi binomiale de moyenne 3 et de variance 2. Calculez P (X = 7).

Exercice supplémentaire 5
Un gardien de nuit doit ouvrir une porte dans le noir, avec n clefs dont une seule est
la bonne. Soit X la variable aléatoire qui compte le nombre d’essais nécessaires jusqu’à
l’ouverture de la porte. Déterminez la loi de probabilité de X si le gardien essaie les clefs
une à une sans utiliser deux fois la même. Calculez l’espérance et la variance de X.

Exercice supplémentaire 6
On considère une succession d’épreuves de Bernoulli indépendantes de même paramètre.
A chaque épreuve la probabilité de succès est notée p (p ∈]0, 1[). On note X la longueur
aléatoire du “run” demarrant au premier coup, où l’on appelle “run” une succession soit de
succès ou d’échecs interrompue par l’événement contraire. Par exemple pour une séquence
débutant par SSSE...le premier run est de longueur 3 et est un run de succès. Trouver la
loi de X et son espérance.

Exercice supplémentaire 7
On considère un point M se déplaçant sur un axe d’origine O, en partant de O et par
sauts d’une unité vers la droite avec la probabilité 0.2 et vers la gauche avec la probabilité
0.8. Les sauts étant supposés indépendants.
Soit X la variable aléatoire égale à l’abscisse du point à l’issue du 8ième déplacement et
Y la variable aléatoire égale au nombre de sauts vers la droite.
1. Déterminer la loi de probabilité de Y .
2. Donner les valeurs de la moyenne et de la variance de Y .
3. Calculer les quantiles d’ordre 0.25, 0.5, 0.75 de Y .
4. Exprimer la variable aléatoire égale au nombre de sauts vers la gauche en fonction
de Y .
5. Déduire l’expression de X en fonction de Y .

4
6. Quelles sont les valeurs prises par X ?
7. Déterminer la loi de probabilité de X.

Exercice supplémentaire 8
Un fumeur dispose d’un nombre infini d’allumettes. La probabilité qu’une allumette
s’éteigne est 0.2 . Le fumeur tente d’allumer sa cigarette, chaque essai est indépendant
des autres. S’il allume sa cigarette, il cesse d’allumer des allumettes. Soit X la variable
aléatoire égale au nombre d’allumettes utilisées.
1. Quelles sont les valeurs prises par X ?
2. Calculez la probabilité de l’événement [X = k], où k est une valeur prise par X.
3. De quel type de distribution s’agit-il ?
4. Donnez les valeurs de la moyenne et de la variance de X.
5. Quelle est la probabilité qu’il réussisse à allumer sa cigarette avec n allumettes ?
6. Combien d’allumettes seront nécessaires pour qu’il réussisse à allumer sa cigarette
avec une probabilté supérieure ou égale à 0.95.
7. Pour tout k ≥ 1, montrez que

P (X = n + k|X > n) = P (X = k).

8. Sachant que le nombre d’allumettes utilisées est supérieure strictement à 10, quelle
est la probabilité qu’il réussisse à allumer sa cigarette avec exactement 18 allu-
mettes ?

Exercice supplémentaire 9
Les valeurs prises par une variable binômiale X de paramètres n et p sont affichées par
un compteur de la façon suivante :
– Si X prend une valeur non nulle, le compteur affiche correctement cette valeur.
– Si X prend la valeur 0, le compteur affiche n’importe quoi, au hasard, entre 1 et n.
On note Y la variable aléatoire “nombre affiché par le compteur”.
1. Quelle sont les valeurs prises par Y ?
2. Calculer la probabilité P (Y = k|X = 0), pour un k ∈ VY .

5
Université Libre de Bruxelles Année académique 2008-2009

STAT-D-101
Catherine Dehon

Exercices supplémentaires

Exercice 1
Questions à choix multiples : il y a au moins une réponse exacte par question.
(a) Pour une série d’observations d’une variable quantitative :
1. on peut calculer quatre quartiles ;
2. l’écart interquartile contient 50% des observations ;
3. le cinquième décile est égal à la médiane ;
4. 50% des observations sont supérieures au premier quartile ;
5. l’écart interdécile contient 90% des observations.
(b) Si on veut minimiser l’influence des valeurs extrêmes :
1. on préfère la médiane à la moyenne ;
2. on préfère l’étendue à l’écart interquartile ;
3. on préfère l’écart interdécile à l’étendue ;
4. on préfère le coefficient empirique de Yule et Kendall au coefficient de Fisher ;
5. on préfère l’écart interquartile à l’écart-type.
(c) Une étude des notes obtenues par deux groupes de première bachelor à l’ULB en
sciences économiques à un test commun a fourni les résultats suivants :

Groupe Groupe 1 Groupe 2


Effectif 20 30
Moyenne 16 13
Ecart-type 6 6
Mode 14 11
Médiane 14 11

1. la note moyenne des deux groupes réunies est comprise strictement entre 14, 25
et 14, 45 ;
2. l’écart-type des notes des deux groupes réunies est supérieur strictement à
6, 12 ;
3. la médiane des notes des deux groupes réunies est égale à 12 ;
4. la distribution du premier groupe présente une asymétrie à gauche ;
5. la dispersion dans le deuxième groupe est plus importante que dans le premier.

1
(d) Soit {x1 , x2 , . . . , xn } un échantillon de données numériques, déterminez la ou les
affirmation(s) toujours exacte(s) :
1. n1 ni=1 (xi − x̄) = 0 ;
P

2. n1 ni=1 |xi − x9/10 | ≥ n1 ni=1 |xi − x1/2 | ;


P P
Pn 2 1
Pn 2
3. i=1 xi ≥ n ( i=1 xi ) ;
4. n1 ni=1 x2i ≤ s2x ;
P

5. n1 ni=1 (xi − x̄)2 ≥ n1 ni=1 (xi − x1/2 )2 ;


P P

6. si la distribution présente une asymétrie à droite alors x̄ ≤ x1/2 ≤ xM ; ;


7. EQ ≤ 12 (a2 − a1 ), où EQ est l’écart interquartile, a1 et a2 sont les valeurs
pivots ;
8. si tous les xi ∈ (a1 , a2 ) alors xg = x(1) et xd = x(n) , où xg et xd sont les valeurs
adjacentes.
(e) Pour une distribution observée {(xj , nj ); j = 1, . . . , J} relative à une variable quan-
titaive X,
 P 2
1. pour que la variance soit nulle, il suffit que n1 Jj=1 nj x2j = n1 Jj=1 nj xj ;
P

2. n1 Jj=1 nj (xj − x̄) ≤ s2x ;


P

3. la variance est : s2x = n1 Jj=1 (nj x2j − x̄2 ) ;


P

4. pout tout j = 1, . . . , J, Nj = n1 + n2 + . . . + nj ;
5. Nj∗ est le nombre d’observations ≤ xj ;
6. la courbe cumulative à gauche est une fonction en escalier (continue à droite).
(f) Considérons une série statistique {x1 , . . . , xn } relative à un caractère quantitatif X
et le changement d’origine et d’unité suivant :

yi = (xi − 2)/10, i = 1, . . . , n.

Dans ces conditions, comment se transforment la moyenne, le mode, la médiane,


l’écart-type, etc de la série statistique {y1 , . . . , yn }. Déterminez la ou les affirma-
tion(s) totalement exacte(s) :
1. la moyenne et la médiane diminuent de 2 et la variance reste inchangée ;
2. la moyenne et le mode diminuent de 2 et ensuite divisés par 10, et la variance
est divisée par 10 ;
3. la moyenne, le mode, le premier décile et le troisième quartile sont diminués de
2 et ensuite divisés par 10.
4. l’étendue, l’écart-type et l’écart interquartile sont divisés par 10 et le coefficient
de Fisher reste inchangé ;
5. le coefficient de variation, le coefficient empirique de Yule et Kendall et le
coefficient empirique de Pearson restent inchangés.

2
(g) Pour une variable quantitative de distribution symétrique, déterminez la ou les
affirmation(s) toujours exacte(s) :
1. 50% des observations sont supérieures à la moyenne ;
2. la moyenne est égale au mode ;
3. x3/4 − x1/4 = 2(x1/2 − x1/4 ) ;
4. n1 ni=1 (xi − x1/2 ) = 0 ;
P

5. s2x + x21/2 = n1 ni=1 x2i .


P

(h) Pour comparer des distributions de variables statistiques exprimées dans des unités
différentes (par exemple des distributions de salaires exprimés dans des monnaies
différentes), on peut utiliser les caractéristiques suivantes :
1. la médiane ;
2. l’écart interquartile ;
3. le coefficient de variation ;
x9/10
4. le rapport interdécile x1/10
;
5. la moyenne.
(i) Soient deux événements indépendants A et B d’un même espace probabilisé tels
que : P (A) = 0, 3 et P (B) = 0, 2. Déterminez la ou les affirmation(s) correcte(s) :
1. P (A ∪ B) = 0, 44 ;
2. P (A ∩ B) = 0, 6 ;
3. P (A ∩ B) = 0, 06 ;
4. P (A \ B) = 0, 24 ;
5. P (Ā ∪ B) = 0, 84 ;
6. Ā et B̄ sont indépendants ;
7. P (Ā|B) = 0, 7 ;
8. Ā et B ne sont pas indépendants.
(j) Trois chasseurs visent simultanément un même lièvre et tirent en même temps.
Soient p1 , p2 et p3 les probabilités respectives de toucher le lièvre pour chaque
chasseur (p1 ≤ p2 ≤ p3 ), alors la probabilité que le lièvre soit touché par au moins
un des chasseurs :
1. peut être inférieure à p1 ;
2. est égale à (p1 + p2 + p3 ) ;
3. est égale à [1 − (1 − p1 )(1 − p2 )(1 − p3 )] ;
4. est comprise entre (p1 .p2 .p3 ) et (p1 + p2 + p3 ) ;
5. est comprise entre [1 − (1 − p1 )3 ] et [1 − (1 − p3 )3 ].
(k) Soient A et B deux événements d’un espace probabilisé tels que P (A) = P (B) = 43 .
Déterminez la ou les affirmation(s) toujours exacte(s) :

3
1. A et B sont des évènements mutuellement exclusifs ;
2. P (A ∩ B) ≤ P (A ∪ B) ;
3 1
3. 4
≤ P (A ∪ B) ≤ 1 et 2
≤ P (A ∩ B) ≤ 43 ;
1 3 3
4. 2
≤ P (A ∪ B) < 4
et 4
< P (A ∩ B) ≤ 1 ;
5. aucune des affirmations ci-dessus n’est correcte.
(l) Dans une classe, on a mesuré la taille (en pouces) et le poids (en livres) de 10
élèves. L’objectif est d’étudier le poids en fonction de la taille. Le tableau ci-dessous
présente les résultats obtenus pour 10 élèves (4 décimales dans cet exercice).

Nom Albert Alice Cindy Carol Henry July Jane Janet Jack John
Taille 69.0 56.5 65.3 62.8 63.5 57.3 59.8 62.5 62.5 59.0
Poids 112.5 84.0 98.0 102.5 102.5 83.0 84.5 112.5 84.0 99.5

Sachant que 1 pouce = 2.54 cm et 1 livre = 0.454 kg, déterminez la ou les affirma-
tion(s) toujours exacte(s) :
1. La pente de la droite de régression de y en x est inférieure strictement à 2.1997 ;
2. La prévision du poids chez un élève qui mesure 177.8 cm est une valeur inférieure
strictement à 116 livre ;
3. La prévision du poids chez un élève qui mesure 177.8 cm est une valeur comprise
strictement entre 53 et 55 kg ;
4. Le résidu correspondant à l’étudiant Henry est supérieure strictement à 1 kg ;
5. L’equation de la droite de régression de y en x est bien adaptée aux données.
(m) Le tableau suivant donne la répartition de 200 étudiants de première année uni-
versitaire selon deux caractères statistiques : l’âge X et le principal sport pratiqué
Y.

njk Football Natation Tennis Equitation


18 ans 45 23 15 3
19 ans 29 18 8 2
20 ans 18 10 3 2
21 ans 14 8 2 0

Déterminez la ou les affirmation(s) toujours exacte(s) :


1. Le coefficient empirique de Pearson de la variable X est supérieur strictement
à 0, 961 ;
2. Le coefficient de Fisher de la variable X est compris strictement entre 0.55 et
0.75 ;
3. Le coefficient de variation de la variable âge est inférieur strictement à 0.08 ;
4. La somme des écarts à l’indépendance est nulle ;
5. La mesure d’association est inférieure strictement à 4.456.

4
(n) Un jouet se trouve caché dans l’une des N boı̂tes fermées où un enfant le cherche.
Celui-ci ouvre une boı̂te au hasard et recommence jusqu’à ce qu’il trouve le jouet.
On suppose qu’à chaque tentative il a oublié le résultat de toutes les précédentes.
Soit X le nombre de tentatives effectuées jusqu’à la découverte du jouet. Déterminez
la ou les affirmation(s) toujours exacte(s) :
1. V ar(X) = (E(X))2 − E(X) ;
2. Il faut 5 boı̂tes pour que l’enfant ait environ trois chances sur quatre de trouver
le jouet à l’issue de ses trois premières tentatives ;
3. Aucune des affirmations ci-dessus n’est correcte ;
4. X suit une distribution géométrique de paramètre 1/N ;
5. Le jouet est trouvé à l’issue de n tentatives avec une probabilité égale à 1 −
(1 − n1 )N .
(o) Dans une urne qui contient 10 boules numérotées de 1 à 10, on extrait 3 boules
avec remise. Soient X la variable aléatoire égale au plus grand des 3 numéros tirés.
Déterminez la ou les affirmation(s) toujours exacte(s) :
1. X est une variable aléatoire Binomiale de moyenne 0.3 ;
2. La probabilité que X soit paire est comprise strictement entre 0.567 et 0.578 ;
3. La probabilité que X soit impaire est inférieure à 0.578 ;
4. 0.025 < P (1 < X ≤ 3) < 0.03 ;
5. Les deux événements (X = 1) et (X = 3) sont dépendants.

Exercice 2
Considerons la distribution des salaires (en euros) dans les entreprises du secteur privé en
france pour les années 1975 et 2005. L’intervalle de variation des salaires est partagé en 5
classes. Notons xcj le centre de la classe j et nj l’effectif de la classe j pour (j = 1, . . . , 5).

1975 2005
Classe xcj nj Classe xcj nj
1 1130 20 1 1706 20
2 1400 20 2 2030 20
3 1850 20 3 2475 20
4 2590 20 4 3200 20
5 5150 20 5 5815 20

1. Construisez les courbes de Lorentz pour les années 1975 et 2005. Comparez la
concentration des salaires entre ces deux années.
2. Calculez le coefficient de Gini pour les deux années. Interprétez ces coefficient.

5
Exercice 3
Le tableau ci-dessous présente les prix et les quantités de Coca-Cola et de BigMac achetées
par un consommateur en 2000 et 2005.

BigMac (j = 1) BigMac (j = 2)
Prix en $ (à la pièce) Quantité (pièce) Prix en $ (au litre) Quantité (litre)
(1) (1) (2) (2)
pi qi pi qi
2000(i = 0) 2 12 1.5 7
2005(i = 1) 3 13 2 10

Comment donner une mesure de la variation de prix du panier composé des ces deux
produits ?

Exercice 4
Une même somme S a été confiée à deux banques B1 et B2 pour une durée de 10 ans. Les
rendements successifs des placements effectués par les dux banques ont été les suivants :
– Bnaque B1 : 12% pendant 2 ans, puis 8% pendant 4 ans, puis 6% pendant 4 ans ;
– Bnaque B2 : 10% pendant 3 ans, puis 8% pendant 3 ans, puis 7% pendant 4 ans.
1. Calculez le taux moyen de croissance dans chaque banque.
2. A quel taux la moins performante des deux banques aurait-elle dû placer l’argent
pendant la troisième période pour égaler l’autre ?

Exercice 5
Un jeu de cartes ordinaire comprend 52 cartes. Chacune de ces 52 cartes appartient à une
couleur (le carreau, le coeur, le trèfle et le pique) et possède une valeur (2, 3, 4, 5, 6, 7, 8,
9, 10, J (valet), Q (dame), K (roi) et A (as)). Pour les questions qui suivent, on considère
une main de poker, c’est-à-dire une combinaison de 5 cartes tirées au hasard à partir d’un
jeu de 52 cartes. Quelle est la probabilité qu’une main contienne :
1. une paire, c’est-à-dire une main de poker contenant en tout 4 valeurs différentes ?
2. deux paires, (Les deux paires ne peuvent pas avoir la même valeur et la valeur de
la cinquième cartes doit être différente des valeurs des deux paires) ?
3. un brelan, c’est-à-dire une main de poker contenant trois cartes de la même valeur
(Les deux autres cartes doivent être de valeurs différentes entre elles et différentes
de la valeur commune aux trois premières cartes) ?
4. une main pleine, c’est-à-dire une main de poker contenant trois cartes d’une valeur
et deux cartes d’une autre valeur ?
5. un carré, c’est-à-dire une main de poker contenant quatre cartes de la même valeur
(et une cinquième carte quelconque) ?