Cours de Statistique

Vous aimerez peut-être aussi

Vous êtes sur la page 1sur 326

1

STATISTIQUE I
(STAT-D-101)
ECTS: 5 (theorie: 2, exercices: 2, travaux
personnels: 1)
Catherine Dehon
B atiment S - 11`eme etage - bureau S11.226
Tel.: (02) 6503858 e-mail: cdehon@ulb.ac.be
Universite libre de Bruxelles
Annee 2009-2010
1`ere annee - Bachelier en sciences economiques
Version 2
2
AVERTISSEMENT
Ce syllabus a ete redige dans le but de faciliter
la prise de notes pendant le cours theorique.
La mise ` a jour du present syllabus sera faite via
le cours theorique.
Il est bien entendu que lexamen portera sur
lensemble de la mati`ere vue au cours theorique
(des elements pourraient etre ajoutes oralement
au cours) ainsi que la mati`ere des travaux pra-
tiques.
3
A savoir ....
Buts du cours:
1. Introduction des concepts statistiques an de
realiser des analyses descriptives sur des vari-
ables quantitatives et/ou qualitatives.
2. Introduction des elements du calcul de proba-
bilites et des lois de probabilite univariee discr`ete
pour preparer les probl`emes dinference statis-
tique qui seront etudies en 2`eme annee.
3. Mise en pratique des connaissances dans des
situations de la vie de tous les jours.
Methode denseignement et support:
Theorie : Cours ex cathedra. Syllabus de theorie
contenant la copie des transparents projetes (et
commentes) au cours disponible sur le site:
http://www.ulb.ac.be/soco/statrope/.
4
Exercices:
Subdivision des etudiants en groupes de T.P.
Les enonces des exercices sont disponibles sur
le site ci-avant. Quelques examens resolus des
annees precedentes sont egalement telechargeables
sur ce site. En outre, des permanences et
des guidances sont organisees.
Methode devaluation:
Une epreuve ecrite dispensatoire est organisee
durant la session de janvier. Lexamen com-
porte une partie theorique et une partie pra-
tique, sans interruption entre les deux. Aucune
note personnelle nest autorisee. Les etudiants
peuvent (re)presenter une epreuve durant la ses-
sion de mai/juin. Dans ce cas, la note obtenue
remplace celle de lepreuve de janvier.
Chapitre 1
INTRODUCTION A LA
STATISTIQUE
But: Transformer des donnees en information
La Statistique: ensemble de methodes et ou-
tils mathematiques visant `a collecter, decrire
et analyser des donnees an dobtenir de linfor-
mation permettant de prendre des decisions
malgre la presence dincertitude (erreur, bruit)
5
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 6
La statistique joue un r ole essentiel dans de nom-
breuses disciplines:
en economie: taux de croissance, nombre de
brevets deposes, prix de limmobilier,...
en nance: rentabilite dun investissement,...
en marketing: etude de marche, ...
en gestion des ressources humaines: absenteisme,...
en medecine: mise sur le marche de nouveaux
medicaments, ...
en sciences sociales, en sciences politiques,
etc

la statistique est loutil de confrontation dune


theorie scientique ` a lobservation
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 7
1.1 EXEMPLES
1.1.1 RENTABILITE DUN INVESTISSEMENT
Pour investir intelligemment vos economies, vous
allez voir le conseiller de votre banque qui vous
sugg`ere 2 types dinvestissement:
- investir dans le secteur de linformatique
- investir dans le secteur agro-alimentaire.
Votre but est double:
- maximiser les prots
- minimiser les risques.
Pour prendre la decision, vous realisez une etude
statistique.
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 8
1. Collecte des donnees
Selectionner au hasard un echantillon de 100 en-
treprises dans le secteur de linformatique et 100
dans le secteur de lagro-alimentaire.
Calculer le taux de rentabilite de linvestissement
pour chaque entreprise (rate of return on in-
vestissment):
ROI = Benece/Valeur de linvestissement.
Exemples:
- investir 100 euros en 2004 et avoir 106 euros
en 2005 donc benece de 6 euros:
ROI = 6/100 = 0.06 = 6%
- investir 100 euros en 2004 et avoir 80 euros en
2005 donc perte de 20 euros:
ROI = -20/100 = -20%.
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 9
2. Statistique Descriptive:
Tableaux-Graphiques
Variable etudiee: taux de rentabilite.
Variable quantitative continue.
Variable etudiee sur 2 populations:
Info et Agro alimentaire.
Eectif: n=100 dans chaque secteur.
Informatique ROI(%) Agro-Ali ROI(%)
Entreprise 1 10 Entreprise 1 7
Entreprise 2 -5 Entreprise 2 3

Entreprise 99 30 Entreprise 99 -2
Entreprise 100 -25 Entreprise 100 10
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 10
Graphiques: Histogrammes
-10 -5 0 5 10
0
2
4
6
8
ROI
e
f
f
e
c
t
i
f
Secteur de linformatique
-10 -5 0 5 10
0
2
4
6
8
1
0
1
2
ROI
e
f
f
e
c
t
i
f
Secteur de lagroalimentaire
Comparaison des 2 histogrammes:
centre de la distribution plus ` a gauche pour
le secteur informatique donc moins rentable
dispersion plus grande en informatique donc
plus risque
= Investir dans lagro alimentaire.
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 11
Statistiques descriptives: Param`etres
Calculs de quelques statistiques:
Param`etres Informatique Agro-Ali
Minimum -6.92 -0.66
Maximum 10.56 7.21
Mediane 1.79 3.53
Moyenne 1.50 3.40
Ecart-type 2.99 1.96
Asymetrie
. . .
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 12
3. Inference statistique (BA2)
Tester legalite des moyennes des taux de renta-
bilite dans les 2 secteurs
Tester si la moyenne des ROI dans le secteur
de linformatique est signicativement plus
petite que dans le secteur agro alimentaire
(donc moins rentable en moyenne)
Tester si la dispersion dans les 2 secteurs est
identique, tester si le secteur de linformatique
est plus risque
...
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 13
1.1.2 PROBLEME DABSENTEISME EN ENTREPRISES
(Chadhury, Ng, Canadian Journal of Economics, 1992)
Labsenteisme reduit la production de 10%

Deux economistes ont selectionne 100 rmes et


mesure le nombre moyen de jours dabsence par
employe sur une annee. Cette variable (X
1
) est
quantitative.
Ils ont egalement mesure plusieurs variables sus-
ceptibles dinuencer le taux dabsenteisme:
X
2
= salaire moyen (quantitative continue)
X
3
= % demployes part-time (idem)
X
4
= capacite `a travailler en equipe (0=non,
1=oui =variable qualitatitve dichotomique)
X
5
= qualite des relations avec le manager
(0=mauvais, 1=bon = Idem)
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 14
1. Statistique Descriptive: Graphiques
0 5 10 15
0
5
1
0
1
5
2
0
Absenteisme
e
f
f
e
c
t
i
f
Histogramme du taux dabsenteisme
0 10000 30000 50000
0
5
1
0
1
5
Salaire
e
f
f
e
c
t
i
f
Hist. du salaire moyen
0 10 20 30 40
0
5
1
0
1
5
Part Time
e
f
f
e
c
t
i
f
Hist. du pourcentage de Part Time
Manager
A
b
s
e
n
t
0.0 0.2 0.4 0.6 0.8 1.0
2
4
6
8
1
0
1
2
1
4
Graphique 2 dimensions
Salaire
A
b
s
e
n
t
15000 25000 35000
2
4
6
8
1
0
1
2
1
4
Graphique 2 dimensions
Part.Time
A
b
s
e
n
t
0 5 10 15 20 25 30
2
4
6
8
1
0
1
2
1
4
Graphique 2 dimensions
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 15
2. Statistiques descriptives univariees
Absent Salaire PT Equipe Manager
Minimum 2.10 12023 0 0 0
Maximum 14.8 42986 30.80 1 1
Mediane 5.65 22586 9.10 1 1
Moyenne 6.23 23587 11.52 0.67 0.64
Ecart-type 3.36 6656.19 8.08 0.47 0.48
Skewness 0.66 0.80 0.58 - -
Kurtosis 2.44 3.38 2.46 - -
Dierents types de variables

Attention aux interpretations !!!!


CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 16
3. Regression lineaire multiple (Stat2)
Le taux dabsenteisme peut etre explique en par-
tie par les autres variables (en supposant un lien
lineaire). Dependent Variable: ABSENT
Variable Coecient t-Statistic
SALAIRE -0.000211 -5.319899
PART-TIME -0.093396 -2.862929
EQUIPE 1.491396 2.671433
MANAGER -2.706436 -4.951130
C 13.01733 11.43809
R-squared 0.416499 F-statistic: 16.95260
Le taux dabsenteisme diminue si
- le salaire moyen augmente
- le pourcentage de part time augmente
- non capacite ` a travailler en equipe
- les relations avec le manager sont bonnes
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 17
1.2 MOTS CLEFS
Population: collection compl`ete (dans le sens
o` u elle inclut tous les individus ` a etudier) dindividus
sur laquelle porte letude
Param`etre: mesure numerique decrivant une
caracteristique de la population
Echantillon: sous-ensemble dindividus obtenus
` a partir de la population (methodes de sondage)
Une statistique: mesure numerique decrivant
une caracteristique de lechantillon
Donnee: fait numerique ou non porteur dinfor-
mation
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 18
Variable: Caracteristique dont la valeur change
dun individu ` a lautre dans la population
Type de variable:
- variable directe: mesurable directement (salaire)
- indicateur: non mesurable directement (sante
des entreprises belges cotees en bourse: BEL20)
- variable qualitative: caracteristiques (modalites)
non numeriques (profession)
- variable dichotomique: variable qualitative
ne prenant que 2 modalites (sexe)
- variable quantitative dicr`ete: valeurs numeriques
discr`etes, isolees (nombre denfants)
- variable quantitative continue: valeurs numeriques
sur un intervalle continu (salaire)
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 19
Le choix dune echelle de mesure nest pas
unique:
- echelle nominale: donnees non numeriques
qui ne peuvent pas etre ordonnees (type de lm)
- echelle ordinale: donnees non numeriques pos-
sedant un ordre naturel (avis pedagogiques)
- echelle dintervalle: donnees numeriques avec
interpretation possible des dierences entre in-
dividus mais pas de zero unique (date)
- echelle de rapport: echelle dintervalle avec la
notion supplementaire de zero naturel ( age)
ECHELLE ECHELLE ECHELLE ECHELLE
NOMINALE ORDINALE DINTERVALLE DE RAPPORT
Denombrement Denombrement Denombrement Denombrement
Comparaison Comparaison Comparaison
Dierence Dierence
Rapports
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 20
1.3 DEMARCHE SCIENTIFIQUE
Objectif(s) ` a atteindre, Question(s) `a poser

Collecte des donnees:releve direct, experimentation,


enquete exhaustive (recensement),
enquete partielle (sondage)

Analyse descriptive:
univariee (Stat 1) et bivariee (Stat 1)
P-variee (Analyse des donnees)

Analyse conrmatoire: Inference statistique


Estimation, Tests dhypoth`ese (Stat 2)
Regression Lineaire et Series Chrono. (Econometrie)

Previsions, Conclusions, Decisions


CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 21
= Deux grandes aires detude:
Statistique descriptive: Etape preliminaire
qui etudie lechantillon en produisant des graphiques
et des valeurs numeriques (statistiques) resumant
linformation du jeu de donnees
Inference statistique: facilite le processus de
decision en utilisant des procedure destimation,
de probl`emes de tests, ...qui permettent de tirer
des conclusions sur la populatipon ` a partir de
lechantillon
Lien entre Statistique et Probabilite:
Probabilite
Population Echantillon
Inference Statistique
Echantillon Population
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 22
1.4 PLAN DU COURS
Introduction
Analyse descriptive: serie statistique univariee
Probabilite
Analyse descriptive: serie statistique bivariee
Analyse dune serie chronologique
Variables aleatoires et lois de probabilites discr`etes
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 23
1.5 REFERENCES
Anderson D., Sweeney D., Williams T. (2001),
Statistiques pour leconomie et la gestion,
Bruxelles, De Boeck Universite.
Dagnelie P. (1998), Statistique theorique et
appliquee. Tome 1: Statistique descrip-
tive et bases de linference statistique, Brux-
elles, De Boeck Universite.
Dehon, C. , Droesbeke, J-J. et Vermandele C.
(2008), Elements de statistique, Bruxelles,
Editions de LUnviversite de Bruxelles.
http://www.ulb.ac.be/soco/statrope/ (notes
de cours)
Chapitre 2
STATISTIQUE DESCRIPTIVE
DUNE SERIE UNIVARIEE
Etape preliminaire `a toute etude statistique.
Permet de prendre contact avec lechantillon.
Se divise en 2 aires:
- elaboration de tableaux et graphiques
- valeurs numeriques resumant lechantillon
(statistiques).
24
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 25
2.1 NOTATIONS
Les donnees sont souvent collectees dans un tableau
Individus Caract`eres
Var-Ind 1 2 . . . j . . . p
1 x
11
x
12
. . . x
1j
. . . x
1p
2 x
21
x
22
. . . x
2j
. . . x
2p

i x
i1
x
i2
. . . x
ij
. . . x
ip

n x
n1
x
n2
. . . x
nj
. . . x
np
n: Taille de lechantillon
p: nombre de variables

Matrice de donnees de dimension n p


= Serie statistique `a p-dimension.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 26
Remarques
Serie univariee si p = 1:
{x
1
, x
2
, . . . , x
n
} = {x
i
; i = 1, . . . , n}
Serie bivariee si p = 2:
{(x
1
, y
1
), . . . , (x
n
, y
n
)} = {(x
i
, y
i
); i = 1, . . . , n}
Serie ordonnee:
Denition: La serie ordonnee {x
(1)
, x
(2)
, . . . , x
(n)
}
est telle que : x
(i)
x
(j)
si i j, o` u denit
la relation dordre.
(i) est appele le rang de lobservation x
(i)
.
Exemple:
Serie observee: {x
i
; i = 1, . . . , 6} = {2, 0, 1, 1, 4, 3}
Serie ordonnee: {x
(i)
; i = 1, . . . , 6} = {1, 0, 1, 2, 3, 4}
Ainsi: x
(1)
= x
3
, x
(3)
= x
4
, x
(6)
= x
5
.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 27
2.2 TABLEAUX ET GRAPHIQUES
A. Donnees nominales (qualitatives)
Exemple 1: Donnees reprenant tous les achats
par carte de credit aux USA durant les 6 pre-
miers mois de 1998. La variable etudiee est la
nature de la carte utilisee (The Nilson Report,
Oct. 8, 1998).
Sur les 200 milliards achats eectues, on a la
repartition suivante:
36 milliards dachats avec la carte American
express
2 milliards dachats avec la carte Diners Club
12 milliards dachats avec la carte Discover
50 milliards dachats avec la Master card
100 milliards dachats avec la carte VISA
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 28
Resume de linformation: Tableau des eectifs
x
j
n
j
(unite: milliard)
American express 36
Diners Club 2
Discover 12
Master card 50
Visa 100

J
j=1
n
j
= n=200
x
1
, x
2
, x
3
, x
4
, x
5
representent les 5 modalites
disctinctes observees
J est le nombre de modalites disctinctes ob-
servees (ici J = 5).
n
j
est leectif associe `a x
j
pour j = 1, . . . , 5
La serie univariee est donc resumee par
{ (x
j
, n
j
); j = 1, . . . , J} =
{ (AE, 36), (DC, 2), (D, 12), (MC, 50), (V, 100)}
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 29
Alternative aux eectifs (n
j
) : lutilisation des
frequences:
f
j
=
n
j
n
(j = 1, . . . , J)
Les frequences representent le pourcentage dober-
vations egales ` a x
j
.
Tableau des frequences
x
j
n
j
f
j
American express 36 0.18
Diners Club 2 0.01
Discover 12 0.06
Master card 50 0.25
Visa 100 0.50
200 1
Remarque:

J
j=1
f
j
= 1.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 30
Representations graphiques
Bar Chart
0
2
0
4
0
6
0
8
0
1
0
0
Modalit
E
f
f
e
c
t
i
f
(
n
j
)
AE DC D MC VISA
Ordre Alphabtique
0
2
0
4
0
6
0
8
0
1
0
0
Modalit
E
f
f
e
c
t
i
f
(
n
j
)
VISA MC AE D DC
Ordre Dcroissant
=Choix arbitraire sur les axes puisquil nexiste
pas dordre naturel entre les modalites.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 31
Diagramme en secteurs (Pie Chart)
Concept de proportion
18.0%
1.0%
6.0%
25.0%
50.0%
x
j
n
j
f
j
(%) Degre
American express 36 0.18 64.8
Diners Club 2 0.01 3.6

Discover 12 0.06 21.6


Master card 50 0.25 90

Visa 100 0.50 180

200 1 360

CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 32


Tableau disjonctif complet
Nombre de lignes = nombre dindividus (achats)
Nombre de colonnes = nombre de modalites
(5 cartes de credit)
Chaque colonne est une variable binaire prenant
la valeur 1 si lindividu poss`ede cette modalite
et 0 sinon.
Individu 1 2 3 4 . . . 200 10
9
Type de cartes V D AE V . . . DC
0 0 0 0 1
0 0 1 0 0
X= 1 0 0 0 0
0 0 0 0 1

0 1 0 0 0
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 33
B. Donnees ordinales (qualitatives)
Exemple 1: Avis pedagogique: evaluation dun
cours par les etudiants.
Tableau des eectifs
avec n = 100 et J = 5:
x
j
TD D M F TF
n
j
1 9 40 35 15
Ordre naturel entre les modalites

Tableau des frequences cumulees o` u:


Eectif cumule: N
j
= n
1
+ . . . + n
j
(nombre dobservations x
j
)
Frequence cumulee: F
j
=
N
j
n
(pourcentage dobservations x
j
)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 34
Tableau des eectifs cumules et des
frequences cumulees
x
j
n
j
f
j
N
j
F
j
TD 1 0.01 1 0.01
D 9 0.09 10 0.10
M 40 0.40 50 0.50
F 35 0.35 85 0.85
TF 15 0.15 100 1
100 1
10% des el`eves interroges ont un avis tr`es
defavorable ou defavorable.
85 el`eves sur 100 ont un avis egal ou inferieur
` a la notation favorable.
15% des el`eves ont un avis tr`es favorable.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 35
Representations graphiques
Diagramme en barres des eectifs et des frequences
(Bar Chart)
0
1
0
2
0
3
0
4
0
Avis Pdagogiques
E
f
f
e
c
t
if
(
n
j)
TD D M F TF
Diagramme en barres (effectifs)
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Avis Pdagogiques
F
r
e
q
u
e
n
c
e
(
f
j)
TD D M F TF
Diagramme en barres (frquences)
Diagramme en blocs
0
20
40
60
80
100
120
TD D
M F
TF
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 36
Exemple 2: Etude sur le niveau de dipl ome des
25 managers americians les mieux payes (Forbes,
May 17, 1999).
Top Noms Societe Niveau de diplome
1. Michael d. Eisner Walt Disney Bachelier
2. Mel Karmazin CBS Bachelier
3. Stephen M. Case American Online Bachelier
4. Stephen C. Hilbert Conseco None
5. Craig R. Barrett Intel Doctorat
6. Millard Drexler Gap Master
7. John F. Welsch, Jr. General Electric Doctorat
. . . . . . . . . . . .
10. Reuben Mark Colgate-Palmolive Master
. . . . . . . . . . . .
13. Margaret C. Whitman eBay Master
14. Louis V. Gerstner,Jr. IBM Master
. . . . . . . . . . . .
17. M. Douglas Ivester Coca-Cola Bachelier
. . . . . . . . . . . .
20. William R. Steere, Jr Pzer Bachelor
21. Nolan D. Archibald Black-Decker Master
. . . . . . . . . . . .
25. Richard Jay Kogan Schering-Plough Master
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 37
Tableau des eectifs: n = 25, J = 4
x
j
None Bachelier Master Doctorat/Droit
n
j
1 7 11 6
Diagramme en barres (Bar Chart)
E
f
f
e
c
t
i
f
(
n
j
)
0
1
2
3
4
5
6
None Bachelor Master Doctorate
25 BestPaid Executives
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 38
Tableau des frequences cumulees o` u:
Eectif cumule: N
j
= n
1
+ . . . + n
j
(nombre dobservations x
j
)
Frequence cumulee: F
j
=
N
j
n
(pourcentage dobservations x
j
)
Highest Degree n
j
f
j
N
j
F
j
None 1 0.04 1 0.04
Bachelors 7 0.28 8 0.32
Masters 11 0.44 19 0.76
Doctorale/law 6 0.24 25 1
25 1
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 39
Remarque: on peut aussi calculer les eectifs
et frequences cumules ` a droite:
Eectif cumule `a droite: N

j
= n
j
+ n
j+1
+
. . . +n
J
(nombre dobservation x
j
)
Frequence cumulee ` a droite: F

j
=
N

j
n
(pourcentage dobservations x
j
)
Exercice: realiser le tableau des eectifs et
frequences cumules `a droite.
Highest Degree n
j
f
j
N

j
F

j
None 1 0.04
Bachelors 7 0.28
Masters 11 0.44
Doctorale/law 6 0.24
25 1
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 40
C. Donnees quantitatives
Exemple 1 - Variable discr`ete: Pour etudier
la qualite de la recherche ` a lULB, on utilise
comme indicateur le nombre de publications par
an. Lechantillon est constitue de 25 jeunes pro-
fesseurs.
Tableau recapitulatif de la serie observee:
x
j
n
j
f
j
N
j
F
j
N

j
F

j
0 5 0.20 5 0.20 25 1
1 10 0.40 15 0.60 20 0.80
2 4 0.16 19 0.76 10 0.40
3 3 0.12 22 0.88 6 0.24
4 2 0.08 24 0.96 3 0.12
5 1 0.04 25 1 1 0.04
25 1
Remarque: N
j
= N
j1
+ n
j
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 41
Representations graphiques
Diagramme en batons
Nombre de publications
E
f
f
e
c
t
i
f
0 1 2 3 4 5
2
4
6
8
1
0
Etude sur la qualit de la recherche
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 42
Courbe cumulative: y = N(x)
N(x) etant le nombre dobservations x.
Nombre de publications
N
j
0 2 4 6
0
5
1
0
1
5
2
0
2
5
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 43
Courbe cumulative ` a droite : y = N

(x)
N

(x) etant le nombre dobservations x.


Nombre de publications
N
j
0 2 4 6
0
5
1
0
1
5
2
0
2
5
Etude sur la qualit de la recherche
Remarques:
Si x = x
j
= N(x) + N

(x) = n + n
j
Si x = x
j
= N(x) + N

(x) = n
De fa con generale: N(x) + N

(x) n
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 44
Exemple 2 - Variable continue: Le manager
du marketing dune compagnie telephonique com-
mande une etude sur le prol des nouveaux abonnes.
Pour ce faire il recolte la 1`ere note en Euro de
telephone de 120 nouveaux clients.
Serie Statistique:
83 83 18 65 99 96 7 94 62 98 71 20 97 88 38 55
81 51 68 19 36 41 56 49 33 85 75 97 35 36 32 59
88 28 63 60 99 7 31 13 34 33 15 12 62 41 13 27
74 24 67 98 22 13 32 9 54 84 35 62 14 90 91 59
77 38 31 22 92 39 54 90 47 89 81 79 9 88 30 50
41 16 49 44 45 87 23 5065 20 88 83 7 53 73 64
45 78 60 38 75 83 28 11 27 34 15 94 33 76 86 36
42 52 61 52 78 54 53 58
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 45
Serie Ordonnee:
7 7 7 9 9 11 12 13 13 13 14 15 15 16 18 19 20 20
22 22 23 24 27 27 28 28 30 31 31 32 32 33 33 33
34 34 35 35 36 36 36 38 38 38 39 41 41 41 42 44
45 45 47 49 49 50 50 51 52 52 53 53 54 54 54 55
56 58 59 59 60 60 61 62 62 62 63 64 65 65 67 68
71 73 74 75 75 76 77 78 78 79 81 81 83 83 83 83
84 85 86 87 88 88 88 88 89 90 90 91 92 94 94 96
97 97 98 98 99 99
Grands nombres de valeurs distinctes
Beaucoup de petits eectifs
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 46
Diagramme en batons
20 40 60 80 100
0
1
2
3
4
note
E
f
f
e
c
t
i
f
Diagramme en b tons
MAIS ... Grand nombre de valeurs distinctes

Resumer linformation
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 47
Solution 1: Diagramme en tiges et feuilles
(stem and leaf display).
0|77997 0|77799
1|89352334615 1|12333455689
2|0874223087 2|0022347788
3|8635621432581908436 3|0112233344556668889
4|1917194552 4|1112455799
5|516949400322438 5|001223344456899
6|528302725401 6|001222345578
7|1547938568 7|1345567889
8|338158491878336 8|113333456788889
9|9648779801204 9|0012446778899
Remarque: Autre alternative: Dot Plots
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 48
Solution 2: Regrouper les individus par classes
Comment faire les classes ?
Logique: le minimum est inclus dans la 1`ere
classe, le maximum est inclus dans la derni`ere
classe, meme largeur des classes (pas obligatoire
mais facilite la lecture des graphes).
R`egle empirique de Sturges: choisir le nom-
bre de classes:
J 1 + log
2
n
Notations: Classes: 1,. . . ,J.
| | |
l
j
x
cj
l
j+
o` u n
j
= nombre dobservations dans la classe j
et h
j
= longueur de la classe.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 49
Serie regroupee par classe
Regroupement des 120 observations
en 5 classes (j = 1, . . . , 5)
de longueur egale h
j
= 20 j {1, . . . , 5}.
[l
j
, l
j+
[ x
cj
n
j
f
j
N
j
F
j
N

j
F

j
[0, 20[ 10 16 0.13 16 0.13 120 1
[20, 40[ 30 29 0.24 45 0.37 104 0.87
[40, 60[ 50 25 0.21 70 0.58 75 0.63
[60, 80[ 70 22 0.19 92 0.77 50 0.42
[80, 100[ 90 28 0.23 120 1 28 0.23
n=120 1
NB Attention aux arrondis !!!
NB La r`egle de Sturges proposait 8 classes
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 50
Histogramme des eectifs
0 20 40 60 80 100
0
5
1
0
1
5
2
0
2
5
Note de tlphone
n
j
NB: Parfois, on prends comme ordonnee
n
j
hj
de
telle sorte que la surface de chaque barre est
egale `a n
j
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 51
Polygone des eectifs
0 20 40 60 80 100
0
5
1
0
1
5
2
0
2
5
3
0
Note de tlphone
n
j
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 52
Histogramme des eectifs cumules et Courbe
cumulative: y = N(x)
0 20 40 60 80 100
0
2
0
4
0
6
0
8
0
1
0
0
1
2
0
Note de tlphone
N
j
N
j
: nombre dobservations l
+
j
N(x) etant le nombre dobservations x
(hypoth`ese dequirepartition)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 53
Courbe cumulative ` a droite : y = N

(x)
Exercice: Construisez la courbe cumulative ` a
droite.
N

(x) etant le nombre dobservations x


(hypoth`ese dequirepartition)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 54
Remarques (exercices)
Si x = x
j
j:
N(x) + N

(x) = n
Fonctions N(x) et N

(x):
N(x) =
_

_
0 x < l

1
n
1
h
1
(x l

1
) l

1
x < l
+
1
. . . . . .
N
j1
+
n
j
h
j
(x l

j
) l

j
x < l
+
j
. . . . . .
n l
+
J
x
N

(x) =
_

_
n x < l

1
. . . . . .
N

j

n
j
h
j
(x l

j
) l

j
x < l
+
j
. . . . . .
0 l
+
J
x
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 55
D. Conclusions
Inclure toutes les informations utiles ` a la compre-
hension du graphique
Eviter les informations, mentions, lignes inu-
tiles
Un graphique simple sera prefere ` a un graphique
sophistique
Choisir les unites et les axes de la mani`ere la
plus neutre possible (ne pas inuencer le lecteur)
Comparer des graphiques ayant des unites
communes
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 56
Il existe dautres types de graphiques: Car-
tographie, Pyramide des ages, Graphiques de
comparaison, ...
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 57
2.3 TECHNIQUES DESCRIPTIVES NUMERIQUES
Apr`es les graphiques, il est necessaire de decrire
les dierentes caracteristiques des donnees de
mani`ere plus precise.
Rappel:
mesure dune caracteristique de la population
(lettre grecque)
mesure dune caracteristique de lechantillon
(lettre latine).
Bien souvent il est impossible detudier lensemble
de la population (N grand ou inni)

Se limiter ` a letude dun echantillon de taille n


CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 58
Exemple: Etude sur le salaire des belges
= N 4 millions de travailleurs
La moyenne population est inconnue.
Pour la connaitre il faudrait interroger tous les
travailleurs belges, mais on na pas les moyens
nanciers

Selectionner un echantillon de taille n <<< N.


Calcul sur base de lechantillon de la moyenne
echantillon x.

On esp`ere que x est une bonne estimation de


la moyenne population .
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 59
Trois types de caracteristiques
Tendance centrale (position): moyenne, mode,
mediane, quantiles, . . .
-2 0 2
x
0 2 4 6
y
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 60
Variabilite, dispersion, risque: ecart-type,
variance, etendue, . . .
-40 -20 0 20
x
-40 -20 0 20
y
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 61
Forme (asymetrie, aplatissement): Skew-
ness, Kurtosis, . . .
1 2 3
x
-2 0 2
y
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 62
2.3.1 A. MESURES DE POSITION (tendance centrale)
BUT: Determiner une valeur centrale.
1. Moyenne arithmetique x
Soit {x
1
, . . . , x
n
} un echantillon de donnees numeriques,
alors
x =
1
n
n

i=1
x
i
Exemples:
Soit lechantillon {1, 1, 2, 2, 2, 2, 3, 3}

x =
1
8
(1 + 1 + 2 + 2 + 2 + 2 + 3 + 3) = 2.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 63
Reprenons lexemple de la societe telephonique
recoltant la 1`ere note en Euro de telephone de
120 nouveaux clients.
Serie Statistique:
83 83 18 65 99 96 7 94 62 98 71 20 97 88 38 55
81 51 68 19 36 41 56 49 33 85 75 97 35 36 32 59
88 28 63 60 99 7 31 13 34 33 15 12 62 41 13 27
74 24 67 98 22 13 32 9 54 84 35 62 14 90 91 59
77 38 31 22 92 39 54 90 47 89 81 79 9 88 30 50
41 16 49 44 45 87 23 5065 20 88 83 7 53 73 64
45 78 60 38 75 83 28 11 27 34 15 94 33 76 86 36
42 52 61 52 78 54 53 58

x =
1
120
(83+83+18+65+. . .+53+58) = 53.12
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 64
Calcul reprenant la somme de 120 chires (long)

Meme base de donnees mais regroupees en classes:


[l
j
, l
j+
[ x
cj
n
j
f
j
N
j
F
j
N

j
F

j
[0, 20[ 10 16 0.13 16 0.13 120 1
[20, 40[ 30 29 0.24 45 0.37 104 0.87
[40, 60[ 50 25 0.21 70 0.58 75 0.63
[60, 80[ 70 22 0.19 92 0.77 50 0.42
[80, 100[ 90 28 0.23 120 1 28 0.23
n=120 1
x =
1
n
J

j=1
n
j
x
cj
=
10 16 + 30 29 + . . . + 90 28
120
= 52.83
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 65
Proprietes
Sensible face aux points aberrants.
Echantillon {1, 1, 2, 2, 2, 2, 3, 3} x = 2.
Echantillon {1, 1, 2, 2, 2, 2, 3, 300} x = 39.125.
Valeurs centrees:
Echantillon {1, 1, 2, 2, 2, 2, 3, 3} = x = 2.
Alors lechantillon des valeurs centrees:
{x
i
x} = {1, 1, 0, 0, 0, 0, 1, 1}
est de moyenne nulle:
1
n
n

i=1
(x
i
x) = 0
(exercice).
Reecriture de la formule de la moyenne:
n

i=1
x
i
= n x
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 66
Agregation de 2 echantillons.
Echantillon 1: {n
1
, x
1
}, Echantillon 2:{n
2
, x
2
}

la moyenne de lechantillon global comprenant


n = n
1
+ n
2
individus est donne par:
x =
n
1
x
1
+ n
2
x
2
n
Remarque: Posons w
1
=
n
1
n
et w
2
=
n
2
n
, ainsi
la moyenne globale nest rien dautre quune
moyenne ponderee:
x = w
1
x
1
+ w
2
x
2
Cas particulier: Ajout dune observation x ` a
lechantillon {n
1
, x
1
} n
2
= 1 et n = n
1
+ 1

x =
n
1
x
1
+ x
n
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 67
Moyenne ponderee.
- La moyenne est par unite elementaire.
- La moyenne ponderee est par unite de poids.
Remarque: Soit C est le nombre delements ` a
ponderer, alors
C

i=1
w
i
= 1
Par exemple:
- La moyenne des points de vos cours est votre
moyenne par cours.
- Votre grade nal est une moyenne ponderee,
utilisant comme poids le credit dheures (1 credit
pour 12 h de cours theorique, 2 credits pour 24
h, etc). La moyenne ponderee est donc votre
moyenne par credit dheures
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 68
Exemple: Rentabilite dun portefeuille
La rentabilite attendue dun portefeuille est donnee
par la moyenne ponderee des rentabilites atten-
dues des investissements de celui-ci, pondere par
le montant investi en $.
Le portefeuille est compose de 3 actions:
-la 1ere ($1, 000) est supposee rapporter 20%
-la 2`eme ($1, 800 investis) 15%
-la 3`eme ($2, 200 investis) 30%.

Total investi:
1, 000 + 1, 800 + 2, 200 = $5, 000
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 69
Les poids sont donc:
w1 = $1, 000/$5, 000 = 0.20
w2 = $1, 800/$5, 000 = 0.36
w3 = $2, 200/$5, 000 = 0.44
Moyenne ponderee:
3

i=1
w
i
x
i
= 0.20 20% + 0.36 15% + 0.44 30%
= 22.6%
La rentabilite attendue du portefeuille est donc
de 22.6%.
Chacun des investissement est represente par le
montant en $ investi.
NB: Si tous les poids sont egaux, on revient `a la
moyenne arithmetique (exercice).
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 70
2. Mediane x
1/2
Calcul de la mediane:
a) Mettre les observations en ordre croissant:
{x
(1)
, . . . , x
(n)
}
b) Prendre lobservation centrale (ou la moyenne
des 2 observations centrales si n est pair).

Si n est impair: x
1/2
= x
(
n+1
2
)
Si n est pair: x
1/2
=
x
(
n
2
)
+x
(
n
2
+1)
2
Exemples:
Echantillon: {2, 5, 9, 11, 13} =x
1/2
= 9
Echantilon: {2, 5, 9, 11, 13, 20} =x
1/2
=
9+11
2
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 71
Pas inuencee par des valeurs extremes.
Pour des distributions dissymetriques, la mediane
ore une meilleure representation que la moyenne.
Par exemple: les revenus des menages:
- Le revenu moyen pour un pays somme tous
les revenus dont certains peuvent etre extr`emement
eleves
- Le revenu median represente le revenu de la
personne au centre (la moitie ayant plus, lautre
moiti`e ayant moins).
Echantillon donne avec des classes:
- Determiner la classe mediane: (l

m
, l
+
m
)
- Valeur de la mediane:
x
1/2
= l

m
+ h
m
n
2
N
m1
n
m
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 72
3. Quantiles x
p
o` u p (0, 1)
Construire la serie ordonnee. Soit p (0, 1)
(appele ordre du quantile), on cherche x
p
tel que
N(x
p
) np et N

(x
p
) n(1 p)
p 1-p
-l-ll
x
(1)
x
p
x
(n)
Quantiles particuliers:
-Mediane x
1/2
: quantile 50%
-Premier quartile x
1/4
: quantile 25%
-Troisi`eme quartile x
3/4
: quantile 75%
-Deciles: p = 0.10, 0.20, . . . , 0.90
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 73
Graphique base sur les quantiles: Box Plot
(bote `a moustache)
Exercice (ELST, P114): Resultats de 10 etudiants
pour 7 cours.
C
1
C
2
C
3
C
4
C
5
C
6
C
7
04 42 19 33 21 14 18
12 44 23 47 24 75 19
23 46 25 59 27 76 21
35 47 27 67 29 77 23
46 49 31 69 77 78 24
52 51 43 73 79 79 25
67 54 48 75 83 80 27
75 56 51 77 85 81 29
83 57 63 83 86 83 30
92 58 73 85 87 84 93
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 74
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 75
4. Mode x
M
Denition: Valeur la plus frequente.
Probl`emes:
- depend de la mani`ere dont vous construisez
lhistogramme (bin width)
- il est possible davoir plusieurs modes
Utiliser pour les donnees qualitatives.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 76
5. Autres valeurs centrales
c
1
=
x
(1)
+ x
(n)
2
c
2
=
x
1/4
+ 2x
1/2
+ x
3/4
4
c
3
=
x
1/4
+ x
3/4
2
Moyenne tronquee:
c
4
=
1
n 2
n1

i=2
x
(i)
Moyenne geometrique:
c
5
=
_

i
x
i

CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 77
6. Cas particulier : Distribution gaussienne
Distribution normale (introduite en 2`eme annee).
x
-2 -1 0 1 2
Moyenne, Mdiane et Mode
Distribution gaussienne
Caracteristique: distribution symetrique avec
un unique mode

La moyenne est egale ` a la mediane et au mode


CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 78
Distribution asymetrique.
x
5 10 15
Moyenne
Mdiane
Mode
Distribution asymtrique
La moyenne, la mediane et le mode sont dierents:
les grandes observations rares inuencent beau-
coup la moyenne
la valeur la plus frequente est decentree.
A priori, il vaut mieux utiliser la mediane (ex-
emple: revenus des menages).
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 79
7. Resume en fonction du type de la variable
Quantitative Ordinale Nominale
Moyenne OUI NON NON
Mediane OUI OUI NON
Quantiles OUI OUI NON
Mode OUI OUI OUI
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 80
2.3.2 MESURE DE DISPERSION
Aussi connue sous le nom de variabilite, diver-
site, risque, . . .
Questions:
Sur le marche, les valeurs boursi`eres changent
jours apr`es jours = incertitude !
Risk of a business venture
Les gains sont possibles mais egalement les pertes.
Aversion au risque:
Preferez-vous avoir
- 100$ avec certitude
- 0 ou 200$ avec probabilite egale
Les 2 ont la meme moyenne (100$)! Preferez
vous reduire lincertain ou aimez vous le risque?
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 81
1. Etendue
E = x
(n)
x
(1)
Facile et rapide `a calculer
Tr`es sensible aux points aberrants
2. Ecart interquartile
Il contient 50% des observations:
E
Q
= x
3/4
x
1/4
3. Ecart interdecile
Il contient 80% des observations:
E
D
= x
9/10
x
1/10
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 82
4. Le peigne
x
1/2
Dispersion Position
Q x
1/4
x
3/4
x
3/4
x
1/4
x
3/4
+x
1/4
2
E x
(1)
x
(n)
x
(n)
x
(1)
x
(1)
+x
(n)
2
5. Le Box Plot
Denition de base:
Denition des valeurs pivots:
a
1
= x
1/4
1.5(x
3/4
x
1/4
)
a
2
= x
3/4
+ 1.5(x
3/4
x
1/4
)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 83
Denition des valeurs adjacentes:
x
g
: plus petite observation a
1
x
d
: plus grande observation a
2
= Deuxi`eme denition du box plot:
NB: si tous les x
i
(a
1
, a
2
):
x
g
= x
(1)
et x
d
= x
(n)
.
Denition des valeurs exterieures:
Observations en dehors de lintervalle [x
g
, x
d
]
Presomption de valeurs extremes (aberrantes).
Exercice (ELST, P114-116): Resultats de 10
etudiants pour 7 cours.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 84
6. Ecart moyen absolu
e
m
=
1
n
n

i=1
|x
i
x|
Remarque: Changeons le param`etre de posi-
tion. Alors,
e
m
(c) =
1
n
n

i=1
|x
i
c|
est minimum quand c = x
1/2
.
7. Ecart median absolu
e

m
=
1
n
n

i=1
|x
i
x
1/2
|
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 85
8. Variance
Version francaise:
s
2
=
1
n
n

i=1
(x
i
x)
2
Version anglaise (on lutilisera en 2`eme annee)
S
2
=
1
n 1
n

i=1
(x
i
x)
2
Agregation: Soient 2 echantillons:
n
1
n
2
x
1
s
2
1
x
2
s
2
2
Notons n = n
1
+ n
2
, x et s
2
la moyenne et la
variance de lechantillon regroupant les 2 echantillons.
Exercice:
s
2
=
n
1
s
2
1
+ n
2
s
2
2
n
1
+ n
2
+
n
1
( x
1
x)
2
+ n
2
( x
2
x)
2
n
1
+ n
2
(variance dans les groupes) +(variance entre les groupes)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 86
Theor`eme de Konig-Huyghens:
1
n

i
(x
i
c)
2
= s
2
+ ( x c)
2
c IR
Demonstration
1
n

i
(x
i
c)
2
=
1
n

i
(x
i
x + x c)
2
=
1
n

i
_
(x
i
x)
2
+ 2(x
i
x)( x c) + ( x c)
2
_
=
1
n

i
(x
i
x)
2
+ ( x c)
2
+ 2( x c)
_
_
1
n

i
(x
i
x)
_
_
= s
2
+ ( x c)
2
Consequence:
1
n

i
(x
i
c)
2
est minimum quand
c = x
Exercice: Appliquez ce theor`eme avec c = 0.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 87
9. Ecart-type
s =
_
s
2
Interpretations:
- 2 echantillons: lechantillon avec lecart-type
le plus grand est le plus disperse des deux
- 1 echantillon: R`egle de Chebyshev:
au moins (1
1
k
2
) des observations se trouvent
dans lintervalle ( x ks)
Pour k = 2:
au moins 75% des observations ` a lintervalle ( x 2s)
Pour k = 3:
au moins 89% des observations ` a lintervalle ( x 3s)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 88
Pour les distributions en forme de cloche et
relativement symetrique, on a des intervalles re-
marquables plus precis:
x
-2 -1 0 1 2
Moyenne, Mdiane et Mode
Distribution gaussienne
2
3
des observations ` a lintervalle ( x s)
95% des observations ` a lintervalle ( x 2s)
99% des observations ` a lintervalle ( x 3s)
= Pour faciliter les interpretations: construc-
tion des valeurs centrees reduites (z-score):
z =
x x
s
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 89
9. Coecient de variation
CV =
s
x
Mesure relative de variabilite. Nombre sans
unite (pure number).
Answers:
Typically, in percentage terms, how far are
data values from average?
Utile pour comparer des situations pour lesquelles
les unites di`erents
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 90
2.3.3 MESURES DE FORMES
GRAPHIQUES
1. Box Plot
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 91
2. Graphique des quantiles
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 92
ASYMETRIE - SKEWNESS
Moment centre dordre 3
m
3
=
1
n
n

i=1
(x
i
x)
3
m
3
> 0: asymetrie ` a gauche
m
3
< 0: asymetrie ` a droite
m
3
= 0: symetrie
Coecient de Fisher: g
1
=
m
3
s
3
Coecient empirique de Yule et Kendall:
Y
k
=
x
1/4
2x
1/2
+ x
3/4
x
3/4
x
1/4
Coecient empirique de Pearson:
S
k
=
x x
M
s
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 93
APLATISSEMENT - KURTOSIS
Coecient de Pearson
b
2
=
m
4
s
4
o` u m
4
est le moment centre dordre 4
m
4
=
1
n
n

i=1
(x
i
x)
4
Coecient de Fisher: g
2
= b
2
3
-2 -1 0 1 2
b2=3, g2=0
b2>3, g2>0
b2<3, g2<0
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 94
2.3.4 INDICE DE CONCENTRATION DE GINI ET COURBE
DE LORENTZ
Exemple: Mesurer le degre dinegalite dans la
distribution des revenus des familles belges.
Formalisation: Soit une distribution, dune
variable continue positive, regroupee en J classes.
Notons x
jc
le centre de la classe j et n
j
leectif
de la classe j pour (j = 1, . . . , J).
Courbe de concentration de Lorentz:
p
j
= F
j
et q
j
=

j
k=1
n
k
x
ck

J
k=1
n
k
x
ck
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 95
Indice de concentration de Gini:
= 2A
o` u Aest laire comprise entre la courbe de Lorentz
et la 1`ere bissectrice.
Proprietes
0 1
0: equirepartion
1: concentration.
Exemple: Site de la CIA reprenant Distribu-
tion of family income - Gini index
http://www.odci.gov/cia/publications/factbook/elds/2172.html
Belgium 28, 7%
Paraguay 57, 7%
Sweden 25%
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 96
2.4 TRANSFORMATION DE VARIABLES ET IN-
DICES
BUTS:
Facilite lencodage, la lecture des donnees
Lineariser une relation entre 2 variables
Se rapprocher dune distribution symetrique
Remedier ` a deventuelles inegalites de vari-
ances lorsque lon etudie plusieurs echantillons
. . .
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 97
2.4.1 TRANSFORMATION LINEAIRE
But: Changer lorigine et lunite pour facilite
la lecture des donnees sans changer le forme
(asymetrie, aplatissement,. . .).
Denition: Soit x
i
, 1, . . . , n un echantillon de
taille n. Appelons z
i
, 1, . . . , n la serie translatee
de la constante c et reduite par la constante d:
z
i
=
x
i
c
d
i = 1, . . . , n
Inuence sur les mesures de position:
Toutes ces mesures vont subir la meme trans-
formation que les donnees. Par exemple:
z =
x c
d
Exercices: Preuve pour z, z
1/2
, z
M
, . . ..
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 98
Inuence sur les mesures de dispersion:
Changement dorigine (translation)
- pas dinuence sur E, E
Q
, E
D
, s
2
, s
- inuence sur CV =
s
x
Changement dunite
- inuence sur E, E
Q
, E
D
, s
2
, s
- pas dinuence sur CV =
s
x
Exemple:
s
2
z
=
1
n
n

i=1
(z
i
z)
2
=
1
n
n

i=1
(
x
i
c
d

x c
d
)
2
=
1
n
n

i=1
(
x
i
d

x
d
)
2
=
1
d
2
n
n

i=1
(x
i
x)
2
=
1
d
2
s
2
x
Inuence sur les mesures de formes: Pas
dinuence sur g
1
, S
K
, Y
K
, b
2
, g
2
, . . ..
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 99
Exemple
Soit un echantillon reprenant le salaire brut de
10 travailleurs en FB. La variable z aura comme
unite lEuro et comme moyenne 0.
i x
i
z
i
1 98000FB 114,03
2 96000FB
3 104000FB
4 66000FB
5 120000FB
6 75000FB
7 88000FB
8 84000FB
9 93000FB
10 110000FB 411,50
70000 80000 90000 100000 110000
x
-500 0 500
z
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 100
2.4.2 TRANSFORMATION LOGARITHMIQUE
Objectifs: Simplier lanalyse en rendant les
phenom`enes plus symetriques, plus lineaires, de
variabilite plus constante,. . .
Exemple: Relation entre deux variables
x
y
0.0 0.5 1.0 1.5 2.0 2.5 3.0
1
.
5
2
.
0
2
.
5
3
.
0
3
.
5
log(x)
l
o
g
(
y
)
-3 -2 -1 0 1
0
.
4
0
.
6
0
.
8
1
.
0
1
.
2
NB: Les relations du type: y = ax
b
devien-
nent apr`es transformation logarithmique (log log):
log y = log a + b log x
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 101
Exemple: Comparaison de plusieurs echantillons.
Comparons le nombres diules (mille-pattes) soumises
` a 4 substances nocives (Statistique Theorique
et Aplliquee, Tome 2, Pierre Dagnelie, page
97).
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 102
2.4.3 TRANSFORMATIONS DE BOX-COX
Denition: Soit x
i
, 1, . . . , n un echantillon de
taille n. Appelons z
i
, 1, . . . , n la serie trans-
formee par une relation de Box-Cox de param`etre
:
z
i
=
_
_
_
(x

i
1)

si = 0
log
e
x
i
si = 0
Ces transformations ont les memes objectifs que
la transformation logarithmique.
Remarque
La transformation logarithmique est un cas
particulier ( = 0)
Si = 1/2 alors z
i
=

x
i
1
Ce groupe de transformation englobe aussi
les transformations racine carree inverse
1

x
,
inverse
1
x
, . . .
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 103
2.4.4 TRANSFORMATION DIFFERENCE
But: Utilise en serie chronologique pour eliminer
un trend (tendance) constant.
Denition: Soit x
t
(1, . . . , T) une serie chrono-
logique. La serie dierencie est donnee par:
x
t
= x
t
x
t1
Exemple ELST, p. 29: Population en millions
Annees 1910 1920 1930 1940 1950 1960 1970 1980
x
t
1.1 1.3 2.2 4.0 6.6 8.3 9.3 9.6
x
t
- 0.2 0.9 1.8 2.6 1.7 1.0 0.3
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 104
2.4.5 LES INDICES
But: Mesurer levolution dune variable (ou de
plusieurs variables) dans le temps.
INDICE ELEMENTAIRE
Denition. Soit 0 lepoque de base (reference).
Lindice de la variable x pour le temps t est:
i
t/0
(x) =
x
t
x
0
.
Lindice mesure le pourcentage daugmentation
ou diminution de la variable par rapport ` a lepoque
de reference.
Remarque:
La variable etudiee peut etre le prix (p), la
quantite (q) ou la valeur (v=pq) dun bien.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 105
Exemple: Etudions levolution du prix dun
bien de consommation de janvier 1989 `a janvier
1996. Annee de base: 1989 (ELST, p. 69).
Annees 1989 1990 1991 1992 1993 1994 1995 1996
x
t
25 25 27 28 32 33 34 35
i
t/0
(x) 1.00 1.00 1.08 1.12 1.28 1.32 1.36 1.40
Commentaires: 8% daugmentation en 1991 par
rapport `a 1989. Forte augmentation entre 1992
et 1993, . . ..
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 106
INDICE SYNTHETIQUE SIMPLE
But: Etude de levolution dans le temps dun
panier de consommation.
Soit x = (x
(1)
, x
(2)
, . . . , x
(n)
) le vecteur don-
nant le prix (ou quantite, . . .) des n produits du
panier de consommation.
Indice de Bradstreet:
B
t/0
(x) =

j
x
(j)
t

j
x
(j)
0
Indice Moyenne arithmetique:
A
t/0
(x) =
1
n

j
x
(j)
t
x
(j)
0
Autres indices: moyenne harmonqiue, moyenne
geometrique, . . .
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 107
INDICE SYNTHETIQUE PONDERE
But: Etude de levolution dans le temps dun
panier de consommation en mettant des poids
associes `a chacun des produits.
Soit x = (x
(1)
, x
(2)
, . . . , x
(n)
) le vecteur don-
nant le prix (ou quantite, . . .) des n produits du
panier de consommation.
Indice de Laspeyres:
L
t/0
(x) =

j
w
(j)
0
x
(j)
t

j
w
(j)
0
x
(j)
0
o` u w
(j)
0
peut donner representer le prix ou la
quantite du produit j au temps de reference.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE DUNE SERIE UNIVARIEE 108
Indice de Paasche:
P
t/0
(x) =

j
w
(j)
t
x
(j)
t

j
w
(j)
t
x
(j)
0
o` u w
(j)
t
peut donner representer le prix ou la
quantite du produit j au temps t.
Indice de Sidgwick:
S
t/0
(x) =
L
t/0
(x) + P
t/0
(x)
2
Indice de Fisher:
F
t/0
(x) =
_
L
t/0
(x) P
t/0
(x)
Indice de Edgeworth:
E
t/0
(x) =

j
(w
(j)
0
+ w
(j)
t
)x
(j)
t

j
(w
(j)
0
+ w
(j)
t
)x
(j)
0
Chapitre 3
INTRODUCTION A LA THEORIE
PROBABILISTE
Le hasard est le pseudonyme de Dieu quand
il ne voulait pas signer
Anatole France
Un coup de des jamais nabolira le hasard
Mallarme
Rien ne depasse la beaute du myst`ere
Einstein
109
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 110
1. Quelles sont les chances que les ventes dans
les friteries baissent si le prix des pommes de
terre augmente?
2. Quelle est la probabilite que Justine devienne
numero 1 ` a lATP?
3. Quelles sont les chances quun nouvel investisse-
ment soit rentable?
4. Quelle est la probabilite de reussir lexamen
de statistique en 1`ere session?
5. Quelle est la probabilite de gagner au Lotto?
6. . . .
La probabilite peut:
exprimer une propriete intrins`eque
dune experience
mesurer la vraisemblance dun eve-
nement.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 111
3.1 UN PEU DHISTOIRE
. . . un probl`eme relatif aux jeux de hasard,
propose par un aust`ere janseniste par un homme
du monde, a ete ` a lorigine du Calcul des pro-
babilites . . .
Il sagit du probl`eme des partis, propose par le
Chevalier de Mere ` a Blaise Pascal et resolu
par celui-ci, ainsi que par Pierre de Fermat en
1654:
2 joueurs, rompant de gre ` a gre le jeu avant
la n, cherchent `a operer entre eux la juste
repartition de lenjeu suivant la probabilite
quavait chacun deux de gagner.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 112
3.2 LOGIQUE ET INTUITION . . .
Exemple 1: Theorie des sept garcons
Quelle est la probabilite davoir 7 gar cons?
P(7G) =
_
1
2
_
7
=
1
128
Peu, mais pourquoi ny a-t-il pas plus de familles
de 7 gar cons??
Reponse: parce que ceci est la probabilite davoir
7 garcons si on a 7 enfants, or il y a peu de
familles de 7 enfants.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 113
Exemple 2: Articles de presse.
Il y a eu plus de tues dans des accidents davion
en 1993 quen 1920
Peut-on en deduire que les avions sont devenus
plus dangereux?
Pendant la 1`ere guerre mondiale, le nombre
de blesses `a la tete etait nettement plus grand
parmi ceux qui portaient un casque
Peut-on en deduire que le port du casque est
dangereux ?
En 2002, il y a eut 20.343 chomeurs ayant
un diplome universitaire et 8.657 ch omeurs de
lenseignement non universitaire type long (voir
ECOPOL)
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 114
Exemple 3: 1er Probl`eme du chevalier
de Mere.
Supposez quon joue plusieurs fois avec un de,
combien faudra-t-il de lances au minimum pour
que lon puisse parier avec avantage, apr`es avoir
joue ces coups, davoir au moins un 6 ?
Reponse: 4 lances en eet, (voir exercice)
P(avoir au moins un 6) = 671/1296 > 0.5
Scema du developpement:
P(avoir au moins un 6) = 1P(ne jamais avoir de 6)
et nous savons que:
P(ne pas avoir de 6 sur un lance) = 5/6
P(ne pas avoir de 6 sur n lance) = (5/6)
n
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 115
Exemple 4: Paradoxe du jour
danniversaire.
Si vous rencontrez quelquun par hasard au bistrot
du coin, il y a environ 1 chance sur 365 que vous
soyez ne le meme jour.
Maintenant supposez que vous etes 10 dans une
meme pi`ece, quelle est la probabilite que deux
personnes aient la meme date danniversaire ?????
(reponse: 11,69% de chance)
Et avec 23 personnes dans la pi`ece?
(reponse: 50,7% de chance)
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 116
Exemple 5: Temoignage
Etre un bon jure.
Accident avec delit de fuite MAIS il y a un
temoin oculaire.
Faits:
le temoin arme avoir vu un taxi jaune
il y a 2 types de taxi: jaune et orange
diculte: le soir tombait et un test pratique
dans des conditions similaires a montre que
le temoin ne pouvait distinguer correctement
la couleur que dans 80% des cas
Conclusion a priori: Lhypoth`ese la plus
probable est celle du taxi jaune.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 117
Information manquante: Proportion de taxis
jaunes et de taxis oranges?
Reponse: 85% doranges et 15% de jaunes.
Conclusion correcte: (Theor`eme de Bayes)
La probabilite que le taxi soit jaune sachant que
le temoin arme quil etait jaune est de 41.38%.

Donc il y a plus de chance que le taxi soit orange.


CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 118
Exemple 6: Le jeu de la Cadillac
Jeu televise: 3 portes et derri`ere lune delle
il y a une cadillac.
Etape1: Le candidat choisit au hasard une
porte: 1 chance sur 3 de gagner la cadillac.
Etape2: Le presentateur ouvre une des 2 portes
restantes mais bien evidemment pas la porte `a
la cadillac.
Question: Le candidat a-t-il interet de changer
de porte ou de garder son choix initial ?
Reponse:
Choix initial: 1 chance sur 3 de gagner
Sil change de porte: 2 chance sur 3 de gagner!!
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 119
3.3 PROBABILITE, EXPERIENCE ALEATOIRE, EVEN-
EMENT
3.3.1 DEFINITIONS
Probabilite: sera denie par une approche
classique, frequentiste et axiomatique.
Experience aleatoire: action ou processus qui
engendre des observations et dont on ne peut
predire avec certitude le resultat.
Ensemble (espace) fondamental : ensemble
de tous les resultats possibles.
Evenement: sous-ensemble ou partie de .
Famille F des ev`enements: ensemble de tous
les ev`enements associes ` a une experience aleatoire.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 120
3.3.2 EXEMPLES
Lancement dun de
Lensemble fondamental :
1 2 3
4 5 6
Exemples dev`enements et Diagramme de Venn:
Avoir le nombre 1 : A={1}
Avoir un nombre divisible par 3: B={3,6}
Avoir un nombre pair: C={2,4,6}
Avoir un nombre impair: D={1,3,5}
Avoir un nombre plus petit que 7: E={1,2,3,4,5,6}.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 121
3.3.3 CAS PARTICULIERS DEVENEMENTS
Ev`evement elementaire: ne contient quun
seul element de :
Exemple: Avoir le nombre 1: A = {1}
Ev`enement impossible: ne contient aucun ev`e-
nement:
Exemple: Avoir un nombre plus grand que 6:
F = {} =
Ev`enement certain: contient tous les elements
de :
Exemple: Avoir un nombre plus petit que 7:
E = {1, 2, 3, 4, 5, 6} =
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 122
3.3.4 OPERATIONS SUR LES EVENEMENTS
Soient E
1
, E
2
, . . . des evenements de F.
Implication (= inclusion): E
1
E
2
signie:
E
1
se realise E
2
se realise.
Conjonction (= intersection = produit logique)
E
1
E
2
: E
1
et E
2
se realisent tous les deux
Evenements mutuellement exclusifs (incom-
patibles): E
1
E
2
=
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 123
Reunion (= somme logique)
E
1
E
2
: E
1
ou E
2
se realisent (au moins
un des deux)
Dierence
E
1
\E
2
: E
1
se realise sans que E
2
se realise
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 124
Complementaire: Soit E un evenement, le
complementaire de E est note E:
E = \E
Remarques
1. E E =
E et E sont mutuellement exclusifs
2. E E =
3. E et E constituent une partition de .
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 125
Partition de E
{E
1
, E
2
, . . . , E
m
} tel que:
1. E
1
, E
2
, . . . , E
m
E
2. E
i
E
j
= (i = j)
3. E = E
1
E
2
. . . E
m
Syst`eme complet devenements:
Partition de
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 126
Fonction densemble: Fonction qui associe ` a
chaque evenement de un nombre reel.
Exemples: Soit E F
1. n(E) = nombre delements de E
2. f(E) =
n(E)
n()
Proprietes:
1. f(E) 0, pour tout E
2. f() = 1
3. Si E
1
, E
2
, . . . sont mutuellement exclusifs
(E
i
):
f(E
1
E
2
. . .) = f(E
1
) + f(E
2
) + . . .
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 127
3.3.5 FAMILLE F DEVENEMENTS
Rappel: F est lensemble de tous les ev`enements
associes `a une experience aleatoire.
Si est ni alors ` a tout sous-ensemble cor-
respond un ev`enement = la famille F des
ev`enements est confondue avec lensemble des
parties de .
Si est inni

on se restreint `a une classe F de parties, stricte-


ment contenue dans lensemble des parties de
, qui contient les ev`enements elementaires, les
ev`enements impossibles et certain, ainsi que tous
ceux qui sont obtenus par les operations ci-avant.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 128
3.3.6 TROIS DEFINITIONS DE LA PROBABILITE
Denition classique
Experience: - N resultats possibles equivalents
(symetrie des resultats)
- N
S
resultats donnent le succ`es S.
= Probabilite de succ`es:
P(S) =
N
S
N
.
Exemple: Lancement dun de equilibre. Succ`es
si nombre pair. Probabilite de succ`es:
P(pair) =
3
6
= 0.5
Remarque: Cette denition nest valable que si
tout les ev`enements elementaires sont equiprobables
(contre exemple: avion).
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 129
Denition frequentiste
(approche experimentale)
Experience repetee n fois de mani`ere independante
et identique (ex: lance dun de).
On sinter`esse `a lev`enement E (ex: avoir 3).
Notons n
(E)
le nombre de realisations de E

Frequence: f
n
(E) =
n
(E)
n
.
On denit alors la frequence theorique (proba-
bilite) par:
P(E) = lim
n
f
n
(E).
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 130
Denition axiomatique
Cas o` u est ni
P(.) est une fonction densemble ` a valeurs reelles,
denie sur F = P(), satisfaisant aux axiomes
suivants:
A.1: P(E) 0, pour tout E F
A.2: P() = 1
A.3: Si E
1
, E
2
, E
3
, . . . sont mutuellement
exclusifs (E
i
E
j
= , i = j):
P(E
1
E
2
E
3
. . .) = P(E
1
) +P(E
2
) +P(E
3
) +. . .
N.B. Les denitions classique et frequentiste sat-
isfont ` a ces axiomes
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 131
Cas o` u est inni
Ici, lensemble des evenements ne sera plus P()
mais une famille F de sous-ensembles possedant
les proprietes suivantes:
1. F
2. si E F, alors E F
3. Pour tout ensemble ni ou denombrable devene-
ments E
1
, E
2
, E
3
, . . . de F, (E
i
) F
Une telle famille est appelee une -alg`ebre (ou
corps de Borel ou encore tribu).
Remarques:
1. Les proprietes ci-dessus impliquent que
F et E
i
F
2. (, F) est appele un espace probabiliste
3. (, F, P) est appele un espace probabilise
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 132
3.3.7 QUELQUES PROPRIETES SIMPLES
Propriete 1
Si un evenement E est partitionne en deux eve-
nements E
1
et E
2
:
P(E) = P(E
1
) + P(E
2
).
Propriete 2
Extension ` a plus de 2 evenements.
Propriete 3
Si E
1
E
2
:
P(E
1
) P(E
2
).
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 133
Propriete 4
Pour tout evenement E, P(E) 1.
Propriete 5
Si E est le complementaire de E:
P(E) = 1 P(E)
.
Propriete 6
Le complementaire de est
P() = 0.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 134
3.3.8 LOI DADDITION
Cas de deux evenements
Soient A et B F:
P(A B) = P(A) + P(B) P(A B).
Demonstration:
A B = (A\B) (A B) (B\A)
P(A B) = P(A\B) + P(A B) + P(B\A)
P(A B) = P(A) P(A B)
+P(A B) + P(B)
P(A B)
= P(A) + P(B) P(A B).
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 135
Exemple:
B = {3, 6}, C = {2, 4, 6}
P(B C) = P(B) + P(C) P(B C)
=
2
6
+
3
6

1
6
=
4
6
Si A et B sont mutuellement exclusifs:
A B =
P(A B) = P(A) + P(B) (Axiome 3)
Exercice theorique: Cas de 3 ev`enements ou
plus
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 136
3.3.9 REGLE DE MULTIPLICATION
Probabilite conditionnelle
Presentation `a partir de lexemple 4.1 (ELST,
p.149)
1. Prenons C (=nbre pair) comme condition,
donc on suppose que C se realise:
P(B|C) =
1
3
=
1/6
3/6
=
P(B C)
P(C)
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 137
2. Prenons B = {3, 6} comme condition:
P(C|B) =
1
2
=
1/6
2/6
=
P(B C)
P(B)
Denition des probabilites conditionnelles
Soient A et B deux evenements de F
(P(A) = 0; P(B) = 0):
P(A|B) =
P(A B)
P(B)
P(B|A) =
P(A B)
P(A)
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 138
R`egle de multiplication
Cas de deux evenements
Soient A et B deux evenements de probabilite
non nulle:
P(A B) = P(A).P(B|A)
P(A B) = P(B).P(A|B)
Exemple: Choix de 2 cartes sans remise dans
un jeu de 52 cartes
Evenements: R
1
=choix dun roi pour la
premi`ere carte
R
2
=choix dun roi pour la
seconde carte
P(R
1
R
2
) = P(R
1
).P(R
2
|R
1
)
=
4
52
.
3
51
=
1
221
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 139
Cas de trois evenements
Soient A, B, C F:
P(ABC) = P(A).P(B|A).P(C|AB)
Ordre de prise en compte de A, B et C
Exemple: Choix de trois cartes sans remise
dans un jeu de 52 cartes:
P(R
1
R
2
R
3
)
= P(R
1
).P(R
2
|R
1
).P(R
3
|R
1
R
2
)
=
4
52
.
3
51
.
2
50
=
1
5525
Extension `a plus de trois evenements
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 140
3.3.10 INDEPENDANCE STOCHASTIQUE
Cas de 2 evenements
1. Denition
Deux evenements A et B de probabilite non
nulle sont (stochastiquement) independants
si et seulement si:
P(A B) = P(A).P(B)
2. Si deux evenements sont independants alors:
P(A|B) = P(A) et P(B|A) = P(B)
3. Exemple 4.6 (ELST, p.166)
F
1
: premi`ere pi`ece =face
F
2
: deuxi`eme pi`ece =face
P(F
1
F
2
) = P(F
1
).P(F
2
) =
1
2
1
2
=
1
4
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 141
Cas de trois evenements
1. Denition
A, B et C sont independants ssi:
P(A B) = P(A).P(B)
P(A C) = P(A).P(C)
P(B C) = P(B).P(C)
P(A B C) = P(A).P(B).P(C)
R`egle de multiplication dans le cas deve-
nements independants
2. Exemple
Lancement de 3 pi`eces de monnaie:
P(F
1
F
2
F
3
) = P(F
1
).P(F
2
).P(F
3
)
=
1
2
.
1
2
.
1
2
=
1
8
Cas de plus de trois evenements
Exercice theorique
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 142
3.3.11 THEOREME DES PROBABILITES TOTALES ET DE
BAYES
Denition dun syst`eme complet devene-
ments ou syst`eme exhaustif
Soit la partition {E
1
, . . . , E
m
} de telle que
P(E
i
) 0 (i = 1 . . . , m).
Theor`eme des probabilites totales
Soit {E
1
, . . . , E
m
} un syst`eme exhaustif deni
sur et un evenement quelconque de A F:
P(A) =
m

i=1
P(E
i
)P(A|E
i
).
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 143
Theor`eme de Bayes
Soit {E
1
, . . . , E
m
} un syst`eme exhaustif deni
sur et un evenement quelconque de A F, de
probabilite non nulle. Supposons connatre les
probabilites a priori P(E
i
) et les probabilites
conditionnelles P(A|E
i
) (pour i = 1, . . . , m).
On peut alors calculer les probabilites a poste-
riori par la relation:
P(E
i
|A) =
P(E
i
)P(A|E
i
)

m
j=1
P(E
j
)P(A|E
j
)
.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 144
3.3.12 QUELQUES APPLICATIONS DES PROPRIETES FON-
DAMENTALES
La formule du bin ome
Schema de Bernoulli
Dans une experience aleatoire , nous nous inter`es-
sons ` a lav`enement ou non de levenement E:
P(E) = p et P(

E) = q = 1 p.
Lexperience est repetee n fois de fa con indepen-
dante et sous des conditions identiques (p cons-
tant).

P (E se realise n fois) = pp . . . p = p
n
P (E ne se realise jamais) = qq . . . q = q
n
P (E se realise au moins 1 fois) = 1 q
n
P (E se realise r fois dans ordre precis) = p
r
q
nr
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 145
Par la formule du binome, on peut aussi cal-
culer des probabilites plus diciles:
P(E se presente r fois dans ordre quelconque)
=
_
n
r
_
p
r
q
nr
o` u
_
n
r
_
=
n!
r!(nr)!
= C
r
n
Il existe en eet
_
n
r
_
suites mutuellement ex-
clusives et de meme probabilite contenant r elements
E et (n r) elements

E.
Remarque:
n

r=0
_
n
r
_
p
r
q
nr
= (q + p)
n
= 1.
Exemple: 10 lances dune pi`ece equilibree:
P(3 fois face) =
_
10
3
_
(
1
2
)
3
(
1
2
)
7
=
120
1024
= 0.117
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 146
Prel`evements avec ou sans remise
Soit un sac de billes avec N
1
billes jaunes (J)
et N
2
billes de couleurs dierentes (

J). Notons
N = N
1
+ N
2
.
1. Prel`evement de n billes avec remise (AR)
P(r fois Jaune) =
_
n
r
_
p
r
q
nr
o` u
p =
N
1
N
et q =
N
2
N
(formule du bin ome)
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 147
2. Prel`evement de n billes sans remise (SR)
Formule hypergeometrique:
P(r fois Jaune) =
_
N
1
r
__
N
2
n r
_
_
N
n
_
si r N
1
et n r N
2
.
3. Remarque
_
N
1
r
__
N
2
n r
_
_
N
n
_
_
n
r
_
p
r
q
nr
pour N
1
, N
2
et
N
1
N
= p.
Chapitre 4
STATISTIQUE DESCRIPTIVE
DUNE SERIE BIVARIEE
Donnees : Serie statistique bivariee:
{(x
i
, y
i
); i = 1, 2, . . . , n}
collectees dans un tableau Individus Caract`eres
Var-Ind 1 2
1 x
1
y
1
2 x
2
y
2

i x
i
y
i

n x
n
y
n
But : Mettre en evidence les relations existant
entre 2 series dobservations
148
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 149
Exemple Mode de payement
La societe X g`ere une chane de supermarche,
et elle sinteresse aux modes de payement.
Le tableau suivant reprend pour 100 clients le
montant en euros depense sur 1 mois en liq-
uide et par carte bancaire (Source : donnees
simulees).
Payement liquide 115 45 99 154 201 27 62 32 44 . . .
Payement par carte 227 459 151 376 321 555 698 159 323 . . .
Payement liquide . . . 95 93 83 103 103 100 95 95 94
Payement par carte . . . 298 59 73 80 13 253 175 175 164
Questions:
Quel est le mode de payement favori des clients?
Les clients qui depensent plus que la moyenne
en liquide depensent-ils egalement plus que la
moyenne par carte ?
etc
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 150
Exemple Bourse: Donnees contenant les in-
formations nanci`eres de 25 entreprises.
Entreprises Place boursi`ere Prix de laction (en dollars)
Award Software OTC 11.500
Chesapeake Energy NYSE 7.880
Craig Corporation NYSE 17.000
Edisto Resources AMEX 9.688
Franklin Elect. Pbls. NYSE 12.880
Gentia Softaware OTC 5.750
Giant Group NYSE 6.563
Hot Topic OTC 15.750
Hudson General AMEX 39.750
ICU Medical OTC 8.500
Jackpot Enterprises NYSE 10.875
Kentek Information OTC 9.500
Larscom, Inc OTC 10.313
Lumisys, Inc OTC 7.375
Maynard Oil OTC 10.750
Mechanical Dynamics OTC 6.688
Metrika Systems AMEX 15.250
National Home Health OTC 5.130
National Tech Team OTC 10.875
OrCad OTC 11.375
OroAmerica OTC 5.125
Overland Data OTC 7.000
PIA Merchandising OTC 7.500
Plenum Publishing OTC 44.000
Premier Research OTC 8.250
Source : Stock Investor Pro, Association americaine
des investisseurs individuels , 31 ao ut 1997.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 151
Place boursi`ere : Endroit o` u les titres des en-
treprises sont echanges:
NYSE (bourse de New York)
AMEX (Bourse americaine)
OTC (marche parall`ele)

Variable nominale.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 152
Exemple Seconde session: Echantillon com-
pose de 20 bacheliers en economiques. Letude
porte sur le nombre de 2`emes sessions presentees
dans le secondaire (x) et `a luniversite (y).
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 2 2 2 2 3
Y 0 0 1 1 1 2 2 2 2 3 3 3 3 4 4 0 1 3 4 5
Commentaires:
Beaucoup detudiants sengageant dans les
etudes en economie nont jamais eu de 2`eme ses-
sion dans le secondaire.
Ne pas avoir eu de 2`eme session dans le sec-
ondaire nest pas une garantie de reussite en 1`ere
session ` a luniversite
Les etudiants sans 2`eme session dans le sec-
ondaire ont-ils plus de chances de reussite en
1`ere session que les autres ?
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 153
Nous envisagerons 4 situations en fonc-
tion de la nature des variables
x/y Quantitatif Ordinal Nominal
Quantitatif I IV IV
Ordinal IV II III
Nominal IV III III
Etude dans 2 directions:
Elaboration de tableaux et graphiques
Reduction des donnees.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 154
4.1 RELATIONS ENTRE 2 VARIABLES QUANTI-
TATIVES
4.1.1 VISUALISATION DES DONNEES (Scatter Plot)
Exemple Mode de payement
Dpenses mensuelles en liquide
50 100 150 200
Mode de payement
Conclusion : Lien positif entre les deux vari-
ables donc une personne depensi`ere en liquide
le sera egalement par carte. (Logique ? Autres
variables ` a prendre en compte ? Nombre de
personnes dans le menage, . . .)
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 155
4.1.2 DISTRIBUTION MARGINALE, DISTRIBUTION CON-
DITIONNELLE
1. Tableau de contingence (TC)
Soit {(x
i
, y
i
); i = 1, 2, . . . , n} la serie statis-
tique bivariee =construction dun tableau de
contingence:
x|y y
1
y
2
. . . y
k
. . . y
K
x
1
n
11
n
12
. . . n
1k
. . . n
1K
x
2
n
21
n
22
. . . n
2k
. . . n
2K

x
j
n
j1
n
j2
. . . n
jk
. . . n
iK

x
J
n
J1
n
J2
. . . n
Jk
. . . n
JK
o` u n
jk
: eectif associe au couple (x
j
, y
k
).
= Reecriture de la serie statistique bivariee:
{(x
j
, y
k
, n
jk
), j = 1, . . . J, k = 1, . . . K}.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 156
Exemple sur les secondes sessions
n
jk
y = 0 y = 1 y = 2 y = 3 y = 4 y = 5

x = 0 2 3 4 2 0 0 11
x = 1 0 0 0 2 2 0 4
x = 2 1 1 0 1 1 0 4
x = 3 0 0 0 0 0 1 1

3 4 4 5 3 1 20
Commentaires :
Deux etudiants de lechantillon nont jamais
eu de 2`eme session
Un etudiant a eu trois 2`emes sessions en
secondaire et cinq 2`emes sessions `a luniversite
Leectif maximal est 4 pour des etudiants
nayant jamais eu de 2`eme session en secondaire
mais deux 2`emes sessions ` a luniversite
. . .
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 157
Si le nombre de lignes et de colonnes dun
TC sont trop grands = faire des classes
Exemple: Mode de payement
n
jk
[0, 175[ [175, 350[ [350, 525[

[0, 100[ 26 24 1 51
[100, 200[ 16 25 7 48
[200, 300[ 0 1 0 1

42 50 8 100
x
cj
et y
ck
: valeurs centrales des classes
x et y: longueurs de classes.
Commentaires:
26 clients sur 100 ont achete en liquide entre 0 et 100
euros et par carte entre 0 et 175 euros.
Plus de la moitie de lechantillon (51 sur 100) ont
achete pour moins de 100 euros en liquide
8% ont achete entre 350 et 525 euros par carte.
NB : Parfois on a des distributions de type mixte
o` u une des deux series est regroupee en classes.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 158
2. Distributions marginales
Etude dune seule serie observee (abstraction de
lautre serie) =etude de series univariees.
a) Serie marginale en x :{x
i
; i = 1, 2, . . . , n}
ou encore {(x
j
, n
j.
); j = 1, . . . , J} o` u
n
j.
=
K

k=1
n
jk
sont les eectifs marginaux.
Frequence marginale en x :
f
j.
=
n
j.
n
o` u j = 1, . . . , J =
x =
1
n
n

i=1
x
i
=
1
n
J

j=1
n
j.
x
j
s
2
x
=
1
n
n

i=1
(x
i
x)
2
=
1
n
J

j=1
n
j.
(x
j
x)
2
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 159
b) Serie marginale en y :{y
i
; i = 1, 2, . . . , n}
ou encore {(y
k
, n
.k
); k = 1, . . . , K} o` u
n
.k
=
J

j=1
n
jk
sont les eectifs marginaux.
Frequence marginale en y :
f
.k
=
n
.k
n
o` u k = 1, . . . , K =
y =
1
n
n

i=1
y
i
=
1
n
K

k=1
n
.k
y
k
s
2
y
=
1
n
n

i=1
(y
i
y)
2
=
1
n
K

k=1
n
.k
(y
k
y)
2
Exercice:
J

j=1
n
j.
=
K

k=1
n
.k
=
J

j=1
K

k=1
n
jk
= n
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 160
Exemple sur les secondes sessions
n
jk
y = 0 y = 1 y = 2 y = 3 y = 4 y = 5 n
j.
x = 0 2 3 4 2 0 0 11
x = 1 0 0 0 2 2 0 4
x = 2 1 1 0 1 1 0 4
x = 3 0 0 0 0 0 1 1
n
.k
3 4 4 5 3 1 20
{(x
j
, n
j.
), j = 1, . . . , J} = {(0, 11), (1, 4), (2, 4), (3, 1)}
{(y
k
, n
.k
), k = 1, . . . , K} = {(0, 3), (1, 4), (2, 4), (3, 5), (4, 3), (5, 1)}
Diagramme en b atons des eectifs marginaux
en x.
0.0 0.5 1.0 1.5 2.0 2.5 3.0
xj
4 4
1
11
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 161
3. Distributions conditionnelles
Etude dune serie observee en xant la valeur
de lautre serie observee.
Questions :
Parmi les etudiants nayant jamais eu de
2`eme session dans le secondaire, quel est le pour-
centage detudiants reussissant sans 2`eme ses-
sion ` a luniversite ?
Quelle est la moyenne du prix dune action
pour les titres echanges sur la bourse de New
York ?
Sachant que les depenses en liquides par
mois sont inferieures ` a 100 euros pour certains
individus de lechantillon, quelle sera la moyenne
des depenses de ces individus par carte ?
. . .
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 162
Distribution conditionnelle de y en x :
Fixons x = x
j
: {(y
k
, n
jk
), k = 1, . . . , K}
=etude sur un echantillon de taille n
j.
Frequence conditionnelle (prol-lignes) :
f
y
k
|x
j
= f
k|j
=
n
jk
n
j.
j xe ; k = 1, . . . , K
On peut calculer les moyennes, variances,. . . con-
ditionnelles :
y|
x
j
=
1
n
j.
K

k=1
n
jk
y
k
s
2
y|
x
j
=
1
n
j.
K

k=1
n
jk
(y
k
y|
x
j
)
2
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 163
Distribution conditionnelle de x en y:
Fixons y = y
k
: {(x
j
, n
jk
), j = 1, . . . , J}
=etude sur un echantillon de taille n
.k
Frequence conditionnelle (prol-colonnes) :
f
x
j
|y
k
= f
j|j
=
n
jk
n
.k
k xe ; j = 1, . . . , J
On peut calculer les moyennes, variances,. . . con-
ditionnelles :
x|
y
k
=
1
n
.k
J

j=1
n
jk
x
j
s
2
x|
y
k
=
1
n
.k
J

j=1
n
jk
(x
j
x|
y
k
)
2
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 164
Exemple sur les secondes sessions
Nombre moyen de secondes sessions `a luniversite
sachant le nombre de secondes sessions dans le
secondaire :
x
j
y|
x
j
0 1.5455
1 3.5
2 2
3 5
Exemple : Bourse
Moyenne des prix dune action pour les titres
echanges sur la bourse de New York :
y
x=NY SE
=
7.88 + 17.000 + 12.888 + 6.563 + 10.865
5
= 11.0396
y
x=AMEX
=
9.688 + 39.750 + 15.250
3
= 21.5627
Exercice: y
x=OTC
= . . .
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 165
4.1.3 MOMENTS, COVARIANCE ET CORRELATION
1. Les moments
Generalisation `a 2 dimensions de la notion de
moment :
a) Moments centres
m
rs
=
1
n
n

i=1
(x
i
x)
r
(y
i
y)
s
r, s IN
Cas particuliers :
m
20
=
1
n
n

i=1
(x
i
x)
2
= s
2
x
m
02
=
1
n
n

i=1
(y
i
y)
2
= s
2
y
m
11
=
1
n
n

i=1
(x
i
x)(y
i
y) = s
xy
o` u s
xy
est appele covariance
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 166
b) Moments par rapport ` a lorigine
m

rs
=
1
n
n

i=1
x
r
i
y
s
i
Cas particuliers
m

10
= x m

01
= y
c)Proprietes de m
rs
Soient x
0
, y
0
IR et d
x
, d
y
IR
+
Posons : u
i
=
x
i
x
0
d
x
, v
i
=
y
i
y
0
d
y
(i = 1, . . . , n)
et
m
rs
=
1
n
n

i=1
(u
i
u)
r
(v
i
v)
s

m
rs
=
m
rs
d
r
x
d
s
y
(exercice)
Cas particulier :
s
uv
=
s
xy
d
x
d
y
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 167
2. Covariance
Moment centre dordre (1,1):
m
11
= s
xy
= cov(x, y) =
1
n
n

i=1
((x
i
x)(y
i
y))
La covariance sera positive (negative) sil existe
une relation croissante (decroissante) entre les 2
variables.
Exemple: Mode de payement
Dpenses mensuelles en liquide
50 100 150 200
Modes de payement
-
+
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 168
Proprietes
Inuencee par les changements dunites mais
pas dorigine. Soient
u
i
=
x
i
x
0
d
x
et v
i
=
y
i
y
0
d
y
(i = 1, . . . , n)
=cov(u, v) =
cov(x, y)
d
x
d
y
(exercice)
|cov(x, y)| s
x
s
y
(exercice)
Aide: developper lexpression suivante:
1
n
n

i=1
(b(x
i
x) (y
i
y))
2
Expression liant m
11
et m

11
(exercice):
m
11
= s
xy
=
1
n
n

i=1
((x
i
x)(y
i
y))
=
1
n
n

i=1
x
i
y
i
x y = m

11
m

01
m

10
Mettre en parall`ele avec : s
2
x
=
1
n

n
i=1
x
2
i
x
2
.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 169
3. Coecient de correlation
(Bravais-Pearson)
Denition:
r =
s
xy
s
x
s
y
o` u s
x
= 0, s
y
= 0
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 170
Commentaires:
r = 1 quand tous les points observes se trou-
vent sur une meme droite de pente positive
r 1 quand tous les points observes sont
situes `a proximite dune telle droite
r = 0 quand le nuage de points est allonge
parall`element ` a lun des axes de coordonnees ,
ou forme arrondie
r = 1 quand tous les points observes se trou-
vent sur une meme droite de pente negative
r 1 quand tous les points observes sont
situes `a proximite dune telle droite
= r mesure lintensite de la dependance
lineaire entre x et y
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 171
Proprietes
Ne peut pas etre utilise avec des variables
qualitatives
signe(r) = signe(cov(x, y))
1 r 1
r est independant des unites de mesures (orig-
ine et unite des echelles de mesure) = r est
independant de toute transformation lineaire.
Ainsi, on a que r
xy
= r
uv
quand
u
i
=
x
i
x
0
d
x
et v
i
=
y
i
y
0
d
y
(i = 1, . . . , n)
avec d
x
et d
y
strictement positifs.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 172
!!Correlation nimplique pas toujours
causalite!!
Une forte correlation nimplique pas automa-
tiquement une relation directe de cause `a eet.
Ceci peut simplement etre d u au fait que les
2 variables sont soumises `a des inuences com-
munes.
Exemple des cigognes.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 173
4.1.4 VECTEUR MOYENNE ET MATRICE DE VARIANCE-
COVARIANCE
Il est frequent de representer les moments du
1er et du 2`eme ordres dune serie bivariee sous
forme matricielle (notation aisee, temps de cal-
culs reduits).
Soit {x
i
, y
i
; i = 1, . . . , n}, une serie bivariee:
a) Vecteur moyenne:
g =
_
x
y
_
NB: g denit le centre de gravite des donnees.
b) Matrice variance-covariance:
V =
_
s
2
x
s
xy
s
xy
s
2
y
_
NB: V est une matrice symetrique.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 174
c) Soit X la matrice des observations:
X =
_
_
_
_
_
_
_
x
1
y
1
x
2
y
2
.
.
.
.
.
.
x
n
y
n
_
_
_
_
_
_
_
et X
c
la matrice des valeurs centrees:
X
c
=
_
_
_
_
_
_
_
x
1
x y
1
y
x
2
x y
2
y
.
.
.
.
.
.
x
n
x y
n
y
_
_
_
_
_
_
_
,
=V =
1
n
X

c
X
c
=
1
n
_
x
1
x x
2
x . . . x
n
x
y
1
y y
2
y . . . y
n
y
_
_
_
_
_
_
_
_
x
1
x y
1
y
x
2
x y
2
y
.
.
.
.
.
.
x
n
x y
n
y
_
_
_
_
_
_
_
.
Exercice: Ecriture matricielle avec trois vari-
ables (x, y, z).
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 175
4.1.5 REGRESSION LINEAIRE SIMPLE
Objectif : Denir une relation de dependance
statistique entre 2 variables.
La variable ` a expliquer sera notee Y (variable
reponse, variable dependante), et la variable ex-
plicative sera note X (variable independante)
Exemples
x1
1 0 1 2
x1
y
2
-2 -1 0 1
-
4
-
2
0
2
4
x1
1 0 1 2
x1
y
4
-2 -1 0 1
-
2
-
1
0
1
2
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 176
Dependance simple : relation lineaire
= determination dune droite de regression.
Exemple: Essayons destimer le prix dune
maison PRICE (en milliers de dollars) en fonc-
tion de la supercie totale FLR (en pieds carres).
La variable dependante est PRICE, la variable
explicative est FLR.
Ajustons au mieux ces donnees par une droite
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 177
Lerreur commise entre la vraie valeur Price et la
valeur ajustee par la droite est appelee residu
(residual)
Remarquons quen moyenne nous ne faisons pas
derreur, en eet la moyenne des residus est nulle
d`es quun terme constant est dans le mod`ele.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 178
CADRE THEORIQUE
Soit {(x
i
, y
i
); i = 1, . . . , n} une serie statistique
bivariee. Soit y la variable dependante et x la
variable explicative.
Notons la droite de regression:
y
i
= a + bx
i
(a, b IR).
Alors, il est possible de calculer les residus:
e
i
= y
i
y
i
= y
i
a bx
i
Idee: Minimiser les erreurs commises entre la
vraie valeur de lobservation y
i
et la prevision
basee sur la variable explicative y
i
.
Dierentes pistes: Minimiser
n

i=1
e
2
i
ou
n

i=1
|e
i
| ou mediane(e
i
) ou . . .
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 179
CRITERE DES MOINDRES CARRES (MC)
Point de vue mathematique: crit`ere simple.
But: Minimiser:
n

i=1
e
2
i
=
n

i=1
(y
i
a bx
i
)
2
.
= Syst`eme dequations normales. Pour avoir
un minimum, il faut que
(i)

a
Q(a, b) = 0
(ii)

b
Q(a, b) = 0.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 180
Resolution:
Derivons la somme des residus carres par rap-
port ` a a:

a
Q(a, b) = 2
n

i=1
(y
i
a bx
i
)
Il sensuit de (i) que

i=1
(y
i
a bx
i
) = 0

i=1
y
i
na b
n

i=1
x
i
= 0

i=1
y
i
= na + b
n

i=1
x
i
y = a + b x,
ce qui implique que le centre de gravite est sur
la droite de regression.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 181
Derivons la somme des residus carres par rap-
port ` a b:

b
Q(a, b) = 2
n

i=1
(y
i
a bx
i
)(x
i
)
Il sensuit de (ii) que

i=1
(y
i
a bx
i
)(x
i
) = 0

i=1
x
i
y
i
a
n

i=1
x
i
b
n

i=1
x
2
i
= 0

1
n
n

i=1
x
i
y
i
( y b x)
1
n
n

i=1
x
i
b
1
n
n

i=1
x
2
i
= 0

1
n
n

i=1
x
i
y
i
y x + b x
2
b
1
n
n

i=1
x
2
i
= 0
b(
1
n
n

i=1
x
2
i
x
2
) =
1
n
n

i=1
x
i
y
i
y x
b =
1
n

n
i=1
x
i
y
i
y x
1
n

n
i=1
x
2
i
x
2
=
1
n

n
i=1
(x
i
x)(y
i
y)
1
n

n
i=1
(x
i
x)
2
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 182
Solution au probl`eme de minimisation:
a = y b x
b =
s
xy
s
2
x
Remarque: en calculant les derivees secondes,
on peut montrer que la solution est bien un min-
imum (exercice).
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 183
Variances residuelle et de regression
Decomposons la variance de la variable ` a ex-
plique (y) en deux parties: dune part la partie
expliquee par la droite de regression (variance
de regression) et dautre part la partie non ex-
pliquee (variance residuelle)
s
2
y
=
1
n
n

i=1
(y
i
y
i
)
2
+
1
n
n

i=1
( y
i
y)
2
= s
2
e
+s
2
reg
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 184
Demonstration:
s
2
y
=
1
n
n

i=1
(y
i
y)
2
=
1
n
n

i=1
(y
i
y
i
+ y
i
y)
2
=
1
n
n

i=1
(y
i
y
i
)
2
+
1
n
n

i=1
( y
i
y)
2
+
2
n
n

i=1
(y
i
y
i
)( y
i
y)
Montrons que le double produit est nul. Rappel:
y
i
= a + bx
i
= y b x + bx
i
= y + b(x
i
x)
Donc, nous avons que:
2
n
n

i=1
(y
i
y
i
)( y
i
y) =
2
n
n

i=1
(y
i
y b(x
i
x))(b(x
i
x))
=
2b
n
[
n

i=1
(y
i
y)(x
i
x) b
n

i=1
(x
i
x)
2
]
= 2b[s
xy
bs
2
x
] = 2b[s
xy

s
xy
s
2
x
s
2
x
] = 0
Ceci prouve la decomposition de la variance en
une variance residuelle et une variance de regression.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 185
Coecient de correlation (r) et coe-
cient de determination (R
2
)
Lien entre le signe de r et la pente de la
droite de regression. On peut prouver que
y
i
y = r
s
y
s
x
(x
i
x)
De cette relation, il est aise de voir que:
r > 0 = pente positive
r < 0 = pente negative
Pourcentage de variance de la variable y
explique par la variable x. On peut montrer:
s
2
e
= s
2
y
(1 r
2
) r
2
=
s
2
reg
s
2
y
Interpretation : r
2
qui sera etendu dans le cas
de regression multiple ` a R
2
mesure le % de vari-
ance de la variable reponse (y) explique par la
variable explicative (x).
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 186
Demonstration: s
2
e
= s
2
y
(1 r
2
)
s
2
e
=
1
n
n

i=1
(y
i
y
i
)
2
=
1
n
n

i=1
(y
i
y b(x
i
x))
2
=
1
n
n

i=1
(y
i
y)
2
+
b
2
n
n

i=1
(x
i
x)
2

2b
n
n

i=1
(y
i
y)(x
i
x)
= s
2
y
+
s
2
xy
s
4
x
s
2
x
2
s
xy
s
2
x
s
xy
= s
2
y

s
2
xy
s
2
x
= s
2
y
(1
s
2
xy
s
2
x
s
2
y
)
= s
2
y
(1 r
2
)
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 187
Exemple
Argent de poche donne ` a de jeunes adolescents:
x = age
y = montant hebdomadaire moyen en euro
x
i
12 12 15 14 16 14 12 13 11 11
y
i
4.1 3.4 11.3 10.2 11.5 7.2 6.0 7.8 3.5 3.0
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 188
x
i
y
i
x
i
x y
i
y (x
i
x)
2
(y
i
y)
2
(x
i
x)(y
i
y)
12 4.1 -1 -2.7 1 7.29 2.7
12 3.4 -1 -3.4 1 11.56 3.4
15 11.3 2 4.5 4 20.25 9
14 10.2 1 3.4 1 11.56 3.4
16 11.5 3 4.7 9 22.09 14.1
14 7.2 1 0.4 1 0.16 0.4
12 6 -1 -0.8 1 0.64 0.8
13 7.8 0 1 0 1 0
11 3.5 -2 -3.3 4 10.89 6.6
11 3 -2 -3.8 4 14.44 7.6
130 68 0 0 26 99.88 48
g =
_
x
y
_
=
_
13
6.8
_
et V =
_
s
2
x
s
xy
s
xy
s
2
y
_
=
_
2.6 4.8
4.8 9.99
_
Donc la droite de regression est donnee par:
y = 6.8 +
4.8
2.6
(x 13) = 17.2 + 1.85x
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 189
Importance de lanalyse des graphiques
Examen du graphique des donnees = in-
formation sur la relation eventuelle entre deux
variables
Analyse des residus e
i
= y
i
y
i
(i = 1, . . . , n).
Exemple d u ` a Anscombe (p. 398)
Ensemble A Ensemble B Ensemble C Ensemble D
x y x y x y x y
10 8.04 10 9.14 10 7.46 8 6.58
8 6.95 8 8.14 8 6.77 8 5.76
13 7.58 13 8.74 13 12.74 8 7.71
9 8.81 9 8.77 9 7.11 8 8.84
11 8.33 11 9.26 11 7.81 8 8.47
14 9.96 14 8.10 14 8.84 8 7.14
6 7.24 6 6.13 6 6.08 8 5.25
4 4.26 4 3.10 4 5.39 19 12.50
12 10.84 12 9.13 12 8.15 8 5.56
7 4.82 7 7.26 7 6.42 8 7.91
5 5.68 5 4.74 5 5.73 8 6.89
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 190
Representations graphiques des exemples dAnscombe:
Que pensez-vous de lhypoth`ese de relation lineaire
entre x et y pour chacun de ces cas?
N.B.: Calculez les residus et commentez leurs
graphiques.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 191
4.2 RELATIONS ENTRE UNE VARIABLE QUAN-
TITATIVE ET UNE VARIABLE QUALITATIVE
Soient:
- Y une variable quantitative (p.e. le salaire)
- X une variable qualitative (p.e. le niveau
de diplome) prenant les modalites x
1
, . . . , x
j
, . . . , x
J
.
Moyennes conditionnelles: Quel est le salaire
moyen pour un travailleur ayant un dipl ome de
bachelier ??
y|x
j
=
1
n
j.

y tq x=x
j
y
j
= Graphique des moyennes conditionnelles.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 192
Mesure de lintensite de la dependance non
lineaire de y en x. Eectuons une decomposition
de la variance marginale :
s
2
y
=
1
n
n

i=1
(y
i
y)
2
=
1
n
K

k=1
n
.k
(y
k
y)
2
=
1
n
J

j=i
K

k=1
n
jk
(y
k
y)
2
=
1
n
J

j=i
K

k=1
n
jk
(y
k
y|x
j
+ y|x
j
y)
2
=
1
n
J

j=i
K

k=1
n
jk
(y
k
y|x
j
)
2
+
1
n
J

j=i
n
j.
( y|x
j
y)
2
= moyenne des variances conditionnelles
+ variance des moyennes conditionnelles
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 193
Le rapport de correlation
y.x
est deni par
son carre:

2
y.x
=
1
n

J
j=i
n
j.
( y|x
j
y)
2
s
2
y
Interpretation: Pourcentage de la variance ex-
pliquee par la connaissance de la variable X.
Remarques:
- expression ` a comparer avec R
2
-
2
y.x
est independant des origines et des
unites
- 0
2
y.x
1
- Si y|x
j
= y j =
2
y.x
= 0
- Si s
2
y|x
j
= 0 j =
2
y.x
= 1
- Indice de non linearite:
2
y.x
r
2
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 194
4.3 RELATION ENTRE 2 VARIABLES QUALITA-
TIVES ORDINALES
Exemple: Sondage dopinion aupr`es de 10 clients
du restaurant Lobster Pot dans lEtat de Floride.
i 1 2 3 4 5 6 7 8 9 10
QN E B B E S S I B E S
QS B B B E S B I E B S
R B B E B B I I E B B
P S B E E B I I B S B
G B B E B E B I S S E
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 195
4.3.1 CORRELATIONS DE RANG
Echelle ordinale donc il nexiste plus de lien
lineaire Information `a exploiter pour com-
parer les 2 series: ORDRE.
Soit {(x
i
, y
i
); i = 1, . . . , n} la serie statistique
bivariee. Soient les 2 series marginales ordonnees:
{x
(1)
, . . . , x
(n)
} et {y
(1)
, . . . , y
(n)
}.
Lindice (i) est appele rang de lobservation
correspondante. Notons R(x
i
) le rang de lobser-
vation x
i
et R(y
i
) le rang de lobservation y
i
.
Exemples:
Serie observee: QN
i
= {E, B, E, B, S, S, I, B, E, S}
Serie ordonnee: QN
(i)
= {I, S, S, S, B, B, B, E, E, E}
Rang de la serie ordonnee: R(QN
(i)
) = {1, 3, 3, 3, 6, 6, 6, 9, 9, 9}
Rang de la serie observee: R(QN
i
) = {9, 6, 9, 6, 3, 3, 1, 6, 9, 3}
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 196
Correlation de Spearman (r
s
)
Denition:
R
s
= corr(R(x), R(y)).
Par denition de la correlation de Pearson:
R
s
=
1
n

n
i=1
_
R(x
i
)

R
x
_ _
R(y
i
)

R
y
_
_
_
1
n

n
i=1
(R(x
i
)

R
x
)
2
_
1
n

n
i=1
(R(y
i
)

R
y
)
2

Correlation du quadrant
Base sur la division de lespace en 4 parties au
moyen des medianes.
Correlation de Kendall
Base sur la notion de paire dobservations con-
cordantes et discordantes.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 197
4.4 RELATIONS ENTRE 2 VARIABLES QUALITA-
TIVES NOMINALES
Serie statistique bivariee
{(x
j
, y
k
, n
jk
); j = 1, . . . , J et k = 1, . . . , K}
Exemple: Enquete aupr`es de 200 etudiants
Variable X: Provenance des etudiants
3 modalites: R
1
, R
2
, R
3
(3 regions).
Variable Y : Choix de luniversite
3 modalites: U
1
, U
2
, U
3
(3 universites).
Tableau de contingence
n
jk
U
1
U
2
U
3
n
j.
R
1
28 73 29 130
R
2
0 2 18 20
R
3
12 25 13 50
n
.k
40 100 60 200
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 198
Formalisation
2 variables qualitatives (nominales) X et Y :
- X prend J modalites: A
1
, . . . , A
J
- Y prend K modalites: B
1
, . . . , B
K
.
X et Y sont observes sur un echantillon de
taille n = Tableau de contingence (N):
X|Y B
1
. . . B
k
. . . B
K

K
k=1
A
1
n
11
. . . n
1k
. . . n
1K
n
1.

A
j
n
j1
. . . n
jk
. . . n
iP
n
j.

A
J
n
J1
. . . n
Jk
. . . n
JK
n
J.

J
j=1
n
.1
. . . n
.k
. . . n
.K
n
o` u les eectifs n
jk
representent le nombre dindividus
ayant simultanement les modalites A
j
et B
k
.
Notons que n
j.
=

K
k=1
n
jk
et n
.k
=

J
j=1
n
jk
.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 199
Tableau des frequences relatives F
Proportion dindividus possedant simultanement
les modalites A
j
et B
k
:
f
jk
=
n
jk
n
(j = 1 . . . , J; k = 1, . . . , K).
Frequences relatives marginales sont donnees par:
f
j.
=
n
j.
n
(j = 1 . . . , J)
et
f
.k
=
n
.k
n
(k = 1, . . . , K).
Remarquons que:
f
jk
est une estimation de

jk
= P(X A
j
, Y B
k
)
f
j.
est une estimation de
j.
= P(X A
j
)
f
.k
est une estimation de
.k
= P(Y B
k
)
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 200
Exemple Regions-Universites.
f
jk
U
1
U
2
U
3
f
j.
R
1
0.14 0.365 0.145 0.65
R
2
0 0.010 0.090 0.10
R
3
0.06 0.125 0.065 0.25
f
.k
0.20 0.50 0.30 1
Commentaires
14% des 200 etudiants viennent de la region
R
1
et sont ` a luniversite U
1
65% des etudiants viennent de la region R
1
30% des etudiants sont `a luniversite U
3
. . .
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 201
Tableaux des frequences conditionnelles
Tableau des prols-lignes
Proportion des individus presentant la modalite
B
k
parmi les individus ayant la modalite A
j
:
f
k|j
=
n
jk
n
j.
=
n
jk
/n
n
j.
/n
=
f
jk
f
j.
(j = xe; k = 1, . . . , K).
= estimation de la probabilite conditionnelle:
P(Y B
k
|X A
j
)
f
jk
f
j.
U
1
U
2
U
3
Totaux
R
1
0.215 0.562 0.223 1
R
2
0 0.100 0.900 1
R
3
0.240 0.500 0.260 1
f
.k
0.200 0.500 0.300 1
Commentaires
Dans les etudiants venant de la region R
2
,
10% ont choisi luniversite U
2
.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 202
Tableau des prols-colonnes
Proportion des individus presentant la modalite
A
j
parmi les individus ayant la modalite B
k
:
f
j|k
=
n
jk
n
.k
=
n
jk
/n
n
.k
/n
=
f
jk
f
.k
(j = 1, . . . , J; k = xe).
= estimation de la probabilite conditionnelle:
P(X A
j
|Y B
k
)
Exemple 1:
f
jk
f
.k
U
1
U
2
U
3
f
j.
R
1
0.700 0.730 0.483 0.65
R
2
0 0.020 0.300 0.10
R
3
0.300 0.250 0.217 0.25
Totaux 1 1 1 1
Commentaires
Dans les etudiants ayant choisi luniversite
U
3
, 30% viennet de la region R
2
.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 203
Situation dindependance
Si 2 variables aleatoires X et Y sont independantes,
alors j {1, . . . , J} et k {1, . . . , K}:
a)P(X A
j
, Y B
k
) = P(X A
j
)P(Y B
k
)
b)P(Y B
k
|X A
j
) = P(Y B
k
)
c)P(X A
j
|Y B
k
) = P(X A
j
)
Lechantillon de taille n nous permet destimer
ces quantites, d`es lors sous lhypoth`ese dinde-
pendance, on devrait avoir:
a )f
jk
f
j.
f
.k
j {1, . . . , J} k {1, . . . , K}
b )f
k|j
=
f
jk
f
j.
f
.k
j, k
c )f
j|k
=
f
jk
f
.k
f
j.
j, k.
Ainsi tous les prols-lignes et les prols-colonnes
sont pratiquement egaux.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 204
Denissons les frequences (relatives) theoriques
esperees sous lhypoth`ese dindependance:
f

jk
= f
j.
f
.k
et n

jk
= nf

jk
=
n
j.
n
.k
n
Exemple Regions-Universites.
Eectifs et eectifs theoriques:
n
jk
U
1
U
2
U
3
n
j.
R
1
28 73 29 130
R
2
0 2 18 20
R
3
12 25 13 50
n
.k
40 100 60 200
n

jk
U
1
U
2
U
3
n
j.
R
1
26 65 39 130
R
2
4 10 6 20
R
3
10 25 15 50
n
.k
40 100 60 200
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 205
Frequences observees et frequences theoriques
esperees sous lhypoth`ese dindependance:
f
jk
U
1
U
2
U
3
f
j.
R
1
0.14 0.365 0.145 0.65
R
2
0 0.010 0.090 0.10
R
3
0.06 0.125 0.065 0.25
f
.k
0.20 0.50 0.30 1
f

jk
U
1
U
2
U
3
f
j.
R
1
0.13 0.325 0.195 0.65
R
2
0.02 0.050 0.030 0.10
R
3
0.05 0.125 0.075 0.25
f
.k
0.20 0.50 0.30 1
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 206
Ecarts `a lindependance
Les ecarts ` a lindependance sont donnes par
e
jk
= n
jk
n

jk
La matrice des ecarts est calculee en soustrayant
de la matrice des eectifs observes N, la matrice
des eectifs theoriques esperes sous lhypoth`ese
dindependance N

.
Exemple Regions-Universites
n
jk
U
1
U
2
U
3
n
j.
n

jk
U
1
U
2
U
3
n
j.
R
1
28 73 29 130 R
1
26 65 39 130
R
2
0 2 18 20 R
2
4 10 6 20
R
3
12 25 13 50 R
3
10 25 15 50
n
.k
40 100 60 200 n
.k
40 100 60 200
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 207
=
e
jk
U
1
U
2
U
3
R
1
2 8 -10
R
2
-4 -8 12
R
3
2 0 -2
Interpretations:
e
jk
> 0 n
jk
> n

jk
f
jk
> f

jk
= f
j.
f
.k
on dit que les modalites A
j
et B
k
sattirent
e
jk
< 0 n
jk
< n

jk
f
jk
< f

jk
= f
j.
f
.k
on dit que les modalites A
j
et B
k
se re-
poussent.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 208
Mesures dassociation du chi-carre:
D
2
=
J

j=1
K

k=1
(n
jk
n

jk
)
2
n

jk
=
J

j=1
K

k=1
e
2
jk
n

jk
Exemple Regions-Universites:
e
2
jk
n

jk
U
1
U
2
U
3
Totaux
R
1
0.1538 0.9846 2.5641 3.7025
R
2
4.0000 6.4000 24.0000 34.4000
R
3
0.4000 0.0000 0.2667 0.6667
Totaux 4.5538 7.3846 26.8308 38.7692
Interpretation : Plus la valeur est grande, plus
on secarte de lindependance donc association
(en 2`eme annee dans le chapitre des probl`emes
de test, vous utiliserez cette statistique pour
tester lindependance).
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 209
4.5 EXTENSIONS (cours `a option en 4`eme):
ANALYSE DES DONNEES MULTIDIMENSION-
NELLES
But: presenter les dierentes methodes statis-
tiques permettant de visualiser et resumer linfor-
mation contenue dans des bases de donnees con-
tenant un grand nombre de variables.
Analyse en composantes principales (ACP)
Technique de representation et de reduction dun
ensemble de variables quantitatives continues.
Analyse des correspondances binaires
(ACOBI)
Methode adaptee ` a letude des eventuelles re-
lations existantes entre 2 variables nominales
(etude des tableaux de contingence).
CHAPITRE 4. STATISTIQUE DESCRIPTIVE DUNE SERIE BIVARIEE 210
Analyse des correspondances multiples
(AFCM)
Generalisation de lanalyse des correspondances.
Permet de decrire les relations entre plusieurs
variables nominales.
Methodes de classication
Methodes permettant de grouper les individus
ou variables suivant certains crit`eres de prox-
imite.
Analyse discriminante
Techniques destinees ` a classer (aecter `a des
classes preexistantes) des individus caracterises
par un certain nombre de variables quantitatives
ou qualitatives
Chapitre 5
SERIES CHRONOLOGIQUES
211
1
Chapitre 5 : Analyse
dune srie chronologique
1. Introduction.

Srie chronologique :
Suite de valeurs observes {y
t1
, y
t2
, .y
tn
}
dune variable Y effectues dans le temps
aux instants : {t
1
, t
2
, , t
n
}.


2
Hypothse simplificatrice :
On suppose que les dates dobservations sont
quidistantes {y
1
, y
2
, y
n
}.


Variable de niveau :
Etat un moment donn :
- montant des avoirs le 31 dcembre
- nombre de chmeurs le 1
er
de
chaque mois
- etc


Variable de flux :
Mouvement intervenu durant une certaine
priode :
- quantit produite pendant 1 mois
- nombre de navetteurs sur la E411 sur
une journe
- etc
3
Prvisions :Exemples

Prvision court terme :
- prvision des ventes futures du
produit X pour faire face la demande

Prvision moyen terme :
- rendement dun investissement

Prvision long terme :
- prvisions des besoins en service publics
(hpitaux, coles, etc).

Les mthodes prsentes dans ce chapitre se
rapportent la prvision court terme


Origine de la prvision (T) : moment o le
prvision est effectue

Horizon de la prvision (h) : intervalle de
temps qui spare lorigine de la prvision et
le moment pour lequel on dsire la prvision

Prvision ponctuelle :

( )
T
y h

4

2. Composante dune srie
chronologique
Le principe de dcomposition est bas sur la
maxime : diviser pour rgner.
Dcomposition en 4 composantes :

T= tendance

C= composante cyclique

S= composante saisonnire

E= composante rsiduelle (irrgulire)

Combinaisons possibles des composantes :

Modle additif : y
t
= T
t
+ C
t
+ S
t
+ E
t

NB : composante

extra-saisonnire : f
t
= T
t
+ C
t


Modle multiplicatif : y
t
= T
t
* C
t
* S
t
* E
t

NB : composante

extra-saisonnire : f
t
= T
t
* C
t


Modle mixte : tout autre modle o
additions et multiplications sont utilises.
5
Composition dune srie chronologique.

Modle additif : y
t
= T
t
+ C
t
+ S
t
+ E
t

Graphique 1 : T = Tendance linaire


Graphique 2 : T + C = Tendance linaire +
composante cyclique

6
Graphique 3 : T + C + S = idem+
composante saisonnire


Graphique 4 : T + C + S + E= idem+
composante rsiduelle


7
Modle multiplicatif : y
t
= T
t
* C
t
* S
t
* E
t




Graphique 1 : T = Tendance linaire


Graphique 2 : T * C = Tendance linaire *
composante cyclique

8
Graphique 3 : T * C * S = idem *
composante saisonnire


Graphique 4 : T * C * S * E= idem *
composante rsiduelle

CONCLUSION :

9
3. Etude de la tendance

a) Approche exploratoire

Difficult pratique de procder, souvent li
: - la longueur de la srie
- limportance des fluctuations


Solution : essayer de lisser la srie pour
avoir une ide gnrale de la tendance

Outils :
- filtres linaires (moyenne mobile, etc)
- rgression linaire simple aprs avoir
linaris par diffrenciation,
transformation logarithmique, etc
10
b) Filtres linaires.

Soit {y
1
,,y
t
,,y
n
} la srie chronologique

une valeur filtre linairement:

Donc la srie filtre est donne par :

o w
t
est indpendant de t

Exemple : {y
1
, y
2
, , y
8
}, posons p
1
=1, p
2
=2

Donc
2
*
1 1 0 1 1 2 2
1
t j t j t t t t
j
y w y w y w y w y w y
+ + +
=
= = + + +



Srie filtre : {y
*
2
, y
*
3
,,y
*
6
}
11
Cas particuliers :Moyennes Mobiles (MM)




12



13


14



15


16
5) Choix de lordre de la moyenne mobile.



17



18






Donc le choix idal dpend de la
saisonnalit.
19
c) Ajustement analytique (rgression
linaire)

Variable y fonction du temps : y=f(t) + erreur

Procdure :
- tape 1 : si y nest pas une fonction
linaire : f(t) = a + bt, essayer de la
linariser

t
y
1
0 10 20 30 40 50
0
2
0
4
0
6
0
8
0
1
0
0
Tendance lineaire
t
y
2
0 10 20 30 40 50
0
2
0
4
0
6
0
8
0
1
2
0
Tendance quadratique
t
y
3
0 10 20 30 40 50
2
0
4
0
6
0
8
0
1
0
0
1
2
0
Tendance exponentielle
t
y
4
0 10 20 30 40 50
-
1
.
0
-
0
.
6
-
0
.
2
Tendance hyperbolique

- tape 2 : utiliser la mthode des
moindres carrs sur les donnes
linarises (modle de rgression)
20
Etape 1 : Linariser la relation.

NB : en srie chronologique, la variable
explicative x est le temps t

Rgression exponentielle :

y = 10
a+bx
log
10
y = a + b x

rgression linaire pour {(x
i
, z
i
)} o

z
i
= log
10
y
i




Rgression hyperbolique :

y =
1
a + bx

1
y
= a + bx

rgression linaire pour x
i
, z
i
( )
{ }
o

z
i
= 1 y
i

21
Rgression quadratique: la parabole

y = b
0
+ b
1
x + b
2
x
2




Min Q b
0
, b
1
, b
2
( )
= y
i
b
0
b
1
x
i
b
2
x
i
2
( )
2
i



Systme dquations normales :

Q
b
0
= 2 y
i
b
0
b
1
x
i
b
2
x
i
2
( )
= 0
i

Q
b
1
= 2 y
i
b
0
b
1
x
i
b
2
x
i
2
( )
x
i
( )
= 0
i

Q
b
2
= 2 y
i
b
0
b
1
x
i
b
2
x
i
2
(
)
x
i
2
(
)
= 0
i













22
Etape 2 : Estimation de la tendance par la
mthode des moindres carrs

Soit {(t
i
,y
i
); i=1,2,,n} la srie statistique
bivarie. Soit y la variable dpendante et t le
temps

Notons la droite de rgression par:

i i
y a bt = +
(a, b R)

on peut calculer les rsidus:

i i i i i
e y y y a bt = =



Ide : Minimiser les erreurs commises entre la
vraie valeur de lobservation y
i
et la prvision
base sur la tendance :

Critre des moindres carrs :

=
n
i
i
e
1
2


23
Critre des moindres carrs (MC)

On veut minimiser : Q(a,b)=
i
e
i
2
=
i
(y
i
- a- b t
i
)
2


Systme dquations normales : pour avoir un
minimum il faut que :


( , )
0
Q a b
a



( , )
0
Q a b
b



On obtient donc comme solution du problme de
minimisation :
a y bt =

2
ty
t
s
b
s
=

Remarque : en calculant les drives secondes,
on peut montrer que la solution est bien un
minimum


24
Cas particulier :

Soit lchantillon : {(y
1
,1), (y
2
,2), (y
T
,T)}


2
) 1 (
... 2 1
+
= + + +
T T
T

2
1 +
=
T
t


et
6
) 1 2 )( 1 (
... 2 1
2 2 2
+ +
= + + +
T T T
T

12
1
2
2

=
T
s
t


Ce qui implique que lajustement linaire au
sens des MCO est donn par :

t
y
= a +b t

o
2
1 +
=
T
b y a


et
) 1 (
12
1
2
1
2
1 1

=

= =
T T
y
T
ty
b
T
t
T
t
t t

25

4. Etude de la composante
saisonnire

a). Introduction.


26
b) Modle additif



27


28


29



30




31




32




33



34



35
c) Modle multiplicatif



36
5. Elimination de la tendance
ou/et de la composante
saisonnire

a) Elimination de la tendance.

Solution 1 :
On dtermine T et ensuite on effectue les
oprations suivantes :

1) Cas additif : y-T

2) Cas multiplicatif : y/T

Solution 2 : Utilisation des diffrences

Cas dune tendance linaire :

Cas dune tendance quadratique :


37
b) Elimination de la saisonnalit.

Solution 1 :
On dtermine S
j
(ou 1+ s
j
) et ensuite on
effectue les oprations suivantes :

1) Cas additif : d
ij
= y
ij
- S
j


2) Cas multiplicatif : d
ij
= y
ij
/ (1+s
j
)




Solution 2 : Utilisation des diffrences
saisonnires.



38

6. Mthodes de Prvision


39

40

41

42


43


44


45


46

Chapitre 6
VARIABLES ALEATOIRES ET LOIS
DE PROBABILITE DISCRETES
Citibank, Long Island City, Etat de New York
(Anderson, Sweeney, & Williams, 2001)
212
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES213
6.1 Denitions, Variables aleatoires
Experience aleatoire: processus dont on ne
peut pas prevoir le resultat:
lancer un de
jouer au lotto
faire une ore de vente
qualite dune pi`ece (defectueuse ou non) dans
un processus industriel, . . .
Espace-echantillon: ensemble des resultats
possibles
Exemple : on lance 2 pi`eces de monnaie

'
&
$
%

1
: P
1
P
2

2
: P
1
F
2

3
: F
1
P
2

4
: F
1
F
2
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES214
Variable aleatoire: sa valeur est determinee
par le resultat dune experience aleatoire.
Exemple: on lance 2 pi`eces de monnaie et on
sinteresse au nombre X de resultats face obtenus

'
&
$
%

1
: P
1
P
2

2
: P
1
F
2

3
: F
1
P
2

4
: F
1
F
2
H
H
H
H
H
H
H
H
H
H
H
X
X
X
X
X
X
X
X
X
X
X

,
,
,
,
,
,
,
,
,
,
,
j
z
*

V
'
&
$
%
0
1
2
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES215
Notons E
x
levenement compose des resultats
associes `a la valeur x V

'
&
$
%
'
&
$
%
E
0
P
1
P
2
E
1
P
1
F
2
'
&
$
%
F
1
P
2
E
2
F
1
F
2
'
&
$
%
H
H
H
H
H
H
H
H
H
H
H
X
X
X
X
X
X
X
X
X
X
X

,
,
,
,
,
,
,
,
,
,
,
j
z
*

V
'
&
$
%
0
1
2
On a donc:
P(E
0
) = P(X = 0) =
1
4
P(E
1
) = P(X = 1) =
1
4
+
1
4
=
1
2
P(E
2
) = P(X = 2) =
1
4
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES216
1
p
x
x
6
1
2
1
4
3
4
-
0 1 2
Denition dune variable aleatoire: Une
variable aleatoire (v.a.) X est une fonction denie
sur ` a valeurs dans un ensemble note V.
A chaque de on associe une valeur
x = X() V.

'
&
$
%

`
`
`
`
`
`
`
`
`
`
`
`
`
z
V
'
&
$
%
x

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES217


Discr`ete et continue
Si V est un ensemble discret, la v.a. est dite
discr`ete (par exemples V = {0, 1, . . . , n} o` u
n N ; V = Z)
Experience Variable aleatoire X Valeurs possibles V
Contacter 5 clients Nbre de clients 0, 1, 2, 3, 4, 5
qui commandent
Inspecter une Nbre de radios defectueuses 0, 1, . . . , 50
cargaison de 50 radios
Gerer un restaurant Nombre de clients 0, 1, 2, 3, . . .
pendant une journee
Si V est continu, la v.a. sera dire continue (par
exemple V = IR)
Experience Variable aleatoire X Valeurs possibles V
Jouer au lotto Montant gagner Intervalle de IR
+
Gerer un restaurant Beneces Intervalle de IR
+
pendant une journee
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES218
6.2 Loi dune v.a. discr`ete
Associons `a la valeur x V lensemble dev`enements:
E
x
= {w tel que w et X(w) = x}
On peut donc calculer pour tout x V :
p
x
= P
X
(x) = P(X = x) = P(E
x
)

Loi de probabilite de X:
{(x, p
x
), x V }.
Remarque : {(x, p
x
), x V } est une DP ssi
p
x
0 x V et

x
p
x
= 1
Exemples: distribution uniforme, binomiale, de
Bernouilli, de Poisson, geometrique, binomiale
negative, hypergeometrique, etc
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES219
6.3 Fonction de repartition dune v.a. dicr`ete
Rappel: Statistique descriptive
F
j
est la frequence cumulee cest-`a-dire le pour-
centage dobservations x
j
.
Denition au niveau population:
F(x) = P(X x) o` u x IR
Donc pour une DP {(x
j
, p
j
), j = 1 . . . , J}:
F(x) =

x
j
x
p
j
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES220
Proprietes
F(x) [0, 1]
F() = 0 et F() = 1
F(a) F(b), a b (a, b IR)
P(a < X b) = P(X b) P(X a)
= F(b) F(a), (a < b)
Si x
i
et x
j
sont deux valeurs de la v.a. telle
que x
i
x
j
alors:
P(x
i
X x
j
) = F(x
j
) F(x
i1
)
En particulier P(X = x
j
) = F(x
j
) F(x
j1
).
F(x) est continue `a droite x IR.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES221
6.4 Esperance mathematique (EPM)
1. Approche historique: Probl`eme des
partis
2 joueurs misent chacun 32 euros
La partie comprends plusieurs jeux successifs
o` u chacun ` a la meme probabilite de gagner
On gagne la mise d`es que on a gagne 3 jeux.
La partie est dej` a commencee :
E[gain pour A] = 64
1
2
+ 32
1
2
= 48
E[gain pour B] = 0
1
2
+ 32
1
2
= 16
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES222
2. Denition
Soit la distribution de probabilite:
{(x, p
x
), x V }
et la fonction X g(X) : x g(x). Alors
lesperance mathematique est denie
E[g(X)] =

x
g(x)p
x
3. Proprietes
Si b est une constante: E(b) = b
Demonstration:
E(b) =

x
bp
x
= b

x
p
x
= b.
Si a est une constante : E(aX) = aE(X)
Demonstration:
E(aX) =

x
(ax)p
x
= a

x
xp
x
= aE(X).
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES223
Si a et b sont des constantes:
E(aX + b) = aE(X) + b
Demonstration: exercice
Notons E(X) = . Alors Y = X est tel
que E(Y ) = 0 = Y est la v.a. centree.
Demonstration:
E(Y ) = E(X ) = E(X) = 0.
Soient a et b deux constantes, g(X) et h(X)
deux fonctions de X ` a valeurs reelles :
E[ag(X) + bh(X)] = aE(g(X)) + bE(h(X))
Demonstration: exercice.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES224
6.5 Param`etres (moyenne, variance, moments, mediane,...)
Moyenne
Cas particulier de lEPM pour g(X) = X:
E(X) =

x
xp
x
:=
Remarque : analogie avec la statistique descrip-
tive basee sur un echantillon :
x =
1
n

j
n
j
x
j
=

j
f
j
x
j
Exemple: Lancement de 2 pi`eces
1
p
x
x
6
1
2
1
4
3
4
-
0 1 2
=

x
xp
x
=
1
4
0 +
1
2
1 +
1
4
2 = 1
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES225
Variance et Ecart-type
Cas particulier de lEPM: g(X) = (XE(X))
2
E((XE(X))
2
) =

x
(x)
2
p
x
:=
2
= V (X)
Remarque : analogie avec la statistique descrip-
tive basee sur un echantillon :
s
2
=
1
n

j
n
j
(x
j
x)
2
=

j
f
j
(x
j
x)
2
Exemple: Lancement de 2 pi`eces
1
p
x
x
6
1
2
1
4
3
4
-
0 = 1 2

2
=
1
4
(0 1) +
1
2
(1 1) +
1
4
(2 1) =
1
2
Ecart-type: =
_
(
2
).
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES226
PROPPRIETES:
1. Si b est une constante: V (b) = 0
Demonstration: Puisque E(b) = b, on a:
V (b) = E((bE(b))
2
) =

x
(bE(b))
2
p
x
= 0.
2. Si a est une constante: V (aX) = a
2
V (X)
Demonstration: Puisque E(aX) = aE(X):
V (aX) = E((aX E(aX))
2
)
= E[a
2
(X E(X))
2
]
= a
2
E[(X E(X))
2
]
= a
2
V (X).
3. Si Y = X a alors V (Y ) = V (X)
Demonstration: Exercice.

La variance est independante dun changement


dorigine.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES227
4. En particulier, si Y = X alors V(Y)=V(X)
Demonstration: Puisque E(X ) = 0, on a:
V (Y ) = E((Y E(Y ))
2
)
= E[((X ) E(X ))
2
]
= E[(X )
2
] = V (X).
5. Soit Z =
X

alors V (Z) = 1

Z est dite v.a. centree-reduite


Demonstration:
V (Z) = V (
X

)
= V (
1

(X ))
=
1

2
V (X )
= 1.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES228
Les Moments
Denition: Moments dordre r par rapport ` a c

r
(c) = E[(X c)
r
] r IN, c IR
Cas particuliers:
1. Moment par rapport `a lorigine (c = 0):

r
= E[X
r
] =

x
x
r
p
x
Exemple: La moyenne est le moment par rap-
port ` a lorigine dordre 1 (r = 1)
2. Moment centre (c = ):

r
= E[(X )
r
] =

x
(x )
r
p
x
Exemple: La variance est le moment centre dordre
2 (r = 2)
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES229
PROPRIETES:

0
=
0
= 1

1
= E(X) =

1
= 0

2
= E[(X )
2
] =
2
Demonstration: exercice.
Expression utile: E(X
2
) =
2
+
2
Demonstration:

2
= E[(X )
2
] = E(X
2
2X +
2
)
= E(X
2
) 2E(X) +
2
= E(X
2
)
2
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES230
Mediane
Denition: La mediane x
1/2
est telle que:
P(X < x
1/2
)
1
2
et P(X x
1/2
)
1
2
Remarque: analogie avec la statistique descrip-
tive.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES231
6.6 Fonctions generatrices des moments
Denition: Soit une DP {(x, p
x
), x V }. La
fonction generatrice des moments est:
M
X
(t) = E[e
tX
] =

x
e
tx
p
x
t IR.
Remarque: M
X
(t) nexiste pas toujours (con-
dition dexistence).
Decomposition en utilisant le developpement
en serie de e
tx
:
M
X
(t) =

x
(1 + tx +
t
2
x
2
2!
+ . . . +
t
r
x
r
r!
+ . . .)p
x
=

x
p
x
+ t

x
xp
x
+ . . . +
t
r
r!

x
x
r
p
x
+ . . .
= 1 + t

1
+ . . . +
t
r
r!

r
+ . . .
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES232
Ce resultat nous fournit la propriete suivante:
Propriete: Si M(t) existe et admet des derivees
dordre r (r = 1, 2, . . .):

r
= [
d
r
M(t)
dt
r
]
t=0
Exemple:
1
p
x
x
6
1
2
1
4
3
4
-
0 1 2
M(t) = E(e
tX
) =
2

x=0
e
tx
p
x
=
1
4
+
1
2
e
t
+
1
4
e
2t
= [
dM(t)
dt
]
t=0
= [
1
2
e
t
+
1
2
e
2t
]
t=0
= 1

2
= [
d
2
M(t)
dt
2
]
t=0
= [
1
2
e
t
+ e
2t
]
t=0
=
3
2

2
=

2
=
3
2
1 =
1
2
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES233
6.7 Lois discr`etes particuli`eres
1. Distribution uniforme
a) Denition: X U[1, . . . , n] si
P(X = x) =
1
n
x V = {1, . . . , n}
b) Exemples
valeur obtenue par un lance de de (n=6)
dans une etude basee sur un echantillon de
taille n, il est souvent assume que chaque indi-
vidu de lechantillon ` a un poids 1/n.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES234
c) Quelques param`etres
Moyenne (param`etre de position):
= E(X) =
n

x=1
xp
x
=
1
n
n

x=1
x =
n + 1
2
Aide:
n

x=1
x =
n(n + 1)
2
Variance (param`etre de dispersion):

2
= E(X)
2
= E(X
2
)
2
= E(X
2
)
(n + 1)
2
4
or
E(X
2
) =
n

x=1
x
2
p
x
=
1
n
n

x=1
x
2
Aide:
n

x=1
x
2
=
n(n + 1)(2n + 1)
6
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES235
Preuve:
(x + 1)
3
= x
3
+ 3x
2
+ 3x + 3
(x + 1)
3
x
3
= 3x
2
+ 3x + 1
et
n

x=1
[(x + 1)
3
x
3
] = (n + 1)
3
1
En outre
n

x=1
[(x + 1)
3
x
3
] =
n

x=1
(3x
2
+ 3x + 1)
= 3(1 + 2
2
+ . . . + n
2
)
+ 3(1 + 2 + . . . + n) + n
Nous avons donc que:
(n + 1)
3
1 = 3
n

x=1
x
2
+ 3
n

x=1
x + n

x=1
x
2
=
1
3
[(n + 1)
3
1 3
n(n + 1)
2
n]

x=1
x
2
=
1
6
n(n + 1)(2n + 1)
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES236
Donc nous avons:

2
= E(X
2
)
2
=
(n + 1)(2n + 1)
6

(n + 1)
2
4
=
(n + 1)
12
[4n + 2 3(n + 1)]
=
(n + 1)(n 1)
12
=
n
2
1
12
Skewness (param`etre dasymetrie): La dis-
tribution etant symetrique
3
= 0.
Exercice: Prouver formellement le resultat en
utilisant laide:
n

x=1
x
3
=
n
2
(n + 1)
2
4
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES237
2. Distribution de Bernouilli
a) Denition: X B(1, p) si les valeurs pos-
sibles pour X sont succ`es (x = 1) et echec
(x = 0). En outre la probabilite de succ`es est
egale `a p (P(X = 1) = p).
b) Exemples
inspection dune pi`ece dans un processus in-
dustriel (defectueux ou pas)
resultat (reussite ou echec) ` a lexamen de
statistique.
c) Quelques param`etres (exercice)
= p

2
= pq o` u q = 1 p

3
= pq(q p)
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES238
d) Schema de Bernouilli: Soient
- X B(1, p) Exp`erience o` u lev`enement
succ`es a une probabilite p de se realiser
- Nous realisons n experience sous des condi-
tions uniformes (p est constant)
- Les n experiences sont independantes
Notons x le nombre de succ`es, y le nombre
dechec

Plusieurs distributions peuvent etre deduites:


- si Z=nombre de succ`es
distribution binomiale
- si Z=nombre dechec avant le premier succ`es
distribution geometrique
- si Z=nombre dechec avant le ri`eme succ`es
distribution negative binomiale
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES239
3. Distribution binomiale
a) Denition: X B(n, p) si on proc`ede ` a un
schema de Bernouilli (n experiences uniformes
et independante avec probabilite de succ`es egale
` a p) et que X=nombre de succ`es.
b) Exemples
Selection aleatoire n pi`eces dans une produc-
tion et on compte le nombre de pi`eces conformes
On compte le nombre de fois que lon gagne
(avoir pile) dans un jeu de n pile ou face.
c) Distribution de probabilite:
- x {0, 1, . . . , n}
- p
x
=
_
n
x
_
p
x
q
nx
(formule du bin ome)
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES240
d) Fonction generatrice des moments
Rappel: Puissance dun bin ome
(a + b)
n
=
n

x=0
_
n
x
_
b
x
a
nx
Avec cette aide, nous pouvons developper la
fonction generatrice des moments:
M(t) = E(e
tX
) =
n

x=0
e
tx
p
x
=
n

x=0
e
tx
_
n
x
_
p
x
q
nx
=
n

x=0
_
n
x
_
(pe
t
)
x
q
nx
= (q + pe
t
)
n
d) Quelques param`etres
Moyenne:
= [
dM(t)
dt
]
t=0
= [n(q + pe
t
)
n1
pe
t
]
t=0
= n(q + p)
n1
p = np
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES241
Variance:

2
= [
dM
2
(t)
dt
2
]
t=0
= np[(n 1)(q + pe
t
)
n2
pe
2t
+ (q + pe
t
)
n1
e
t
]
t=0
= np[(n 1)p + 1] = np(np + q)
Ainsi la variance est deduite par:

2
=
2
=

2
1
= n
2
p
2
+npqn
2
p
2
= npq
Param`etre dasymetrie (exercice):

3
= npq(q p)
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES242
e) Frequence de succ`es
Soit X le nombre de succ`es et Y la frequence
de succ`es:
Y =
X
n
Valeurs de Y: y {0,
1
n
, . . . , 1}
Calculs des probabilites:
p
y
= P(Y = y) = P(
X
n
= y) = P(X = ny)
= P(X = x) =
_
n
x
_
p
x
q
nx
Liens entre les moments de X et Y :
E(Y ) = E(
X
n
) = p
V (Y ) = V (
X
n
) =
pq
n
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES243
4. Distribution de Poisson
a) Contexte: Decrit le nombre dev`enements se
produisant sur une periode de temps donnee T
b) Exemples
Le nombre de faillites sur une journee dans
un secteur industriel.
Le nombre daccidents davion sur une annee.
c) Distribution de probabilite: X P() avec
comme support x {0, 1, 2, . . .} o` u
P(X = x) = p
x
=
e

x
x!
IR
+
0
Remarque:

x=0
p
x
=

x=0
e

x
x!
= e

x=0

x
x!
= e

= 1
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES244
d) Fonction generatrice des moments:
M(t) = E(e
tX
) =

x=0
e
tx
p
x
=

x=0
e
tx
e

x
x!
= e

x=0
(e
t
)
x
x!
= e

e
e
t
= e
(e
t
1)
e) Quelques moments:
La moyenne:
= [
dM(t)
dt
]
t=0
= [e
t
e
(e
t
1)
]
t=0
=
Moments dordre 2

2
= [
dM
2
(t)
dt
2
]
t=0
= [e
t
e
(e
t
1)
+ e
t
e
t
e
(e
t
1)
]
t=0
= +
2

2
=
2
=

2
1
= +
2

2
=
Moments dordre 3 et 4

3
=
4
= + 3
2
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES245
f) Limite de la distribution binomiale quand la
probabilite de succ`es est faible (p 0) et que
le nombre dessais est grand (n )
Preuve: Soit X Bin(n, p) o` u p = /n
P(X = x) =
n!
x!(n x)!
p
x
q
nx
=
n
x
n
x
p
x
(1 p)
nx
n!
x!(n x)!
=
n
x
n
x
p
x
(1 p)
n
(1 p)
x
n!
x!(n x)!
=
(np)
x
x!
1
(1 p)
x
(1 p)
n
n!
n
x
(n x)!
=
()
x
x!
1
(1 p)
x
(1

n
)
n
n(n 1) . . . (n x + 1)
n
x
Pour n , p 0 et np , on obtient:
P(X = x)
()
x
x!
e

1
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES246
La qualite de lapproximation depend des valeurs
de n et p.
Exemples
X Bin(50, 0.10)
P(X=5)=0,1849
F(5)=0,6161
X Bin(100, 0.05)
P(X=5)=0,1800
F(5)=0,6160
X P(5)
P(X=5)=0,1755
F(5)=0,6160
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES247
g) Introduction intuitive de la loi de Poisson:
Soit X le nombre darrivees dun phenom`ene
dans lintervalle de temps:
|||||
0 t t +
t
Posons les hypoth`eses suivantes:
P(1 arrivee dans
t
) =
t
P(plus quune arrivee dans
t
) 0
Des evenements arrivant dans des intervalles
disjoints sont independants.
Notons p
x
(t+
t
) la probabilite davoir x arrivee
dans lintervalle de temps [0, t +
t
]
Deux possibilites:
x arrivees dans [0, t] et 0 arrivee dans [t,
t
]
x 1 arrivees dans [0, t] et une dans [t,
t
]
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES248
Donc,
p
x
(t +
t
) = p
x
(t)[1
t
] + p
x1
(t)
t
= p
x
(t)
t
p
x
(t) +
t
p
x1
(t)
A =
p
x
(t +
t
) p
x
(t)

t
= [p
x1
(t)p
x
(t)]
En prenant comme conditions initiales:
p
0
(0) = 1
p
x
(0) = 0,
la derivee:
lim

t
0
A =
dp
x
(t)
dt
= [p
x1
(t) p
x
(t)]
a comme solution:
p
x
(t) =
e

x
x!
o` u = t
qui est la fonction de probabilite dune variable
aleatoire de Poisson de param`etre t.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES249
5. Distribution geometrique
a) Denition: Schema de Bernouilli (experiences
uniformes et independantes avec probabilite de
succ`es egale `a p) o` u n nest pas xe a priori.
X=nombre dessais precedant le premier succ`es.
b) Exemples:
Nombre de lance dun de avant davoir 1.
En repondant au hasard: le nombre de QCM
faux avant davoir une bonne reponse.
c) Distribution de probabilite:
P(X = x) = p
x
= pq
x
x {0, 1, 2, . . .}
d) Fonction generatrice des moments:
M(t) = E(e
tX
) =

x=0
e
tx
pq
x
= p

x=0
(qe
t
)
x
=
p
1 qe
t
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES250
e) Quelques moments:
La moyenne:
= [
dM(t)
dt
]
t=0
= [
pqe
t
(1 qe
t
)
2
]
t=0
=
pq
p
2
=
q
p
Moments dordre 2

2
= [
dM
2
(t)
dt
2
]
t=0
= pq[
e
t
(1 qe
t
)
2
+ 2e
t
qe
t
(1 qe
t
)
(1 qe
t
)
4
]
t=0
= pq
(1 q)
2
+ 2qp
p
4
=
q(p + 2q)
p
2
=
q(1 + q)
p
2

2
=
q(1 + q)
p
2

q
2
p
2
=
q
p
2
e) Denition alternative: Y =nombre dessais
necessaire pour avoir le premier succ`es.
Y = X+1; P(Y=y)=pq
y1
y {1, 2, . . .}
M(t) = E(e
tY
) =
pe
t
1qe
t
= [
dM(t)
dt
]
t=0
=
1
p
et
2
=
q
p
2
.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES251
6. Distribution binomiale negative
a) Denition: Schema de Bernouilli (experiences
uniformes et independantes avec probabilite de
succ`es egale `a p) o` u n nest pas xe a priori.
X=nombre dechec avant le ri`eme succ`es.
b) Exemples
Nombre de pile obtenus avant davoir 5 faces.
En repondant au hasard: le nombre de QCM
faux avant davoir 3 bonnes reponses.
c) Distribution de probabilite:
P(X = x) = C
r1
x+r1
p
r
q
x
x {0, 1, 2, . . .}
d) Fonction generatrice des moments:
M(t) = E(e
tX
) =

x=0
e
tx
C
r1
x+r1
p
r
q
x
= p
r

x=0
C
r1
x+r1
(qe
t
)
x
=
p
r
(1 qe
t
)
r
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES252
e) Quelques moments (exercice):
La moyenne:
=
rq
p

2
=
rq
p
2
e) Denition alternative: Y =nombre dexperience
necessaire pour avoir r succ`es.
b) Exemples
Nombre de lances necessaires pour obtenir 5
faces.
En repondant au hasard: le nombre de QCM
necessaires avant davoir 3 bonnes reponses.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES253
7. Distribution hypergeometrique
a) Denition: On prel`eve n individus dans une
population de taille N de mani`ere aleatoire, mais
sans remise. Chaque individu poss`ede (succ`es)
ou ne poss`ede pas (echec) une certaine caracteristique.
Dans la population M individus poss`edent cette
caracteristique. Soit X=nombre de succ`es.
b) Distribution de probabilite:
P(X = x) =
_
M
x
__
N M
n x
_
_
N
n
_
o` u x {max(0, n(NM)), . . . , min(n, M)}.
c) Moyenne et variance: Notons =
M
N
= n
2
= n(1 )
N n
N 1
Universite Libre de Bruxelles Annee academique 2009-2010
STAT-D-101
Catherine Dehon
Seance 1 : Introduction
1
Exercice 1
Utilisez le signe de sommation pour ecrire les expressions suivantes :
1. y
1
+ y
2
+ y
3
+ y
4
+ y
5
;
2. n
1
x
1
+ n
2
x
2
+ . . . + n
J
x
J
;
3. f
1
(x
1
a)
2
+ f
2
(x
2
a)
2
+ . . . + f
J
(x
J
a)
2
.
Exercice 2
Letudiant nomme Cresus recoit de ses parents chaque mois 100 Euros comme argent de
poche.
1. Calculez largent de poche recu sur une annee.
Cresus, etant relativement depensier, travaille egalement pour gagner de largent. La
somme dargent gagnee varie selon les mois :
Mois Jan Fev Mars Avril Mai Juin Juil Aout Sept Oct Nov Dec
Somme dargent 100 125 100 150 175 125 150 200 250 100 150 125
2. Calculez le montant total dargent dont Cresus peut disposer sur une annee.
Neanmoins, Cresus a un GSM dont le co ut xe par mois est de 15 Euros.
3. Calculez la somme dargent disponible pour une annee apres avoir retenu les frais de
son GSM.
Exercice 3
Considerons la serie statistique de taille 5 :{x
1
= 1; x
2
= 4; x
3
= 5; x
4
= 3; x
5
= 2}. Determinez
la valeur des sommes suivantes :
1.

5
i=1
x
i
;
2.

5
i=1
4x
i
;
3. x =
1
5

5
i=1
x
i
;
4.

5
i=1
(x
i
x) ;
5.

5
i=1
x
2
i
.
1
Les enonces sont disponibles sur le site www.ulb.ac.be/soco/statrope
1
Exercice 4
Trouver la valeur minimale de n (n 1) tel que :

2
3

5
0.95.
Exercice 5
Considerons lensemble E de R suivant : {1, 3, 15, 31, 42, 100}. On note A = {1, 15, 42},
B = {1, 15, 100} et C = {3, 31}.
1. Determiner les ensembles A, A B, A B et A\ B.
2. Verier que A B = AB, A B = AB et AB = (A\ B) (AB) (B\ A).
Exercice 6
Calculer les sommes suivantes :
1.

10
k=1
(
2
5
)
k
et

10
k=0
(
2
5
)
k
;
2.

k=1
(
1
5
)
k
et

k=0
(
1
5
)
k
.
Exercice 7
Soient p et n deux entiers naturels tel que, 1 p n. Montrez que :
1.

n
p

n
n p

.
2.

n
p + 1

n
p

n + 1
p + 1

.
3.

n
k=0
(1)
k

n
k

= 0.
4.

n
k=0

n
k

= 2
n
.
Exercice 8
Considerons la serie de variables suivante : nombre denfants dans une famille, couleur des
yeux, categorie socio-professionnelle, commune de naissance, niveau de scolarite, revenu,
poids, sexe, age, langue maternelle, type de voiture, taille, nombre de grains de beaute sur
la peau, taille de grains de beaute.
Specier pour chacune de ces variables si elle est qualitative, quantitative, continue,
discr`ete, ordinale ou nominale.
2
Universite Libre de Bruxelles Annee academique 2009-2010
STAT-D-101
Catherine Dehon
Seances 2, 3 et 4 : Statistique descriptive dune serie
univariee
1
Exercice 1
Un constructeur dautomobiles a demande ` a 150 individus de faire part de leur preference
concernant la couleur de la voiture. Les resultats quil obtient sont les suivants :
Couleurs Blanc Noir Rouge Bleu Vert
Eectifs 43 30 15 32 30
1. De quel type est la variable ?
2. Donnez le tableau de la distribution observee.
3. Representez graphiquement la distribution de la variable.
4. Quels param`etres de cette distribution peuvent etre calcules ?
5. Determinez la valeur de ces param`etres.
Exercice 2
Lors dune etude en psychologie sociale sur la mobilite geographique, on a interroge 50
personnes pour savoir si elles passaient leurs vacances ` a letranger. Les eectifs obtenus
sont les suivants :
Vacances `a letranger Jamais Parfois Souvent Toujours
Eectifs 5 19 23 3
1. De quel type est la variable ?
2. Donnez le tableau de la distribution observee (eectifs et eectifs cumules).
3. Representez graphiquement la distribution de la variable.
4. Quels param`etres de cette distribution peuvent etre calcules ?
5. Determinez la valeur de ces param`etres.
1
Les enonces sont disponibles sur le site www.ulb.ac.be/soco/statrope
1
Exercice 3
Soit la population des etudiants de premi`ere bachelor ` a lULB en ingenieur de gestion. Une
etude de la Communaute Francaise (en charge de lenseignement secondaire) sinteresse
` a l age de ces etudiants. Pour ce faire, on prel`eve un echantillon de taille n = 50. Les
resultats sont les suivants :
17 20 19 18 21 18 18 19 19 18
18 18 17 18 18 20 20 17 18 17
21 18 19 20 18 17 21 19 17 18
17 17 19 18 18 17 21 19 17 20
18 17 19 21 18 20 18 17 19 17
1. De quel type est la variable ?
2. Donnez le tableau de la distribution observee (eectifs et eectifs cumules).
3. Representez graphiquement la distribution de la variable.
4. Quels param`etres de cette distribution peuvent etre calcules ?
5. Determinez la valeur de ces param`etres.
Exercice 4
On a mesure, en millisecondes, ` a quelle vitesse 50 enfants de quatre ans identiaient des
images simples (ours, lapin, chat . . . ). Les resultats sont les suivants :
24 27 33 21 27 19 23 23 24 19
27 30 15 27 24 34 18 20 21 15
33 27 20 32 28 27 22 17 30 18
21 25 25 29 25 24 32 31 28 20
29 24 23 27 17 15 21 28 24 23
1. De quel type est la variable ?
2. Regroupez les 50 valeurs en classes. Prenez des classes de longueur 4 et le debut de
la premi`ere classe en 14,5. Donnez le tableau de la distribution groupee (eectifs et
eectifs cumules).
3. Representez graphiquement la distribution groupee.
4. Quels param`etres de cette distribution groupee peuvent etre calcules ?
5. Determinez la valeur de ces param`etres.
2
Exercice 5
Considerons une serie statistique {x
1
, . . . , x
i
, . . . , x
n
} relative ` a un caract`ere quantitatif
X et le changement dorigine et dunite suivant :
y
i
=
x
i
a
d
, i = 1, . . . , n.
Soient x et s
2
x
la moyenne et la variance de la serie {x
1
, . . . , x
i
, . . . , x
n
} et y et s
2
y
celles de
la serie {y
1
, . . . , y
i
, . . . , y
n
}. Demontrez que :
1. y =
xa
d
;
2. s
2
y
=
s
2
x
d
2
.
Exercice 6
Une enquete sur le taux de chomage des jeunes femmes en 2002 dans les directions
subregionales de Namur et Charleroi a ete realisee. La direction subregionale de Namur
comprend 31 communes et celle de Charleroi 26 communes. Le taux de chomage moyen
des jeunes femmes `a Namur est de x
1
= 32% avec un ecart-type de s
1
= 10%. Le taux
de ch omage moyen des jeunes femmes `a Charleroi est de x
2
= 34% avec un ecart-type de
s
2
= 5%.
1. Enoncez les formules dagregation de la moyenne et de la variance en denissant
soigneusement chacune des composantes.
2. Calculez la moyenne globale x et la variance globale s
2
du taux de chomage pour
lechantillon obtenu en regroupant les communes de Namur et de Charleroi.
Exercice 7
Romeo quitte son domicile ` a 20 heures pour se rendre chez Juliette ` a la vitesse moyenne
de 200 km/h. Il la quitte `a 23 heures et retourne chez lui ` a la vitesse moyenne de 40 km/h.
Supposons que la distance `a laller egale celle du retour.
1. Quelle est dans ce cas la vitesse moyenne de Romeo sur laller-retour ?
2. Comment calculer cette vitesse rapidement ?
Exercice 8
Une personne place une somme dargent K dans une banque pendant une periode de 3
ans. Dans cette banque le taux dinteret varie dune annee ` a une autre. Il est de 20% la
premi`ere annee, 10% la seconde annee et de 6% la troisi`eme annee.
1. Le taux dinteret moyen pour lensemble de ces trois annees est-il de 12%?
2. Comment calculer ce taux rapidement ?
3
Exercice supplementaire 1
Considerons la serie statistique de taille n : {x
1
; x
2
; . . . ; x
n
}. Montrez que :
1.

n
i=1
(x
i
x) = 0, si x =
1
n

n
i=1
x
i
;
2. s
2
x
=
1
n

n
i=1
(x
i
x)
2
=
1
n

n
i=1
x
2
i
x
2
.
Exercice supplementaire 2
Soit {x
1
, . . . , x
n
} une serie statistique univariee de moyenne x et de variance s
2
x
. Calculez la
moyenne et la variance de la serie des valeurs centrees et reduites {z
1
, . . . , z
n
} o` u z
i
=
x
i
x
sx
.
Exercice supplementaire 3
On a calcule la moyenne et la variance dune serie de 10 observations et on a obtenu
les resultats suivants : x = 5.9 et s
2
x
= 4.83. On a constate ulterieurement quune des
observations initiales avait ete transcrite de facon erronee : la valeur consideree au cours
des calculs etait 8.5 alors que la valeur exacte est en realite 6.5. La moyenne et la variance
sont recalculees sur les donnees corrigees. Calculez la moyenne et la variance exactes.
Exercice supplementaire 4 (suite de lexercice 6)
Dans les 2 echantillons, nous avons centre les donnees par rapport `a la moyenne globale
x de telle sorte que la moyenne globale sur les donnees centrees soit : x
new
= 0.
1. Calculez les nouvelles moyennes et variances des 2 comites subregionaux : x
1,new
,
x
2,new
, s
2
1,new
et s
2
2,new
.
2. Calculez la variance globale s
2
new
pour lechantillon obtenu en regroupant les com-
munes de Namur et de Charleroi.
Exercice supplementaire 5
Construisez deux series statistiques univariees constituees de 6 observations chacune,
{x
1
, x
2
, . . . , x
6
} et {y
1
, y
2
, . . . , y
6
}, telles que,
1. x
1/2
= y
1/2
mais x > y, o` u x
1/2
et y
1/2
designent les medianes des deux series
statistiques.
2. x
1/2
= y
1/2
mais ED
x
> ED
y
, o` u ED
x
et ED
y
designent les deux ecarts interdeciles
des deux series statistiques.
3. E
x
= E
y
mais x > y, o` u E
x
et E
y
designent les deux etendues des deux series
statistiques.
4. x
M
= y
M
et x > y, o` u x
M
et y
M
designent les modes des deux series statistiques.
5. x = y et s
x
> s
y
.
4
Universite Libre de Bruxelles Annee academique 2008-2009
STAT-D-101
Catherine Dehon
Seances 5, 6 et 7
1
2
: Introduction `a la theorie probabiliste
1
Exercice 1
a) Avec les chires 0 et 1, on peut former 8 sequences de longueur 3 : 000, 001, 010, 011, 100,
101, 110, 111. Combien de sequences de longueur 10 peut-on former ?
b) Combien de mots de longueur 100 peut-on former avec les lettres K, A, H, J, D, I ?
c) Combien de mots de longueur n peut-on former avec un alphabet de m lettres ?
Exercice 2
Trois lles (Annie, Julie et Nathalie) et trois garcons (Damien, Eric et Jonathan) font la le devant
un distributeur automatique de billets.
a) Il y a combien darrangements possibles ?
b) Il y a combien darrangements possibles si les trois lles doivent etre ensemble et les trois
garcons doivent etre ensemble ?
c) Il y a combien darrangements possibles si on exige seulement que les trois lles soient
ensemble ?
Exercice 3
On lance simultanement deux des numerotes de 1 `a 6. Determiner lensemble fondamental dans
les cas suivants :
a) les deux des sont distincts (par exemple un rouge et un bleu).
b) les deux des sont identiques.
c) les deux des sont identiques et on sinteresse seulement `a la parite du resultat.
Exercice 4
Soit Lexperience aleatoire consistant au lance de deux des `a 6 faces. Nous sommes interesses par
les deux ev`enements suivants :
A : avoir comme resultat deux fois le meme nombre (la meme face)
B : avoir au moins une fois la face numerotee 5.
a) Demontrez `a partir des 3 axiomes denissant la probabilite que :
P(A B) = P(A) + P(B) P(A B).
b) Calculez chacune des 4 probabilites enoncees dans la formule par rapport au cas concret
explicite ci-dessus et montrez que legalite enoncee ci-dessus est bien correcte.
c) Les evenements A et B sont-ils dependants ? mutuellement exclusifs ?
1
Les enonces sont disponibles sur le site www.ulb.ac.be/soco/statrope
1
Exercice 5
Dix couples sont reunis dans une soiree. On admet que, pour danser, chaque homme choisit une
femme au hasard.
a) Quelle est la probabilite pour que chacun des 10 hommes danse avec son epouse ?
b) Quelle est la probabilite pour que monsieur Dupond danse avec son epouse ?
c) Quelle est la probabilite pour que monsieur Dupond et monsieur Durand dansent avec leur
epouse ?
d) Quelle est la probabilite pour que monsieur Dupond ou monsieur Durand dansent avec leur
epouse ?
Exercice 6
On cherche une lettre qui a la probabilite 0.2 de se trouver dans lun des quatre tiroirs dun
secretaire. On note A levenement la lettre est dans le quatri`eme tiroir et B levenement la
lettre nest pas dans les trois premiers tiroirs.
a) Calculez les probabilites P(A B), P(B

A) et P(A

B).
b) En deduire les probablites P(A), P(B) et P(A|B).
c) Les evenements A et B sont-ils independants ?
Exercice 7
Sept personnes prennent place au rez-de-chaussee dans un ascenseur dun immeuble de dix etages.
Chacune choisit letage o` u elle sort de lascenseur. Quelle est la probabilite que :
a) elles sortent toutes `a des etages dierents ?
b) deux personnes au moins descendent `a un meme etage ?
c) trois personnes determinees `a lavance descendent `a un meme etage et toutes les autres `a
des etages dierents ?
d) trois personnes (nimporte lesquelles) descendent `a un meme etage et toutes les autres `a des
etages dierents ?
e) trois personnes (nimporte lesquelles) descendent `a un meme etage, deux autres (nimporte
lesquelles) descendent `a un autre etage et les deux derni`eres encore `a un autre etage ?
Exercice 8
Un livre contient cinq fautes dorthographe. A chaque relecture, on a une probabilite de 1/3 de
detecter et de corriger une faute. On eectue successivement plusieurs relectures independantes.
Soit n le nombre de relectures necessaires pour quil ne reste aucune faute avec une probabilite
superieure ou egale `a 0.9.
a) Pour chaque faute, quelle est la probabilite pour quelle soit corrigee en n relectures ?
b) Quelle est la valeur minimale de n?
Exercice 9
Dans une rue, un panneau publicitaire est remarque par un passant sur quatre. On suppose que,
pour un passant, levenement remarquer le panneau numero i est independant de levenement
remarquer le panneau numero j .
a) Sachant que lon dispose de deux panneaux dans la meme rue, calculer la probabilite quun
passant remarque exactement un seul panneau publicitaire.
2
b) Sachant que lon dispose de trois panneaux dans la meme rue, calculer la probabilite quun
passant remarque au moins un panneau publicitaire.
c) Combien doit-il y avoir de panneaux pour que plus de 95% des passants remarque au moins
une publicite ?
Exercice 10
Dans lentrepot dune certaine usine de fabrication de clous, 50% des clous ont ete fabriques par
la machine A, 30% par la machine B et 20% par la machine C. Parmi les clous fabriques par la
machine A, 3% sont defectueux. Parmi ceux fabriques par la machine B, 5% sont defectueux et
parmi ceux fabriques par la machine C, 8% sont defectueux. On tire un clou au hasard dun lot
constitue de clous fabriques.
a) Quelle est la probabilite que ce clou ne soit pas defectueux ?
b) Sachant que le clou est defectueux, quelle est la probabilite quil soit fabrique par la machine
B ?
Exercice supplementaire 1
Une personne rentre chez elle apr`es une soiree un peu trop arrosee. Elle ne sait plus laquelle des 10
cles qui se trouvent dans sa poche ouvre la porte de son domicile. Elle essaie donc les clefs une `a
une sans utiliser deux fois la meme. Determiner la probabilite pour que la k-i`eme cle soit la bonne
(1 k 10).
Exercice supplementaire 2
On cherche un parapluie qui se trouve dans un immeuble de sept etages. La probabilite quil se
trouve dans lun des sept etages est 0.6 et quil se trouve au rez-de-chaussee est 0.4. Chacun des sept
etages est susceptible de cacher le parapluie avec la meme probabilite. On a fouille les six premiers
etages et on en a rien trouve. Quelle est la probabilite que le parapluie se trouve au septi`eme etage ?
Exercice supplementaire 3
Deux etudiants et 14 etudiantes sont assis au hasard sur 16 chaises formant une ligne.
a) Quelle est la probabilite que les deux etudiants soient assis un `a cote de lautre ?
b) Quelle est la probabilite que les deux etudiants occupent les deux extremites de la ligne ?
Exercice supplementaire 4
Deux etudiants et 14 etudiantes sont assis au hasard sur 16 chaises formant un cercle.
a) Quelle est la probabilite que les deux etudiants soient assis un `a cote de lautre ?
b) Quelle est la probabilite que les deux etudiants occupent deux chaisses diametralement op-
posees ?
Exercice supplementaire 5
On tire au hasard un nombre de 9 chires. Calculez la probabilite p que tous les chires soient
dierents.
3
Exercice supplementaire 6
Soient A et B des evenements tels que P(A) =
1
5
et P(A B) =
1
2
.
a) Supposons que A et B soient des evenements mutuellements exclusifs. Calculez P(B).
b) Supposons que A et B soient des evenements independants. Calculez P(B).
Exercice supplementaire 7
Une etude a classe les gerants de portefeuilles en deux categories : ceux qui sont bien informes et
ceux qui ne le sont pas. Lorsquun gerant bien informe ach`ete une valeur boursi`ere pour son client,
la probabilite que le cours de celle-ci monte est de 0,8. Dans le cas dun gerant mal informe, cette
probabilite ne vaut que 0,5. Si on choisit au hasard un gerant dans un annuaire professionnel, la
probabilite quil soit bien informe est de 0,2. Calculez la probabilite quun gerant choisi au hasard
soit mal informe, sachant que la valeur quil a achetee a monte.
Exercice supplementaire 8
Un etudiant repond `a une question `a choix multiple. De deux choses lune : soit il connat la reponse,
soit il la devine. Soit p la probabilite que letudiant connaise la reponse (et donc 1 p celle quil
la devine). On admet que letudiant qui tente de deviner la reponse, repondra correctement avec
une probabilite 1/m, o` u m est le nombre de modalite quore la question. Quelle est la probabilite
quun etudiant connaisse la reponse `a la question sil y a repondu correctement ?
Exercice supplementaire 9
Un etudiant doit suivre 2 cours de math (M1, M2), 3 cours de chimie (C1, C2, C3), et 4 cours de
physique (P1, P2, P3, P4). Il decide de nassister qu`a 3 cours. Sil choisit au hasard, quelle est la
probabilite quil assiste aux deux cours de math? nassiste `a aucun cours de math? nassiste qu`a
un cours de math?
Exercice supplementaire 10
On consid`ere une classe de 42 el`eves. On suppose quil ny a pas dannee bissextile.
a) Quelle est la probabilite pour que deux el`eves au moins aient la meme date danniversaire ?
b) Quelle est la probabilte pour quau moins un el`eve ait la meme date danniversaire que
Socrate ?
Exercice supplementaire 11
Dans une classe de 21 etudiants, une personne raconte une histoire `a une seconde personne qui la
raconte `a une troisi`eme et ainsi de suite. A chaque etape, lindividu, `a qui lon raconte lhistoire,
est choisi au hasard. Chacune des etapes est independantes des autres. Notons p
1
la probabilite que
lhistoire ne revienne pas `a son inventeur et p
2
la probabilite quelle ne soit jamais repetee deux
fois `a la meme personne. Lhistoire etant racontee 8 fois, calculer p
1
et p
2
.
Exercice supplementaire 12
Dans une population donnee, un individu peut etre atteint dune aection A avec la probabilite
p
A
= 1/100 et dune aection B, independante de A, avec une probabilite p
B
= 1/20. Quelle est la
probabilite pour quun individu choisi au hasard soit atteint dau moins une des deux maladies ?
4
Universite Libre de Bruxelles Annee academique 2008-2009
STAT-D-101
Catherine Dehon
Seances 7
1
2
et 8 : Statistique descriptive dune serie
bivariee
1
Exercice 1
Une enquete realisee aupr`es des familles dune ville comporte les deux questions suivantes :
Combien avez-vous eu denfants jusqu`a ce jour ?
Combien de televisions avez-vous ?
En ne considerant que 257 familles ayant au moins une television et au moins un enfant, on
construit un tableau de contingence resumant les reponses donnees ` a ces deux questions.
Le tableau de contingence observe est le suivant :
Nombre denfants Y
Nombre de television X 1 2 3 4 5 6
1 12 11 15 15 7 10
2 9 6 8 3 4 6
3 11 12 11 15 17 10
4 10 12 11 15 17 10
1. Determinez les distributions marginales.
2. Determinez les moyennes et variances marginales.
3. Determinez le nombre moyen de televiseurs que poss`ede une famille de 4 enfants.
Determinez egalement la variance dans ce cas.
4. Calculez la covariance entre X et Y .
5. Calculez le coecient de correlation entre X et Y .
Exercice 2
Lassociation nationale des entrepreneurs du b atiment evalue les marches immobiliers les
plus abordables et les moins abordables. Les donnees sur le revenu moyen (en milliers de
dollars) et le prix de vente moyen (en milliers de dollars) dun echantillon de 12 marches
immobiliers choisis parmi la liste des marches les plus abordables, sont presentes ci-dessous
(The Wall Street Journal Almanac 1998).
1
Les enonces sont disponibles sur le site www.ulb.ac.be/soco/statrope
1
Marche Revenu Prix
Syracuse, NY 41.8 76
Springeld, IL 47.7 91
Lima, OH 40 65
Dayton, OH 44.3 88
Beaumont, TX 37.3 70
Lakeland, FL 35.9 73
Baton Rouge, LA 39.3 85
Nashau, NH 56.9 118
Racine, WI 46.7 81
Des Moines, IA 48.3 89
Minneapolis-St. Paul, MN 54.6 110
Wilmington, DE-MD 55.5 110
1. Deduisez de cet enonce la variable explicative et la variable reponse.
2. Representez graphiquement ces donnees.
3. Determinez les moyennes et variances marginales, ainsi que la covariance.
4. Determinez lequation de la droite de regression correspondante.
5. Est-ce que cette equation est bien adaptee aux donnees ? Expliquez.
6. Calculez les variances residuelle et de regression.
7. Le revenu moyen ` a Binghamton, dans lEtat de New York, sel`eve ` a 40100 dollars.
Utilisez lequation estimee de la regression pour prevoir le prix de vente moyen des
maisons vendues sur le marche de Binghamton.
8. Calculez la valeur predite et le residu correspondants `a lobservation Springeld.
9. Que valent la moyenne des residus et la moyenne des valeurs predites ?
Exercice 3
Dans une enquete realisee aupr`es de 200 personnes en activite, deux variables qualitatives
etaient mesurees. La premi`ere consistait ` a savoir leur niveau detudes et la deuxi`eme
portait sur le secteur o` u ils travaillaient.
Le tableau de contingence observe est le suivant :
n
jk
Public Prive Autre
Primaire 10 4 30
Secondaire 25 16 15
Superieur 35 60 5
1. Determinez les prols-lignes et les prols-colonnes.
2. Calculer les eectifs theoriques esperes sous lhypoth`ese dindependance.
3. Calculer les ecarts ` a lindependance. Interpreter ces ecarts.
4. Calculer la mesure dassociation D
2
.
2
Exercice supplementaire 1
Une societe de consultance a releve le revenu annuel X (en milliers deuros) et lepargne
correspondante Y (en milliers deuros) de 12 familles. Les resultats sont dans le tableau
suivant :
Famille 1 2 3 4 5 6 7 8 9 10 11 12
Revenu 21 21 19 23 19 20 24 18 19 21 21 22
Epargne 2.2 1.8 1.9 1.9 2.3 1.9 2.0 2.4 1.8 1.9 2.1 2.2
1. Determinez les moyennes et les variances marginales.
2. Determinez la moyenne et la variance de lepargne des familles qui ont un revenu
superieur ou egal ` a 21 mille euros.
3. Determinez lequation de la droite de regression de Y en X.
4. Est-ce que cette equation est bien adaptee aux donnees ? Expliquez.
5. Calculez les variances residuelle et de regression.
6. Calculez la valeur predite et le residu correspondant `a la famille 8.
Exercice supplementaire 2
Un echantillon de 82 femmes agees de plus de 40 ans et ayant au moins un enfant, a ete
classe selon les deux crit`eres suivants : le nombre de fr`eres et soeurs (vivants ou decedes)
(Y ) et le nombre denfants (X). Les resultats obtenus sont presentees dans le tableau
suivant :
Nombre de fr`eres et soeurs Y
Nombre denfants X 0 1 2 3 4
1 4 4 1 1 0
2 9 15 5 2 0
3 4 11 9 2 0
4 1 5 1 1 2
5 0 2 1 0 2
1. Determinez les distributions marginales.
2. Determinez les moyennes et variances marginales.
3. Determinez les distribution conditionnelles de Y en X = 3 et de X en Y = 2.
Determinez egalement les moyennes et variances conditionnelles.
4. Calculez la covariance entre X et Y .
5. Calculez le coecient de correlation entre X et Y .
3
Exercice supplementaire 3
Le tableau suivant donne la repartition de 200 etudiants de premi`ere annee universitaire
selon deux caract`eres statistiques : l age X et le principal sport pratique Y .
n
jk
Football Natation Tennis Equitation
18 ans 45 23 15 3
19 ans 29 18 8 2
20 ans 18 10 3 2
21 ans 14 8 2 0
1. De quels types sont les deux variables ?
2. Quels param`etres peuvent etre calcules pour chacune de ces deux variables ?
3. Calculer la moyenne et la variance de la distribution marginale en X.
4. Calculer les eectifs theoriques esperes sous lhypoth`ese dindependance entre X et
Y .
5. Calculer les ecarts ` a lindependance.
6. Calculer la mesure dassociation D
2
.
Exercice supplementaire 4
Dans une classe, on a mesure la taille (en pouces) et le poids (en livres) de 10 el`eves.
Lobjectif est detudier le poids (Y ) en fonction de la taille (X). Le tableau ci-dessous
presente les resultats obtenus par les 10 el`eves
Nom Albert Alice Cindy Carol Henry July Jane Janet Jack John
Taille 69.0 56.5 65.3 62.8 63.5 57.3 59.8 62.5 62.5 59.0
Poids 112.5 84.0 98.0 102.5 102.5 83.0 84.5 112.5 84.0 99.5
1. Calculez le coecient de correlation entre X et Y .
2. Determinez lequation de la droite de regression de Y en X.
3. Est-ce que cette equation est bien adaptee aux donnees ? Expliquez.
4. Calculez les variances residuelle et de regression.
5. Sachant que 1 pouce = 2.54 cm et 1 livre = 0.454 kg. A quel poids (en kg) peut-on
sattendre chez un el`eve qui mesure 177.8 cm?
4
Universite Libre de Bruxelles Annee academique 2009-2010
STAT-D-101
Catherine Dehon
Seances 9 et 10
1
2
: Analyse dune serie chronologique
1
Exercice 1
Pendant trois semaines consecutives, on a observe le nombre de visiteurs dun musee dont les
jours de fermeture sont le samedi et le dimanche.
Lundi Mardi Mercredi Jeudi Vendredi
Premi`ere semaine 7 5 35 5 6
Deuxi`eme semaine 8 9 45 8 9
Troisi`eme semaine 10 11 25 9 11
Considerons un mod`ele additif sans composante cyclique : Y = T +S +E.
1. Representez graphiquement Y en fonction du temps. Pourquoi prend-on un mod`ele additif ?
2. Calculez les moyennes mobiles dordre 5, notees MM(5). Representez graphiquement cette
moyenne mobile. Pourquoi prend-on un ordre 5 ?
3. Eectuez un ajustement lineaire sur cette serie chronologique Y . Representez graphique-
ment cet ajustement.
4. Determinez les composantes saisonni`eres par la methode de comparaison `a la tendance.
5. Sur base du mod`ele additif et des resultats ci-dessus, donnez la prevision pour le lundi et
le mardi de la 4
i`eme
semaine.
Exercice 2
Les 12 observations suivantes representent le nombre de magasins ouverts, par trimestre et
pendant trois annees, dans une station de sport dhiver :
Trimestres
Annees T
1
T
2
T
3
T
4
2002 60 30 10 85
2003 72 36 18 74
2004 86 29 20 100
1. Calculez les moyennes mobiles centrees dordre 4, notees MMC(4).
2. Determinez les composantes saisonni`eres par la methode de comparaison `a la moyenne
mobile.
1
Les enonces sont disponibles sur le site www.ulb.ac.be/soco/statrope
1
Exercice 3
Les 10 observations suivantes representent la valeur dune action observee pendant 10 mois
consecutifs :
t 1 2 3 4 5 6 7 8 9 10
Y 40 41 40 39 77 70 40 17 25 39
1. Eectuez une prevision par lissage exponentiel simple de la valeur de cette action pour le
11
i`eme
mois, avec comme valeur de = 0.3.
2. Supposons que lobservation pour le 11
i`eme
mois soit 50. Eectuez alors une prevision de
la valeur de cette action pour le 12
i`eme
mois en utilisant votre resultat en 1.
Exercice supplementaire 1
Le tableau ci-dessous contient des valeurs experimentales de la pression P (en Pascals) dun
certain gaz en fonction de son volume V (en m
3
) :
P 65 50 40 35 50
V 50 60 70 80 55
On suspecte entre P et V une relation de la forme P.V
b
= c , o` u b et c sont des constantes.
1. Estimez la valeur de ces constantes en utilisant les resultats dun certain ajustement lineaire
au sens des moindres carres.
2. En utilisant cet ajustement, estimez la valeur de P pour le cas o` u V vaut 100 m
3
.
Exercice supplementaire 2
La production annuelle delectricite pour les entreprises publiques dun pays pendant ces 7
derni`eres annees est :
t 1998 1999 2000 2001 2002 2003 2004
Y 3.5 2.5 4.3 3 1.5 3.2 3
1. Eectuez un ajustement hyperbolique ( prendre une hyperbole equilat`ere) sur ces donnees.
2. Sur base de cet ajustement, donnez une prevision de la production annuelle delectricite
pour lannee 2005.
2
Universite Libre de Bruxelles Annee academique 2008-2009
STAT-D-101
Catherine Dehon
Seances 10
1
2
, 11 et 12 : Variables aleatoires et lois de
probabilite discr`etes
1
Exercice 1
Soit X la variable aleatoire dont la loi est denie par le tableau suivant :
k 1 2 3 4 5
P(X = k) 0.25 0.1 0.2 p 0.35
1. Determiner la valeur de p.
2. Calculer lesperance mathematique et la variance de X.
3. Calculer le mode et la mediane de X.
4. Calculer la valeur de la fonction de repartition de X en 2, 2.76 et 7.
Exercice 2
On designe par X la variable aleatoire qui represente le nombre de boules rouges obtenues
apr`es cinq tirages avec remise dans une urne qui contient deux boules rouges et six boules
blanches.
1. Determiner la loi de probabilite de X.
2. Calculer E(X) et V ar(X).
3. Calculer la probabilite de tirer au moins une boule rouge.
4. Calculer la probabilite que le nombre de boules rouges soit superieur ou egal `a 1 et
inferieur `au egal `a 3.
5. Calculer les quantiles dordre 0.25, 0.5, 0.75 de X.
6. Determiner la distribution du nombre de boules blanches, parmi les 5 boules tirees.
1
Les enonces sont disponibles sur le site www.ulb.ac.be/soco/statrope
1
Exercice 3
Le nombre de micro-ordinateurs vendus chaque jour dans un magasin informatique suit
une loi de Poisson de moyenne 8. Calculer la probabilite que dans une journee :
1. on ne vende aucun micro-ordinateur,
2. on vende au moins un micro-ordinateur,
3. le nombre de micro-ordinateurs vendus soit superieur ou egal `a 2 et inferieur ou egal
`a 6.
Exercice 4
On lance 8 balles pour atteindre une cible. Les dierents lancements sont independants.
Si on lance une balle, la probabilite quelle atteingne la cible est 0.95. Soit X la variable
aleatoire qui compte le nombre de fois que la cible a ete atteinte.
1. Determinez la loi de probabilte de X.
2. Combien de balles seront necessaires pour etre s ur que la cible ait ete atteinte au
moins une fois avec une probabilite superieure ou egale `a 0.99.
3. Calculez la probabilite que la cible soit atteinte au moins quatre fois.
4. Supposons quon lance 100 balles, calculez la probabilite que :
i) la cible soit atteinte exactement 96 fois,
ii) la cible soit atteinte plus que 92 fois.
Exercice 5
Un gardien de nuit doit ouvrir une porte dans le noir, avec 10 clefs dont une seule est
la bonne. Soit X la variable aleatoire qui compte le nombre dessais necessaires jusqu`a
louverture de la porte. Le gardien etant ivre, il melange toutes les clefs `a chaque tentative.
1. Quelles sont les valeurs possibles de X ?
2. Calculez la probabilite de levenement [X = k], o` u k est une valeur prise par X.
3. De quel type de distribution sagit-il ?
4. Donnez les valeurs de la moyenne et de la variance de X.
5. Quelle est la probabilite que la porte soit ouverte apr`es n tentatives ?
6. Le gardien se dit avant de commencer : Si jessaie n fois, jai une probabilite dau
moins 0.95 de reussir `a ouvrir la porte. Quelle est la valeur minimale de n?
Exercice 6
Dans une urne qui contient 10 boules numerotees de 1 `a 10, on extrait 3 boules avec
remise. Soient X la variable aleatoire egale au plus grand des 3 numeros tires.
1. Quelles sont les valeurs possibles de X ?
2
2. Calculez la probabilite de levenement [X k], o` u k est une valeur prise par X.
3. Deduire la loi de probabilite de X.
4. Calculez P(1 < X 3).
5. Les deux evenements (X = 1) et (X = 3) sont-ils independants ? (Justiez votre
reponse).
6. Calculez la probabilite que X soit paire.
Exercice 7
Soit X une variable aleatoire discr`ete qui ne peut prendre que les valeurs 1, 3 et 6 avec
des probabilites
1
4
,
1
2
et
1
4
.
1. Quelle est la fonction generatrice des moments de X ?
2. En utilisant le resultat precedent, calculez lesperance mathematique et la variance
de X.
Exercice supplementaire 1
Dans une entreprise travaillent 6 ouvriers et 5 employes. Le PDG, souhaitant prendre lavis
de son personnel, interroge 7 personnes choisies au hasard parmi ces 11 personnes. Soit
X la variable aleatoire : nombre douvriers interroges. Determiner la loi de probabilite
de X.
Exercice supplementaire 2
Une variable aleatoire X peut prendre lune des trois valeurs 0, 1 ou 2 avec des probabilites
positives. Determiner sa loi de probabilite sachant que E(X) = 1 et V ar(X) = 1/2.
Exercice supplementaire 3
Soit X la variable aleatoire discr`ete qui associe `a chaque enfant de 8 ans le nombre de
bonnes reponses quil fournit lors dun test de discrimination droite-gauche des mains. X
obeit `a la distribution de probabilite suivante :
Nombre de bonnes reponses k 0 1 2 3 4 5 6
P(X = k) 0.05 0.15 0.20 0.25 0.20 0.10 0.05
1. On choisit au hasard un enfant de 8 ans. Calculez la probabilite des evenements
suivants :
i) Lenfant fournit au moins 2 bonnes reponses mais pas plus de 5.
ii) Le nombre de bonnes reponses fournies par lenfant est strictement superieur `a
4.
3
2. Calculez le mode et la mediane de X.
3. Calculez la moyenne de X et la valeur de la fonction de repartition de X en 3.4.
4. Supposons que lon selectionne, par tirages aleatoires `a probabilites egales avec re-
mise, un echantillon de 25 enfants de 8 ans.
i) Quelle est la distribution de probabilite de la variable aleatoire Y correspondant
au nombre denfants donnant 4 bonnes reponses dans lechantillon?
ii) A combien denfants donnant 4 bonnes reponses peut-on raisonnablement sat-
tendre dans lechantillon ?
Exercice supplementaire 4
Soit X une loi binomiale de moyenne 3 et de variance 2. Calculez P(X = 7).
Exercice supplementaire 5
Un gardien de nuit doit ouvrir une porte dans le noir, avec n clefs dont une seule est
la bonne. Soit X la variable aleatoire qui compte le nombre dessais necessaires jusqu`a
louverture de la porte. Determinez la loi de probabilite de X si le gardien essaie les clefs
une `a une sans utiliser deux fois la meme. Calculez lesperance et la variance de X.
Exercice supplementaire 6
On consid`ere une succession depreuves de Bernoulli independantes de meme param`etre.
A chaque epreuve la probabilite de succ`es est notee p (p ]0, 1[). On note X la longueur
aleatoire du run demarrant au premier coup, o` u lon appelle run une succession soit de
succ`es ou dechecs interrompue par levenement contraire. Par exemple pour une sequence
debutant par SSSE...le premier run est de longueur 3 et est un run de succ`es. Trouver la
loi de X et son esperance.
Exercice supplementaire 7
On consid`ere un point M se deplacant sur un axe dorigine O, en partant de O et par
sauts dune unite vers la droite avec la probabilite 0.2 et vers la gauche avec la probabilite
0.8. Les sauts etant supposes independants.
Soit X la variable aleatoire egale `a labscisse du point `a lissue du 8
i`eme
deplacement et
Y la variable aleatoire egale au nombre de sauts vers la droite.
1. Determiner la loi de probabilite de Y .
2. Donner les valeurs de la moyenne et de la variance de Y .
3. Calculer les quantiles dordre 0.25, 0.5, 0.75 de Y .
4. Exprimer la variable aleatoire egale au nombre de sauts vers la gauche en fonction
de Y .
5. Deduire lexpression de X en fonction de Y .
4
6. Quelles sont les valeurs prises par X ?
7. Determiner la loi de probabilite de X.
Exercice supplementaire 8
Un fumeur dispose dun nombre inni dallumettes. La probabilite quune allumette
seteigne est 0.2 . Le fumeur tente dallumer sa cigarette, chaque essai est independant
des autres. Sil allume sa cigarette, il cesse dallumer des allumettes. Soit X la variable
aleatoire egale au nombre dallumettes utilisees.
1. Quelles sont les valeurs prises par X ?
2. Calculez la probabilite de levenement [X = k], o` u k est une valeur prise par X.
3. De quel type de distribution sagit-il ?
4. Donnez les valeurs de la moyenne et de la variance de X.
5. Quelle est la probabilite quil reussisse `a allumer sa cigarette avec n allumettes ?
6. Combien dallumettes seront necessaires pour quil reussisse `a allumer sa cigarette
avec une probabilte superieure ou egale `a 0.95.
7. Pour tout k 1, montrez que
P(X = n +k|X > n) = P(X = k).
8. Sachant que le nombre dallumettes utilisees est superieure strictement `a 10, quelle
est la probabilite quil reussisse `a allumer sa cigarette avec exactement 18 allu-
mettes ?
Exercice supplementaire 9
Les valeurs prises par une variable binomiale X de param`etres n et p sont achees par
un compteur de la facon suivante :
Si X prend une valeur non nulle, le compteur ache correctement cette valeur.
Si X prend la valeur 0, le compteur ache nimporte quoi, au hasard, entre 1 et n.
On note Y la variable aleatoire nombre ache par le compteur.
1. Quelle sont les valeurs prises par Y ?
2. Calculer la probabilite P(Y = k|X = 0), pour un k V
Y
.
5
Universite Libre de Bruxelles Annee academique 2008-2009
STAT-D-101
Catherine Dehon
Exercices supplementaires
Exercice 1
Questions `a choix multiples : il y a au moins une reponse exacte par question.
(a) Pour une serie dobservations dune variable quantitative :
1. on peut calculer quatre quartiles ;
2. lecart interquartile contient 50% des observations ;
3. le cinqui`eme decile est egal `a la mediane ;
4. 50% des observations sont superieures au premier quartile ;
5. lecart interdecile contient 90% des observations.
(b) Si on veut minimiser linuence des valeurs extremes :
1. on pref`ere la mediane `a la moyenne ;
2. on pref`ere letendue `a lecart interquartile ;
3. on pref`ere lecart interdecile `a letendue ;
4. on pref`ere le coecient empirique de Yule et Kendall au coecient de Fisher ;
5. on pref`ere lecart interquartile `a lecart-type.
(c) Une etude des notes obtenues par deux groupes de premi`ere bachelor `a lULB en
sciences economiques `a un test commun a fourni les resultats suivants :
Groupe Groupe 1 Groupe 2
Eectif 20 30
Moyenne 16 13
Ecart-type 6 6
Mode 14 11
Mediane 14 11
1. la note moyenne des deux groupes reunies est comprise strictement entre 14, 25
et 14, 45 ;
2. lecart-type des notes des deux groupes reunies est superieur strictement `a
6, 12 ;
3. la mediane des notes des deux groupes reunies est egale `a 12 ;
4. la distribution du premier groupe presente une asymetrie `a gauche ;
5. la dispersion dans le deuxi`eme groupe est plus importante que dans le premier.
1
(d) Soit {x
1
, x
2
, . . . , x
n
} un echantillon de donnees numeriques, determinez la ou les
armation(s) toujours exacte(s) :
1.
1
n

n
i=1
(x
i
x) = 0 ;
2.
1
n

n
i=1
|x
i
x
9/10
|
1
n

n
i=1
|x
i
x
1/2
| ;
3.

n
i=1
x
2
i

1
n
(

n
i=1
x
i
)
2
;
4.
1
n

n
i=1
x
2
i
s
2
x
;
5.
1
n

n
i=1
(x
i
x)
2

1
n

n
i=1
(x
i
x
1/2
)
2
;
6. si la distribution presente une asymetrie `a droite alors x x
1/2
x
M
; ;
7. EQ
1
2
(a
2
a
1
), o` u EQ est lecart interquartile, a
1
et a
2
sont les valeurs
pivots ;
8. si tous les x
i
(a
1
, a
2
) alors x
g
= x
(1)
et x
d
= x
(n)
, o` u x
g
et x
d
sont les valeurs
adjacentes.
(e) Pour une distribution observee {(x
j
, n
j
); j = 1, . . . , J} relative `a une variable quan-
titaive X,
1. pour que la variance soit nulle, il sut que
1
n

J
j=1
n
j
x
2
j
=

1
n

J
j=1
n
j
x
j

2
;
2.
1
n

J
j=1
n
j
(x
j
x) s
2
x
;
3. la variance est : s
2
x
=
1
n

J
j=1
(n
j
x
2
j
x
2
) ;
4. pout tout j = 1, . . . , J, N
j
= n
1
+ n
2
+ . . . + n
j
;
5. N

j
est le nombre dobservations x
j
;
6. la courbe cumulative `a gauche est une fonction en escalier (continue `a droite).
(f) Considerons une serie statistique {x
1
, . . . , x
n
} relative `a un caract`ere quantitatif X
et le changement dorigine et dunite suivant :
y
i
= (x
i
2)/10, i = 1, . . . , n.
Dans ces conditions, comment se transforment la moyenne, le mode, la mediane,
lecart-type, etc de la serie statistique {y
1
, . . . , y
n
}. Determinez la ou les arma-
tion(s) totalement exacte(s) :
1. la moyenne et la mediane diminuent de 2 et la variance reste inchangee ;
2. la moyenne et le mode diminuent de 2 et ensuite divises par 10, et la variance
est divisee par 10 ;
3. la moyenne, le mode, le premier decile et le troisi`eme quartile sont diminues de
2 et ensuite divises par 10.
4. letendue, lecart-type et lecart interquartile sont divises par 10 et le coecient
de Fisher reste inchange ;
5. le coecient de variation, le coecient empirique de Yule et Kendall et le
coecient empirique de Pearson restent inchanges.
2
(g) Pour une variable quantitative de distribution symetrique, determinez la ou les
armation(s) toujours exacte(s) :
1. 50% des observations sont superieures `a la moyenne ;
2. la moyenne est egale au mode ;
3. x
3/4
x
1/4
= 2(x
1/2
x
1/4
) ;
4.
1
n

n
i=1
(x
i
x
1/2
) = 0 ;
5. s
2
x
+ x
2
1/2
=
1
n

n
i=1
x
2
i
.
(h) Pour comparer des distributions de variables statistiques exprimees dans des unites
dierentes (par exemple des distributions de salaires exprimes dans des monnaies
dierentes), on peut utiliser les caracteristiques suivantes :
1. la mediane ;
2. lecart interquartile ;
3. le coecient de variation ;
4. le rapport interdecile
x
9/10
x
1/10
;
5. la moyenne.
(i) Soient deux evenements independants A et B dun meme espace probabilise tels
que : P(A) = 0, 3 et P(B) = 0, 2. Determinez la ou les armation(s) correcte(s) :
1. P(A B) = 0, 44 ;
2. P(A B) = 0, 6 ;
3. P(A B) = 0, 06 ;
4. P(A \ B) = 0, 24 ;
5. P(

A B) = 0, 84 ;
6.

A et

B sont independants ;
7. P(

A|B) = 0, 7 ;
8.

A et B ne sont pas independants.
(j) Trois chasseurs visent simultanement un meme li`evre et tirent en meme temps.
Soient p
1
, p
2
et p
3
les probabilites respectives de toucher le li`evre pour chaque
chasseur (p
1
p
2
p
3
), alors la probabilite que le li`evre soit touche par au moins
un des chasseurs :
1. peut etre inferieure `a p
1
;
2. est egale `a (p
1
+ p
2
+ p
3
) ;
3. est egale `a [1 (1 p
1
)(1 p
2
)(1 p
3
)] ;
4. est comprise entre (p
1
.p
2
.p
3
) et (p
1
+ p
2
+ p
3
) ;
5. est comprise entre [1 (1 p
1
)
3
] et [1 (1 p
3
)
3
].
(k) Soient A et B deux evenements dun espace probabilise tels que P(A) = P(B) =
3
4
.
Determinez la ou les armation(s) toujours exacte(s) :
3
1. A et B sont des ev`enements mutuellement exclusifs ;
2. P(A B) P(A B) ;
3.
3
4
P(A B) 1 et
1
2
P(A B)
3
4
;
4.
1
2
P(A B) <
3
4
et
3
4
< P(A B) 1 ;
5. aucune des armations ci-dessus nest correcte.
(l) Dans une classe, on a mesure la taille (en pouces) et le poids (en livres) de 10
el`eves. Lobjectif est detudier le poids en fonction de la taille. Le tableau ci-dessous
presente les resultats obtenus pour 10 el`eves (4 decimales dans cet exercice).
Nom Albert Alice Cindy Carol Henry July Jane Janet Jack John
Taille 69.0 56.5 65.3 62.8 63.5 57.3 59.8 62.5 62.5 59.0
Poids 112.5 84.0 98.0 102.5 102.5 83.0 84.5 112.5 84.0 99.5
Sachant que 1 pouce = 2.54 cm et 1 livre = 0.454 kg, determinez la ou les arma-
tion(s) toujours exacte(s) :
1. La pente de la droite de regression de y en x est inferieure strictement `a 2.1997 ;
2. La prevision du poids chez un el`eve qui mesure 177.8 cm est une valeur inferieure
strictement `a 116 livre ;
3. La prevision du poids chez un el`eve qui mesure 177.8 cm est une valeur comprise
strictement entre 53 et 55 kg ;
4. Le residu correspondant `a letudiant Henry est superieure strictement `a 1 kg ;
5. Lequation de la droite de regression de y en x est bien adaptee aux donnees.
(m) Le tableau suivant donne la repartition de 200 etudiants de premi`ere annee uni-
versitaire selon deux caract`eres statistiques : lage X et le principal sport pratique
Y .
n
jk
Football Natation Tennis Equitation
18 ans 45 23 15 3
19 ans 29 18 8 2
20 ans 18 10 3 2
21 ans 14 8 2 0
Determinez la ou les armation(s) toujours exacte(s) :
1. Le coecient empirique de Pearson de la variable X est superieur strictement
`a 0, 961 ;
2. Le coecient de Fisher de la variable X est compris strictement entre 0.55 et
0.75 ;
3. Le coecient de variation de la variable age est inferieur strictement `a 0.08 ;
4. La somme des ecarts `a lindependance est nulle ;
5. La mesure dassociation est inferieure strictement `a 4.456.
4
(n) Un jouet se trouve cache dans lune des N botes fermees o` u un enfant le cherche.
Celui-ci ouvre une bote au hasard et recommence jusqu`a ce quil trouve le jouet.
On suppose qu`a chaque tentative il a oublie le resultat de toutes les precedentes.
Soit X le nombre de tentatives eectuees jusqu`a la decouverte du jouet. Determinez
la ou les armation(s) toujours exacte(s) :
1. V ar(X) = (E(X))
2
E(X) ;
2. Il faut 5 botes pour que lenfant ait environ trois chances sur quatre de trouver
le jouet `a lissue de ses trois premi`eres tentatives ;
3. Aucune des armations ci-dessus nest correcte ;
4. X suit une distribution geometrique de param`etre 1/N ;
5. Le jouet est trouve `a lissue de n tentatives avec une probabilite egale `a 1
(1
1
n
)
N
.
(o) Dans une urne qui contient 10 boules numerotees de 1 `a 10, on extrait 3 boules
avec remise. Soient X la variable aleatoire egale au plus grand des 3 numeros tires.
Determinez la ou les armation(s) toujours exacte(s) :
1. X est une variable aleatoire Binomiale de moyenne 0.3 ;
2. La probabilite que X soit paire est comprise strictement entre 0.567 et 0.578 ;
3. La probabilite que X soit impaire est inferieure `a 0.578 ;
4. 0.025 < P(1 < X 3) < 0.03 ;
5. Les deux evenements (X = 1) et (X = 3) sont dependants.
Exercice 2
Considerons la distribution des salaires (en euros) dans les entreprises du secteur prive en
france pour les annees 1975 et 2005. Lintervalle de variation des salaires est partage en 5
classes. Notons x
cj
le centre de la classe j et n
j
leectif de la classe j pour (j = 1, . . . , 5).
1975 2005
Classe x
cj
n
j
Classe x
cj
n
j
1 1130 20 1 1706 20
2 1400 20 2 2030 20
3 1850 20 3 2475 20
4 2590 20 4 3200 20
5 5150 20 5 5815 20
1. Construisez les courbes de Lorentz pour les annees 1975 et 2005. Comparez la
concentration des salaires entre ces deux annees.
2. Calculez le coecient de Gini pour les deux annees. Interpretez ces coecient.
5
Exercice 3
Le tableau ci-dessous presente les prix et les quantites de Coca-Cola et de BigMac achetees
par un consommateur en 2000 et 2005.
BigMac (j = 1) BigMac (j = 2)
Prix en $ (`a la pi`ece) Quantite (pi`ece) Prix en $ (au litre) Quantite (litre)
p
(1)
i
q
(1)
i
p
(2)
i
q
(2)
i
2000(i = 0) 2 12 1.5 7
2005(i = 1) 3 13 2 10
Comment donner une mesure de la variation de prix du panier compose des ces deux
produits ?
Exercice 4
Une meme somme S a ete conee `a deux banques B
1
et B
2
pour une duree de 10 ans. Les
rendements successifs des placements eectues par les dux banques ont ete les suivants :
Bnaque B
1
: 12% pendant 2 ans, puis 8% pendant 4 ans, puis 6% pendant 4 ans ;
Bnaque B
2
: 10% pendant 3 ans, puis 8% pendant 3 ans, puis 7% pendant 4 ans.
1. Calculez le taux moyen de croissance dans chaque banque.
2. A quel taux la moins performante des deux banques aurait-elle d u placer largent
pendant la troisi`eme periode pour egaler lautre ?
Exercice 5
Un jeu de cartes ordinaire comprend 52 cartes. Chacune de ces 52 cartes appartient `a une
couleur (le carreau, le coeur, le tr`ee et le pique) et poss`ede une valeur (2, 3, 4, 5, 6, 7, 8,
9, 10, J (valet), Q (dame), K (roi) et A (as)). Pour les questions qui suivent, on consid`ere
une main de poker, cest-`a-dire une combinaison de 5 cartes tirees au hasard `a partir dun
jeu de 52 cartes. Quelle est la probabilite quune main contienne :
1. une paire, cest-`a-dire une main de poker contenant en tout 4 valeurs dierentes ?
2. deux paires, (Les deux paires ne peuvent pas avoir la meme valeur et la valeur de
la cinqui`eme cartes doit etre dierente des valeurs des deux paires) ?
3. un brelan, cest-`a-dire une main de poker contenant trois cartes de la meme valeur
(Les deux autres cartes doivent etre de valeurs dierentes entre elles et dierentes
de la valeur commune aux trois premi`eres cartes) ?
4. une main pleine, cest-`a-dire une main de poker contenant trois cartes dune valeur
et deux cartes dune autre valeur ?
5. un carre, cest-`a-dire une main de poker contenant quatre cartes de la meme valeur
(et une cinqui`eme carte quelconque) ?
6

Vous aimerez peut-être aussi