Vous êtes sur la page 1sur 192

Cours ralis par Laurent DOYEN

La statistique descriptive

DOYEN

1. Introduction et dfinitions
Statistique descriptive:
Analyse et synthse, NUMERIQUE et GRAPHIQUE,
dun ensemble de donnes

DOYEN

1. Introduction et dfinitions
Statistique descriptive:
Analyse et synthse, NUMERIQUE et GRAPHIQUE,
dun ensemble de donnes

But: Synthtiser linformation contenue dans les donnes


Origine: tude dmographique

DOYEN

Individus: latin: ce qui est indivisible


stat: chacune des personnes tudies

DOYEN

Individus: latin: ce qui est indivisible


stat: chacune des personnes tudies
Personne humaine, automobile, entreprise, pays, .

DOYEN

Individus: latin: ce qui est indivisible


stat: chacune des personnes tudies
Personne humaine, automobile, entreprise, pays, .

Population: ensemble des individus observs

DOYEN

Individus: latin: ce qui est indivisible


stat: chacune des personnes tudies
Personne humaine, automobile, entreprise, pays, .

Population: ensemble des individus observs


Les tudiants de 12-25ans, les Renault produites entre 1990 et 1995

DOYEN

Individus: latin: ce qui est indivisible


stat: chacune des personnes tudies
Personne humaine, automobile, entreprise, pays, .

Population: ensemble des individus observs


Les tudiants de 12-25ans, les Renault produites entre 1990 et 1995

Caractre (Variable Statistique): ce quon observe sur


chacun des individus de la population

DOYEN

Individus: latin: ce qui est indivisible


stat: chacune des personnes tudies
Personne humaine, automobile, entreprise, pays, .

Population: ensemble des individus observs


Les tudiants de 12-25ans, les Renault produites entre 1990 et 1995

Caractre (Variable Statistique): ce quon observe sur


chacun des individus de la population
Sexe, age, taille, nombre enfants,

DOYEN

Attention:
La population doit tre dfinie avec prcision,
cest totalement diffrent de considrer:
Les tudiants
Les tudiants de 12-25 ans
Les tudiants de lIUP com. et vente de Grenoble

DOYEN

Attention:
La population doit tre dfinie avec prcision,
cest totalement diffrent de considrer:
Les tudiants
Les tudiants de 12-25 ans
Les tudiants de lIUP com. et vente de Grenoble

La population doit tre homogne au regard des


caractres tudis:
la rpartition des individus selon leur taille doit
distinguer les deux sexes

DOYEN

2 types de caractres:
Qualitatifs: non mesurables

DOYEN

2 types de caractres:
Qualitatifs: non mesurables

Sexe, couleur des


yeux, secteur
dactivit

DOYEN

2 types de caractres:
Qualitatifs: non mesurables
Quantitatifs: mesurables

Sexe, couleur des


yeux, secteur
dactivit

DOYEN

2 types de caractres:
Qualitatifs: non mesurables
Quantitatifs: mesurables

Sexe, couleur des


yeux, secteur
dactivit
Age, taille , PIB, taux
de chmage

DOYEN

2 types de caractres:
Qualitatifs: non mesurables
Quantitatifs: mesurables
Quantitatifs discrets:
peuvent prendre un
nombre fini et faible
de valeurs

Sexe, couleur des


yeux, secteur
dactivit
Age, taille , PIB, taux
de chmage

DOYEN

2 types de caractres:
Qualitatifs: non mesurables
Quantitatifs: mesurables
Quantitatifs discrets:
peuvent prendre un
nombre fini et faible
de valeurs

Sexe, couleur des


yeux, secteur
dactivit
Age, taille , PIB, taux
de chmage
Nb enfants
0 1 2 3 4 5

DOYEN

2 types de caractres:
Qualitatifs: non mesurables
Quantitatifs: mesurables
Quantitatifs discrets:
peuvent prendre un
nombre fini et faible
de valeurs
Quantitatifs continues:
Par nature:

Sexe, couleur des


yeux, secteur
dactivit
Age, taille , PIB, taux
de chmage
Nb enfants
0 1 2 3 4 5

DOYEN

2 types de caractres:
Qualitatifs: non mesurables
Quantitatifs: mesurables

Sexe, couleur des


yeux, secteur
dactivit
Age, taille , PIB, taux
de chmage

Quantitatifs discrets:
peuvent prendre un
nombre fini et faible
de valeurs
Quantitatifs continues: Taille:
Par nature:

Nb enfants
0 1 2 3 4 5

1m

2m

DOYEN

2 types de caractres:
Qualitatifs: non mesurables
Quantitatifs: mesurables

Sexe, couleur des


yeux, secteur
dactivit
Age, taille , PIB, taux
de chmage

Quantitatifs discrets:
peuvent prendre un
nombre fini et faible
de valeurs
Quantitatifs continues: Taille:
Par nature:
Par ncessit:

Nb enfants
0 1 2 3 4 5

1m

2m

DOYEN

2 types de caractres:

Sexe, couleur des


yeux, secteur
dactivit

Qualitatifs: non mesurables


Quantitatifs: mesurables

Age, taille , PIB, taux


de chmage

Quantitatifs discrets:
peuvent prendre un
nombre fini et faible
de valeurs
Quantitatifs continues: Taille:
Par nature:
Par ncessit:

Nb enfants
0 1 2 3 4 5

1m

2m

Nombre de salaris dune PME


0

500

DOYEN

2. tude dun caractre qualitatif


2.1 Modalits dun caractre: les diffrents tats dun
caractre qualitatif.
EXHAUSTIFS et INCOMPATIBLES

DOYEN

2. tude dun caractre qualitatif


2.1 Modalits dun caractre: les diffrents tats dun
caractre qualitatif.
EXHAUSTIFS et INCOMPATIBLES
Cad chaque individu prsente une et une seule modalit du caractre

DOYEN

2. tude dun caractre qualitatif


2.1 Modalits dun caractre: les diffrents tats dun
caractre qualitatif.
EXHAUSTIFS et INCOMPATIBLES
Cad chaque individu prsente une et une seule modalit du caractre

Cadre suprieure, Profession int., Employ, Ouvrier, Ouvrier qualifi

DOYEN

2. tude dun caractre qualitatif


2.1 Modalits dun caractre: les diffrents tats dun
caractre qualitatif.
EXHAUSTIFS et INCOMPATIBLES
Cad chaque individu prsente une et une seule modalit du caractre

Cadre suprieure, Profession int., Employ, Ouvrier, Ouvrier qualifi


Inactifs

DOYEN

2. tude dun caractre qualitatif


2.1 Modalits dun caractre: les diffrents tats dun
caractre qualitatif.
EXHAUSTIFS et INCOMPATIBLES
Cad chaque individu prsente une et une seule modalit du caractre

Cadre suprieure, Profession int., Employ, Ouvrier, Ouvrier qualifi


Inactifs

DOYEN

2.2 Pourcentage et frquence:

n
p = 100
i

N= Effectif total de la
population
ni= Effectif de la modalit
considre

n
f=N

DOYEN

N= Effectif total de la
population
ni= Effectif de la modalit
considre

2.2 Pourcentage et frquence:

n
f=N

n
p = 100

Proprit:

p =100
i

f
i

=1

DOYEN

N= Effectif total de la
population
ni= Effectif de la modalit
considre

2.2 Pourcentage et frquence:

n
f=N

n
p = 100

Proprit:

p =100
i

f
i

=1

Exemple: En 1989 parmi les franais de plus de 15 ans


Sur 21033906 hommes il y a 4286858 retraits

4286858 10020% des hommes sont retraits


21033906

DOYEN

2.3 Tableau de distribution:


Franais de plus de 15 ans en 1986
CSP

Nb de personnes

Pourcentages

Agriculteurs exploitants

1268264

2.9

Artisans, commerants et
chefs dentreprises

1757221

4.0

Cadres et professions
intellectuelles suprieures

2314770

5.3

Professions intermdiaires

4593294

10.4

Employs

6771239

15.4

Ouvriers

7121812

16.2

Retraits

8429509

19.2

Inactifs divers (autres que


retraits)

11741884

26.7

Ensemble

43997993

100

DOYEN

2.4 Reprsentations graphiques:


Rgle: sur les graphiques, les aires des modalits
sont proportionnelles leurs effectifs

DOYEN

2.4 Reprsentations graphiques:


Rgle: sur les graphiques, les aires des modalits
sont proportionnelles leurs effectifs
a. Diagramme en barre: La hauteur des barres est
proportionnelle leffectif de la
modalit
30
Agri. Exploi.
Artisans,
Cadres
Prof. Int.
Employs
Ouvriers
Retraits
Inactifs

20

10

0
Pourcentages

DOYEN

b. Diagramme en secteurs: Langle du secteur de disque est


proportionnel leffectif de la
modalit

Agri. Exploi.
Artisans,
Cadres
Prof. Int.
Employs
Ouvriers
Retraits
Inactifs

DOYEN

3. tude dune variable


quantitative discrte
Mnage Franais par rapport leur effectif en 1989
Nbe personnes

Effectif

Pourcentage

1 personne

7079434

31.6

2 personnes

7086664

31.6

3 personnes

3619655

16.1

4 personnes

3057674

13.6

5 personnes

1182235

5.3

6 ou plus

109189

1.8

22434621

100

Total

DOYEN

3. tude dune variable


quantitative discrte
Mnage Franais par rapport leur effectif en 1989
Nbe personnes

Effectif

Pourcentage

1 personne

7079434

31.6

2 personnes

7086664

31.6

3 personnes

3619655

16.1

4 personnes

3057674

13.6

5 personnes

1182235

5.3

6 ou plus

109189

1.8

22434621

100

Total

On considre
6 et +
comme valant
6

DOYEN

3.1 Frquence cumule: proportion dindividus dont la


valeur du caractre est infrieure ou gale la valeur
considre
Nbe pers.

Effectif

Pi

F. Cumule
en %

1 pers.

7079434

32

32

2 pers.

7086664

32

3 pers.

3619655

16

4 pers.

3057674

14

5 pers.

1182235

6 ou plus

109189

Total

22434621 100

DOYEN

3.1 Frquence cumule: proportion dindividus dont la


valeur du caractre est infrieure ou gale la valeur
considre
Nbe pers.

Effectif

Pi

F. Cumule
en %

1 pers.

7079434

32

32

2 pers.

7086664

32

63

3 pers.

3619655

16

4 pers.

3057674

14

5 pers.

1182235

6 ou plus

109189

Total

22434621 100

7079434 + 7086664
22434621

32+32=64

DOYEN

3.1 Frquence cumule: proportion dindividus dont la


valeur du caractre est infrieure ou gale la valeur
considre
Nbe pers.

Effectif

Pi

F. Cumule
en %

1 pers.

7079434

32

32

2 pers.

7086664

32

63

3 pers.

3619655

16

79

4 pers.

3057674

14

93

5 pers.

1182235

98

6 ou plus

109189

100

Total

22434621 100

7079434 + 7086664
22434621

32+32=64
En 1989, 63% des
mnages sont composs
de 2 personnes ou moins

DOYEN

3.2 Reprsentations graphiques:


a. Histogramme des frquences:
Diagramme en bton: en abscisse les valeurs du caractre
en ordonne les frquences

Frquence en %
30

20

10

0
1

6 et +

Nbe de pers.
par mnage

DOYEN

3.2 Reprsentations graphiques:


a. Histogramme des frquences:
Diagramme en bton: en abscisse les valeurs du caractre
en ordonne les frquences

Frquence en %
30

32% des mnages


sont composs de
2 personnes

20

10

0
1

6 et +

Nbe de pers.
par mnage

DOYEN

b. Diagramme cumulatif:
Reprsente les frquences cumules en fonction des valeurs du
caractre
Frquence en %
100

75
50

25
0
0

Nbe pers.
7 par mnage

DOYEN

b. Diagramme cumulatif:
Reprsente les frquences cumules en fonction des valeurs du
caractre
Frquence en %
100

75

79% des mnages franais


sont constitu de
strictement moins
de 4 personnes

50

25
0
0

Nbe pers.
7 par mnage

DOYEN

3.3 Rsum numrique dune distribution:


a. Caractristiques centrales:
La moyenne note

Moyenne arithmtique des valeurs du caractre pour les n


individus de la population

1
x = ni xi = f
n i
i

DOYEN

3.3 Rsum numrique dune distribution:


a. Caractristiques centrales:
La moyenne note

Reprsente le barycentre
des valeurs prises par le
caractre

Moyenne arithmtique des valeurs du caractre pour les n


individus de la population

1
x = ni xi = f
n i
i

1
x = ni xi = f
n i
i
DOYEN

Nbe pers.

Effectif

Pi

1 pers.

7079434

32

2 pers.

7086664

32

3 pers.

3619655

16

4 pers.

3057674

14

5 pers.

1182235

6 ou plus

109189

Total

22434621 100

x=
0.32*1
+0.32*2
+0.16*3
+0.14*4
+0.05*5
+0.02*6

2.4 (personnes)

1
x = ni xi = f
n i
i
DOYEN

Nbe pers.

Effectif

Pi

1 pers.

7079434

32

2 pers.

7086664

32

3 pers.

3619655

16

4 pers.

3057674

14

5 pers.

1182235

6 ou plus

109189

Total

22434621 100

x=
0.32*1
+0.32*2
+0.16*3
+0.14*4
+0.05*5
+0.02*6

Ne pas oublier
lunit

2.4 (personnes)

En 1989 en France, il y a en
moyenne 2.4 personnes par mnage

DOYEN

Le(s) mode(s)
Valeurs du caractre en lesquelles lhistogramme des
frquences possde un maximum relatif

DOYEN

Le(s) mode(s)
Valeurs du caractre en lesquelles lhistogramme des
frquences possde un maximum relatif
Frquence en %

Le mode vaut: 2 personnes

30

20

10

0
1

6 et +

Nbe de pers.
par mnage

DOYEN

Le mode
Valeurs du caractre en lesquels lhistogramme des
frquences possde un maximum RELATIF

DOYEN

Le mode
Valeurs du caractre en lesquels lhistogramme des
frquences possde un maximum RELATIF
Cette distribution a
2 modes!
Elle est BIMODALE

Cest souvent caractristique dune population


NON HOMOGENE

DOYEN

La mdiane
Valeur du caractre qui partage la srie statistique en
2 groupes de mme frquence (0.5).
On la dtermine laide des frquences cumules ou
du diagramme cumulatif

DOYEN

La mdiane
Valeur du caractre qui partage la srie statistique en
2 groupes de mme frquence (0.5).
On la dtermine laide des frquences cumules ou
du diagramme cumulatif
Frquence en %

La mdiane
est entre 1 et 2
personnes par
mnage

100

75
50

25
0
0

Nbe pers.
7 par mnage

DOYEN

La mdiane
Valeur du caractre qui partage la srie statistique en
2 groupes de mme frquence (0.5).
On la dtermine laide des frquences cumules ou
du diagramme cumulatif
Frquence en %
100

75

62% 2 pers. ou moins


50

32% 1 pers. ou moins

25
0
0

Nbe pers.
7 par mnage

La mdiane
est entre 1 et 2
personnes par
mnage

DOYEN

Quelle est la diffrence entre moyenne et mdiane?

Note de prparation la maison semaine3:

x=12
6

14

mdiane

16

DOYEN

Quelle est la diffrence entre moyenne et mdiane?

Note de prparation la maison semaine3:

x=12
3

x=9

14

16

mdiane
La mdiane est peu sensible aux valeurs
aberrantes contrairement la moyenne

DOYEN

b. Caractristiques de dispersion:
Exemple:
Notes des devoirs la maison en 2001 lIUP com et
vente
Semaine 1:

9, 10, 10, 11

Semaine 2:

0, 10, 10, 20

DOYEN

b. Caractristiques de dispersion:
Exemple:
Notes des devoirs la maison en 2001 lIUP com et
vente
Semaine 1:

9, 10, 10, 11

Semaine 2:

0, 10, 10, 20

Toutes les caractristiques


centrales valent 10!

DOYEN

b. Caractristiques de dispersion:
Exemple:
Notes des devoirs la maison en 2001 lIUP com et
vente
Semaine 1:

9, 10, 10, 11

Semaine 2:

0, 10, 10, 20

Toutes les caractristiques


centrales valent 10!

Trouver des valeurs numriques qui caractrisent la


dispersion de la distribution
Comment les valeurs sont elles loignes de la
moyenne?

DOYEN

Une mauvaise ide:

Semaine 1:

1
(i xix )

n
n i

9, 10, 10, 11

1 ( 1*(910) + 2*(1010) + 1*(1110) ) = 0


4

DOYEN

Une mauvaise ide:

Semaine 1:

1
(i xix )

n
n i

9, 10, 10, 11

1 ( 1*(910) + 2*(1010) + 1*(1110) ) = 0


4
=

+
0
Les carts positifs et ngatifs se compensent!

DOYEN

Lcart absolu moyen:


La moyenne des ECARTS ABSOLUS la moyenne

1
=
ex n i ni

x
=
xi f
i

x
xi

DOYEN

Lcart absolu moyen:


Nb pers.

Effectif

Pi

1 pers.

7079434

32

2 pers.

7086664

32

3 pers.

3619655

16

4 pers.

3057674

14

5 pers.

1182235

6 ou plus

109189

Total

22434621 100

x=2.4 (personnes)
0.32 * |1-2.4|
+ 0.32 * |2-2.4|
+ 0.16 * |3-2.4|
+ 0.14 * |4-2.4|
+ 0.05 * |5-2.4|
+ 0.02 * |6-2.4|

1.4 (personnes)

DOYEN

Lcart absolu moyen:


Nb pers.

Effectif

Pi

1 pers.

7079434

32

2 pers.

7086664

32

3 pers.

3619655

16

4 pers.

3057674

14

5 pers.

1182235

6 ou plus

109189

Total

22434621 100

x=2.4 (personnes)
0.32 * |1-2.4|
+ 0.32 * |2-2.4|
+ 0.16 * |3-2.4|
+ 0.14 * |4-2.4|
+ 0.05 * |5-2.4|
+ 0.02 * |6-2.4|

1.4 (personnes)
Attention lunit

DOYEN

La variance et lcart-type:
La variance est la moyenne des carrs des carts la
moyenne

1
= ni
n i

(xix ) = f (xix)
2

DOYEN

La variance et lcart-type:
La variance est la moyenne des carrs des carts la
moyenne Si x a pour unit la personne, alors
a pour unit personne
2

1
= ni
n i

(xix ) = f (xix)
2

DOYEN

La variance et lcart-type:
La variance est la moyenne des carrs des carts la
moyenne Si x a pour unit la personne, alors
a pour unit personne
2

1
= ni
n i

(xix ) = f (xix)
2

Lcart-type est la racine carr de la variance

DOYEN

La variance et lcart-type:
La variance est la moyenne des carrs des carts la
moyenne Si x a pour unit la personne, alors
a pour unit personne
2

1
= ni
n i

(xix ) = f (xix)
2

Lcart-type est la racine carr de la variance


Mme unit que le
caractre

DOYEN

La variance et lcart-type:
La variance est la moyenne des carrs des carts la
moyenne Si x a pour unit la personne, alors
a pour unit personne
2

1
= ni
n i

(xix ) = f (xix)
2

Lcart-type est la racine carr de la variance


Mme unit que le
caractre

Entre x2 et

x+2 il y a au moins 75% de la population

DOYEN

Pour calculer la variance on peut utiliser la formule:

Nbe pers.

Effectif

Pi

1 pers.

7079434

32

2 pers.

7086664

32

3 pers.

3619655

16

4 pers.

3057674

14

5 pers.

1182235

6 ou plus

109189

Total

22434621 100

= f
i

x
i
i

x=2.4 (personnes)
2

0.32 * 12
+ 0.32 * 22
+ 0.16 * 32
+ 0.14 * 42
+ 0.05 * 52
+ 0.02 * 62

7.25-2.4 1.5 ( personnes )


2

DOYEN

Pour calculer la variance on peut utiliser la formule:

Nbe pers.

Effectif

Pi

1 pers.

7079434

32

2 pers.

7086664

32

3 pers.

3619655

16

4 pers.

3057674

14

5 pers.

1182235

6 ou plus

109189

Total

22434621 100

= f
i

x
i
i

x=2.4 (personnes)
2

0.32 * 12
+ 0.32 * 22
+ 0.16 * 32
+ 0.14 * 42
+ 0.05 * 52
+ 0.02 * 62

Attention
lunit
2

7.25-2.4 1.5 ( personnes )


2

DOYEN

1.51.2 (personne)
En 1999, au moins 75% des mnages franais ont
un effectif entre 0 et 4.8 personnes.

DOYEN

4. tude dune variable


quantitative continue
Mme notion que dans le chapitre prcdent.
La seule diffrence est que on ne considre pas les
modalit une par une mais par CLASSES

DOYEN

4. tude dune variable


quantitative continue
Mme notion que dans le chapitre prcdent.
La seule diffrence est que on ne considre pas les
modalit une par une mais par CLASSES

Intervalle de valeurs possibles pour la


variable statistique continue

DOYEN

Population franaise active par ge en 1999

Age
15-24
25-29
30-34
35-39
40-44
45-49
50-54
55 et +
Total

Effectif Pourcentage
2279542
8.6
3628502
13.7
3771554
14.2
3865252
14.6
3770300
14.2
3696642
13.9
3305278
12.5
2225411
8.4
26542481
100

Cumul
8.6
22.3
36.5
51.0
65.2
79.2
91.6
100
100

DOYEN

Population franaise active par ge en 1999

Il y a
3771554
personnes
dans la
classe
dge des
30-34 ans

Age
15-24
25-29
30-34
35-39
40-44
45-49
50-54
55 et +
Total

Effectif Pourcentage
2279542
8.6
3628502
13.7
3771554
14.2
3865252
14.6
3770300
14.2
3696642
13.9
3305278
12.5
2225411
8.4
26542481
100

Cumul
8.6
22.3
36.5
51.0
65.2
79.2
91.6
100
100

DOYEN

Comment dterminer les classes?

DOYEN

Comment dterminer les classes?


Nombre de classes relativement faible: 10

DOYEN

Comment dterminer les classes?


Nombre de classes relativement faible: 10
Effectif des classes du mme ordre de grandeur
Classe fine l o le caractre est plus frquent
Classe large l o le caractre est rare

DOYEN

Comment dterminer les classes?


Nombre de classes relativement faible: 10
Effectif des classes du mme ordre de grandeur
Classe fine l o le caractre est plus frquent
Classe large l o le caractre est rare

Essayer dutiliser des classes de mme amplitude

DOYEN

Comment dterminer les classes?


Nombre de classes relativement faible: 10
Effectif des classes du mme ordre de grandeur
Classe fine l o le caractre est plus frquent
Classe large l o le caractre est rare

Essayer dutiliser des classes de mme amplitude


Souvent la premire et la dernire classe nont pas la
mme amplitude

DOYEN

4.1 Frquence relative


Quand les amplitudes des classes sont diffrentes on
ne considre plus les frquences, mais les
FREQUENCES RELATIVES:

est lamplitude de la classe

f
a

i
i

DOYEN

.ai

Age

15-24

Cumul .f relative 5 ans


2279542 0.086 8.6
0.043

25-29

3628502 0.137

22.3

0.137

30-34

3771554 0.142

36.5

0.142

35-39

3865252 0.146

51.0

0.146

40-44

3770300 0.142

65.2

0.142

45-49

3696642 0.139

79.2

0.139

50-54

3305278 0.125

91.6

0.125

55 et + 2225411 0.084

100

0.042

Total

100

Effectif

26542481

.fi

DOYEN

.ai

Age

15-24

Cumul .f relative 5 ans


2279542 0.086 8.6
0.043

25-29

3628502 0.137

22.3

0.137

30-34

3771554 0.142

36.5

0.142

35-39

3865252 0.146

51.0

0.146

40-44

3770300 0.142

65.2

0.142

45-49

3696642 0.139

79.2

0.139

50-54

3305278 0.125

91.6

0.125

55 et + 2225411 0.084

100

0.042

Total

100

Effectif

26542481

.fi

Pour avoir la largeur de classe il faut


fixer la borne suprieur de la classe.
Il faut prendre une dcision raisonnable.
Ici on parle de population active: 55-64

DOYEN

4.2 Reprsentations graphiques:


a. Histogramme des frquences:
Les classes de la distribution forment les bases des batons
Les SURFACES sont proportionnelles aux frquences!

DOYEN

4.2 Reprsentations graphiques:


a. Histogramme des frquences:
Les classes de la distribution forment les bases des batons
Les SURFACES sont proportionnelles aux frquences!

Donc si les classes sont damplitudes diffrentes, les


HAUTEURS des histogrammes sont proportionnelles
aux FREQUENCES RELATIVES.

DOYEN

.f relatives
5 ans
16
14
12
10
8
6
4
2

Age en

0
0

10

20

30

40

50

60

annes

DOYEN

.f relatives
5 ans
16
14
12
10
8
6
4
2

Age en

0
0

10

20

30

40

50

60

annes

Pour la borne suprieure on


conserve toujours la mme

DOYEN

b. Polygone des frquences cumules:


En abscisse les limites de classes
En ordonne les frquence cumules

On rejoint les points


par une ligne brise

.f cumules
100
80
60
40
20
0

Age en annes
0

10

20

30

40

50

60

DOYEN

4.3 Rsum numrique dune distribution:


a. Caractristiques centrales:
La moyenne note

Moyenne arithmtique des valeurs du caractre pour les n


individus de la population

1
x = ni ci = f
n i
i

DOYEN

4.3 Rsum numrique dune distribution:


a. Caractristiques centrales:
La moyenne note

Moyenne arithmtique des valeurs du caractre pour les n


individus de la population

1
x = ni ci = f
n i
i

On ne considre plus les valeurs des modalits, mais les


CENTRES DES CLASSES

DOYEN

4.3 Rsum numrique dune distribution:


a. Caractristiques centrales:
La moyenne note

Reprsente le barycentre
des valeurs prises par le
caractre

Moyenne arithmtique des valeurs du caractre pour les n


individus de la population

1
x = ni ci = f
n i
i

On ne considre plus les valeurs des modalits, mais les


CENTRES DES CLASSES

DOYEN

x=f
i

Age

Effectif

15-24

2279542 0.086

8.6

25-29

3628502 0.137

22.3

30-34

3771554 0.142

36.5

35-39

3865252 0.146

51.0

40-44

3770300 0.142

65.2

45-49

3696642 0.139

79.2

50-54

3305278 0.125

91.6

55 et + 2225411 0.084

100

Total

100

26542481

.fi

Cumul

DOYEN

x=f

15+24 20
2

.ci

Age

Effectif

20

15-24

2279542 0.086

8.6

27

25-29

3628502 0.137

22.3

33

30-34

3771554 0.142

36.5

37

35-39

3865252 0.146

51.0

43

40-44

3770300 0.142

65.2

47

45-49

3696642 0.139

79.2

53

50-54

3305278 0.125

91.6

60

55 et + 2225411 0.084

100

Total

100

26542481

.fi

Cumul

DOYEN

x=f

15+24 20
2

.ci

Age

Effectif

20

15-24

2279542 0.086

8.6

27

25-29

3628502 0.137

22.3

33

30-34

3771554 0.142

36.5

37

35-39

3865252 0.146

51.0

43

40-44

3770300 0.142

65.2

47

45-49

3696642 0.139

79.2

53

50-54

3305278 0.125

91.6

60

55 et + 2225411 0.084

100

Total

100

26542481

.fi

Cumul

0.086*20
+ 0.137*27
+ 0.142*33
+ 0.146*37
+ 0.142*43
+ 0.139*47
+ 0.125*53
+ 0.042*60

x 40 (ans)

DOYEN

x=f

15+24 20
2

.ci

Age

Effectif

20

15-24

2279542 0.086

8.6

27

25-29

3628502 0.137

22.3

33

30-34

3771554 0.142

36.5

37

35-39

3865252 0.146

51.0

43

40-44

3770300 0.142

65.2

47

45-49

3696642 0.139

79.2

53

50-54

3305278 0.125

91.6

60

55 et + 2225411 0.084

100

Total

100

26542481

.fi

Cumul

0.086*20
+ 0.137*27
+ 0.142*33
+ 0.146*37
+ 0.142*43
+ 0.139*47
+ 0.125*53
+ 0.042*60

x 40 (ans)

En 1999 en France, les actifs


ont une moyenne dge de 40 ans

Ne pas
oublier
lunit

DOYEN

Classe(s) modale(s)
CLASSES en lesquelles lhistogramme des
frquences prsente un maximum RELATIF
Classes en laquelle la frquence RELATIVE
prsente un maximum RELATIF

DOYEN

Classe(s) modale(s)
CLASSES en lesquelles lhistogramme des
frquences prsente un maximum RELATIF
Classes en laquelle la frquence RELATIVE
prsente un maximum RELATIF

La classe modale est


celle des 35-39 ans

.f relatives 5 ans
16
14
12
10
8
6
4
2
0
0

10

20

30

40

50

60

Age en annes

DOYEN

La mdiane
Valeur du caractre qui partage la srie statistique en
2 groupes de mme frquence (0.5).
Cest la valeur correspondant un effectif cumul de
50% sur le polygone des frquences cumules

DOYEN

La mdiane
Valeur du caractre qui partage la srie statistique en
2 groupes de mme frquence (0.5).
Cest la valeur correspondant un effectif cumul de
50% sur le polygone des frquences cumules
.f cumules

Graphiquement, on lit
que la mdiane vaut
un peu moins de 40
ans

100
80
60
40
20
0

Age en annes
0

10

20

30

40

50

60

DOYEN

La mdiane
Valeur du caractre qui partage la srie statistique en
2 groupes de mme frquence (0.5).
Cest la valeur correspondant un effectif cumul de
50% sur le polygone des frquences cumules
.f cumules

Graphiquement, on lit
que la mdiane vaut
un peu moins de 40
ans

100
80
60
40
20
0

Age en annes
0

10

20

30

40

50

60

Peut on avoir
une expression
exacte de la
mdiane?

DOYEN

Pour avoir la valeur de la mdiane on ralise une


interpolation linaire .
.f cumules
100
80
60
40
20
0

Age en annes
0

10

20

30

40

50

60

DOYEN

Pour avoir la valeur de la mdiane on ralise une


interpolation linaire .
.f cumules

Les accroissements
sur les abscisses et
les ordonnes sont
proportionnels

51
5050
47
44

M 35 = 4035
5036.5 5136.5

41
38

36.5
35

32

34

35

Age en annes
36

38

40
40

42

DOYEN

Pour avoir la valeur de la mdiane on ralise une


interpolation linaire .
.f cumules

Les accroissements
sur les abscisses et
les ordonnes sont
proportionnels

51
5050
47
44

M 35 = 4035
5036.5 5136.5

41
38

36.5
35

32

34

35

Age en annes
36

38

40
40

42

M= 35 + (5036.5) 4035 39.7 (ans)

5136.5

DOYEN

Pour avoir la valeur de la mdiane on ralise une


interpolation linaire .
.f cumules

Les accroissements
sur les abscisses et
les ordonnes sont
proportionnels

51
5050
47
44

M 35 = 4035
5036.5 5136.5

41
38

36.5
35

32

34

35

Age en annes
36

38

50% des actifs ont plus


de 39.7 ans et 50 %
ont moins

40
40

42

M= 35 + (5036.5) 4035 39.7 (ans)

5136.5

DOYEN

b. Caractristiques de dispersion:
cart absolue, variance, cart-type
Idem caractre discret mais on prend le centre des
classes comme valeur reprsentative

DOYEN

b. Caractristiques de dispersion:
cart absolue, variance, cart-type
Idem caractre discret mais on prend le centre des
classes comme valeur reprsentative
.ci

Age

Effectif

20

15-24

2279542 0.086

27

25-29

3628502 0.137

33

30-34

3771554 0.142

37

35-39

3865252 0.146

43

40-44

3770300 0.142

47

45-49

3696642 0.139

53

50-54

3305278 0.125

60

55 et + 2225411 0.084
Total

26542481

.fi

x 40 (ans)

DOYEN

b. Caractristiques de dispersion:
cart absolue, variance, cart-type
Idem caractre discret mais on prend le centre des
classes comme valeur reprsentative
.ci

Age

Effectif

20

15-24

2279542 0.086

27

25-29

3628502 0.137

33

30-34

3771554 0.142

37

35-39

3865252 0.146

43

40-44

3770300 0.142

47

45-49

3696642 0.139

53

50-54

3305278 0.125

60

55 et + 2225411 0.084
Total

26542481

x 40 (ans)

.fi

0.086 * |20-40|
+0.137 * |27-40|
+0.142 * |33-40|
+0.146 * |37-40|
+0.142 * |43-40|
+0.139 * |47-40|
+0.125 * |53-40|
+0.084 * |60-40|

e x 9.64 (ans)

0.086 * 202
+0.137 * 272
+0.142 * 332
+0.146 * 372
+0.142 * 432
+0.139 * 472
+0.125 * 532
+0.084 * 602

11210.6 (ans)

=171240

112 (ans )
2

DOYEN

Le coefficient de variation

V=

DOYEN

Le coefficient de variation
Cest un nombre SANS UNITE,
donc plus pratique pour
comparer 2 distributions

V=

DOYEN

Le coefficient de variation
Cest un nombre SANS UNITE,
donc plus pratique pour
comparer 2 distributions

V=

DOYEN

Le coefficient de variation
Cest un nombre SANS UNITE,
donc plus pratique pour
comparer 2 distributions

Exemple:

V=

Prix dun poisson rouge en Francs Grenoble


6.5 F

19.5 F

33 F

x1 19.7 (F); 110.8 (F)


Prix dun poisson vert en euros Grenoble
1E

3E

x1 3 (E); 21.63 (E)

5E

DOYEN

Le coefficient de variation
Cest un nombre SANS UNITE,
donc plus pratique pour
comparer 2 distributions

Exemple:

V=

Prix dun poisson rouge en Francs Grenoble


6.5 F

V1 0.54

19.5 F

33 F

x1 19.7 (F); 110.8 (F)


Prix dun poisson vert en euros Grenoble

V2 0.54

1E

3E

x1 3 (E); 21.63 (E)

5E

DOYEN

Lintervalle interquartile
Les quartiles sont les 3 valeurs Q1 ; Q2 ; Q3 qui
partagent la population en 4 effectifs gaux.
Ce sont les 3 valeurs du caractre correspondant
des effectifs cumuls de 25%, 50% et 75%

DOYEN

Lintervalle interquartile
Les quartiles sont les 3 valeurs Q1 ; Q2 ; Q3 qui
partagent la population en 4 effectifs gaux.
Ce sont les 3 valeurs du caractre correspondant
des effectifs cumuls de 25%, 50% et 75%
.f cumules
100
80
60
40
20
0

Age en annes
0

10

20

30

40

50

60

DOYEN

Lintervalle interquartile
Les quartiles sont les 3 valeurs Q1 ; Q2 ; Q3 qui
partagent la population en 4 effectifs gaux.
Ce sont les 3 valeurs du caractre correspondant
des effectifs cumuls de 25%, 50% et 75%
.f cumules
100

Graphiquement:

80

Q 30 (ans)
1

60

Q 40 (ans)
2

40

Q 50 (ans)

20

Q1

0
0

10

20

30

Q2 Q3

40

50

Age en annes
60

DOYEN

Pour calculer la valeur des quartiles on fait une


interpolation linaire
Pour k=1,2,3:

x
x
Q = x + ( P F )
F F
j

Effectifs cumuls

F
P

P =25%
P =50%
P =75%

DOYEN

.fi

Age

Effectif

15-24

2279542 0.086

8.6

25-29

3628502 0.137

22.3

30-34

3771554 0.142

36.5

35-39

3865252 0.146

51.0

40-44

3770300 0.142

65.2

45-49

3696642 0.139

79.2

50-54

3305278 0.125

91.6

55 et + 2225411 0.084

100

Total

100

26542481

Cumul

3530
=
30
+
(
25

22
.
3
)
Q1
36.522.3

31 (ans)

Q = Me 39.5 (ans)
2

Q = 45 + (7565.2)
3

48.5 (ans)

5045
79.265.2

DOYEN

Lintervalle inter-quartile: [ Q1 , Q3 ] il contient 50 % de


la population et laisse 25% de chaque ct.
Lcart inter-quartile: Qs est lamplitude de lintervalle
inter quantile: Qs =Q3 Q1 il mesure la dispersion de la
population

DOYEN

Lintervalle inter-quartile: [ Q1 , Q3 ] il contient 50 % de


la population et laisse 25% de chaque ct.
Lcart inter-quartile: Qs est lamplitude de lintervalle
inter quantile: Qs =Q3 Q1 il mesure la dispersion de la
population
Exemple:
En France, en 1999, 50 % de la population active a entre 31
et 48.5 ans

Qs =48.5-31=17.5 (ans)

DOYEN

5. tude dun couple de


caractres
Deux caractres (X,Y) pouvant tre de nature diffrente: qualitatif,
quantitatif discret ou continu; on note ( xi ) i=1.. n et ( y j ) j=1.. m
leurs modalits.
Salaire net et ge des livreurs de pizza du restaurant PIPIpizza
Salaires Y 170-200 200-230 230-260
Ages X
Euros
euros
euros
20-22
3
1
0
4
22-24

24-26

16

DOYEN

5. tude dun couple de


caractres
Deux caractres (X,Y) pouvant tre de nature diffrente: qualitatif,
quantitatif discret ou continu; on note ( xi ) i=1.. n et ( y j ) j=1.. m
leurs modalits.
Salaire net et ge des livreurs de pizza du restaurant PIPIpizza
3 pers. de 20-22
ans gagnant 170
200 euros

Salaires Y 170-200 200-230 230-260


Ages X
Euros
euros
euros
20-22
3
1
0
4
22-24

24-26

16

DOYEN

5. tude dun couple de


caractres
Deux caractres (X,Y) pouvant tre de nature diffrente: qualitatif,
quantitatif discret ou continu; on note ( xi ) i=1.. n et ( y j ) j=1.. m
leurs modalits.
Salaire net et ge des livreurs de pizza du restaurant PIPIpizza
3 pers. de 20-22
ans gagnant 170
200 euros
9 pers. gagnant
entre 200 et 230
euros

Salaires Y 170-200 200-230 230-260


Ages X
Euros
euros
euros
20-22
3
1
0
4
22-24

24-26

16

DOYEN

5. tude dun couple de


caractres
Deux caractres (X,Y) pouvant tre de nature diffrente: qualitatif,
quantitatif discret ou continu; on note ( xi ) i=1.. n et ( y j ) j=1.. m
leurs modalits.
Il y a 16 livreurs dans lentreprise
Salaire net et ge des livreurs de pizza du restaurant PIPIpizza
3 pers. de 20-22
ans gagnant 170
200 euros
9 pers. gagnant
entre 200 et 230
euros

Salaires Y 170-200 200-230 230-260


Ages X
Euros
euros
euros
20-22
3
1
0
4
22-24

24-26

16

DOYEN

5.1 Frquence relative


F. relative de ( xi , y j ) , proportion dindividus prsentant
la modalit ( xi , y j ) des caractres ( X ,Y ) par rapport
la population totale.

ni , j
fi, j =
N

ni , j

Nb individus avec X =xi et Y= yi

Nb totale dindividus

DOYEN

5.1 Frquence relative


F. relative de ( xi , y j ) , proportion dindividus prsentant
la modalit ( xi , y j ) des caractres ( X ,Y ) par rapport
la population totale.

ni , j
fi, j =
N
Proprit:

ni , j

Nb individus avec X =xi et Y= yi

Nb totale dindividus

f
i

i, j

=1

DOYEN

3 0.19
16

Salaires Y 170-200
Ages X
euros
20-22
22-24
24-26

3
0.19
2
0.13
1
0.06
6

200-230
euros

230-260
euros

1
0.06
3
0.19
5
0.31
9

0
0
0
0
1
0.06
1

4
5
7
16

DOYEN

3 0.19
16

Salaires Y 170-200
Ages X
euros
20-22
22-24
24-26

3
0.19
2
0.13
1
0.06
6

200-230
euros

230-260
euros

1
0.06
3
0.19
5
0.31
9

0
0
0
0
1
0.06
1

31% des employs ont entre 24 et 26 ans et


gagnent entre 200 et 230 euros

4
5
7
16

DOYEN

5.2 Frquence marginale


Pour (X,Y) les lois marginales sont:
La loi de X quelque soit la valeur de Y
La loi de Y quelque soit la valeur de X

DOYEN

5.2 Frquence marginale


Not:

Pour (X,Y) les lois marginales sont:


La loi de X quelque soit la valeur de Y
La loi de Y quelque soit la valeur de X

f i ,.
f ., j

DOYEN

5.2 Frquence marginale


Not:

Pour (X,Y) les lois marginales sont:


La loi de X quelque soit la valeur de Y
La loi de Y quelque soit la valeur de X
Salaires Y 170-200
Ages X
euros

200-230
euros

f i ,.
f ., j

230-260
euros

20-22

3
0.19

1
0.06

0
0

4
0.25

22-24

2
0.13

3
0.19

0
0

5
0.31

24-26

1
0.06

5
0.31

1
0.06

7
0.44

6
0.38

9
0.56

1
0.06

16

f1,. = 4 0.25
16

DOYEN

5.2 Frquence marginale


Not:

Pour (X,Y) les lois marginales sont:


La loi de X quelque soit la valeur de Y
La loi de Y quelque soit la valeur de X
Salaires Y 170-200
Ages X
euros

200-230
euros

f i ,.
f ., j

230-260
euros

20-22

3
0.19

1
0.06

0
0

4
0.25

22-24

2
0.13

3
0.19

0
0

5
0.31

24-26

1
0.06

5
0.31

1
0.06

7
0.44

6
0.38

9
0.56

1
0.06

16

f1,. = 4 0.25
16
31% des
livreur ont
entre 22 et
24 ans

DOYEN

Salaires Y 170-200
Ages X
euros

200-230
euros

230-260
euros

20-22

3
0.19

1
0.06

0
0

4
0.25

22-24

2
0.13

3
0.19

0
0

5
0.31

24-26

1
0.06

5
0.31

1
0.06

7
0.44

6
0.38

9
0.56

1
0.06

16
1

Proprit:

f
i

i ,.

=1

f
j

., j

=1

DOYEN

Salaires Y 170-200
Ages X
euros

200-230
euros

230-260
euros

20-22

3
0.19

1
0.06

0
0

4
0.25

22-24

2
0.13

3
0.19

0
0

5
0.31

+ 0.31

24-26

1
0.06

5
0.31

1
0.06

7
0.44

+ 0.44

6
0.38

9
0.56

1
0.06

16
1

0.38

Proprit:

f
i

+ 0.56 + 0.06

i ,.

=1

f
j

., j

=1

0.25

DOYEN

Salaires Y 170-200
Ages X
euros
20-22
22-24
24-26

3
0.19
2
0.13
1
0.06

200-230
euros

1
0.06

3
0.19

5
0.31

6
0.38

Proprit:

f
j

230-260
euros

0
0

4
= 0.25

0
0

5
= 0.31

1
0.06

7
= 0.44

1
0.06

16
1

9
0.56

i,j

= f i,.

DOYEN

Salaires Y 170-200
Ages X
euros
20-22

200-230
euros

3
0.19

230-260
euros

1
0.06

0
0

4
0.25

22-24

2
0.13

3
0.19

0
0

5
0.31

24-26

1
0.06

5
0.31

1
0.06

7
0.44

6
0.38

9
0.56

= 1

Proprit:

f
j

i,j

= f i,.

16
1

0.06

f
i

i, j

= f ., j

DOYEN

Sur les lois marginales, on peut tracer des


graphes: de frquences, frquences cumules,
Frquences cumules des ges
1
0,8
0,6
0,4
0,2

ges
0
20

22

24

26

28

DOYEN

Sur les lois marginales, on peut calculer des


indices centraux et de dispersions.
Salaires Y 170-200
Ages X
euros
20-22

200-230
euros

230-260
euros

3
0.19

1
0.06

0
0

4
0.25

22-24

2
0.13

3
0.19

0
0

5
0.31

24-26

1
0.06

5
0.31

1
0.06

7
0.44

6
0.38

9
0.56

1
0.06

16
1

Le salaire
moyen des
livreurs de
pizza est de
205.4 euros

185*0.38 +215*0.56+245*0.06 = 205.4 (euros)

DOYEN

5.3 Frquence conditionnelle


Frquence conditionnelle de xi sachant

yi : proportion

dindividus prsentant la modalit xi du caractre X par


rapport au totale des individus prsentant la modalit yi du
caractre Y, note

f xi

yj

ni , j
f xi y j =
ni , j
i

f yj

ni , j
xi =
ni , j
j

DOYEN

Frquence conditionnelle des ges sachant les salaires


Salaires Y 170-200
Ages X
euros
20-22

200-230
euros
1

230-260
euros
0

3 =0.5 1 0.11 0 =0
6
9
1
22-24

2 =0.3 3 =0.33 0 =0
6
9
1
24-26

1 0.17 5 =0.56
6
9
6

1 =1
1
1

16

DOYEN

Frquence conditionnelle des ges sachant les salaires


Salaires Y 170-200
Ages X
euros
20-22

Parmi les
livreurs gagnant
entre 170 et 200
euros, 50% ont
entre 20 et 22
ans

200-230
euros
1

230-260
euros
0

3 =0.5 1 0.11 0 =0
6
9
1
22-24

2 =0.3 3 =0.33 0 =0
6
9
1
24-26

1 0.17 5 =0.56
6
9
6

1 =1
1
1

16

DOYEN

Frquence conditionnelle des ges sachant les salaires


Salaires Y 170-200
Ages X
euros
20-22

Parmi les
livreurs gagnant
entre 170 et 200
euros, 50% ont
entre 20 et 22
ans

22-24

200-230
euros

230-260
euros

3 =0.5 1 0.11 0 =0
6 +
9
1
2

2 =0.3 3 =0.33 0 =0
6
9
1
24-26

1 0.17 5 =0.56
6
9
=
6
1

=
9
1

1 =1
1

=
1
1

16

DOYEN

Frquence conditionnelle des salaires sachant les ges


Salaires Y 170-200
Ages X
euros
20-22

200-230
euros
1

230-260
euros
0

3 =0.75 1 0.25 0 =0
4
4
4
22-24

2 =0.4 3 =0.6
5
5
24-26

0 =0
5
1

1 0.14 5 =0.71 1 =0.14


7
7
7
6

16

DOYEN

Frquence conditionnelle des salaires sachant les ges


Salaires Y 170-200
Ages X
euros
20-22

Parmi les
livreurs gs de
20 22 ans, 75%
gagnent entre
170 et 200 euros

200-230
euros
1

230-260
euros
0

3 =0.75 1 0.25 0 =0
4
4
4
22-24

2 =0.4 3 =0.6
5
5
24-26

0 =0
5
1

1 0.14 5 =0.71 1 =0.14


7
7
7
6

16

DOYEN

Frquence conditionnelle des salaires sachant les ges


Salaires Y 170-200
Ages X
euros
20-22

Parmi les
livreurs gs de
20 22 ans, 75%
gagnent entre
170 et 200 euros

200-230
euros

230-260
euros

3 =0.75 1 0.25+ 0 =0
+ 4
4
4
22-24

2 =0.4 + 3 =0.6
5
5
24-26

= 1

0 =0
5

= 1

1 0.14+5 =0.71+1 =0.14 =


7
7
7
6

16

DOYEN

Sur les lois conditionnelles, on peut tracer des


graphes: de frquences, frquences cumules
Frquences pour les 24-26 ans
0,8

0,6
0,4

0,2
0
170

Salaires en euros
200

230

260

DOYEN

Sur les lois conditionnelles, on peut calculer des


indices centraux et de dispersions.
Frquence conditionnelle des salaires sachant les ges
Salaires Y 170-200
Ages X
euros

200-230 230-260
euros
euros

Pour les 22-24 ans:

20-22

3
0.75

1
0.25

0
0

22-24

2
0.4

3
0.6

0
0

1
0.14

5
0.71

1
0.14

16

24-26

0.4*185+0.6*215+0*245

=203 (euros)
Parmi les livreurs gs
de 22 24 ans, le
salaire moyen chez
PIPIpizza est de 203
euros

DOYEN

5.3 Indpendance
X est dite indpendante de Y si les variations de Y
nentranent pas de variation de X

DOYEN

5.3 Indpendance
X est dite indpendante de Y si les variations de Y
nentranent pas de variation de X
Proprit: Si X est indpendante de Y alors Y est
indpendante de X.

DOYEN

5.3 Indpendance
X est dite indpendante de Y si les variations de Y
nentranent pas de variation de X
Proprit: Si X est indpendante de Y alors Y est
indpendante de X.

On dit X et Y sont indpendants

DOYEN

5.3 Indpendance
X est dite indpendante de Y si les variations de Y
nentranent pas de variation de X
Proprit: Si X est indpendante de Y alors Y est
indpendante de X.

On dit X et Y sont indpendants


Les rsultats de 2 lancs de d non pip sont indpendants!

DOYEN

Proprit:

X et Y sont indpendantes si les frquences conditionnelles


de X sachant Y sont gales aux frquences marginales de X

DOYEN

Proprit:

X et Y sont indpendantes si les frquences conditionnelles


de X sachant Y sont gales aux frquences marginales de X
Ou de faon quivalente,

X et Y sont indpendantes si les frquences conditionnelles


de Y sachant X sont gales aux frquences marginales de Y

DOYEN

Proprit:

X et Y sont indpendantes si les frquences conditionnelles


de X sachant Y sont gales aux frquences marginales de X
Ou de faon quivalente,

X et Y sont indpendantes si les frquences conditionnelles


de Y sachant X sont gales aux frquences marginales de Y
Proprit:

Dans le cas ou il y a indpendance entre X et Y, alors dans


le tableau de contingence les valeurs des lignes sont
proportionnelles et les valeurs des colonnes le sont aussi.

DOYEN

.f sachant ge 170-200
euros

200-230
euros

230-260
euros

.f des classes
dge

20-22

0.75

0.25

0.25

22-24

0.4

0.6

0.31

24-26

0.14

0.71

0.14

0.44

Les distribution sont toutes diffrentes, donc ges et salaires


ne sont pas indpendants, il existe une dpendance entre
ges et salaires chez PIPIpizza.

DOYEN

5.3 Dpendance totale


X est dit totalement dpendant de Y, si la connaissance de
X entrane la connaissance de Y.

DOYEN

5.3 Dpendance totale


X est dit totalement dpendant de Y, si la connaissance de
X entrane la connaissance de Y.
Dans le tableau de contingence cela ce traduit par le fait
quil ny a quun effectif non nul par colonne.

DOYEN

5.3 Dpendance totale


X est dit totalement dpendant de Y, si la connaissance de
X entrane la connaissance de Y.
Dans le tableau de contingence cela ce traduit par le fait
quil ny a quun effectif non nul par colonne.

Si Y est totalement dpendant de X, alors dans le tableau


de contingence, il ny a quun effectif non nul par ligne.

DOYEN

5.3 Dpendance totale


X est dit totalement dpendant de Y, si la connaissance de
X entrane la connaissance de Y.
Dans le tableau de contingence cela ce traduit par le fait
quil ny a quun effectif non nul par colonne.
Ce nest pas une notion rciproque,
contrairement lindpendance

Si Y est totalement dpendant de X, alors dans le tableau


de contingence, il ny a quun effectif non nul par ligne.

DOYEN

5.3 Dpendance totale


X est dit totalement dpendant de Y, si la connaissance de
X entrane la connaissance de Y.
Dans le tableau de contingence cela ce traduit par le fait
quil ny a quun effectif non nul par colonne.
Ce nest pas une notion rciproque,
contrairement lindpendance

Si Y est totalement dpendant de X, alors dans le tableau


de contingence, il ny a quun effectif non nul par ligne.
Il ny a pas de dpendance totale entre ge et salaire.

DOYEN

Exemple: Y= Valeur du lanc dun d


X= gain
1 si Y est paire
X=
-1 si Y est impaire
X est totalement dpendant de Y
Y nest pas totalement dpendant de X
Y nest pas indpendant de X

DOYEN

Exemple: Y= Valeur du lanc dun d


X= gain
1 si Y est paire
X=
-1 si Y est impaire
X est totalement dpendant de Y
Y nest pas totalement dpendant de X
Y nest pas indpendant de X

Dans le cas gnral il ny a pas indpendance ni


dpendance totale: on est entre les deux.

DOYEN

6. tude dun couple de


caractres sans pondration:
rgression linaire
On tudie un couple de caractre X et Y qui soit:
Quantitatifs
Sans pondration: chaque modalit du couple ( xi , y j )
apparat une seule fois

DOYEN

Exemple:
Lentreprise CONCONconserve tudie lincidence de la pression
marketing. Elle enregistre dans 5 zones gographiques, les
Ventes i (en milliers de boites de conserve) et les Dpenses
Publicitaires i (en milliers d euros)

Rgion i

.yi

.xi

1
2

27
32

5
6

3
4
5

31
40
65

9
12
18

DOYEN

6.1 Visualisation de la corrlation

X f (Y ) ?

On reprsente le nuage de points: X en fonction de Y


On cherche si il existe une droite ou une courbe qui
soit une bonne approximation du nuage de points

DOYEN

X f (Y ) ?

6.1 Visualisation de la corrlation

On reprsente le nuage de points: X en fonction de Y


On cherche si il existe une droite ou une courbe qui
soit une bonne approximation du nuage de points
Exemple:

DOYEN

X f (Y ) ?

6.1 Visualisation de la corrlation

On reprsente le nuage de points: X en fonction de Y


On cherche si il existe une droite ou une courbe qui
soit une bonne approximation du nuage de points
Exemple:

Y
Il ny a pas de
bonne
approximation,
X et Y semblent
indpendants
X

DOYEN

DOYEN

Une droite est une bonne


approximation du nuage de
points, il existe une relation
linaire entre X et Y.
X

DOYEN

Une droite est une bonne


approximation du nuage de
points, il existe une relation
linaire entre X et Y.
X
Y

DOYEN

Une droite est une bonne


approximation du nuage de
points, il existe une relation
linaire entre X et Y.
X
Y
Une courbe est une bonne
approximation du nuage de
points, il existe une relation
curviligne entre X et Y.
X

DOYEN

70

Kboite

60
50
40
30
20

Keuro
4

12

16

20

DOYEN

70

Kboite

60
50
40
30
20

Keuro
4

12

Y a*X + b

16

20

DOYEN

70

Kboite

60
50

40

40
30

16
20

Keuro
4

12

16

20

Y a*X + b
a 40 = 2.5 ( Kboite )
Keuro
16

DOYEN

70

Kboite

60
50

40

40
30

16
20

Keuro
4

12

16

20

Y a*X + b
b204*2.5=10 (Kboite)

a 40 = 2.5 ( Kboite )
Keuro
16

DOYEN

70

Kboite

60
50

40

40
30

16
20

Keuro
4

12

16

20

Y a*X + b
b204*2.5=10 (Kboite)
Cest trs approximatif!

a 40 = 2.5 ( Kboite )
Keuro
16

DOYEN

6.2 Lquation de rgression linaire


Quand lobservation semble tre de type linaire: Y = a*X +b
Lobjectif est de calculer a et b de telle sorte que lon minimise:

ei

e3

ei:

e2
e1
X

cart entre la droite de


rgression et la ime
observation

DOYEN

On note:

x = 1 xi
n i

y = 1 yi
n i

2
2
2
1
1
V ( X ) = ( xi x) = xi x
n i
n i
Cov ( X ) = 1 ( xi x )( yi y ) = 1 xi *yi x*y
n i
n i

DOYEN

On note:

x = 1 xi
n i

y = 1 yi
n i

2
2
2
1
1
V ( X ) = ( xi x) = xi x
n i
n i
Cov ( X ) = 1 ( xi x )( yi y ) = 1 xi *yi x*y
n i
n i

On a:

Cov ( X ,Y )
a=
V (X )

b = ya*x

DOYEN

Rgion i

.yi

.xi

.yi2

.xi2

.yi*xi

27

729

25

135

32

1024

36

192

31

961

81

279

40

12

1600

144

480

65

18

4225

324

1170

195

50

8539

610

2256

DOYEN

Rgion i

.yi

.xi

.yi2

.xi2

.yi*xi

27

729

25

135

32

1024

36

192

31

961

81

279

40

12

1600

144

480

65

18

4225

324

1170

195

50

8539

610

2256

x=50 =10 (Keuro)


2
5
2
610
V ( X )=
10 =22 (Keuro)
5
y=195=39 (Kboite)
5
Cov ( X ,Y )= 2256 10*39=61.2 (Keuro*Kboite)
5

DOYEN

Rgion i

.yi

.xi

.yi2

.xi2

.yi*xi

27

729

25

135

32

1024

36

192

31

961

81

279

40

12

1600

144

480

65

18

4225

324

1170

195

50

8539

610

2256

x=50 =10 (Keuro)


2
5
2
610
V ( X )=
10 =22 (Keuro)
5
y=195=39 (Kboite)
5
Cov ( X ,Y )= 2256 10*39=61.2 (Keuro*Kboite)
5

a= 61.2 2.78 ( Kboite )


Keuro
22

b392.78*10=11.2 (Kboite)

DOYEN

Kboite

70
60
50
40
30

Keuro

20
4

12

16

Y 2.78*X +11.2

20

DOYEN

6.3 Mesure de la qualit de la rgression


Le coefficient de corrlation:

Cov ( X ,Y )
r=
V ( X ) V (Y )

DOYEN

6.3 Mesure de la qualit de la rgression


Le coefficient de corrlation:

Cov ( X ,Y )
r=
V ( X ) V (Y )
Proprits:

1 r 1
r proche de 1: corrlation linaire possible r >0.86
r proche de 0: pas de corrlation linaire

DOYEN

Rgion i

.yi

.xi

.yi2

.xi2

.yi*xi

27

729

25

135

32

1024

36

192

31

961

81

279

40

12

1600

144

480

65

18

4225

324

1170

195

50

8539

610

2256

DOYEN

Rgion i

.yi

.xi

.yi2

.xi2

.yi*xi

27

729

25

135

32

1024

36

192

31

961

81

279

40

12

1600

144

480

65

18

4225

324

1170

195

50

8539

610

2256

2
2
610
50
10 =22 (Keuro)
x= =10 (Keuro) V ( X )=
5
5
2
2
195
8539
y= =39 (Kboite) V (Y )=
39 =186.8 (Kboite)
5
5
Cov ( X ,Y )= 2256 10*39=61.2 (Keuro*Kboite)
5

DOYEN

Rgion i

.yi

.xi

.yi2

.xi2

.yi*xi

27

729

25

135

32

1024

36

192

31

961

81

279

40

12

1600

144

480

65

18

4225

324

1170

195

50

8539

610

2256

2
2
610
50
10 =22 (Keuro)
x= =10 (Keuro) V ( X )=
5
5
2
2
195
8539
y= =39 (Kboite) V (Y )=
39 =186.8 (Kboite)
5
5
Cov ( X ,Y )= 2256 10*39=61.2 (Keuro*Kboite)
5

61
.
2
r
0.96
22*186.8

DOYEN

Kboite

70
60
50
40
30

Keuro

20
4

12

Y 2.78*X +11.2

16

20

r0.96

DOYEN

Kboite

70
60
50
40
30

Keuro

20
4

12

Y 2.78*X +11.2

16

20

r0.96

La corrlation linaire des donnes est forte

DOYEN

On peut faire de la prvision:


Sur une sixime rgion on veut vendre Y=55 (Kboites),
combien faut il dpenser en publicit?
70

Kboite

60
50
40
30

Keuro

20
4

12

16

20

DOYEN

On peut faire de la prvision:


Sur une sixime rgion on veut vendre Y=55 (Kboites),
combien faut il dpenser en publicit?
70

Kboite

60
50
40
30

Keuro

20
4

12

16

20

55

11
.
2
15.8 (Keuro)
55=2.78*X +11.2 X =
2.78

DOYEN

On peut faire de la prvision:


Sur une sixime rgion on veut vendre Y=55 (Kboites),
combien faut il dpenser en publicit?
70

Kboite

60
50
40
30

Keuro

20
4

12

16

20

55

11
.
2
15.8 (Keuro)
55=2.78*X +11.2 X =
2.78