Vous êtes sur la page 1sur 77

STATISTIQUES DESCRIPTIVES

1
La Statistique Descriptive est l'ensemble des méthodes et
techniques mathématiques permettant de présenter, décrire,
résumer de telles données.
L'interprétation des résumés obtenus, leur extrapolation éventuelle à
un ensemble plus vaste (utilisation de sondages par exemple), et leur
utilisation pour prendre des décisions constituent un autre domaine de
la Statistique.

La Statistique Inférentielle, "Echantillonnage - Estimation" et


"Tests", s'appuie sur l'utilisation des ‘’ probabilités’’ et ‘’ Variables
Aléatoires’’

2
3
INTRODUCTION

VOCABULAIRE STATISTIQUE
Population statistique :
Une population statistique est l'ensemble sur lequel on effectue des observations.

Individu (ou unités statistiques) :


Les individus sont les éléments de la population statistique étudiée.

Caractère statistique ou variable statistique :


C'est ce qui est observé ou mesuré sur les individus d'une population statistique.

Echantillon
Est une partie de la population statistique

4
VARIABLES QUANTITATIVES

Variable quantitative :
Une variable statistique est quantitative si ses valeurs sont des nombres exprimant
une quantité, sur lesquels les opérations arithmétiques ont un sens.

Variable quantitative discrète: Variable quantitative continue:


Une variable quantitative est discrète si elle Une variable quantitative est continue si ses
ne peut prendre que des valeurs isolées, valeurs peuvent être n'importe lesquelles
généralement entières. d'un intervalle réel.

5
VARIABLES QUALITATIVES

Variable qualitative :
Une variable statistique est qualitative si ses valeurs, ou modalités, s'expriment de
façon littérale ou par un codage sur lequel les opérations arithmétiques telles que
moyenne, somme, ... , n'ont pas de sens.

Variable qualitative nominale : Variable qualitative ordinale :


C'est une variable qualitative dont les C'est une variable qualitative dont les
modalités ne sont pas ordonnées. modalités sont naturellement ordonnées

6
L ’opérateur somme

(1) UN OUTIL : L ’OPERATEUR SOMME S

DEFINITION: q
p et q étant 2 entiers relatifs x
i p
i  x p  x p 1  ......  xq

q q q

REMARQUE 1: i est une variable muette  x  x  x


i p
i
j p
j
h p
h

REMARQUE 2: n

Quand il n’y a pas d’ambiguïté sur le domaine x  x  x


i 1
i
i
i i

de variation de i, celui-ci peut être omis

7
(2) UN OUTIL : L ’OPERATEUR SOMME S
PROPRIETE 1:  ka
i
i  k  ai
i
q q

 ka i  ka p  ka p 1  ......  kaq  k  a p  a p 1  ......  aq   k  ai


i p i p
PROPRIETE 2:   ai  bi    ai   bi
i i i
q

a  b   a
i p
i i p  bp    a p 1  bp 1   .....   aq  bq 
PROPRIETE 3 :  k a  b   k a  kb
i
i i
i
i
i
i
q q
  a p  a p 1  .....  aq    bp  bp 1  .....  bq    ai   bi
i p i p
n
PROPRIETE 4 :  k  nk
i 1
n

 k  k
i 1
 k
..... k  nk
q
n
PROPRIETE 5:  k   q  p  1 k
i p

8
TABLEAUX
ET
GRAPHIQUES

9
(1) VARIABLES QUALITATIVES NOMINALES

Noms Couleur des yeux Modalités Effectifs Fréquences %


Ali Vert Bleu 60 0,200 20,0
Mohamed Noir Noir 160 0,533 53,3
Amina Noir Noisette 40 0,133 13,3
Laila Noisette Vert 40 0,133 13,3
Mostapha Bleu
Total : 300 1 100
Rachid Noir
Farid Noisette
Nora Noir Modalités Effectifs Fréquences %
Malika Bleu modalité 1 n1 f1= n1/n f1×100
Driss Vert … … …
Malek Bleu modalité i ni fi= ni/n f i ×100
Soumia Noir … … …
…. …. modalité k nk fk= nk/n f k ×100
Total :  n i = n  f i =1 100

10
(2) VARIABLES QUALITATIVES NOMINALES

Modalités Effectifs Fréquences %


Bleu 60 0.200 20,0
Noir 160 0,533 53,3
Noisette 40 0,133 13,3
Vert 40 0,133 13,3
Total : 300 1 100

Diagramme circulaire ou camembert


Diagramme en barres
Vert 180
Bleu 160
13% 160
20%
140
Noisette 120
13%
100
80
60
60
40 40
40
20
Noir
54% 0
Bleu Noir Noisette Vert

11
VARIABLES QUALITATIVES ORDINALES
130 personnes ont été interrogées sur leur dépendance au chocolat

Les Modalités Effectifs = Nombre de personnes


modalités Pas du tout (A) 10
sont Un peu (B) 25
présentées Beaucoup (C) 40
Passionnément (D) 32
dans l’ordre A la folie (E) 23
45
40
40

35 32

30
25
25 23

20

15
10
10

0
A B C D E
12
(1) VARIABLES QUANTITATIVES DISCRETES
EFFECTIFS ET FREQUENCES
Clients Nombre de produits Nombre de Nombre de clients
financiers produits financiers
Badre 2
Jamal 3
0 103
Laila 0 1 115
Chakir 0 2 95
Latifa 1 3 35
Ali 0 4 10
Aicha 1
5 2
Driss 0
Salah 2 Valeurs de Effectifs Fréquences %
Bilal 4
la variable
Mariem 1
Jalal 3 x1 n1 f1= n1/n f1×100
Dadi 2 … … …
David 0 xi ni fi= ni/n f i ×100
Yves 0 … … …
Papin 1
Asmae 2
xk nk fk= nk/n f k ×100
…… ……. Total :  n i = n  fi =1 100

13
(2) VARIABLES QUANTITATIVES DISCRETES
REPRESENTATION GRAPHIQUE DES EFFECTIFS ET FREQUENCES

Nbre de produits financiers Effectif Fréquence


xi ni fi
0 103 0,286
1 115 0,319
2 95 0,264
3 35 0,097
4 10 0,028
5 2 0,006

Diagramme en bâtons
140

120

100

80

60

40

20

0
0 1 2 3 4 5 6

14
(3) VARIABLES QUANTITATIVES DISCRETES
EFFECTIFS ET FREQUENCES CUMULES
Nbre Nombre de Effectifs cumulés Effectifs cumulés
produits Clients croissants décroissants
financiers
0 103 103 360
Effectifs cumulés croissants: 1 115 218 257
Nombre d'individus pour lesquels la 2 95 313 142
variable est inférieure ou égale à xi.
3 35 348 47
4 10 358 12
Résultat de l'addition, de proche en 5 2 360 2
proche, des effectifs d'une distribution Total : 360
observée en commençant par le 1er.

Valeurs de la Effectif Effectifs cumulés Effectifs cumulés


variable croissants décroissants
Effectifs cumulés décroissants: xi ni Ni N’i
Nombre d'individus pour lesquels la x1 n1 N1= n1 N’1= nk+ ….+ n1= n
variable est supérieure ou égale à xi. x2 n2 N2= n1+ n2 N’2= nk+ ….+ n2
Résultat de l'addition, de proche en x3 n3 N3= n1+ n2+ n3 N’3= nk+ ….+ n3
proche, des effectifs d'une distribution … … …. ….
xk-1 nk-1 Nk-1= n1+ ….+ nk-1 N’k-1= nk+ nk-1
observée en commençant par le dernier.
xk nk Nk= n1+ ….+ nk= n N’k= nk
Total : n

15
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue

(4) VARIABLES QUANTITATIVES DISCRETES


EFFECTIFS ET FREQUENCES CUMULES

Nombre de Nombre de Effectifs Effectifs Fréquences Fréquences Fréquences


produits clients cumulés cumulés cumulées cumulées
financiers croissants décroissants croissantes décroissantes
xi ni Ni N’i fi Fi F’i
0 103 103 360 0,2861 0,2861 1
1 115 218 257 0,3194 0,6055 0,7139
2 95 313 142 0,2639 0,8694 0,3945
3 35 348 47 0,0972 0,9666 0,1306
4 10 358 12 0,0278 0,9944 0,0334
5 2 360 2 0,0056 1 0,0056
Total : 360 1

Il y a 313 clients possédant un nombre de produits financiers inférieur ou égal à 2

Il y a 47 clients possédant un nombre de pro. fin. supérieur ou égal à 3


La proportion de clients possédant un nombre de pro. fin. inférieur ou égal à 4 est de 99,44%

La proportion de clients possédant un nombre de pro. fin. supérieur ou égal à 1 est de 71,39%

16
(5) VARIABLES QUANTITATIVES DISCRETES
COURBES CUMULATIVES
400
x xi ni Ni N(x) N’i N ’(x)
350
 360
0 300
0 0 103 103 360
103 257 250
1 1 115 218 257
218 142 200
2 2 95 313 142 n/2
313 47 150
35 348 47
3 3 348 12 100
10 358 12
4 4 358 2 50
2 360 2 0
5 5 360 0 -2 -1 0 1 2 3 4 5 6


On appelle courbe cumulative croissante le tracé de la fonction N (ou F pour les fréquences)
qui à tout réel x associe N( x ) = nombre d'observations inférieur ou égal à x.
On appelle courbe cumulative décroissante le tracé de la fonction N' (ou F’ pour les fréquences)
qui a tout réel x associe N'( x ) = nombre d'observations supérieur strictement à x.
Les courbes cumulatives N(x) et N’(x) sont symétriques par rapport à n/2 : N(x) + N’(x) = n
Les courbes cumulatives F(x) et F’(x) sont symétriques par rapport à 0,5 : F(x) + F’(x) = 1
17
Quantitative continue

(1) VARIABLES QUANTITATIVES CONTINUES


Variable observée: augmentation moyenne mensuelle du salaire, en €, des employés
d’une multinationale au cours de l’année 2005. Augmentation Effectif
18 38 10 35 0 4 (€)
4 11 27 2 41 16
2 25 43 22 26 11 0 257
34 34 1 28 5 5 1 318
21 0 2 30 1 8 2 255
9 37 22 39 11 0 3 307
36 16 6 42 42 1
8 33 31 33 4 4 4 308
9 19 15 2 21 0 5 159
12 18 …. …. …. …. 6 140
7 84
Remarque1 : la variable augmentation moyenne mensuelle peut
8 72
être considérée comme continue. En arrondissant à l’euro, on l’a 9 55
discrétisée. 10 22
Une augmentation de 10 € est en fait une augmentation comprise 11 13
entre 9,5 € et 10,5 €. 12 9
13 7
Remarque2 : Une variable continue ne prend pas des valeurs 14 8
isolées, mais des valeurs appartenant à des intervalles. C'est 15 21
pourquoi, au lieu de définir des effectifs par valeurs, on définira des 16 6
17 2
effectifs par intervalles, appelés classes. ….. ….
Total 2125
Remarque3 : Une variable discrète comportant trop de valeurs est
aussi traitée comme une variable continue.
18
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue

(2) VARIABLES QUANTITATIVES CONTINUES


Augmentation (€) Effectifs
[0 – 3[ 830 Classes Effectifs
[3 – 5[ 615 [e 1 – e 2[ n1
[5 – 10[ 510 [e 2 – e 3[ n2
…. ….
[10 – 20[ 92
[e k – e k+1[ nk
[20 – 30[ 63
[30 – 50[ 15

Remarque 1: Le choix des classes et arbitraire, mais elles doivent être contigües
et recouvrir l’ensemble des valeurs.
Remarque 2: Il est préférable de prendre des classes d’amplitudes égales.

Remarque 3: Il ne faut prendre ni trop ni trop peu de classes.

Remarque 4: Le choix et le nombre de classes influent sur les représentations


graphiques.

19
20
(3) VARIABLES QUANTITATIVES CONTINUES
REPRESENTATION GRAPHIQUE DES EFFECTIFS ET FREQUENCES

900 effectif
Classes Effectifs 800
[0 – 3[ 830 700
[3 – 5[ 615 600
[5 – 10[ 510 500

[10 – 20 [ 92 400

[20 – 30[ 63 300

[30 – 50[ 15 200


100
0

30

50
0
3
350
Effectif rectifié
Classes Effectifs Amplitude Effectifs
300
ni ai rectifiés
ni /ai 250
[0 – 3[ 830 3 276,7 200
HISTOGRAMME
[3 – 5[ 615 2 307,5
[5 – 10[ 510 5 102,0 150

[10 – 20 [ 92 10 9,2 100


[20 – 30[ 63 10 6,3
50
[30 – 50[ 15 20 0,75
0

30

50
0
3

21
(4) VARIABLES QUANTITATIVES CONTINUES
REPRESENTATION GRAPHIQUE DES EFFECTIFS ET FREQUENCES

Classes Effectifs Amplitude Effectifs 350


Effectif rectifié
ni ai rectifiés 300
ni /ai
250
[0 – 3[ 830 3 276,7
[3 – 5[ 615 2 307,5 200
HISTOGRAMME
[5 – 10[ 510 5 102,0 150
[10 – 20[ 92 10 9,2
100
[20 – 30[ 63 10 6,3
[30 – 50[ 15 20 0,75 50

30

50
0

3
La surface = ai × (ni/ai) est de 830 unités

La surface = ai × (ni/ai) est de 615 unités


Dans un histogramme, ce sont les surfaces des rectangles qui sont proportionnelles aux
effectifs, et non les hauteurs de ces rectangles

Remarque: Le tracé de l’histogramme des fréquences est identique. Il suffit de porter


en ordonnées la fréquence rectifiée di = fi/ai, appelée densité.
22
(5) VARIABLES QUANTITATIVES CONTINUES
EFFECTIFS ET FREQUENCES CUMULES

Classes Effectifs Effectifs Effectifs Fréquences Fréquences


cumulés cumulés cumulées cumulées
Variable observée: croissants décroissants croissantes décroissantes
[ei – ei+1[ ni Ni Ni, Fi F’i
augmentation moyenne [0 – 3[ 830 830 2125 0,391 1,000
mensuelle du salaire, en [3-5[ 615 1445 1295 0,680 0,609
€, des employés d’une [ 5 - 10 [ 510 1955 680 0,920 0,320
[10 - 20 [ 92 2047 170 0,963 0,080
multinationale au cours [20 - 30 [ 63 2110 78 0,993 0,037
de l’année 2005. [30 – 50[ 15 2125 15 1,000 0,007
Total : 2125

Il y a 1445 employés dont l’augmentation est strictement inférieure à 5


Il y a 170 employés dont l’augmentation est supérieure ou égale à 10

23
(6) VARIABLES QUANTITATIVES CONTINUES
COURBES CUMULATIVES
x
 [ei – ei+1[ Fi F(x)
F’ F’i F’(x)
?
?0 i 1Al’intérieur
d cl fait
0 A 1
[0-3[ 0,391 1,000
? 1,000 ?
3 0,391 l’hypothèse
0,609
de chaque
0,9
[3-5[ 0,680 0,609
? 0,609 queon
la fait 0,8
Fi
5 0,680 classe,
0,320 0,7
[ 5 - 10 [ 0,920 0,320 0,320 répartition est
0,920 l’hypothèse
0,080
0,6 F’i
10 [10 - 20 [ 0,963 0,080 0,080 uniforme 0,5
que la
20 0,963 0,037 0,4
[20 - 30 [ 0,993 0,037 0,037 répartition est 0,3
30 0,993 0,007
uniforme
[30 - 50 [ 1,000 0,007 0,007 0,2

50 1 0 0,1
0
 -10 0 10 20 30 40 50 60

On appelle courbe cumulative croissante le tracé de la fonction F (N pour les effectifs) qui à tout réel x
associe F( x ) = nombre d'observations inférieur ou égal à x.

On appelle courbe cumulative décroissante le tracé de la fonction F’ (N’ pour les effectifs) qui a tout réel
Remarque: Pour une variable continue, il est indifférent de dire « inférieur ou égal » ou
x associe F’( x ) = nombre d'observations supérieur strictement à x.
« strictement inférieur ». Il en est de même pour « supérieur ou égal » ou « strictement
supérieur ».
Les courbes cumulatives F(x) et F’(x) sont symétriques par rapport à 0,5 : F(x) + F’(x) = 1
Il n’y a aucune chance qu’une observation tombe sur une borne. C’est l’imprécision de
l’instrument de mesure et un mauvais choix des bornes qui pourrait conduire à ce résultat.
24
(7) VARIABLES QUANTITATIVES CONTINUES
COURBES CUMULATIVES
Quelle est la proportion p d’employés dont l’augmentation est inférieure à 17 € ?
[ei – ei+1[ Fi F(x)
x
0 0
1
[0-3[ 0,391 0,950,9
3 0,391 0,8
[3-5[ 0,680 0,7

5 0,680 0,6
0,5
[ 5 - 10 [ 0,920 0,4
10 0,920 0,3

17 [10 - 20 [ 0,963 p 0,2


0,1
20 0,963 0
-10 0 10 20 30 40 50 60
[20 - 30 [ 0,993 17
30 0,993
[30 - 50 [ 1
50 1

17 - 10 p - 0,92 17  10
 D'où p  0,92   0,963  0,920   95%
20  10
20 - 10 0,963-0,920
25
RESUME

VARIABLE QUALITATIVE VARIABLE QUANTITATIVE


Nominale Ordinale Discrète Continue

Effectifs ou Fréquences Effectifs ou Fréquences


Diagramme en barres Diagramme en barres Diagramme en bâtons Histogramme

Modalités dans
l ’ordre
Diagramme circulaire Courbes cumulatives des effectifs ou des fréquences

26
PARAMETRES
STATISTIQUES

27
Les représentations graphiques ont permis une première synthèse visuelle de la
distribution des observations

Un paramètre statistique permet de résumer par une seule quantité numérique une
information contenue dans une distribution d’observations.

! Les paramètres statistiques ne concernent que les variables quantitatives

Variable Variable Variable


3000 3000 3000

2500 2500 2500

2000 2000 100 % - A % 2000


Dispersion
1500
Tendance centrale 1500 1500
Position
1000
1000 1000
A%
500 500 500

0 0 0
0 N° individu 0 N° individu 0 N° individu

28
(1) PARAMETRES DE TENDANCE CENTRALE
LE MODE
Une distribution est unimodale si elle présente un maximum marqué, et pas d'autres
maxima relatifs.
La lecture s’effectue sur le diagramme en bâtons ou l'histogramme.
100
140 90
80
120
70
100
60
80 50
60 40
30
40
20
20
10
0 0
0 1 2 3 4 5 6 900 1400 1900 2400 2900 3500 ou plus...

Mode Mode Classe modale

Le mode correspond à l'abscisse du maximum, c.à.d. la valeur la plus fréquente

29
(2) PARAMETRES DE TENDANCE CENTRALE
LE MODE

Si la distribution présente 2 ou plus maxima relatifs, on dit qu'elle est bimodale ou


plurimodale.
La population est composée de plusieurs sous-populations ayant des caractéristiques de
tendance centrale différentes.
90

80
140
70
120
60
100
50
80
40
60
30
40 20
20 10

0 0
0 1 2 3 4 5 6 900 1400 1900 2400 2900 3500 4000 4500 ou
plus...

Mode 1 Mode 2 Mode 1 Mode 2


30
(3) PARAMETRES DE TENDANCE CENTRALE
LA MEDIANE

Les valeurs observées doivent être rangées par ordre croissant.

La médiane M est la valeur du milieu de la série d’observations, c.à.d. telle qu'il y ait
autant d'observations "au-dessous" que "au-dessus".

Nombre impair d’observations Nombre pair d’observations

3 4 4 5 6 8 8 9 10 3 4 4 5 6 8 8 9

4 valeurs 4 valeurs 4 valeurs 4 valeurs


M Intervalle médian
M = milieu = 5,5

31
(4) PARAMETRES DE TENDANCE CENTRALE
LA MEDIANE à partir d’une distribution discrète

F(x) F(x)
xi ni Fi xi ni Fi
0 103 0,286 0 0
0 103 0,286
1 115 0,606 0,286 0,286
0,5 Intervalle médian 1 77 0,500
M 0,606 0,500 0,5
2 95 0,869 M = milieu = 1,5 2 95 0,764
3 35 0,967 0,869 0,764
3 35 0,861
4 10 0,994
0,967 0,861
4 10 0,889
5 2 1
0,994 0,889
5 40 1
1 1

1 1

0,5 0,5

0 0
-2 -1 0 1 2 3 4 5 6 -2 -1 0 1 2 3 4 5 6
Intervalle médian
M M = milieu = 1,5
32
(5) PARAMETRES DE TENDANCE CENTRALE
LA MEDIANE à partir d’une distribution continue

[ei – ei+1[ Fi F(x)


x
0 0
1
[0-3[ 0,391
0,9
3 0,391 0,8
M [3-5[ 0,680 0,5 0,7

5 0,680 0,6

0,5 0,5
[ 5 - 10 [ 0,920 0,4
10 0,920 0,3
0,2
[10 - 20 [ 0,963 0,1
20 0,963 0

[20 - 30 [ 0,993 -10 0 3,2210 20 30 40 50 60

30 0,993 M
[30 - 50 [ 1
50 1
M-3 0,5-0,391 0,5  0,391
 D'où M  3   5  3  3, 22
0,680  0,391
5-3 0,680-0,391
33
(6) PARAMETRES DE TENDANCE CENTRALE
LA MOYENNE ARITHMETIQUE

La moyenne arithmétique est notée x

1 n
Série brute x1, x2, … , xn x =  xi
n i=1

Valeurs de Effectifs Fréquences 1 k


Série groupée la variable x =  nixi
x1 n1 f1= n1/n n i=1
… … …
k
xi ni fi= ni/n nixi k
 = fi x i
… … … i=1 n i=1
xk nk fk= nk/n

34
(7) PARAMETRES DE TENDANCE CENTRALE
LA MOYENNE ARITHMETIQUE
Classes Effectifs Fréquences Centres de classe
Série classée
[e1 – e2[ n1 f1 x 1= ( e 1 + e 2)/2
[e2 – e3[ n2 f2 x 2= ( e 2 + e 3)/2
…. …. …. ….
[ek – ek+1[ nk fk x k= ( e k + e k+1)/2

1 k k
x =  n i x i   fi x i
n i=1 i=1

35
(8) PARAMETRES DE TENDANCE CENTRALE
LA MOYENNE ARITHMETIQUE

Comment faire la moyenne de plusieurs populations ?

Population P1 Population P2
Effectif n1 Effectif n2
Moyenne x1 Moyenne x 2

Population P = P1  P2
Effectif n = n 1+ n2
Moyenne x?

n1 x1 + n 2 x 2
x= Moyenne globale = moyenne des moyennes
n

36
(9) PARAMETRES DE TENDANCE CENTRALE
PROPRIETES GENERALES

z=ax+b

y=ax

P (x) = moyenne, médiane, mode P (y) = a P (x) P (z) = a P (x) + b

37
(10) PARAMETRES DE TENDANCE CENTRALE
MOYENNES GEOMETRIQUE ET HARMONIQUE

Moyenne géométrique

G= n x1n1 x 2n 2 .....x kn k

Utilisée dans le cas de phénomènes multiplicatifs (taux de croissance moyen)

Moyenne harmonique

n
H= k n

x
i=1
i

Utilisée dans le cas où l’on combine 2 variables sous forme de rapport


(pièces/heure, km/litre,…)
38
(1) PARAMETRES DE POSITION
LES FRACTILES OU QUANTILES
On appelle fractiles ou quantiles d'ordre k les (k-1) valeurs qui divisent les observations
en k parties d'effectifs égaux.

1 médiane M qui divise les observations en 2 parties égales

3 quartiles Q1, Q2, Q3 qui divisent les observations en 4 parties égales

9 déciles D1, D2, …, D9 qui divisent les observations en 10 parties égales

99 centiles C1, C2, …, C99 qui divisent les observations en 100 parties égales

39
(2) PARAMETRES DE POSITION
LES FRACTILES OU QUANTILES

Quartiles, déciles, centiles s’obtiennent de la même façon que la médiane.

Variable discrète Variable continue

0,9 0,9
1 0,8
0,75 0,7
0,75 0,6

0,5 0,5

0,5 0,4
0,3
0,2
0,2 0,1
0
0
-2 -1 0 1 2 3 4 5 6 -10 0 MQ3D
10 20 30 40 50 60
9
D2 M Q3

40
(3) PARAMETRES DE POSITION
PROPRIETES GENERALES
z=ax+b
100 % - A %

y=ax
100 % - A % A%

x
100 % - A %

A%
A%

Q (x) = quantile Q (y) = a Q (x) Q (z) = a Q (x) + b

41
Dispersion

(1) PARAMETRES DE DISPERSION

Etendue : E = xmax - xmin

Intervalle interquartile : IQ = Q3 - Q1

Variance : Série brute : Série groupée ou classée :

1 n 2 1 k 2
k
2
V =   xi - x  V =  n i  x i - x    fi  x i - x 
n i=1 n i=1 i=1

1 k
V =  n i x i2  x 2 = Moyenne des carrés - Carré de la moyenne
n i=1

Ecart-type : σ= V

42
43
(2) PARAMETRES DE DISPERSION
Comment faire la variance de plusieurs populations ?

Population P1 Population P2
Effectif n1 Effectif n2
Moyenne x1 Moyenne x 2
Variance V1 Variance V2

Population P = P1  P2
Effectif n = n 1+ n2
Moyenne x
Variance V ?

1 k 1 k 2
V =  n i Vi +  n i  x i -x 
n i=1 n i=1
Variance globale = Moyenne des variances + Variance des moyennes
44
(3) PARAMETRES DE DISPERSION
PROPRIETES GENERALES

z=ax+b

y=ax

P (x) = étendue, écart-type, P (y) = a P (x) P (z) = a P (x)


intervalle interquartile
45
PROPRIETES IMPORTANTES
DE LA MOYENNE ET DE LA VARIANCE

Comment se comportent la moyenne et la variance


lorsqu’on fait subir un changement de variable aux observations?

xi y i = a xi + b

y=ax+b V(y) = a 2 V(x) σ(y) = a σ(x)

Comment se comportent la moyenne et la variance


de la somme de deux séries d’observations?

xi
zi = xi + yi
yi
z= x+ y V(z)  V(x)+ V(y)

46
(4) PARAMETRES DE FORME

47
48
49
50
51
fi
leptocurti

mésocurti

platicurti

x
Pour une loi très connue en statistique, la loi normale centré réduite, 2 = 0 ; la courbe
de la distribution est similaire à une distribution normale centrée réduite N(0,1) ; elle
est mésokurtique

la courbe de la distribution est moins plate que la distribution normale ; elle est
leptocurtique.

la courbe de la distribution est plus plate que la distribution normale, elle est
platicurtique.

52
ETUDE DE 2 VARIABLES
QUANTITATIVES

53
ETUDE DE 2 VARIABLES QUANTITATIVES
(1) MESURE DE LA LIAISON ENTRE 2
VARIABLES QUANTITATIVES

95

90
Poids
Nom Taille xi (cm) Poids yi (kg)
85
Pierre 175 73
80
Arantxa 168 56
….. ….. ….. 75

Martin 185 87 70

65

60

55

50
Taille
150 160 170 180 190 200

La connaissance de la taille x apporte une certaine information sur le poids y

Il existe une relation de dépendance entre x et y

54
ETUDE DE 2 VARIABLES QUANTITATIVES
(2) MESURE DE LA LIAISON ENTRE 2
VARIABLES QUANTITATIVES

La connaissance de x n’apporte La connaissance de x permet de


aucune certaine information sur y connaître exactement la valeur de y

x et y sont indépendantes Il existe une relation fonctionnelle


entre x et y
55
ETUDE DE 2 VARIABLES QUANTITATIVES
(3) MESURE DE LA LIAISON ENTRE 2
VARIABLES QUANTITATIVES

1 n
Covariance : Cov  x,y  =   x i -x  yi -y 
n i=1

Propriétés :

Cov  x,y   0  x et y varient dans le même sens

Cov  x,y  < 0  x et y varient en sens contraire

Cov  x,y   Cov  y,x 

Cov  x,x   V(x)

Cov  a x + b y , z   a Cov  x,z   b Cov  y,z 


56
ETUDE DE 2 VARIABLES QUANTITATIVES
(4) MESURE DE LA LIAISON ENTRE 2
VARIABLES QUANTITATIVES

cov(x,y)
Corrélation linéaire: ρ =
σ(x) σ(y)

Propriétés :

1  ρ  1
 ρ = 1 si a > 0
y=ax+b 
ρ = -1 si a < 0
ρ  1  Il existe une relation fonctionnelle entre x et y
ρ0  x et y sont indépendantes
0 < ρ < 1  Il existe une dépendance linéaire d’autant plus forte que |r| est grand

57
ETUDE DE 2 VARIABLES QUANTITATIVES

(1) AJUSTEMENT LINEAIRE


95

90
y = Poids
85

80

75

70

65

60

55

50
x = Taille
150 160 170 180 190 200

Est-il possible de trouver une fonction numérique f telle que y = f (x) ?

Si une telle fonction existe, on dit que f est un modèle du phénomène étudié.

x est la variable explicative.


y est la variable expliquée.

58
ETUDE DE 2 VARIABLES QUANTITATIVES

(2) AJUSTEMENT LINEAIRE


95

90
y = Poids
85

80

75

70

65

60

55

50
x = Taille
150 160 170 180 190 200

On désire trouver la droite qui passe « au mieux » à l’intérieur du nuage de points

59
ETUDE DE 2 VARIABLES QUANTITATIVES

(3) AJUSTEMENT LINEAIRE

« au mieux »

n n
Minimiser S =  e 2
i
Minimiser S' =  e'i2
i=1 i=1

95 95

90
y = Poids 90
y = Poids
85 85

80 80
e'i
75 ei 75

70 70

65 65

60 60

55 55

50
x = Taille 50
x = Taille
150 160 170 180 190 200 150 160 170 180 190 200

Droite de régression de y en x Droite de régression de x en y

60
ETUDE DE 2 VARIABLES QUANTITATIVES

(4) AJUSTEMENT LINEAIRE


REGRESSION LINEAIRE DE Y EN X
95

90
y = Poids
85

f(x) = y = ax+b
Droite de régression y80i
75
linéaire de y en x
y = f(x) = ax + b axi+b70 ei = |yi-axi-b|
65

60

55

50
x = Taille
150 160 170 180 190 200
xi
n n
2 2
La droite de régression linéaire de y en x, notée Dy/x , minimise S = 
i=1
e =
i   yi -ax i -b 
i=1
n

  x -x  y -y 
i i
Cov  x,y 
a= i=1
= b = y - ax
n
2 V(x)
  x i -x 
i=1
Dy/x passe par le point moyen  x , y 

61
ETUDE DE 2 VARIABLES QUANTITATIVES

(5) AJUSTEMENT LINEAIRE


REGRESSION LINEAIRE DE Y EN X
95

90
y = Poids
85

f(x) = y = ax+b
Droite de régression y80i
75
linéaire de y en x
y = f(x) = ax + b axi+b70 ei = |yi-axi-b|
65

60

55
x = Taille
50
150 160 170 180 190 200
xi
y=ax+b définit un modèle affine
ŷ i = a x i + b = valeur de y prévue par le modèle
i

ri = yi - yˆ i = résidu de la ième observation

ei = ri = yi - a x i - b = erreur due au modèle

62
ETUDE DE 2 VARIABLES QUANTITATIVES

(6) AJUSTEMENT LINEAIRE


REGRESSION LINEAIRE DE X EN Y
95 ei’ = |xi-a’yi-b’|
90
y = Poids
85

Droite de régression 80 f(y) = x = a’y+b’


yi
linéaire de x en y 75

70
x = f(y) = a’y + b’ 65

60

55

50
x = Taille
150 160 170 180 190 200
xi a’yi+b’
n n
2 2
La droite de régression linéaire de x en y, notée Dx/y , minimise S' = 
i=1
e' =
i   x i -a'yi -b'
i=1
n

  x -x  y -y 
i i
Cov  x,y 
a' = i=1
n
= b' = x - a' y
2 V(y)
  y -y 
i=1
i
Dx/y passe par le point moyen  x , y 
63
ETUDE DE 2 VARIABLES QUANTITATIVES
LIENS ENTRE CORRELATION
ET DROITES DE REGRESSION

Cov  x,y 
Dy/x : y = ax + b a= b = y - ax
σ(x) σ(y)
V(x) r² = a a’ ρ=a = a'
σ(y) σ(x)
Cov  x,y 
Dx/y : x = a’y + b’ a' = b' = x - a' y
1 b' V(y)
 y= x 
a' a'

x, y  x, y 
x, y 

r² = a a’ = 0 0< r² = a a’ < 1 r² = a a’ = 1
Le degré de dépendance linéaire
Indépendance linéaire se mesure à la proximité des Liaison fonctionnelle linéaire
droites de régression 64
ETUDE DE 2 VARIABLES QUANTITATIVES

(1) AJUSTEMENT A UNE FONCTION EXPONENTIELLE


25,0
xi yi
2,8 0,8 20,0
4,3 1,2 droite de régression linéaire
2,7 1,5 15,0 de y en x
4,2 1,9
4,1 2,3 10,0

…. ….
4,0 3,1 5,0

0,0
0 10 20 30 40 50 60

2
Analyse des résidus
1

0
Les résidus devraient se répartir
-1
0 10 20 30 40 50 60 au hasard autour de l’axe des
-2 abscisses:
-3 le modèle affine ne convient pas
65
Exemple avec xl

taille xi poids yi
150 55
155 62
165 63 80
160 61
70
170 65
172 65 60
163 67 50
175 70
174 72 40
180 75 30

20

66
ETUDE DE 2 VARIABLES QUANTITATIVES

(2) AJUSTEMENT A UNE FONCTION EXPONENTIELLE


25,0

20,0
Modèle exponentiel
y = ex exponentielle de base e
15,0

10,0
y = ax exponentielle de base a

5,0 y = b a x Forme exponentielle générale


0,0
0 10 20 30 40 50 60
Changement de variable
ln y = ln b + x ln a
Y=AX+B avec Y = ln y
X=x
A = ln a
L’ajustement affine de Y en fonction de X donne A et B, B = ln b
d ’où a = e A , b = e B , et le modèle y = b a x
67
ETUDE DE 2 VARIABLES QUANTITATIVES

(3) AJUSTEMENT A UNE FONCTION EXPONENTIELLE


25,00

20,00
Série initiale (xi,yi)
15,00 Série prévue par le modèle  x i ,yˆ i 
10,00

5,00

0,00
0 10 20 30 40 50 60

1,50

1,00

0,50

Analyse des résidus 0,00


0 10 20 30 40 50 60

-0,50

-1,00 Le modèle exponentiel est mieux


-1,50 adapté que le modèle affine
68
ETUDE DE 2 VARIABLES QUANTITATIVES

(1) AJUSTEMENT A UNE FONCTION PUISSANCE

900
800
700
600
500 Droite de régression linéaire de y en x
400
300
200
100
0
0 20 40 60

150

100

50

0
0 10 20 30 40 50 60
Analyse des résidus
-50
Le modèle affine ne
-100
convient pas
-150
69
ETUDE DE 2 VARIABLES QUANTITATIVES

(2) AJUSTEMENT A UNE FONCTION PUISSANCE


900
800
Modèle puissance y = b xa
700
600
500 Changement de variable
400
300 ln y = ln b + a ln x
200
100 Y=AX+B
0
avec Y = ln y
0 20 40 60 X = ln x
A=a
B = ln b

L’ajustement affine de Y en fonction de X donne A et B,


d ’où a = A , b = e B , et le modèle y = b x a

70
ETUDE DE 2 VARIABLES QUANTITATIVES

(3) AJUSTEMENT A UNE FONCTION PUISSANCE


900
800
700 Série initiale (xi,yi)
600
500 Série prévue par le modèle  x i ,yˆ i 
400
300
200
100
0
0 20 40 60

80

60

40

20

Analyse des résidus 0


0 10 20 30 40 50 60
-20

-40
Le modèle puissance est mieux
-60
adapté que le modèle affine
-80 71
ETUDE DE 2 VARIABLES QUANTITATIVES

QUALITE D’UN AJUSTEMENT

2 2 2
On montre que   yi -y    yˆ i -y     yi -yˆ i 
SCM SCR
SCT = SCM + SCR  1 
SCT SCT
Somme des carrés des Somme des carrés des Somme des
= +
écarts à la moyenne écarts du modèle carrés des résidus

L’ajustement est d’autant meilleur que SCR est proche de 0, c.à.d. que SCR/SCT est
proche de 0 ou SCM/SCT est proche de 1.

SCM
R = Coefficient de détermination = r² = (coef. de corrélation)²
SCT

= proportion de la variation totale due à l'ajustement

0  R 1
72
ETUDE DE 2 VARIABLES QUALITATIVES

73
74
75
76
Paramètre de liaison

77

Vous aimerez peut-être aussi