Vous êtes sur la page 1sur 43

STATISTIQUES

DESCRIPTIVES
Applications sur Excel
Outils d’analyse
II. ETUDE DE 2 VARIABLES QUANTITATIVES

Il est fréquemment nécessaire d’étudier les liens qui peuvent exister entre les deux
( ou plus de de deux) dimensions qui caractérisent une population statistique. Pour
qualifier ces liens on parle de liaison statistique, de corrélation mais, c’est important
de le préciser, il n’est jamais question de causalité, la statistique descriptive n’ayant
pas pour objet de prouver des causalités.
Ce chapitre se limite à l’étude des séries à deux dimensions, et . Cela offre déjà un
large éventail de possibilités si l’on se souvient que chacune de ces dimensions peut
être quantitative, qualitative et que les données peuvent être groupées dans chaque
cas par valeur ou groupes de valeurs. A ces différents cas, correspondent des outils
d’analyse appropriés que nous allons évoquer successivement.
ETUDE DE 2 VARIABLES QUANTITATIVES

(1) MESURE DE LA LIAISON ENTRE 2


VARIABLES QUANTITATIVES
95

90
Poids
Nom Taille xi (cm) Poids yi (kg)
Pierre 175 73 85

Arantxa 168 56 80

….. ….. ….. 75

Martin 185 87 70

65

60

55
Taille
50
150 160 170 180 190 200

La connaissance de la taille x apporte une certaine information sur le poids y

Il existe une relation de dépendance entre x et y


ETUDE DE 2 VARIABLES QUANTITATIVES

(2) MESURE DE LA LIAISON ENTRE 2


VARIABLES QUANTITATIVES

La connaissance de x n’apporte La connaissance de x permet de


aucune certaine information sur y connaître exactement la valeur de y

x et y sont indépendantes Il existe une relation


fonctionnelle entre x et y
ETUDE DE 2 VARIABLES QUANTITATIVES

(3) MESURE DE LA LIAISON ENTRE 2


VARIABLES QUANTITATIVES

1 n
Covariance : Cov  x,y  =   x i -x  y i -y 
n i=1

Propriétés :

Cov  x,y   0  x et y varient dans le même sens

Cov  x,y   0  x et y varient en sens contraire

Cov  x,y   Cov  y,x 

Cov  x,x   V(x)

Cov  a x + b y , z   a Cov  x,z   b Cov  y,z 


ETUDE DE 2 VARIABLES QUANTITATIVES

(4) MESURE DE LA LIAISON ENTRE 2


VARIABLES QUANTITATIVES
cov(x,y)
Corrélation linéaire: ρ =
σ(x) σ(y)

Propriétés :

1  ρ  1
 ρ = 1 si a > 0
y=ax+b 
ρ = -1 si a < 0
ρ  1  Il existe une relation fonctionnelle entre x et y
ρ  0  x et y sont indépendantes
0  ρ  1  Il existe une dépendance linéaire d’autant plus forte que |r| est grand

! Ne pas confondre causalité et corrélation


ETUDE DE 2 VARIABLES QUANTITATIVES

(1) AJUSTEMENT LINEAIRE


95

90
y = Poids
85

80

75

70

65

60

55
x = Taille
50
150 160 170 180 190 200

Est-il possible de trouver une fonction numérique f telle que y = f (x) ?

Si une telle fonction existe, on dit que f est un modèle du phénomène étudié.

x est la variable explicative.


y est la variable expliquée.
ETUDE DE 2 VARIABLES QUANTITATIVES

(2) AJUSTEMENT LINEAIRE


95

90
y = Poids
85

80

75

70

65

60

55
x = Taille
50
150 160 170 180 190 200

On désire trouver la droite qui passe « au mieux » à l’intérieur du nuage de points


ETUDE DE 2 VARIABLES QUANTITATIVES

(3) AJUSTEMENT LINEAIRE

« au mieux »

n n
Minimiser S=  e 2
i
Minimiser S' = 
i=1
e'i2
i=1

95 95

90
y = Poids 90
y = Poids
85 85

80 80
e'i
75
ei 75

70 70

65 65

60 60

55 55
x = Taille x = Taille
50 50
150 160 170 180 190 200 150 160 170 180 190 200

Droite de régression de y en x Droite de régression de x en y


ETUDE DE 2 VARIABLES QUANTITATIVES

(4) AJUSTEMENT LINEAIRE


REGRESSION LINEAIRE DE Y EN X
95

90
y = Poids
85

yi80 f(x) = y = ax+b


Droite de régression
linéaire de y en x
75

y = f(x) = ax + b axi+b70 ei = |yi-axi-b|


65

60

55
x = Taille
50
150 160
x170i 180 190 200

n n

   yi -ax i -b 
2
La droite de régression linéaire de y en x, notée Dy/x , minimise S = 2
e =
i
i=1 i=1
n

  x -x  y -y 
i i
Cov  x,y 
a= i=1
= b = y - ax
n
V(x)
  x i -x 
2

i=1
Dy/x passe par le point moyen  x , y 
ETUDE DE 2 VARIABLES QUANTITATIVES

(5) AJUSTEMENT LINEAIRE


REGRESSION LINEAIRE DE Y EN X

95

90
y = Poids
85

yi80 f(x) = y = ax+b


Droite de régression
linéaire de y en x
75

y = f(x) = ax + b axi+b70 ei = |yi-axi-b|


65

60

55
x = Taille
50
150 160
x170i 180 190 200

y = a x + b définit un modèle affine

ŷi = a x i + b = valeur de yi prévue par le modèle

ri = yi - yˆ i = résidu de la ième observation

ei = ri = yi - a x i - b = erreur due au modèle


ETUDE DE 2 VARIABLES QUANTITATIVES

(6) AJUSTEMENT LINEAIRE


REGRESSION LINEAIRE DE X EN Y

95 ei’ = |xi-a’yi-b’|
90
y = Poids
85

yi80 f(y) = x = a’y+b’


Droite de régression
linéaire de x en y
75

70
x = f(y) = a’y + b’
65

60

55
x = Taille
50
150 160
x170i a’yi+b’
180 190 200

n n

   x i -a'yi -b'
2
La droite de régression linéaire de x en y, notée Dx/y , minimise S' = 2
e' =
i
i=1 i=1
n

  x -x  y -y 
i i
Cov  x,y 
a' = i=1
n
= b' = x - a' y
V(y)
  y -y 
2

i=1
i Dx/y passe par le point moyen  x , y 
ETUDE DE 2 VARIABLES QUANTITATIVES

LIENS ENTRE CORRELATION


ET DROITES DE REGRESSION
Cov  x,y 
Dy/x : y = ax + b a= b = y - ax
σ(x) σ(y)
V(x) r² = a a’ ρ=a = a'
σ(y) σ(x)
Cov  x,y 
Dx/y : x = a’y + b’ a' = b' = x - a' y
1 b' V(y)
 y= x 
a' a'

x, y  x, y 
x, y 

r² = a a’ = 0 0< r² = a a’ < 1 r² = a a’ = 1
Le degré de dépendance
Indépendance linéaire linéaire se mesure à la Liaison fonctionnelle linéaire
proximité des droites de
régression
ETUDE DE 2 VARIABLES QUANTITATIVES

(1) AJUSTEMENT A UNE FONCTION EXPONENTIELLE

25,0
xi yi
2,8 0,8 20,0
4,3 1,2 droite de régression
2,7 1,5 15,0 linéaire de y en x
4,2 1,9
4,1 2,3 10,0

…. ….
4,0 3,1 5,0

0,0
0 10 20 30 40 50 60

2
Analyse des résidus
1

0
Les résidus devraient se répartir
-1
0 10 20 30 40 50 60
au hasard autour de l’axe des
-2 abscisses:
-3 le modèle affine ne convient pas
ETUDE DE 2 VARIABLES QUANTITATIVES

(2) AJUSTEMENT A UNE FONCTION EXPONENTIELLE


25,0

Modèle exponentiel
20,0

y = ex exponentielle de base e
15,0

10,0
y = ax exponentielle de base a

5,0 y = b a x Forme exponentielle générale


0,0
0 10 20 30 40 50 60
Changement de variable
ln y = ln b + x ln a

Y =AX + B avec Y = ln y
X=x
A = ln a
L’ajustement affine de Y en fonction de X donne A et B, B = ln b
d ’où a = e A, b =, eet
B
le modèle y = b ax
ETUDE DE 2 VARIABLES QUANTITATIVES

(3) AJUSTEMENT A UNE FONCTION EXPONENTIELLE


25,00

20,00 Série initiale (xi,yi)


Série prévue par le
15,00
modèle
 x i ,yˆ i 
10,00

5,00

0,00
0 10 20 30 40 50 60

1,50

1,00

0,50

Analyse des résidus 0,00 0 10 20 30 40 50 60

-0,50

-1,00 Le modèle exponentiel est mieux


-1,50 adapté que le modèle affine
ETUDE DE 2 VARIABLES QUANTITATIVES

(1) AJUSTEMENT A UNE FONCTION PUISSANCE

900
800
700
600
500
Droite de régression linéaire de y en x
400
300
200
100
0
0 20 40 60

150

100

50

0
0 10 20 30 40 50 60
Analyse des résidus
-50
Le modèle affine ne
convient pas
-100

-150
ETUDE DE 2 VARIABLES QUANTITATIVES

(2) AJUSTEMENT A UNE FONCTION PUISSANCE


900
800
Modèle puissance y = b xa
700
600
500 Changement de variable
400
300 ln y = ln b + a ln x
200
100
Y =AX + B avec Y = ln y
0
0 20 40 60 X = ln x
A=a
B = ln b

L’ajustement affine de Y en fonction de X donne A et B,


d ’où a = A , b = e,Bet le modèle y = b xa
ETUDE DE 2 VARIABLES QUANTITATIVES

(3) AJUSTEMENT A UNE FONCTION PUISSANCE


900
800
700 Série initiale (xi,yi)
600
Série prévue par le
500
modèle
 x i ,yˆ i 
400
300
200
100
0
0 20 40 60

80

60

40

20

Analyse des résidus 0


0 10 20 30 40 50 60
-20

Le modèle puissance est mieux


-40

adapté que le modèle affine


-60

-80
ETUDE DE 2 VARIABLES QUANTITATIVES

QUALITE D’UN AJUSTEMENT

On montre   y -y    yˆ -y     y -yˆ 
2 2 2
i i i i
que
SCM SCR
SCT = SCM + SCR  1 
SCT SCT
Somme des carrés Somme des
Somme des carrés
des écarts à la = des écarts du modèle
+ carrés des
moyenne résidus

L’ajustement est d’autant meilleur que SCR est proche de 0, c.à.d. que SCR/SCT est
proche de 0 ou SCM/SCT est proche de 1.

SCM
R = Coefficient de détermination = r² = (coef. de corrélation)²
SCT

= proportion de la variation totale due à l'ajustement

0  R 1
LES INDICES
LES INDICES

INDICES ELEMENTAIRES

Un indice est le rapport d’une variable mesurée à deux instants différents.


Un indice est représentatif d’une évolution

y1 = valeur de la variable y à la date t1


y0 = valeur de la variable y à la date t0

y1 Indice élémentaire de la variable y à la date t1 par rapport


i1 0 =
y0 à la date de référence t0
Indice élémentaire de la variable y à la date t1 par rapport
I1 0 = i1 0  100
à la date de référence t0, base 100.

Propriétés i n/n = 1 Identité


i 2/1  i1/2 = 1 Réversibilité
i3/1  i3/2  i 2/1 Circularité
LES INDICES

INDICES ET TAUX DE VARIATION


y1  y 0 Taux de variation ou taux de croissance de la variable y
r1 0 =
y0 entre la date t0 et la date t1

y1
r1 0 =  1  i1 0  1 r=i-1 i=1+r
y0

y1 = (1+ r1 0 )y 0  y1 = i1 0 y 0 i = 1 + r = coefficient multiplicateur

r=0  i=1 Pas d’évolution

r>0  i>1 Croissance

-100% = -1 < r < 0  0i < 1 Décroissance


LES INDICES

INDICES ET TAUX DE VARIATION MOYENS

y0, y1, ….., yn les valeurs prises par une variable aux dates t0, t1, ….., tn
ir1,, ir2,,….., in les indices élémentaires sur chacune des périodes
1 2 ….., rn les taux de croissance sur chacune des périodes
y n  i(1n 
 yrnn-1
)  y n-1
i n i(1
n-1
ryn )n-2 (1......
rn-1 )i nyn-2.....
 (1 i2 rni)1.....
y 0  (1  r2 )  (1  r1 )  y 0

riGG l’indice
le taux de
élémentaire
croissanceglobal
entre entre
t0 et tnt0 et tn
yynn  i(1
G yrG0)  y 0
ir l’indice
le taux de moyen
croissance moyen
y n  i(1yr) yi 2n-1y n-2
n-1  2...yin-2
(1  r)
n
y...
0  (1  r)  y 0
n

(1+ rG )=  ni n(1
i n r)
i G =(1+  rni)2.....
..... i1  (1  r2 )  (1  r1 )

ri11,, ir22,,…..,
…..,irkkindices
indicesélémentaires
élémentairessur
surdes
despériodes
périodesde
denn1,1,nn2,2,…..,
…..,nnkkunités
unités(jour,
(jour,mois,
mois,année…)
année…)

i G =n i n (1i1nr11) ni1 2n2 


(1+rG )= (1+r)  r2)inkn2 k .....  (1  rk ) n k
(1.....
i  n i1n1  i 2n 2  .....  i kn k
Moyenne géométrique des indices
élémentaires
LES INDICES

INDICES USUELS

P1
Indice élémentaire des prix i  P 1 0 =
P0

Indice élémentaire des Q1


i  Q 1 0 =
quantités (ou des volumes) Q0

Indice élémentaire de valeur V1 P1Q1


i  V 1 0 =   i  P 1 0 i Q 1 0
(ou de dépense) V0 P0Q 0
LES INDICES

INDICES SYNTHETIQUES

Un indice synthétique mesure l’évolution simultanée de plusieurs produits

Un indice synthétique est une moyenne pondérée des indices élémentaires


des différents produits

Coefficient de pondération (ou budgétaire) du produit j à la date tn

Vj,n Pj,n Q j,n


α j,n  n
 n

V
j=1
j,n P
j=1
j,n Q j,n

Remarque : α
j=1
j,n 1
LES INDICES

(1) INDICES SYNTHETIQUES DE LASPEYRES

Indice de Laspeyres des prix


Moyenne arithmétique des indices élémentaires des prix, base 100,
L  P 1 0 = pondérés par des coefficients de pondération relatifs à la date de
référence t0
n
L  P 1 0 =  α I P 
j,0 j 10
1 seul indice sur 4 doit être modifié
j=1 Comment s’en souvenir ? n
n P Q j,10
P
j,1
Q j,0 Dépense de la date courante j=1
j,1  n
j=1
  100 Dépense de la date de référence
n P Q j,0
P
j,0
j,0 Q j,0 j=1
j=1

Dépense de la date courante avec les quantités de référence


 100
Dépense de la date de référence
LES INDICES

(2) INDICES SYNTHETIQUES DE LASPEYRES

Indice de Laspeyres des quantités


Moyenne arithmétique des indices élémentaires des quantités, base 100,
L  Q 1 0 = pondérés par des coefficients de pondération relatifs à la date de
référence t0
n
L  Q 1 0 =  α I Q 
j,0 j 10
1 seul indice sur 4 doit être modifié
j=1 Comment s’en souvenir ? n
n P j,1 0 Q j,1
P
j=1
j,0 Q j,1 Dépense de la date courante
 j=1
n
  100 Dépense de la date de référence
n P Q j,0
P
j,0
j,0 Q j,0 j=1
j=1

Dépense de la date courante avec les prix de référence


 100
Dépense de la date de référence
LES INDICES

(1) INDICES SYNTHETIQUES DE PAASCHE

Indice de Paasche des prix

P  P 1 0 = Moyenne harmonique des indices élémentaires des prix, base 100,


pondérés par des coefficients de pondération relatifs à la date courante t1
1
P  P 1 0 = n α j,1
I
j=1 P 
j 10
1 seul indice sur 4 doit être modifié
Comment s’en souvenir ? n
n

 Pj,1Q j,1 Dépense de la date courante


P
j=1
j,1 Q j,1
j=1 
  100 Dépense de la date de référence
n
n

 Pj,0Q j,1 P
j=1
j,0 Q j,01
j=1

Dépense de la date courante


 100
Dépense de la date de référence avec les quantités courantes
LES INDICES

(2) INDICES SYNTHETIQUES DE PAASCHE

Indice de Paasche des quantités

P  Q 1 0 = Moyenne harmonique des indices élémentaires des quantités, base 100,


pondérés par des coefficients de pondération relatifs à la date courante t1

1
P  Q 1 0 = n α j,1
I
j=1 Q  j 10
1 seul indice sur 4 doit être modifié
Comment s’en souvenir ? n
n P Q j,1
P
j,1
Q j,1 Dépense de la date courante j=1
j,1  n
j=1
  100 Dépense de la date de référence
n P j,01 Q j,0
P
j=1
Q j,0
j,1
j=1

Dépense de la date courante


 100
Dépense de la date de référence avec les prix courants
SERIES
CHRONOLOGIQUES
SERIES CHRONOLOGIQUES

LES DONNEES
Date Y
T1 2001 10 Y = prix d’un bien en fonction du temps
T2 2001 9
T3 2001 10 2001 2002 2003 2004 2005
er
T4 2001 11 1 trimestre 10 11 11 12 12
T1 2002 11 2e trimestre 9 10 11 11 12
T2 2002 10 3e trimestre 10 11 13 12 15
T3 2002 11 4e trimestre 11 12 13 14 16
T4 2002 12
T1 2003 11
T2 2003 11
17
16
Y
T3 2003 13 15
T4 2003 13 14
13
T1 2004 12
T2 2004 11 Y = série initiale 12
11
T3 2004 12 10

T4 2004 14
9
8
temps
T1 2005 12 0 5 10 15 20
T2 2005 12
T3 2005 15
T4 2005 16
SERIES CHRONOLOGIQUES

LES COMPOSANTES
17
16
15
14

Y = série initiale 13
12
11
10
9
8
0 5 10 15 20

Composante Composante
Tendance ou Trend
Saisonnière Aléatoire
T
17 1,5
S A
2
16 1,4
15 1,3
14 1,2 1,5
13 1,1
1 1
12
0,9
11 0,8
10 0,7 0,5
9 0,6
8 0,5 0
0 5 10 15 20 0 5 10 15 20 0 5 10 15 20
SERIES CHRONOLOGIQUES

MODELES DE DECOMPOSITION

Modèle additif Modèle multiplicatif

Y =T + S +A Y =T . S .A
SERIES CHRONOLOGIQUES

(1) DETERMINATION DE LA TENDANCE


REGRESSION LINEAIRE
Il s’agit de faire un lissage du nuage des points par une fonction connue.
Lorsque le nuage est linéaire on utilise la droite de régression de y en fonction du
temps

T = tendance

Avantage:
Expression analytique

Inconvénients:
Un nuage ne se présente pas toujours sous une forme analytique simple
Le calcul de la tendance peut être affecté par des valeurs extrêmes ou
par les valeurs de début et de fin de série.
SERIES CHRONOLOGIQUES

(2) DETERMINATION DE LA TENDANCE


MOYENNES MOBILES
t Y t mm(3)
1 y1 -
2 y2 2 (y1+y2+y3)/3
Moyennes mobiles 3 y3 3 (y2+y3+y4)/3
d’ordre impair 4 y4 Moy.……
Mobiles
….. ….. d’ordre
…… 3
n yn -

t Y t mm(2)
Moyennes mobiles 1 y1 -
d’ordre pair. 2 y2 2 (y1/2+y2+y3/2)/2
On utilise une 3 y3 3 (y2/2+y3+y4/2)/2
4 y4 Moy.……
Mobiles
observation d’ordre 2
….. ….. ……
supplémentaire
n yn -
SERIES CHRONOLOGIQUES

(3) DETERMINATION DE LA TENDANCE


MOYENNES MOBILES

Choix de l’ordre des moyennes mobiles : égal au nombre de saisons

Avantages du lissage par moyennes mobiles :

Permet de se faire une idée de la tendance lorsque le nuage ne présente pas


une tendance algébrique claire
Inconvénients:
La tendance est estimée sur une partie de la période étudiée et non sur la
totalité
Ne donne pas une expression analytique de la tendance en fonction du
temps
Approximation pas très bonne lorsqu’il y a de fortes courbures
Sensible aux valeurs extrêmes
SERIES CHRONOLOGIQUES

DETERMINATION DES COMPOSANTES


SAISONNIERES
Modèle multiplicatif Y = T.S.A Modèle additif Y = T+S+A

Rapports Y/T = S.A Différences Y-T = S+A

Coefficients saisonniers bruts S'j

S'j = Moyenne des rapports de la saison j S'j = Moyenne des différences de la saison j

Coefficients saisonniers S j

S j = S'j S ' S j = S'j - S '


Rque: cette transformation permet de respecter le principe de conservation des
aires
S 1 S0
SERIES CHRONOLOGIQUES

DETERMINATION DE LA COMPOSANTE
ALEATOIRE

Modèle multiplicatif Y = T.S.A Modèle additif Y = T+S+A

Y
A= A =Y - T - S
T.S

La composante aléatoire, ou résidu, permet d’analyser la qualité du modèle de


décomposition
SERIES CHRONOLOGIQUES

DESAISONNALISATION

YCVS = série désaisonnalisée ou Corrigée des Variations Saisonnières, exprime


ce qu’aurait été l’évolution du phénomène sans effet saisonnier.

Modèle multiplicatif Y = T.S.A Modèle additif Y = T+S+A

Y
YCVS = YCVS = Y  S
S
SERIES CHRONOLOGIQUES

PREVISION

Lissage obtenu par

- Régression linéaire de Y sur le temps t T = droite de régression DY/t

- Moyennes mobiles (Moyennes mobiles = T provisoire)

Régression linéaire de YCVSsur le temps t T = droite de régression D YCVS t

Prévision à la date future t, correspondant à la saison j:

Modèle multiplicatif Y = T.S.A Modèle additif Y = T+S+A

Ŷ(t)= T(t) × S j Ŷ(t) = T(t) + S j

Vous aimerez peut-être aussi