Académique Documents
Professionnel Documents
Culture Documents
DESCRIPTIVES
Applications sur Excel
Outils d’analyse
II. ETUDE DE 2 VARIABLES QUANTITATIVES
Il est fréquemment nécessaire d’étudier les liens qui peuvent exister entre les deux
( ou plus de de deux) dimensions qui caractérisent une population statistique. Pour
qualifier ces liens on parle de liaison statistique, de corrélation mais, c’est important
de le préciser, il n’est jamais question de causalité, la statistique descriptive n’ayant
pas pour objet de prouver des causalités.
Ce chapitre se limite à l’étude des séries à deux dimensions, et . Cela offre déjà un
large éventail de possibilités si l’on se souvient que chacune de ces dimensions peut
être quantitative, qualitative et que les données peuvent être groupées dans chaque
cas par valeur ou groupes de valeurs. A ces différents cas, correspondent des outils
d’analyse appropriés que nous allons évoquer successivement.
ETUDE DE 2 VARIABLES QUANTITATIVES
90
Poids
Nom Taille xi (cm) Poids yi (kg)
Pierre 175 73 85
Arantxa 168 56 80
Martin 185 87 70
65
60
55
Taille
50
150 160 170 180 190 200
1 n
Covariance : Cov x,y = x i -x y i -y
n i=1
Propriétés :
Propriétés :
1 ρ 1
ρ = 1 si a > 0
y=ax+b
ρ = -1 si a < 0
ρ 1 Il existe une relation fonctionnelle entre x et y
ρ 0 x et y sont indépendantes
0 ρ 1 Il existe une dépendance linéaire d’autant plus forte que |r| est grand
90
y = Poids
85
80
75
70
65
60
55
x = Taille
50
150 160 170 180 190 200
Si une telle fonction existe, on dit que f est un modèle du phénomène étudié.
90
y = Poids
85
80
75
70
65
60
55
x = Taille
50
150 160 170 180 190 200
« au mieux »
n n
Minimiser S= e 2
i
Minimiser S' =
i=1
e'i2
i=1
95 95
90
y = Poids 90
y = Poids
85 85
80 80
e'i
75
ei 75
70 70
65 65
60 60
55 55
x = Taille x = Taille
50 50
150 160 170 180 190 200 150 160 170 180 190 200
90
y = Poids
85
60
55
x = Taille
50
150 160
x170i 180 190 200
n n
yi -ax i -b
2
La droite de régression linéaire de y en x, notée Dy/x , minimise S = 2
e =
i
i=1 i=1
n
x -x y -y
i i
Cov x,y
a= i=1
= b = y - ax
n
V(x)
x i -x
2
i=1
Dy/x passe par le point moyen x , y
ETUDE DE 2 VARIABLES QUANTITATIVES
95
90
y = Poids
85
60
55
x = Taille
50
150 160
x170i 180 190 200
95 ei’ = |xi-a’yi-b’|
90
y = Poids
85
70
x = f(y) = a’y + b’
65
60
55
x = Taille
50
150 160
x170i a’yi+b’
180 190 200
n n
x i -a'yi -b'
2
La droite de régression linéaire de x en y, notée Dx/y , minimise S' = 2
e' =
i
i=1 i=1
n
x -x y -y
i i
Cov x,y
a' = i=1
n
= b' = x - a' y
V(y)
y -y
2
i=1
i Dx/y passe par le point moyen x , y
ETUDE DE 2 VARIABLES QUANTITATIVES
x, y x, y
x, y
r² = a a’ = 0 0< r² = a a’ < 1 r² = a a’ = 1
Le degré de dépendance
Indépendance linéaire linéaire se mesure à la Liaison fonctionnelle linéaire
proximité des droites de
régression
ETUDE DE 2 VARIABLES QUANTITATIVES
25,0
xi yi
2,8 0,8 20,0
4,3 1,2 droite de régression
2,7 1,5 15,0 linéaire de y en x
4,2 1,9
4,1 2,3 10,0
…. ….
4,0 3,1 5,0
0,0
0 10 20 30 40 50 60
2
Analyse des résidus
1
0
Les résidus devraient se répartir
-1
0 10 20 30 40 50 60
au hasard autour de l’axe des
-2 abscisses:
-3 le modèle affine ne convient pas
ETUDE DE 2 VARIABLES QUANTITATIVES
Modèle exponentiel
20,0
y = ex exponentielle de base e
15,0
10,0
y = ax exponentielle de base a
Y =AX + B avec Y = ln y
X=x
A = ln a
L’ajustement affine de Y en fonction de X donne A et B, B = ln b
d ’où a = e A, b =, eet
B
le modèle y = b ax
ETUDE DE 2 VARIABLES QUANTITATIVES
5,00
0,00
0 10 20 30 40 50 60
1,50
1,00
0,50
-0,50
900
800
700
600
500
Droite de régression linéaire de y en x
400
300
200
100
0
0 20 40 60
150
100
50
0
0 10 20 30 40 50 60
Analyse des résidus
-50
Le modèle affine ne
convient pas
-100
-150
ETUDE DE 2 VARIABLES QUANTITATIVES
80
60
40
20
-80
ETUDE DE 2 VARIABLES QUANTITATIVES
On montre y -y yˆ -y y -yˆ
2 2 2
i i i i
que
SCM SCR
SCT = SCM + SCR 1
SCT SCT
Somme des carrés Somme des
Somme des carrés
des écarts à la = des écarts du modèle
+ carrés des
moyenne résidus
L’ajustement est d’autant meilleur que SCR est proche de 0, c.à.d. que SCR/SCT est
proche de 0 ou SCM/SCT est proche de 1.
SCM
R = Coefficient de détermination = r² = (coef. de corrélation)²
SCT
0 R 1
LES INDICES
LES INDICES
INDICES ELEMENTAIRES
y1
r1 0 = 1 i1 0 1 r=i-1 i=1+r
y0
y0, y1, ….., yn les valeurs prises par une variable aux dates t0, t1, ….., tn
ir1,, ir2,,….., in les indices élémentaires sur chacune des périodes
1 2 ….., rn les taux de croissance sur chacune des périodes
y n i(1n
yrnn-1
) y n-1
i n i(1
n-1
ryn )n-2 (1......
rn-1 )i nyn-2.....
(1 i2 rni)1.....
y 0 (1 r2 ) (1 r1 ) y 0
riGG l’indice
le taux de
élémentaire
croissanceglobal
entre entre
t0 et tnt0 et tn
yynn i(1
G yrG0) y 0
ir l’indice
le taux de moyen
croissance moyen
y n i(1yr) yi 2n-1y n-2
n-1 2...yin-2
(1 r)
n
y...
0 (1 r) y 0
n
(1+ rG )= ni n(1
i n r)
i G =(1+ rni)2.....
..... i1 (1 r2 ) (1 r1 )
ri11,, ir22,,…..,
…..,irkkindices
indicesélémentaires
élémentairessur
surdes
despériodes
périodesde
denn1,1,nn2,2,…..,
…..,nnkkunités
unités(jour,
(jour,mois,
mois,année…)
année…)
INDICES USUELS
P1
Indice élémentaire des prix i P 1 0 =
P0
INDICES SYNTHETIQUES
V
j=1
j,n P
j=1
j,n Q j,n
Remarque : α
j=1
j,n 1
LES INDICES
Pj,0Q j,1 P
j=1
j,0 Q j,01
j=1
1
P Q 1 0 = n α j,1
I
j=1 Q j 10
1 seul indice sur 4 doit être modifié
Comment s’en souvenir ? n
n P Q j,1
P
j,1
Q j,1 Dépense de la date courante j=1
j,1 n
j=1
100 Dépense de la date de référence
n P j,01 Q j,0
P
j=1
Q j,0
j,1
j=1
LES DONNEES
Date Y
T1 2001 10 Y = prix d’un bien en fonction du temps
T2 2001 9
T3 2001 10 2001 2002 2003 2004 2005
er
T4 2001 11 1 trimestre 10 11 11 12 12
T1 2002 11 2e trimestre 9 10 11 11 12
T2 2002 10 3e trimestre 10 11 13 12 15
T3 2002 11 4e trimestre 11 12 13 14 16
T4 2002 12
T1 2003 11
T2 2003 11
17
16
Y
T3 2003 13 15
T4 2003 13 14
13
T1 2004 12
T2 2004 11 Y = série initiale 12
11
T3 2004 12 10
T4 2004 14
9
8
temps
T1 2005 12 0 5 10 15 20
T2 2005 12
T3 2005 15
T4 2005 16
SERIES CHRONOLOGIQUES
LES COMPOSANTES
17
16
15
14
Y = série initiale 13
12
11
10
9
8
0 5 10 15 20
Composante Composante
Tendance ou Trend
Saisonnière Aléatoire
T
17 1,5
S A
2
16 1,4
15 1,3
14 1,2 1,5
13 1,1
1 1
12
0,9
11 0,8
10 0,7 0,5
9 0,6
8 0,5 0
0 5 10 15 20 0 5 10 15 20 0 5 10 15 20
SERIES CHRONOLOGIQUES
MODELES DE DECOMPOSITION
Y =T + S +A Y =T . S .A
SERIES CHRONOLOGIQUES
T = tendance
Avantage:
Expression analytique
Inconvénients:
Un nuage ne se présente pas toujours sous une forme analytique simple
Le calcul de la tendance peut être affecté par des valeurs extrêmes ou
par les valeurs de début et de fin de série.
SERIES CHRONOLOGIQUES
t Y t mm(2)
Moyennes mobiles 1 y1 -
d’ordre pair. 2 y2 2 (y1/2+y2+y3/2)/2
On utilise une 3 y3 3 (y2/2+y3+y4/2)/2
4 y4 Moy.……
Mobiles
observation d’ordre 2
….. ….. ……
supplémentaire
n yn -
SERIES CHRONOLOGIQUES
S'j = Moyenne des rapports de la saison j S'j = Moyenne des différences de la saison j
Coefficients saisonniers S j
DETERMINATION DE LA COMPOSANTE
ALEATOIRE
Y
A= A =Y - T - S
T.S
DESAISONNALISATION
Y
YCVS = YCVS = Y S
S
SERIES CHRONOLOGIQUES
PREVISION