Vous êtes sur la page 1sur 6

Chapitre 1:

Régression et corrélation

1.1:INTRODUCTION

En présence d’une distribution statistique de deux variables X et Y ,il est


possible d’étudier les distributions marginales ,
les distributions conditionnelles ,mais cette étude ne fournit pas d’interprétation
des résultats.
Parfois,nous nous posons la question : la connaissance d’une modalité de X
apporte-t-elle une information supplémentaire
sur les modalités de Y ?
la réponse à cette question est du domaine de la régression.Dans un tel cas,
on dit que:
X est la variable explicative et Y est la variable expliquée.
Dans d’autres cas,aucune des deux variables ne peut être priviligiée et la
liaison entre X et Y s’apprécie alors de façon
symétrique par la mesure de la corrélation.

1;2:Régression linéaire:

A partir de n couples d’observations (xi ; yi ) relatitives à une même popula-


tion,on cherche à lier la variable Y (expliquée) à la
variable X (explicative) par le modèle :
Yb = aX + b
Les paramètres a et b peuvent être déterminés par la méthode des moindres
carrés qui consiste à minimiser la somme des
carrés des écarts (résidus notés ei ) entre les valeurs yi observées et les
valeurs ybi estimées par le modèle.
On démontre que :
P
a = Cov(X;Y
V ar(X)
)
= (x
Pi x)(yi y)
(xi x) et b = y ax
La précision de l’ajustement peut être mesurée par le coe¢ cient de corréla-
tion r(X; Y ) = Cov(X;YX Y
Elle est d’autant satisfaisante que r(X; Y ) est proche de1 ou de 1

Exemple

Les ventes Y d’un produit P ont eté observées durant 6 semestres consécutifs
et l’on cherche à expliquer par le nombre de
visites X des représentants chez les clients
commerçants:

1
Y (enmilliers) xi yi y xi x residus ei
53 26 16 4 7:09
68 27 1 3 5:68
79 31 10 1 7:77
69 30 0 0 0
71 33 2 3 4:68
74 33 5 3 1:68
y = 69etV (Y ) = 64:33 x = 30etV (X) = 7:33 e = 0 et V (e) = 27:95

On obtient : y = 2:227x + 2:182 et r(X; Y ) = 0:752


Autre représentation de la régression linéaire simple (représentation ma-
tricielle)

y1 y
x1 x
y2 y
x x
Y = :::::: X= 2
::::::
::::::
xn x
yn y
P 1
P
(xi x)2 = X t X et donc P
(xi x)2 = (X t X) 1
et (xi x)(yi y) =
(X t Y )

Donc a est l’élément unique de A = (X t X) 1


X tY

8i : (yi y) = (yi ybi ) + (ybi y) avec:


yi y :écart total entre la valeur observée et la moyenne de Y
yi ybi :partie de l’écart total non expliqué par l’ajustement ou écart résiduel
ybi y :partie de l’écart expliqué par l’ajustement
OnPdémontre que:P P
1
n (yi y)2 = n1 (yi ybi )2 + n1 (ybi y)2
ou bien: V ar:totale = V ar:residuelle + V ar: exp liquee
On dé…nit le coe¢ cient de détermination par:
R2 (X; Y ) = V ar: exp liquee
V ar:totale = 1 V ar:residuelle
V ar:totale

1.3:Régression linéaire multiple


On cherche à lier la variable Y (expliquée) par plusieurs variables explicatives
x1 ; x2 ; :::::xp par le modèle:
yb = a1 x1 + a2 x2 + :::::::: + ap xp
soit:
Y le vecteur colonne (yi y) et :X matrice des vecteurs colonnes (xki xk )
On démontre en utilisant la méthode des moindres carrés que les paramètres
ai sont les éléments du vecteur colonne A
tel que A = (X t X) 1 X t Y et que:b = y (a1 x1 + a2 x2 + ::::::: + ap xp

2
La précision de l’ajustement peut être appréciée en calculant le coe¢ cient
de détermination R2

Exemple:
Peu satisfait du modèle précédent expliquant les ventes par le nombre de
visites des représentants , on décide d’ajouter deux
varibles explicatives ;le budget semestriel de publicité(en milliers de dinars)
et un indice économique de consommation .Les
trois variables explicatives sont x1 ; x2 et x3 :
yi x1i x2i x3i yi y x1i x1 x2i x2i x3i x3 residus
53 26 11 100 16 4 3 2 1:583
68 27 13 101 1 3 1 1 1:833
79 31 16 103 10 1 2 1 1:583
69 30 15 101 0 0 1 1 1:083
71 33 16 103 2 3 1 1 0:831
74 33 14 104 5 3 0 2 1:083
y = 69 x1 = 30 x2 = 14 x3 = 102 e=0

On a:
V (Y ) = 64:33 et V (e) = 1:903

Les coe¢ cients a1 ; a2 et a3 sont les éléments de la matrice A soit:


a1 = 2; 250 a2 = 4:250 et a3 = 5:333

b = y (a1 x1 + a2 x2 + a3 x3 )
R2 = 1 VV (y)
(e) 1:903
= 1 64:333 = 0:970

En supposant que le semestre prochain,on envisage 35 visites des représen-


tants ,qu’on …xe à18000DA le budget de
publicité et que la valeur prévue de l’indice économique soit de 105 alors le
niveau de vente prévu par le modèle sera:
2:250 35 + 4:250 18 + 5:333 105 = 90:72 soit 91 unités.

Interprétation des valeurs du coe¢ cient de corrélation :


r = 1 corrélation positive parfaite
0:6 <= r < 1 bonne corrélation
0:3 <= r < 0:6corrélation médiocre
0 < r < 0:3 corrélation faible
r = 0 pas de corrélation
On a les mêmes remarques pour les valeurs négatives de r
Remarque:
Si l’on dispose d’un tableau de contingence (Xj ; Yk ) j = 1; 2::::; J et
k = 1; 2; :::::; K
On a: P P
SXY = 1=n j k njk (xj x)(yk y) où x et y sont les moyennes mar-
ginales

3
P P
nj: xj n y
x= P jP et y= P jP:k k
j k njk j k njk

P P
2 nj: x2j
j 2 n:K x2k
X = n:: et Y = k
n::
P P P P
avec: nj: = k njk et n:k = j njk et n:: = j k njk

1.4:Exemple

On considère la répartition d’une population de 50 garçons suivant deux


caractères :la taille X et le poids Y .
X=Y 160 170 180
60 2 2 0
70 5 8 4
80 4 9 6
90 1 4 5
On dé…nit le couple (X; Y ) pour chaque individu. Trouver:
1.La loi marginale de X
2.La loi marginale deY
3.La moyenne marginale de X soit x
4.La moyenne marginale deY soit y
5.La variance marginale de X soit 2X
2
6.La variance marginale de Y soit Y
7.La covariance entre X et Y
8.Le coe¢ cient de corrélation entreX et Y
9.Lapproximation linéaire de Y en X

Solution:
X=Y 160 170 180 nj:
60 2 2 0 4
70 5 8 4 17
80 4 9 6 19
90 1 4 5 10

n:k 12 23 15 n:: = 50
x = 170:6 y = 77 X = 53:64 Y = 8:775

Cov0X; Y ) = 19:8 XY = 0:308

L’approximation linéaire de Y en X est:


Y = 0:309X + 14:05

TD N 1 :

4
Exo1:
On considère une distribution statistique (X; Y )
xi yi
1 4
2 2
2 0
3 2

1.Calculer la covariance et commenter le résultat obtenu.


2.On veut expliquer Y par X .On décide de faire un ajustement a¢ ne du
type y = ax + b.Calculer les paramètres de
l’équation.
3.Calculer le coe¢ cient de détermination.

Solution:

1.La covariance est donnée par la formule suivante:


P
Cov0(X; Y ) = 1=n (xi x)(yi y))
on a: x = 8=4 = 2 et y = 4=4 = 1 d’où Cov(X; Y ) = 1:5
La covariance indique la variation relative des deux variables.Ici,elle est néga-
tive ,ce qui veut dire que les deux variables
évoluent en sens contraire.
2.Calcul des paramètres de la droite de régression:
P P
a = Cov(X; Y )=V (X) = (1=n (xi x)(yi y))=(1=n (xi
2
x) ) = 6=2 = 3
b = y ax = 7
La droite de régression est : y = 3x + 7
3.Calcul de R2
r(X; Y ) = Cov(X; Y )=V (X) = 6=20 = 0:3 et R2 = ( 0:3) ( 0:3) = 0:9

Exo 2:
Si pour 80 observations ,on a:
x = 54:3 , y = 50:5 , X = 1:42 , Y = 1:22
et l’équation de régression :
y = 10:9 + 0:77x ;
que valent les paramètres XY et Cov(X; Y ) ?

Solution:
On a:
0:77 = Cov(X; Y )=V ar(X) = Cov(X; Y )= 2X = Cov(X; Y )=(1:42)2
donc:
Cov(X; Y ) = 0:77 (1:42)2 = 1:55
et:
XY = Cov(X; Y )= X Y = 1:55=(1:42 1:22) = 0:89

5
Exo 3:
On a calculé la moyenne et la variance d’une série de 10 obnservations et on
a obtenu les résultats suivants:
x = 5:90 et s2 = 4:83
On a constaté ultérieurement qu’une des observations a été transcrite de
façon erronée: la valeur considérée
au cours des calculs était 8.5 , alors que la valeur exacte était en réalité 6.5.
Déterminer dans ces conditions la moyenne et la variance exactes.

Solution:
Pour la moyenne ,on a:
On a:
(x1 + x2 + ::::: + x9 + 8:5)=10 = 5:90
ainsi on a:
x1 + x2 + :::::: + x9 = (10 5:90) 8:5 = 50:5
donc la vraie valeur de la moyenne est :
x = (50:5 + 6:5)=10 = 57=10 = 5:7

Pour la variance ,on a:


((x1 x)2 + (x2 x)2 + :::::: + (x9 x)2 + (8:5 x)2 ))=10 = 4:83
ainsi ,on a:
(x1 x)2 + (x2 x)2 + :::::: + (x9 x)2 = 10 4:83 (8:5 5:90)2 = 41:54
donc:
(x1 x)2 + (x2 x)2 + :::::: + (x9 x)2 + (6:5 5:7)2 = 41:54 + 1 = 41:54
ainsi la vraie valeur de la variance est:
41:54=10 = 4:15

Vous aimerez peut-être aussi