(Régression Linéaire)
2008/2009
FSTG Marrakech
Plan du chapitre
I. Introduction
1. Diagramme de dispersion
2. Coefficient de corrélation linéaire
3. Droite de régression
Pr. AIT BABRAM Mohamed
4. Interprétation
1000
>
>
>
>
>
Pr. AIT BABRAM Mohamed
900
>
>
>
800
>
30 40 50
l’information suivante:
Pr. AIT BABRAM Mohamed
FSTG Marrakech Exemples illustratifs
Exemple 3 : A fin d’étudier la relation entre la consommation et le revenu
pour une population d’un quartier populaire, une enquête a été réalisée
auprès de 2000 ménage. A partir des résultats de cette enquête, on a
construit le tableau de contingence suivant :
Régression Linéaire
Pr. AIT BABRAM Mohamed
FSTG Marrakech Formulation de la méthode
Étant donnée une distribution à deux caractères X et Y sur un
échantillon de taille n. Dans la suite de cette présentation, on traitera
du cas où :
Pi = (xi,yi).
Y
▪
▪ ▪▪▪▪
yi Pi ▪ ▪
▪ ▪ ▪
▪ ▪
▪▪
▪▪
▪
Pr. AIT BABRAM Mohamed
▪
▪▪ ▪
▪
xi X
FSTG Marrakech Diagramme de dispersion
Exemple : On reprend l’exemple de l’étude établie par l’entreprise SIMTEK. Le
diagramme de dispersion des données collectées est comme suit :
Régression Linéaire
Pr. AIT BABRAM Mohamed
>
> >
1200
Régression Linéaire
>
>
>
Durée de vie > >
1100 >
>
>
Pr. AIT BABRAM Mohamed
900
Rendement énergétique
yj Pij
yj -1 Pi(j -1)
Pr. AIT BABRAM Mohamed
X
xi
FSTG Marrakech Diagramme de dispersion
Remarque : Le nuage de points nous renseigne sur la forme de la liaison
statistique entre les deux caractères observés ainsi que sur l’intensité de
cette liaison.
Remarque : Si le caractère Y croît en même temps que X, la corrélation est
dite directe ou positive. Et si le caractère Y décroît lorsque X croît, la
Régression Linéaire
Y
Y
▪ ▪
▪
▪ ▪▪ ▪▪ ▪
▪▪ ▪▪ ▪ ▪▪ ▪ ▪▪▪ ▪ ▪
▪ ▪
▪ ▪ ▪ ▪▪ ▪
▪ ▪ ▪ ▪▪ ▪▪ ▪▪ ▪▪ ▪▪ ▪ ▪ ▪
▪ ▪ ▪
▪ ▪ ▪▪ ▪ ▪ ▪ ▪▪ ▪▪▪ ▪ ▪▪ ▪▪ ▪ ▪ ▪▪
Pr. AIT BABRAM Mohamed
▪▪ ▪ ▪ ▪▪ ▪ ▪
▪ ▪ ▪▪▪ ▪ ▪
▪ ▪▪
▪ ▪
▪
X X
▪ ▪▪ ▪▪ ▪ ▪ ▪
▪▪ ▪▪ ▪ ▪▪ ▪ ▪▪ ▪ ▪ ▪▪
▪ ▪ ▪ ▪▪ ▪▪ ▪▪ ▪ ▪▪ ▪
▪ ▪▪ ▪ ▪▪▪▪ ▪▪▪ ▪▪ ▪ ▪▪ ▪ ▪▪ ▪ ▪▪ ▪
▪
▪▪ ▪▪▪ ▪ ▪ ▪ ▪▪▪ ▪ ▪ ▪▪ ▪ ▪
▪
▪ ▪ ▪ ▪ ▪▪▪ ▪ ▪ ▪ ▪ ▪
▪▪ ▪
▪ ▪ ▪ ▪ ▪ ▪ ▪▪ ▪ ▪ ▪▪ ▪
Régression Linéaire
▪▪▪▪ ▪▪ ▪ ▪ ▪
▪▪▪ ▪▪▪▪▪▪▪▪▪▪ ▪ ▪
▪ ▪ ▪▪
X X
Corrélation positive marqué Faible corrélation linéaire,
mais présence d’une liaison
Y de forme exponentielle
Pr. AIT BABRAM Mohamed
▪ ▪ ▪ ▪▪ ▪
▪▪ ▪
▪ ▪▪ ▪ ▪ ▪ ▪ ▪
Absence de corrélation
▪▪▪▪ ▪▪ ▪
▪ ▪ ▪ linéaire, mais présence
▪ ▪ ▪ ▪ ▪ ▪ ▪ ▪ ▪▪ ▪ d’une liaison non linéaire
▪▪▪▪
X
FSTG Marrakech
Coefficient de corrélation linéaire
Définition : Le coefficient de corrélation linéaire, noté par r, est un nombre sans
dimension qui mesure l’intensité de la liaison linéaire entre deux caractère
observés. Cet indice s’obtient par la formule suivante :
Cov ( X , Y )
r=
σ ( X )σ (Y )
Régression Linéaire
r=1
r=0
r = -1
Pr. AIT BABRAM Mohamed
FSTG Marrakech
Coefficient de corrélation linéaire
Remarque : La corrélation parfaite est un cas extrême peu rencontré en
pratique; elle nous sert toute fois de point de comparaison. Plus les points sont
étroitement alignés selon une droite, plus la valeur du coefficient de corrélation
r sera élevée s’approchant de +1 (corrélation parfaite positive) ou -1
(corrélation parfaite négative).
Régression Linéaire
!
Pr. AIT BABRAM Mohamed
r=0
FSTG Marrakech
Coefficient de corrélation linéaire
Exemple : Le psychologue industriel de l’entreprise SIMTEK soupçonne qu’il
existe une corrélation entre deux caractères qui peuvent influer sur le travail
des employés affectés à des taches d’assemblage, soit la perception visuelle
(X) et la dextérité manuelle (Y). Sur 15 employés, on a prélevés les données
suivante : n
y = 69
∑y i = 1035
Régression Linéaire
i =1
n 2
∑(y
i =1
i − y ) = 1006
∑x
i =1
i = 55,5 x = 3, 7
n 2
∑ (x − x ) = 0,8
Pr. AIT BABRAM Mohamed
i
i =1
n
∑ (x
i =1
i − x )( y i − y ) = 0,8
yi ▪ ▪
Valeur observée ▪ ▪ ▪
Écart (Résidu) ei
▪▪
▪ ▪ yˆ = aˆx + bˆ
▪▪
Valeur prédite ŷ i ▪
▪
▪▪ ▪
▪
Pr. AIT BABRAM Mohamed
X
xi
Remarque : La détermination de la droite de régression se résume à la
recherche de â et bˆ qui minimisent la fonction :
( )
n n n
S = ∑ (ei ) = ∑ ( yi − yˆ i ) = ∑
2
yi − aˆxi − b
ˆ
2 2
i =1 i =1 i =1
FSTG Marrakech Droite de régression
Remarque : dans le cas où les observations sont groupées en classes, la
détermination de la droite de régression se fait de la même façon que dans le
cas d’observations individualisées. Elle se résume à la recherche de â et b̂ qui
minimisent la fonction :
S = ∑ ∑ nij (eij ) ( )
k m k m
Régression Linéaire
= ∑ ∑ nij y j − aˆ xi − bˆ
2 2
i =1 j =1 i =1 j =1
Y
yj+1
yj ei(j+1)
eij yˆ = aˆx + bˆ
Pr. AIT BABRAM Mohamed
ŷi
yj -1 ei(j-1)
X
xi
FSTG Marrakech
Droite de régression
Conclusion : Enfin, les paramètres de la droite de régression de Y en X sont
donnés par les formules suivantes :
Cov( X , Y )
aˆ = bˆ = y − aˆ x
V (X )
Régression Linéaire
i =1 n i =1
k m n
∑∑n (x − x)( y
i =1 j =1
ij i j − y) ∑n x y ij i j − xy
aˆ = k
= i =1
k
i =1 i =1
FSTG Marrakech
Droite de régression
Remarques : Les équations des droites de régression de Y en X et de X en Y
sont données par :
σ (Y ) 1 σ (Y )
yˆ − y = r (x − x ) yˆi − y = (xi − x )
σ (X ) r σ (X )
Régression Linéaire
Les pentes des deux droites sont donc de même signe de r. En valeur absolue,
la pente de la droite de régression de X en Y est toujours supérieure à celle de
la droite de régression de Y en X :
Y Y Y
X en Y X en Y X en Y
Pr. AIT BABRAM Mohamed
Y en X
y y y Y en X
Y en X
x X x X x X
∑∑n e = ∑∑n (y − yˆ ) = 0
n n k m k m
∑ e = ∑ ( y − yˆ ) = 0
i =1
i
i =1
i i
i=1 j =1
ij ij
i=1 j =1
ij j i
⎛m ⎞ k ⎛m ⎞
ni•xi ⎜∑eij ⎟ = ∑ni•xi ⎜∑(yj − yi )⎟⎟ = 0
Régression Linéaire
n n k
∑x e = ∑x ( y − yˆ ) = 0
i i i i i ∑ ⎜ ⎟ ⎜ ˆ
i=1 i=1 i=1 ⎝ j=1 ⎠ i=1 ⎝ j=1 ⎠
Observations individualisées Observations groupées en classe
Droite de régression
y •
x
FSTG Marrakech Droite de régression
Exemple : On reprend l’exemple de l’entreprise qui fabrique les lampes
incandescentes. L’équation de la droite de régression liant la durée de vie et le
rendement énergétique des lampes est donnée par le diagramme suivants :
>
> >
1200
>
>
aˆ = − 400 ,53
>
> >
Durée de vie
1100 >
>
> >
>>
>
>
>
900
Rendement énergétique
FSTG Marrakech Droite de régression
Exemple : On reprend l’exemple de l’entreprise SIMTEK. L’équation de la
droite de régression liant les coûts de la main d’œuvre et le nombre d’unités
fabriquées est donnée par :
n
∑x i = 480
Régression Linéaire
i =1
∑y
i =1
i = 10956
∑x y
i =1
i i = 445 472
Pr. AIT BABRAM Mohamed
n
( )
∑ i =19936
x
2
i=1
n 2 n 2 n 2
∑( y − y) = ∑( y − yˆ ) +∑( yˆ − y)
Régression Linéaire
i i i i
i=1 i=1 i=1
2 2 2
∑( y − y) = ∑ (e )
n n n
i=1
i
i =1
i
+ ∑ [aˆ (x
i =1
i − x )]
= (1− r )V (Y )
Pr. AIT BABRAM Mohamed
V(Y) 2
+ r2V(Y )
Somme des carrés totale Somme des carrés résiduelle Somme des carrés expliquée
(Total Sum of Squares) (Residual Sum of Squares) (Regression Sum of Squares)
Variance totale Variance résiduelle Variance expliquée
FSTG Marrakech Décomposition de la variance
Remarque : Dans le cas où les observations sont groupées en classes, la
décomposition de la variance marginale de Y est comme suite :
2 2
∑n (y − y) = ∑∑n (y − yˆ )+∑n ( yˆ − y)
m k m k
•j i•
Régression Linéaire
j ij j i i
j=1 i=1 j=1 i=1
∑n (y − y) = ∑∑ n (e )
m 2 k m k 2
j=1
•j j
i =1 j =1
ij ij + ∑ n [aˆ(x − x )]
i =1
i• i
= (1− r )V (Y )
Pr. AIT BABRAM Mohamed
V(Y) 2
+ r2V(Y )
Somme des carrés totale Somme des carrés résiduelle Somme des carrés expliquée
(Total Sum of Squares) (Residual Sum of Squares) (Regression Sum of Squares)
Variance totale Variance résiduelle Variance expliquée
FSTG Marrakech Interprétation
Remarque : On peut regarder l’équation de la droite de régression, exprimant
un caractère Y par un autre caractère X, sous la forme :
yˆ i = y + aˆ ( x i − x )
Interprétation : Pour le comptable de l’entreprise SIMTEK, la valeur de â ,
Régression Linéaire
Ainsi, pour une augmentation d’une unité de la taille du lot à fabriquer, le coût
moyen de la main d’œuvre augmentera vraisemblablement de 9,826 dhs (la
valeur de â )
Dans ce contexte, la valeur de â représente les frais variables.
Ainsi, pour une augmentation d’une unité de la taille du lot à fabriquer, le coût
moyen de la main d’œuvre augmentera vraisemblablement de 9,826 dhs (la
valeur de â )
Cocher le coefficient de
corrélation «Pearson»
OK
OK
Pr. AIT BABRAM Mohamed
R=coefficient de corrélation
entre les deux variables dans le
cas d’une régression simple