Vous êtes sur la page 1sur 34

Statistiques Descriptives

(Régression Linéaire)

Animé par : Pr AIT BABRAM Mohamed

2008/2009
FSTG Marrakech
Plan du chapitre
I. Introduction

II. Exemples illustratifs


Régression Linéaire

III. Formulation de la méthode

1. Diagramme de dispersion
2. Coefficient de corrélation linéaire
3. Droite de régression
Pr. AIT BABRAM Mohamed

4. Interprétation

IV. Exemple sur SPSS


FSTG Marrakech Introduction
La théorie de la régression linéaire simple joue un rôle privilégié dans
l’analyse et la prévision des phénomènes socioéconomiques (analyse
de la consommation, prévision de la demande…etc.). La plus part des
modèles économétriques qui visent à représenter, par exemple,
Régression Linéaire

l’évolution de la consommation de certains produits en fonction de


celles des revenus et des prix, sont des modèles linéaire.

L’utilisation de modèles linéaires pour représenter des phénomènes


économiques complexes peut sembler une simplification abusive de
la réalité. Cependant, dans de nombreux cas, sous réserve
éventuellement de certaines transformations des grandeurs étudiées
Pr. AIT BABRAM Mohamed

–Transformation logarithmique notamment- l’adoption d’une liaison


linéaire apparaît, en pratique, comme une hypothèse raisonnable.
C’est pourquoi la simplicité des calculs auxquels conduit la régression
linéaire le fait souvent préférer à toute autre forme d’ajustement.
FSTG Marrakech Exemple illustratif
Exemple 1 : Le comptable de l’entreprise SIMTEK a relevé l’information
suivante concernant les coûts de la main d’œuvre directe (ceux associés
directement à la fabrication du produit) associé à la fabrication de 12 lots de
diverses tailles pour le pièce mécaniques AX200, qui est utilisée par un
autre département de l’entreprise pour l’assemblage d’un système de
contrôle électromécanique. L’équipement utilisé par la main d’oeuvre est
Régression Linéaire

complexe et la fabrication requiert de fréquent ajustements affectant ainsi


les coûts de la main d’œuvre directe.
Coûts de la main d'oeuvre = 519,96 + 9,83 * nbrunit
>

1000

Coûts de la main d'oeuvre


> >

>
>
>

>
>
Pr. AIT BABRAM Mohamed

900

>
>

>
800

>

30 40 50

Nombre d'unités fabriquées


FSTG Marrakech Exemples illustratifs
Exemple 2 : Dans une entreprise qui fabrique des lampes incandescentes, on
veut établir un modèle de régression qui permettrait de prévoir la durée de vie
en heures des lampes à partir de son rendement énergétique en lumens/watt.
La détermination d’une relation statistique entre la durée de vie et le rendement
énergique des lampes permettrait de juger, la journée même de fabrication, de
la durée des lampes sans attendre plusieurs semaines. Un relevé récent fournit
Régression Linéaire

l’information suivante:
Pr. AIT BABRAM Mohamed
FSTG Marrakech Exemples illustratifs
Exemple 3 : A fin d’étudier la relation entre la consommation et le revenu
pour une population d’un quartier populaire, une enquête a été réalisée
auprès de 2000 ménage. A partir des résultats de cette enquête, on a
construit le tableau de contingence suivant :
Régression Linéaire
Pr. AIT BABRAM Mohamed
FSTG Marrakech Formulation de la méthode
Étant donnée une distribution à deux caractères X et Y sur un
échantillon de taille n. Dans la suite de cette présentation, on traitera
du cas où :

¾ Y : Caractère à expliquer quantitatif (ou dépendante)


Régression Linéaire

¾ X : Caractère explicatif numérique (ou indépendante)

Pour écrire les données collectées auprès de l’échantillon considéré,


on distingue deux cas différents :

¾ Cas où les observations sont individualisées : Chaque


individu (i) de l’échantillon lui correspond un couple de
valeurs (xi,yi).
Pr. AIT BABRAM Mohamed

¾ Cas où les observations sont groupées en classes :


Chaque individu de l’échantillon est affecté à un croisement
de deux classes respectives de X et Y.
FSTG Marrakech Diagramme de dispersion

Définition : C’est un diagramme utile pour visualiser la forme de la


tendance qui peut exister entre les deux caractères.
Remarque : Dans le cas où les observations sont individualisées,
on représente chaque individu de la population étudiée par un point
Régression Linéaire

Pi = (xi,yi).

Y

▪ ▪▪▪▪
yi Pi ▪ ▪
▪ ▪ ▪
▪ ▪
▪▪
▪▪

Pr. AIT BABRAM Mohamed


▪▪ ▪

xi X
FSTG Marrakech Diagramme de dispersion
Exemple : On reprend l’exemple de l’étude établie par l’entreprise SIMTEK. Le
diagramme de dispersion des données collectées est comme suit :
Régression Linéaire
Pr. AIT BABRAM Mohamed

Conclusion : selon ce diagramme, les points ont tendance à s’aligner selon


une droite de pente positive. Une liaison linéaire entre le coût de la main
d’œuvre et le nombre des unités fabriquées semble plausible.
FSTG Marrakech Diagramme de dispersion
Exemple : On reprend l’exemple de l’entreprise qui fabrique les lampes
incandescentes. Le diagramme de dispersion des données collectées est
comme suit :

>

> >
1200
Régression Linéaire

>
>
>
Durée de vie > >

1100 >
>

> > >


>
> >
>
1000
>
> >
> >
>>
>
>

>
Pr. AIT BABRAM Mohamed

900

16,40 16,60 16,80 17,00

Rendement énergétique

Conclusion : selon ce diagramme, les points ont tendance à s’aligner selon


une droite de pente négative. Une liaison linéaire entre le coût de la main
d’œuvre et le nombre des unités fabriquées semble plausible.
FSTG Marrakech Diagramme de dispersion
Remarque : dans le cas où les observations sont groupées en classes,
on fait l’hypothèse que les observations sont rassemblées aux centre
Pij des rectangles définis par les couples d’intervalles de classes. A
chaque point Pij, de coordonnées (xi,yj) correspond donc l’effectif nij.
Régression Linéaire

yj+1 Pi(j +1)

yj Pij

yj -1 Pi(j -1)
Pr. AIT BABRAM Mohamed

X
xi
FSTG Marrakech Diagramme de dispersion
Remarque : Le nuage de points nous renseigne sur la forme de la liaison
statistique entre les deux caractères observés ainsi que sur l’intensité de
cette liaison.
Remarque : Si le caractère Y croît en même temps que X, la corrélation est
dite directe ou positive. Et si le caractère Y décroît lorsque X croît, la
Régression Linéaire

corrélation est dite inverse ou négative. On envisage plusieurs cas de


figures :

Y
Y
▪ ▪

▪ ▪▪ ▪▪ ▪
▪▪ ▪▪ ▪ ▪▪ ▪ ▪▪▪ ▪ ▪
▪ ▪
▪ ▪ ▪ ▪▪ ▪
▪ ▪ ▪ ▪▪ ▪▪ ▪▪ ▪▪ ▪▪ ▪ ▪ ▪
▪ ▪ ▪
▪ ▪ ▪▪ ▪ ▪ ▪ ▪▪ ▪▪▪ ▪ ▪▪ ▪▪ ▪ ▪ ▪▪
Pr. AIT BABRAM Mohamed

▪▪ ▪ ▪ ▪▪ ▪ ▪
▪ ▪ ▪▪▪ ▪ ▪
▪ ▪▪
▪ ▪

X X

Forte corrélation négative Absence de corrélation


FSTG Marrakech
Diagramme de dispersion
Y
Y

▪ ▪▪ ▪▪ ▪ ▪ ▪
▪▪ ▪▪ ▪ ▪▪ ▪ ▪▪ ▪ ▪ ▪▪
▪ ▪ ▪ ▪▪ ▪▪ ▪▪ ▪ ▪▪ ▪
▪ ▪▪ ▪ ▪▪▪▪ ▪▪▪ ▪▪ ▪ ▪▪ ▪ ▪▪ ▪ ▪▪ ▪

▪▪ ▪▪▪ ▪ ▪ ▪ ▪▪▪ ▪ ▪ ▪▪ ▪ ▪

▪ ▪ ▪ ▪ ▪▪▪ ▪ ▪ ▪ ▪ ▪
▪▪ ▪
▪ ▪ ▪ ▪ ▪ ▪ ▪▪ ▪ ▪ ▪▪ ▪
Régression Linéaire

▪▪▪▪ ▪▪ ▪ ▪ ▪
▪▪▪ ▪▪▪▪▪▪▪▪▪▪ ▪ ▪
▪ ▪ ▪▪

X X
Corrélation positive marqué Faible corrélation linéaire,
mais présence d’une liaison
Y de forme exponentielle
Pr. AIT BABRAM Mohamed

▪ ▪ ▪ ▪▪ ▪
▪▪ ▪
▪ ▪▪ ▪ ▪ ▪ ▪ ▪
Absence de corrélation
▪▪▪▪ ▪▪ ▪
▪ ▪ ▪ linéaire, mais présence
▪ ▪ ▪ ▪ ▪ ▪ ▪ ▪ ▪▪ ▪ d’une liaison non linéaire
▪▪▪▪

X
FSTG Marrakech
Coefficient de corrélation linéaire
Définition : Le coefficient de corrélation linéaire, noté par r, est un nombre sans
dimension qui mesure l’intensité de la liaison linéaire entre deux caractère
observés. Cet indice s’obtient par la formule suivante :
Cov ( X , Y )
r=
σ ( X )σ (Y )
Régression Linéaire

Remarque : dans le cas où les observations sont individualisées, on a :


n
1 n
∑(x − x)(y − y)
i i
n
∑ xi yi − xy
r= i=1
= i=1
n n σ( X )σ(Y)
∑(xi − x)
i=1
2
∑ i
(
i=1
y − y)2
Pr. AIT BABRAM Mohamed

Par contre, dans le cas où les observations sont groupées en classes, on a :


k m
1 n
∑∑n (x − x)(y
i =1 j =1
ij i j − y)
n
∑ nij xi y j − xy
r= = i=1
k m σ ( X )σ (Y )
∑ni• (xi − x)
i =1
2
∑ •j j
n
j =1
( y − y) 2
FSTG Marrakech
Coefficient de corrélation linéaire
Remarque : Pour qualifier le degré d’intensité de la liaison linéaire entre deux
caractères, il nous faut des valeurs de comparaison. En effet, on a :
−1≤ r ≤1
Régression Linéaire

r=1

r=0

r = -1
Pr. AIT BABRAM Mohamed
FSTG Marrakech
Coefficient de corrélation linéaire
Remarque : La corrélation parfaite est un cas extrême peu rencontré en
pratique; elle nous sert toute fois de point de comparaison. Plus les points sont
étroitement alignés selon une droite, plus la valeur du coefficient de corrélation
r sera élevée s’approchant de +1 (corrélation parfaite positive) ou -1
(corrélation parfaite négative).
Régression Linéaire

Remarque : Si deux caractères sont statistiquement indépendants (aucune


liaison), le coefficient de corrélation es nul. Toutefois, la réciproque n’est pas
nécessairement vraie :

!
Pr. AIT BABRAM Mohamed

r=0
FSTG Marrakech
Coefficient de corrélation linéaire
Exemple : Le psychologue industriel de l’entreprise SIMTEK soupçonne qu’il
existe une corrélation entre deux caractères qui peuvent influer sur le travail
des employés affectés à des taches d’assemblage, soit la perception visuelle
(X) et la dextérité manuelle (Y). Sur 15 employés, on a prélevés les données
suivante : n
y = 69
∑y i = 1035
Régression Linéaire

i =1
n 2

∑(y
i =1
i − y ) = 1006

∑x
i =1
i = 55,5 x = 3, 7

n 2

∑ (x − x ) = 0,8
Pr. AIT BABRAM Mohamed

i
i =1
n

∑ (x
i =1
i − x )( y i − y ) = 0,8

Il semble donc exister une corrélation négative assez forte r = −0,867


entre ces deux caractères pour les sujets observés
FSTG Marrakech Droite de régression
Définition : C’est la droite dont la distance aux points représentatifs, définie
comme la somme des carrés des écarts, est la plus petite possible .
Y

Pi ▪ ▪▪▪▪
Régression Linéaire

yi ▪ ▪
Valeur observée ▪ ▪ ▪
Écart (Résidu) ei
▪▪
▪ ▪ yˆ = aˆx + bˆ
▪▪
Valeur prédite ŷ i ▪

▪▪ ▪

Pr. AIT BABRAM Mohamed

X
xi
Remarque : La détermination de la droite de régression se résume à la
recherche de â et bˆ qui minimisent la fonction :

( )
n n n
S = ∑ (ei ) = ∑ ( yi − yˆ i ) = ∑
2
yi − aˆxi − b
ˆ
2 2

i =1 i =1 i =1
FSTG Marrakech Droite de régression
Remarque : dans le cas où les observations sont groupées en classes, la
détermination de la droite de régression se fait de la même façon que dans le
cas d’observations individualisées. Elle se résume à la recherche de â et b̂ qui
minimisent la fonction :

S = ∑ ∑ nij (eij ) ( )
k m k m
Régression Linéaire

= ∑ ∑ nij y j − aˆ xi − bˆ
2 2

i =1 j =1 i =1 j =1
Y

yj+1

yj ei(j+1)
eij yˆ = aˆx + bˆ
Pr. AIT BABRAM Mohamed

ŷi
yj -1 ei(j-1)

X
xi
FSTG Marrakech
Droite de régression
Conclusion : Enfin, les paramètres de la droite de régression de Y en X sont
donnés par les formules suivantes :

Cov( X , Y )
aˆ = bˆ = y − aˆ x
V (X )
Régression Linéaire

Remarque : dans le cas où les observations sont individualisées, on a :


n
1 n
∑ ( xi − x)( yi − y)
n
∑ xi yi − xy
aˆ = i=1 n = in=1
∑ ( xi − x) 2 1
∑ ( xi )2
− x 2

i =1 n i =1

Par contre, dans le cas où les observations sont groupées en classes, on a :


Pr. AIT BABRAM Mohamed

k m n
∑∑n (x − x)( y
i =1 j =1
ij i j − y) ∑n x y ij i j − xy
aˆ = k
= i =1
k

∑ni• (xi − x)2 ∑ni• (xi ) − x 2


2

i =1 i =1
FSTG Marrakech
Droite de régression
Remarques : Les équations des droites de régression de Y en X et de X en Y
sont données par :
σ (Y ) 1 σ (Y )
yˆ − y = r (x − x ) yˆi − y = (xi − x )
σ (X ) r σ (X )
Régression Linéaire

Droite de régression de Y en X Droite de régression de X en Y

Les pentes des deux droites sont donc de même signe de r. En valeur absolue,
la pente de la droite de régression de X en Y est toujours supérieure à celle de
la droite de régression de Y en X :
Y Y Y
X en Y X en Y X en Y
Pr. AIT BABRAM Mohamed

Y en X
y y y Y en X
Y en X

x X x X x X

r<0 r=0 r>0


FSTG Marrakech
Droite de régression
Remarque : Seule la droite de régression satisfait aux conditions :

∑∑n e = ∑∑n (y − yˆ ) = 0
n n k m k m

∑ e = ∑ ( y − yˆ ) = 0
i =1
i
i =1
i i
i=1 j =1
ij ij
i=1 j =1
ij j i

⎛m ⎞ k ⎛m ⎞
ni•xi ⎜∑eij ⎟ = ∑ni•xi ⎜∑(yj − yi )⎟⎟ = 0
Régression Linéaire

n n k

∑x e = ∑x ( y − yˆ ) = 0
i i i i i ∑ ⎜ ⎟ ⎜ ˆ
i=1 i=1 i=1 ⎝ j=1 ⎠ i=1 ⎝ j=1 ⎠
Observations individualisées Observations groupées en classe

Remarque : la droite de régression passe toujours par le point (x , y ):


Pr. AIT BABRAM Mohamed

Droite de régression
y •

x
FSTG Marrakech Droite de régression
Exemple : On reprend l’exemple de l’entreprise qui fabrique les lampes
incandescentes. L’équation de la droite de régression liant la durée de vie et le
rendement énergétique des lampes est donnée par le diagramme suivants :

Durée de vie = 7725,10 + -400,53 * rendem


Régression Linéaire

>

> >
1200

>
>
aˆ = − 400 ,53
>
> >
Durée de vie

1100 >
>

> > > >


bˆ = 7725 ,10
> >
>
1000
Pr. AIT BABRAM Mohamed

> > >

> >
>>
>
>

>
900

16,40 16,60 16,80 17,00

Rendement énergétique
FSTG Marrakech Droite de régression
Exemple : On reprend l’exemple de l’entreprise SIMTEK. L’équation de la
droite de régression liant les coûts de la main d’œuvre et le nombre d’unités
fabriquées est donnée par :
n

∑x i = 480
Régression Linéaire

i =1

∑y
i =1
i = 10956

∑x y
i =1
i i = 445 472
Pr. AIT BABRAM Mohamed

n
( )
∑ i =19936
x
2

i=1

L’équation de la droite de régression pour cette échantillon


est :
yˆ i = (9,826 )xi + (519 ,957 ) aˆ = 9 ,826 bˆ = 519,957
FSTG Marrakech Décomposition de la variance
Remarque : D’une manière analogue que précédemment, il est possible de
décomposer la variance marginale de Y en faisant intervenir cette fois-ci la
droite de régression :

n 2 n 2 n 2

∑( y − y) = ∑( y − yˆ ) +∑( yˆ − y)
Régression Linéaire

i i i i
i=1 i=1 i=1

2 2 2

∑( y − y) = ∑ (e )
n n n

i=1
i
i =1
i
+ ∑ [aˆ (x
i =1
i − x )]

= (1− r )V (Y )
Pr. AIT BABRAM Mohamed

V(Y) 2
+ r2V(Y )

Somme des carrés totale Somme des carrés résiduelle Somme des carrés expliquée
(Total Sum of Squares) (Residual Sum of Squares) (Regression Sum of Squares)
Variance totale Variance résiduelle Variance expliquée
FSTG Marrakech Décomposition de la variance
Remarque : Dans le cas où les observations sont groupées en classes, la
décomposition de la variance marginale de Y est comme suite :

2 2

∑n (y − y) = ∑∑n (y − yˆ )+∑n ( yˆ − y)
m k m k

•j i•
Régression Linéaire

j ij j i i
j=1 i=1 j=1 i=1

∑n (y − y) = ∑∑ n (e )
m 2 k m k 2

j=1
•j j
i =1 j =1
ij ij + ∑ n [aˆ(x − x )]
i =1
i• i

= (1− r )V (Y )
Pr. AIT BABRAM Mohamed

V(Y) 2
+ r2V(Y )

Somme des carrés totale Somme des carrés résiduelle Somme des carrés expliquée
(Total Sum of Squares) (Residual Sum of Squares) (Regression Sum of Squares)
Variance totale Variance résiduelle Variance expliquée
FSTG Marrakech Interprétation
Remarque : On peut regarder l’équation de la droite de régression, exprimant
un caractère Y par un autre caractère X, sous la forme :

yˆ i = y + aˆ ( x i − x )
Interprétation : Pour le comptable de l’entreprise SIMTEK, la valeur de â ,
Régression Linéaire

pente de la droite de régression, représente l’augmentation du coût moyen de


la main d’œuvre pour une augmentation unitaire des lots de taille xi.

Ainsi, pour une augmentation d’une unité de la taille du lot à fabriquer, le coût
moyen de la main d’œuvre augmentera vraisemblablement de 9,826 dhs (la
valeur de â )
Dans ce contexte, la valeur de â représente les frais variables.

Dans le même contexte, on peu interpréter la valeur de b̂ comme une


Pr. AIT BABRAM Mohamed

estimation des frais fixes .

Remarque : Attention, l’interprétation donnée ci-


dessus n’est valide que dans le domaine de
! variation observé pour le caractère X soit, dans ce
cas-ci, entre 24 et 52 unités.
FSTG Marrakech Interprétation
Remarque : On peut regarder l’équation de la droite de régression, exprimant
un caractère Y par un autre caractère X, sous la forme :
( )
V (Y ) = 1 − r 2 V (Y ) + r 2V (Y )
Interprétation : Pour le comptable de l’entreprise SIMTEK, la valeur de â ,
Régression Linéaire

pente de la droite de régression, représente l’augmentation du coût moyen de


la main d’œuvre pour une augmentation unitaire des lots de taille xi.

Ainsi, pour une augmentation d’une unité de la taille du lot à fabriquer, le coût
moyen de la main d’œuvre augmentera vraisemblablement de 9,826 dhs (la
valeur de â )

Dans ce contexte, la valeur de â représente les frais variables.

Dans le même contexte, on peu interpréter la valeur de b̂ comme une


Pr. AIT BABRAM Mohamed

estimation des frais fixes .

Remarque : Attention, l’interprétation donnée ci-


dessus n’est valide que dans le domaine de
! variation observé pour le caractère X soit, dans ce
cas-ci, entre 24 et 52 unités.
FSTG Marrakech Exemple sur SPSS
Exemple : Pour cet exemple, on considère la base de données stockée dans
le fichier Employes data.sav qui contient un historique sur les employés d’une
société. Les données ont été collectées dans le cadre d’une étude pour
déterminer si la politique d’emploi de la société conduit à une discrimination à
l’égard des femmes et des minorités.
Régression Linéaire

1. Vérifier s’il y a une liaison linéaire entre la variable numérique


continue « salaire actuel » et la variable numérique « salaire
d’embauche ».
2. Estimer les paramètres de l’équation modélisant cette liaison
linéaire.
3. Que peut-on dire à propos de la qualité de cet ajustement ?
Pr. AIT BABRAM Mohamed

Remarque : Pour répondre à la première question on a le choix entre le


coefficient de corrélation linéaire ou bien le diagramme de dispersion.
FSTG Marrakech
Objectif 1 : Procédure (1/2)
Analyse Corrélation

Faites passer les deux variables


dans la zone « Variables »
Régression Linéaire

Cocher le coefficient de
corrélation «Pearson»

Attention: n’oublier pas de cocher


cette case pour voir si cette
dépendance linéaire est significative
Pr. AIT BABRAM Mohamed

OK

Remarque : On peut basculer tous les variables dont on


souhaite mesurer les coefficients de corrélation deux à
deux de la fenêtre de gauche à la fenêtre de droite
FSTG Marrakech
Régression Linéaire
Pr. AIT BABRAM Mohamed
Objectif 1 : Procédure (2/2)

Pour chaque couple de variables (Xi,Xj), les résultats indiquent le


coefficient (de Pearson) estimé, et le risque d’erreur de première
espèce ou signification (sig) - soit le risque de se tromper sur le sens
de la corrélation -. Si sig < 0.05, on peut conclure à l’existence d’une
corrélation, au seuil 0.05 entre les deux variables (au seuil de
signification indiqué par la statistique sig.). Le symbole ** indique tous
les sig inférieurs à 0.01. Ceci permet une lecture rapide du tableau
FSTG Marrakech
Objectif 2 : Procédure (1/2)
Analyse Régression Linéaire

Basculer la variable expliqué


Régression Linéaire

Basculer la variable explicative

OK
Pr. AIT BABRAM Mohamed

Remarque : On peut basculer plusieurs variables explicatives dont on


souhaite mesurer l’impact sur la variable dépendante « Régression
Linéaire Multiple ».
FSTG Marrakech
Objectif 2 : Procédure (1/2)
Ce tableau rappelle les variables explicatives prises
en compte dans le modèle. Dans le cas d’une
régression simple, il n’y e a qu’une seule

R-deux = carré de R donne le % de la


variance de « salaire actuel » expliqué
Régression Linéaire

par « salaire d’embauche »

R=coefficient de corrélation
entre les deux variables dans le
cas d’une régression simple

R-deux ajusté = paramètre qui


tient compte du nombre de
variables et de la taille de
l’échantillon. Ne pas en tenir
Pr. AIT BABRAM Mohamed

compte pour une régression


simple.

Ce tableau permet de tester la


significativité du modèle obtenu.
Ici le modèle est significatif.
FSTG Marrakech
Régression Linéaire
Pr. AIT BABRAM Mohamed
Objectif 2 : Procédure (1/2)

Le tableau ci-dessus donne les coefficients (dit ‘B’ dans SPSS) de la


droite de régression ainsi qu’une mesure de la signification de ces
deux coefficients. Ici, ils sont significatifs, donc l’hypothèse de nullité
des coefficients peut être rejetée par l’un et l’autre