Vous êtes sur la page 1sur 18

I- Statistique descriptive:

(Régression Linéaire Simple et Multiple)

Animé par :
Pr Mohamed Ait Babram
Plan

I. Régression linéaire simple


 Objectif
 Formulation de la méthode
 Exemple
 Procédure SPSS
II. Régression linéaire multiple
 Objectif
 Formulation de la méthode
 Exemple
 Procédure SPSS
Introduction

Dans le processus de décision ou comme support à


l’aide à la décision ou dans le cadre d’une
expérimentation technologique, il arrive fréquemment
que des conclusions et recommandations soient
basées sur l’existence d’une liaison d’ordre
fonctionnelle ou statistiques entre deux ou plusieurs
variables.
Exemple: Le responsable de la mise en marché d’une
entreprise, après avoir établi une relation entre les
dépenses en publicité et le volume des ventes, peut
effectuer une prévision du volume des ventes selon un
niveau de dépenses en publicité.
Régression Linéaire Simple (Objectif)

L’objectif et d’étudier l’existence d’une liaison


linéaire entre deux variables numériques :

 X variable explicative (variable indépendante ou


réponse)
 Y variable expliquée (variable dépendante ou
régresseur)
Position du problème

L’étude du lien entre deux variables X et Y dépend principalement du


type de grandeurs mises en jeux :

Variable X explicative
Quantitatif Qualitatif
Quantitatif - Régression simple Analyse de la variance
Variable Y - Corrélation simple à un facteur
expliquée
Qualitatif Régression logistique Test du khi-deux
d'indépendance
Exemple illustratif
Prix (en
milliers 1600
16
yˆ  aˆ x  bˆ
Localisation Surface d'euros)
1 censier 28 130
2 contrescarpe 50 280 1400
3 rue saint-simon 106 650
4 rapp 196 800
5 saint-andré des arts 55 268
6 5-ième, près quais 190 790
1200
7 gobelins 110 500
8 gobelins 60 320 25
9 censier 48 250 1000 18
10 panthéon 35 250
11 rue madame 86 350 64
12 rue de seine 65 300 800
13 panthéon 32 155
3
14 sèvres-babylone 52 245

Prix (en milliers d'euros)


15 montparnasse 40 200 600
16 rue d'assas 260 1500 27 7
17 saint-germain 70 325
18 ile saint-louis 117 950 19 21
400 81217
11
19 jussieu 90 378 24
2 23
20 quartier-latin 30 78 10 9145
21 montparnasse 105 375 15 22
22 rue mazarine 52 200 200 113
23 censier 80 270 2628
20
24 assas luxembourg 60 295
25
0
jardins de l'observatoire 140 990
26 rue de savoie 20 85 0 100 200 300
27 près luxembourg 100 495
28 gobelins 28 85
Surface
Formulation de la méthode

Étant donnée deux variables : Le tableau des données est sous


la forme :

 Y : Variable à expliquer X Y
numérique (ou 1 x1 y1
dépendante)   
 X : Variable explicative i xi yi
numérique (ou  
indépendante) n xn yn
Diagramme de dispersion

1600
16

1400

1200

25
1000 18
Prix (en m illiers d'euros)

64
800
3
600
27 7

19 21
400 17 11
812
2524 23
10 914
15 22
200 113
2628
20
0
0 100 200 300

Surface
La droite des moindres carrés
1600

1400

1200
yˆ  aˆx  bˆ On cherche :
valeur
yi
1000
â et b̂
observée
erreur ei
800
En minimisant
valeur
prédite
ŷi 600
* n
400
i
e 2

200 i 1
Prix

0
0 100 200 300
xi
Surface
Estimation des coefficiants

D’après la méthode des moindres carrés on a :

Cov ( X , Y )  (x i  x )( yi  y )
aˆ   i 1
n
 (X )
 (x
i 1
i  x) 2

bˆ  y  aˆ x
Qualité d’ajustement
1) Formule de décomposition
2 2 2
 ( yi  y)   ( ŷi  y)   ei
Somme des Somme des Somme des
carrés totale carrés expliquée carrés résiduelle
(Total Sum of (Regression Sum of (Residual Sum of
Squares) Squares) Squares)
2
 i
( ŷ  y )
Cor ( X , Y )  signe( ˆ
a ) R 2
2) R2 = 2 3)
 ( yi  y)
Exemple sur SPSS

Pour cet exemple, on considère la base de


données stockée dans le fichier Employes
data.sav qui contient un historique sur les
employés d’une société. Les données ont été
collectées dans le cadre d’une étude pour
déterminer si la politique d’emploi de la société
conduit à une discrimination à l’égard des
femmes et des minorités.
Objectifs

1) Vérifier s’il y a une liaison linéaire entre la variable


numérique continue « salaire actuel » et la variable
numérique « salaire d’embauche ».
2) Estimer les paramètres de l’équation modélisant
cette liaison linéaire.
3) Que peut-on dire à propos de la qualité de cet
ajustement ?
Remarque : Pour répondre à la première question on a
le choix entre le coefficient de corrélation linéaire ou
bien le diagramme de dispersion.
Objectif 1 : Procédure (1/2)
Analyse Corrélation

Faites passer les deux variables


dans la zone « Variables »

Cocher le coefficient de
corrélation «Pearson»

Attention: n’oublier pas de cocher


cette case pour voir si cette
dépendance linéaire est significative

OK

Remarque : On peut basculer tous les variables dont on


souhaite mesurer les coefficients de corrélation deux à
deux de la fenêtre de gauche à la fenêtre de droite
Objectif 1 : Procédure (2/2)

Pour chaque couple de variables (Xi,Xj), les résultats indiquent le


coefficient (de Pearson) estimé, et le risque d’erreur de première
espèce ou signification (sig) - soit le risque de se tromper sur le sens
de la corrélation -. Si sig < 0.05, on peut conclure à l’existence d’une
corrélation, au seuil 0.05 entre les deux variables (au seuil de
signification indiqué par la statistique sig.). Le symbole ** indique tous
les sig inférieurs à 0.01. Ceci permet une lecture rapide du tableau
Objectif 2 : Procédure (1/2)
Analyse Régression Linéaire

Basculer la variable expliqué

Basculer la variable explicative

OK

Remarque : On peut basculer plusieurs variables explicatives dont on


souhaite mesurer l’impact sur la variable dépendante « Régression
Linéaire Multiple ».
Objectif 2 : Procédure (1/2)
Ce tableau rappelle les variables explicatives
prises en compte dans le modèle. Dans le cas
d’une régression simple, il n’y e a qu’une seule

R-deux = carré de R donne le % de


la variance de « salaire actuel »
expliqué par « salaire d’embauche »

R=coefficient de corrélation
entre les deux variables dans
le cas d’une régression simple

R-deux ajusté = paramètre qui


tient compte du nombre de
variables et de la taille de
l’échantillon. Ne pas en tenir
compte pour une régression
simple.

Ce tableau permet de tester la


significativité du modèle obtenu.
Ici le modèle est significatif.
Objectif 2 : Procédure (1/2)

Le tableau ci-dessus donne les coefficients (dit ‘B’ dans SPSS) de la


droite de régression ainsi qu’une mesure de la signification de ces
deux coefficients. Ici, ils sont significatifs, donc l’hypothèse de nullité
des coefficients peut être rejetée par l’un et l’autre

Vous aimerez peut-être aussi