Vous êtes sur la page 1sur 67

Chapitre 12

Régression linéaire simple et corrélation


linéaire

 Mise en contexte
 Régression linéaire simple
 Corrélation linéaire
 Exemple de sortie SPSS

MQT-21919 Probabilités et Statistique en Gestion


1
Mise en contexte
En statistique, plusieurs problèmes consistent à définir
la relation qui existe entre deux variables statistiques :
 Le nombre d’années d’expérience et le nombre d’erreurs
commises ;

 L’âge du conducteur et le nombre d’accidents d’auto ;

 Volume des ventes et les dépenses en publicité ;

 Nombres d’heures d’études et les résultats aux examens ;

…

2
Mise en contexte
Dans ce genre de problèmes, les principales questions
auxquelles nous voudrons répondre sont les suivantes :
1. Existe-il une relation ou une dépendance entre les variables
statistiques ?

2. Cette relations, si elle existe, est-elle linéaire ou non ?

3. Si une dépendance existe, de quelle façon peut-on la traduire par


une équation mathématique ?

4. La relation, si elle existe, est-elle grande ou faible ?

5. Si l’équation mathématique de la relation entre les variables existe,


comment prévoir les valeurs d’une variable à partir de la
connaissance de valeurs de l’autre variable ou des autres variables ?

3
Mise en contexte

Pour répondre à toutes ces questions,


nous ferons appel à une théorie
statistique que nous appelons :
L’analyse de la régression

4
L’analyse de la régression
Définition
L’analyse de la régression est une méthode statistique
qui permet d’étudier le type de relation pouvant
exister entre une certaine variable dont on veut
expliquer les valeurs et une ou plusieurs autres
variables qui servent à cette explication.

En d’autres termes, l’analyse de la régression permet


d’étudier les variations de la première variable sur la
base des variations connues des autres variables.

5
L’analyse de la régression
Exemple d’illustration
Le coût du loyer en fonction de nombre de pièces,
de l’étage dans l’immeuble, ...

Y  f ( X 1 , X 2 , X 3 ,..., X n )
Nombre de pièces
Coût du loyer
Services offerts
(piscine, stationnement intérieur, etc.)

L’étage dans l’immeuble …

6
L’analyse de la régression
Définition

Une analyse de régression est :


– dite simple si elle permet de prédire les valeurs d’une
variable dite dépendante (expliquée (Y)) à partir des
valeurs prises par une autre variable dite indépendante
(explicative (X)).

– dite multiple si elle permet de prédire les valeurs d’une


variable dite dépendante (expliquée (Y)) à partir des
valeurs prises par plusieurs autres variables dites
indépendantes (explicatives (Xi)).

7
L’analyse de la régression linéaire simple

Définition : Nuage de points ou


diagramme de dispersion
C’est la représentation graphique dans le plan cartésien
de l’ensemble des paires de données (xi,yi). Ces données
proviennent d’une série statistique de deux caractères
numériques obtenus à partir d’une étude menée sur un
échantillon ou sur une population.

8
L’analyse de la régression linéaire simple

Exemple : Nuage de points ou diagramme de dispersion

Supposons que le nombre d’heures d’études nécessaires


pour préparer l’examen final en statistique et le nombre
de bonnes réponses obtenues par chaque étudiant sont
donnés dans le tableau suivant :

Tracer le nuage de points ou le diagramme de dispersion


des données présentées ci-dessus.

9
L’analyse de la régression linéaire simple

Exemple : Nuage de points ou diagramme de dispersion …

Diagramme de dispersion

10
9
8
7
6
5
4
3
2
1
0
0 2 4 6 8 10

Heures d'études

10
L’analyse de la régression linéaire simple

Objectif d’une analyse de régression simple

Une fois la représentation graphique effectuée, il est


facile de soupçonner l’existence d’une certaine relation
entre les deux caractères étudiés. Il faut maintenant
chercher à exprimer la relation existant entre les deux
variables à l’aide d’une équation mathématique.

Y  f (X )
On essaye de trouver la forme mathématique de la fonction f

11
L’analyse de la régression linéaire simple

Objectif d’une analyse de régression simple

Diagramme de dispersion

10
9
8
7
6
5
4
3
2
1
0
0 2 4 6 8 10

Heures d'études

12
L’analyse de la régression linéaire simple

Définition : Nous appelons régression linéaire


l’ajustement d’une droite au nuage statistique d’une
série de couples de données.

Ainsi, une régression linéaire simple va permettre de



résumer, d’interpréter et de prévoir les variations d’un
caractère dit dépendant (Y) en fonction d’un autre dit
indépendant (X) et ce en utilisant une droite.

13
L’analyse de la régression linéaire simple

Forme générale du modèle théorique de


régression linéaire simple

Y  f ( X )  1X   0  

Notation :
Y = Variable dépendante ou expliquée
X = Variable indépendante ou explicative

 0 et  1 = Coefficients théoriques de régression (à estimer à l’aide d’un échantillon)

 = Erreur théorique aléatoire (d’autres facteurs influencent Y)

14
L’analyse de la régression linéaire simple

Les différentes étapes d’une étude de régression

15
L’analyse de la régression linéaire simple

Il existe plusieurs méthodes permettant


d’estimer le modèle théorique Y   0   1 X   ,
par le modèle empirique Yˆ  b0  b1 X :
 Méthode des moindres carrés

 Méthode de la vraisemblance
…

16
L’analyse de la régression linéaire simple

La méthode des moindres carrés

Idée de base : cette méthode essaye de construire


une droite de régression empirique qui minimise la
somme des carrés des distances verticales entre cette
 droite et chacun des points observés.

17
L’analyse de la régression linéaire simple

La méthode des moindres carrés …

Illustration graphique

( xi , yˆ i )

 ( xi , yi )

18
L’analyse de la régression linéaire simple

La méthode des moindres carrés …

Définition : On appelle résidu ou erreur empirique


ou écart de prévision, la valeur e i  y i  yˆ i , soit la
différence (l’écart vertical) entre la valeur observée y i
de Y et la valeur estimée ŷ i obtenue à partir de la
droite de régression.

L’objectif de la méthode des moindres carrées est de


n
déterminer la droite de régression qui minimisent  i.
e 2

i 1

19
L’analyse de la régression linéaire simple

La méthode des moindres carrés …


L’équation de la droite de régression empirique

Yˆ  b0  b1 X

Coefficient de régression empirique,
Pente de la droite,
Estimation de 1

Coefficient de régression empirique,


L’ordonné à l’origine,
Estimations de  0

20
L’analyse de la régression linéaire simple

La méthode des moindres carrés …


n
se 2
1  e 2
2  e 2
3  ...  e   ei2
2
n
i 1
n
s    y i  yˆ i 
Cette mesure donne l’ordre de grandeur
2
de la dispersion des observations
Yi autour de la droite de régression
i 1

n
s    y i  b0  b1 x i 
2

i 1

Il s’agit de trouver bo et b1 de sorte


que la somme s soit la plus petite possible (minimale).

21
L’analyse de la régression linéaire simple

Principes de la méthode des moindres carrés …

Comment calculer les coefficients b0 et b1 ?


Les estimations ponctuelles des paramètres de la
droite de régression obtenues par la méthode des
moindres carrés sont :

b0  y  b1 x
n
 xi yi  n x y
i 1
b1  n
 i
x 2
 nx 2

i 1 Taille de l’échantillon 22
L’analyse de la régression linéaire simple

Exemple 1 d’illustration

À partir des données ci-dessous, déterminez les


estimations ponctuelles des paramètres de la droite de
régression selon la méthode des moindres carrés :

23
L’analyse de la régression linéaire simple
Exemple d’illustration : réponse


n

x y i i  nx y
6670  5  30  40
b1  i 1
  0.67
n
5500  5  (30) 2

 i
x 2

i 1
 n x 2
Yˆ  19.9  0.67 X

b0  y  b1 x  40  0.67  30  19.9
24
L’analyse de la régression linéaire simple

Remarque Importante

La droite de régression déterminée à l’aide de la


méthode des moindres carrés donne la plus faible
somme de carrés résiduelles  ei parmi toutes les autres
2

droites que l’on pourrait ajuster à cet ensemble



d’observations.

25
L’analyse de la régression linéaire simple

Exemple 2 d’illustration
Une entreprise veut mener une étude sur la relation entre les
dépenses hebdomadaires en publicité et le volume des ventes
qu’elle réalise. On a recueilli au cours des dix dernières semaines
les données suivantes :

À partir des données ci-dessus, déterminez les estimations


ponctuelles des paramètres de la droite de régression selon la
méthode des moindres carrés.

26
L’analyse de la régression linéaire simple

Exemple 2 : réponse

À partir de ces données, il est possible de tracer le diagramme de


dispersion suivant :

Diagramme de dispersion

60

50
40
30
20
10
0
0 1 2 3 4 5 6

Coût publicitaire en millions de dollars (X)

27
L’analyse de la régression linéaire simple

Exemple 2 : réponse …
Les résultats intermédiaires suivants servent à calculer
les estimations ponctuelles des paramètres de la droite
de régression :

28
L’analyse de la régression linéaire simple

Exemple 2 : réponse …

En appliquant les formules ci-dessous, nous obtenons


les valeurs numériques des b0 et b1
n

x y i i  nx y
1605  10  3.3  46.35
 b1  i 1
  3.95
n
128  10  (3.3) 2

x
i 1
2
i  nx 2
Yˆ  33.31  3.95 X
b0  y  b1 x  46.35  3.95  3.3  33.31

29
L’analyse de la régression linéaire simple

Exemple 2 : Interprétation des résultats et remarques…

Yˆ  33.31  3.95 X

Ordonnée à l’origine Dépenses en publicité



C’est l’augmentation du volume
des ventes (Y) pour une augmentation
unitaire du coût en publicité (X)

La droite de régression qui permet de déterminer


le volume des ventes en fonction des coûts
publicitaires.

30
L’analyse de la régression linéaire simple

Exemple 2 : Interprétation des résultats et remarques…

Rq1 : le point de cordonnées ( x , y ) se trouve sur la droite de


régression.

Rq2 : cette relation linéaire entre X et Y est valide pour


l’intervalle des valeurs de X considérée dans l’énoncé, c’est-à-dire
 de 1 à 5.5.

La droite de régression ne s’applique qu’à l’intérieur de l’étendue


des valeurs expérimentales qui ont été observées pour la variable
explicative (X). On devra donc éviter toute extrapolation en
dehors de ce domaine à moins d’être certain que le phénomène
se compose de façon identique.

31
L’analyse de la régression linéaire simple

Exemple 2 : Interprétation des résultats et remarques…

Rq3 : Pour la valeur x = 3,5 (située entre 1 et 5,5), on peut


utiliser la droite de régression pour prévoir la valeur moyenne
correspondante de Y

Exemple : Prévision du volume des ventes pour un coût de 3,5


 millions de dollars en publicité hebdomadaire.
Ŷ = 33.31 + 3.95 (3,5) = 47,14 millions de dollars

32
L’analyse de la régression linéaire simple

Validation de la droite de régression empirique


Pour valider une droite de régression empirique, il faut
effectuer :

 Une estimation de la variance des erreurs théoriques  2

  Une estimation de  0 et 1 par intervalle de confiance

 Test d’hypothèse sur 1

33
L’analyse de la régression linéaire simple

Validation de la droite de régression empirique…


Estimation de la variance des erreurs théoriques  
2

La précision des estimateurs b0 et b1 dépend de la valeur de la


variance des erreurs théoriques : plus   sera petit, plus ces
2

estimateurs sont précis.


Puisque, en pratique, la variance  2 est inconnue, alors on


l’estime par le terme suivant :
n n

e 2
i (y i  ˆ
y i ) 2

S e2  i 1
 i 1
n2 n2

34
L’analyse de la régression linéaire simple

Validation de la droite de régression empirique…


Estimation de  b0 et  b21
2

En pratique, les variances  b0 et  b1 sont inconnues, alors on


2 2

les estiment par les deux termes suivants :

   

   S 2 
2 1 x2 Sb1   n
2 e

Sb0  S e   n
2

 ( x  x )2 
 
n 2
 i 1
( xi  x )
 i 1
i 

35
L’analyse de la régression linéaire simple

Exemple d’application …
Yˆ  33.31  3.95 X
Compléter le tableau suivant : 33.31 + 3.95 x 2 = 41.21

0.49 49.11 0.39 0.1521 7.6176


1.69 41.21 - 0.21 0.0441 26.419
6

2 2 2
Calculer S e , Sb0 , Sb1 pour l’ensemble des données ci-dessus.
S e2  1.1847
Sb20  0.7939
36
Sb21  0.062
L’analyse de la régression linéaire simple

Validation de la droite de régression empirique…


Estimation de 1 par intervalle de confiance

L’intervalle de confiance pour estimer 1 , la pente du modèle


de régression théorique, au niveau de confiance (1 -  ) est
donnée par :

 LI , LS   b1  t / 2 Sb 

Si n-2 < 30 t / 2  t (n  2)d .l


1

 LI , LS   b1  z / 2 Sb 
1
Si n-2 ≥ 30 z / 2  N (0,1)

37
L’analyse de la régression linéaire simple

Validation de la droite de régression empirique…


Estimation de  0 par intervalle de confiance

Si la valeur X = 0 est dans l’intervalle des valeurs observées pour X,


alors il est intéressant d’estimer par intervalle de confiance.
0

 L’intervalle de confiance pour estimer  0 , l’ordonnée à l’origine


du modèle de régression théorique, au niveau de confiance (1
-  ) est donnée par :

 LI , LS   b0  t / 2 Sb 
0
Si n-2 < 30 t / 2  t (n  2)d .l

 LI , LS   b0  z / 2 Sb 
0
Si n-2 ≥ 30 z / 2  N (0,1)
38
L’analyse de la régression linéaire simple

Exemple d’application
D’après les données de l’exemple d’application de l’acétate 26,
construisez un intervalle de confiance pour 1 au niveau 95% :
Puisque n-2 = 10 -2 = 8 < 30, alors
Table de Student


 LI , LS   b1  t / 2 Sb 
1

 LI , LS   3.95  t0.025 0.062 


 LI , LS   3.95  2.306 0.062 
 LI , LS    3.3758,4.5242 39
L’analyse de la régression linéaire simple

Validation de la droite de régression empirique…


Test d’hypothèse sur 1

Pour vérifier si l’influence de la variable indépendante X est


significative, on procède à un test d’hypothèse sur 1

Y   0  1 X  

Si β1 = 0 alors peu n’importe


les valeurs de X, elles n’auront
pas d’impact sur Y

40
L’analyse de la régression linéaire simple

Les étapes d’un test d’hypothèses sur 1

1. Énoncer les hypothèses H0 et H1.


H 0 : 1  0
H1 : 1  0

2. Préciser les conditions du test


 La population est normale
La variance résiduelle   est inconnue
2

 Le niveau de signification
 Si la taille de l’échantillon n – 2 ≥ 30, on utilise Z (Normale)
 Si la taille de l’échantillon n – 2 < 30, on utilise t (Student)

3. Calculer l’écart réduit.


b1  1 b1
Z0   si n  2  30
Sb1 Sb1
b1  1 b1
T0   si n  2  30
Sb1 Sb1

4. Trouver la région critique au niveau de signification 


On rejette H 0 , si T0  t / 2,( n  2 ) d .l ou si T0  t / 2,( n 2 ) d .l
41
On rejette H 0 , si Z 0  z / 2 ou si Z 0   z / 2
L’analyse de la régression linéaire simple
Exemple d’application
D’après les données de l’exemple d’application de l’acétate 26,
vérifiez au niveau  = 0.05 et à partir de la droite de régression
linéaire obtenue, si X est significative pour expliquer Y ?

Réponse
Étape 1 Étape 2
 H 0 : 1  0
n – 2 = 8 < 30, population normale,   inconnue
2

H1 : 1  0

Étape 3 Étape 4
b1  1 3.95  0 t0.025,8 d .l  2.306
T0    15.86
Sb1 0.062
puisque T0  15.86  t0.025,8 d .l  2.306,
alors on rejette H 0

Cela implique que X explique les valeurs prises par Y au niveau  = 0.05 42
L’analyse de la régression linéaire simple

Application du modèle de régression linéaire simple

Une fois que le modèle de régression est validé, il


est possible d’effectuer deux types d’applications :
 Construire un intervalle de confiance autour de la droite de
régression

 Construire un intervalle de prévision pour une nouvelle
observation de X

43
L’analyse de la régression linéaire simple

Application du modèle de régression linéaire simple

Construire un intervalle de confiance autour de la droite de régression

Si on veut estimer à l’aide d’un intervalle de confiance à un


niveau (1 -  ) la valeur moyenne de la droite de régression
pour une valeur x0 spécifiée de X, alors :

Si  2 est inconnue et n - 2 < 30
 LI , LS   b0  b1 x0  t / 2,( n2) d .l S (Yˆ / x0 ) , avec
ˆ 1 ( x0  x ) 2
S (Y / x0 )  S e  n
n
 ( xi  x ) 2
i 1

Si  2 est inconnue et n - 2 ≥ 30, on remplace t / 2,( n  2) d .l par z / 2


44
L’analyse de la régression linéaire simple

Exemple d’application
Construire un intervalle de confiance autour de la droite de
régression

Estimez par intervalle de confiance au niveau  = 0.05 le


volume moyen des ventes si on investit 4 millions de dollars
en publicité (acétate 26).

 Dans ce cas, on a  2 est inconnue et n – 2 = 8 < 30

1 ( x0  x ) 2 1 (4  3.3) 2
S (Yˆ / x0 )  S e   1.1847    0.3858
n n 10 19 .1
 ( xi  x ) 2
i 1

 LI , LS   b0  b1 x0  t0.025,8 d .l S (Yˆ / x0 )


  33.31  3.95  4  2.306  0.3858
  49.11  2.306  0.3858
  48.22, 50 45
L’analyse de la régression linéaire simple
Application du modèle de régression linéaire simple
Construire un intervalle de prévision pour une nouvelle observation
de X
En plus des n observations dans l’échantillon, on a la possibilité
d’effectuer une nouvelle observation xo de X qui serait indépendante
des n premières. Dans ce cas, on veut maintenant prévoir yo, la
valeur de Y correspondant à une nouvelle observation xo de X. Dans
ce cas, l’intervalle de confiance au niveau (1 -  ) sera :
 Si  2 est inconnue et n - 2 < 30

 LI , LS   b0  b1 x0  t / 2,( n2) d .l S (Y0  Yˆ0 ) , avec


1 ( x0  x ) 2
S (Y0  Yˆ0 )  S e 1  n
n
 ( xi  x ) 2
i 1

Si  2 est inconnue et n - 2 ≥ 30, on remplace t / 2,( n 2) d .l par z / 2

46
L’analyse de la régression linéaire simple

Exemple d’application
Construire un intervalle de prévision pour une nouvelle
observation de X

Prévoir par intervalle de confiance au niveau = 0,05  le volume


des ventes si, à partir d’un nouvel échantillonnage, on désire
investir 2,8 millions de dollars en publicité (exemple de l’acétate
26).

Dans ce cas, on a  2 est inconnue et n – 2 = 8 < 30
1 ( x0  x ) 2 1 (2.8  3.3) 2
S (Y0  Yˆ0 )  S e 1  n  1.1847  1    1.148
n 10 19 .1
 ( xi  x ) 2
i 1

 LI , LS   b0  b1 x0  t0.025,8 d .l S (Y0  Yˆ0 )


  33.31  3.95  2.8  2.306  1.148
  44.37  2.647
  41.723, 47.017 47
Corrélation linéaire

Différence entre régression et corrélation ?

La régression linéaire simple se préoccupe


essentiellement de la forme de la relation
linéaire qui existe entre X et Y

La corrélation essaye de mesurer l’intensité ou


la force de la relation qui existe entre X et Y.

48
Corrélation linéaire

Il existe trois mesures possibles pour quantifier


l’intensité de la relation entre X et Y:
– Coefficient de détermination de Y en fonction de X

– La covariance

– Coefficient de corrélation entre X et Y

49
Corrélation linéaire

Coefficient de détermination de Y en fonction de X


Le coefficient de détermination théorique de Y en fonction de X,
noté YX
2
, mesure la proportion de la variation de Y qui est
expliquée par la régression ou qui est expliquée par la variable X
au niveau de toute la population.


0  2
YX 1
N’implique pas nécessairement qu’il n’y a pas de relation entre X et Y
mais plutôt que, si elle existe, elle n’est pas linéaire.

50
Corrélation linéaire

Coefficient de détermination de Y en fonction de X


En pratique YX2 est inconnu, car on ne possède pas
d’information sur toute la population mais seulement
sur un échantillon de taille n, alors on estimera YX à
2

partir de l’échantillon :
n n

2 variation expliquée (SCreg)


 ( yˆ  y )
i 1
i
2
b12  (x  x)
i 1
i
2

 rYX  r2   n
 2
variation totale (SCT)  n 
 ( y  y)
i
2
n
  yi 
i 1  

i 1
yi2   i 1 
n

rYX2 fournit une indication de la force de la liaison


possible pouvant exister entre Y et X au niveau de la
population. De plus, c’est un indice de la qualité de
l’ajustement de la droite aux points expérimentaux.
51
Corrélation linéaire

Exemple d’application
Calculez rYX2 pour l’exemple d’application de l’acétate 26 :

2 variation expliquée (SCreg) 298.008


rYX    0.9692
variation totale (SCT) 307.525


Puisque rYX2 est proche de 1, on peut dire que la droite
de régression s’ajuste très bien au nuage de points.

52
Corrélation linéaire

La covariance empirique entre X et Y

Cette covariance est déterminée de la manière


suivante :
1 n 1 n 
S XY   i
n  1 i 1
( x  x )( y i  y )   i i
n  1  i 1
x y  nx y 

Si S XY  0 Alors X et Y varient dans le même sens


Si S XY  0 Alors X et Y varient dans le même opposé
Si S XY  0 Le sens de variation de X ne permet pas de
prévoir le sens de variation de Y (soit que X et Y
sont indépendantes, soit qu’il y a une relation
non linéaire entre X et Y)
53
Corrélation linéaire
Coefficient de corrélation linéaire empirique entre
deux variables aléatoire X et Y

Ce coefficient est déterminé de la manière suivante :


n

S  ( x  x )( y
i i  y)
n xi yi    xi   yi 
rXY  XY  i 1

S X .SY n xi2    xi  n yi2    yi 
n n 2 2

 ( x  x ) . ( y
i 1
i
2

i 1
i  y) 2


Remarques :
  1  rXY  1
 Si rXY  1 alors il existe une relation linéaire exacte entre X et Y
 Si rXY  0 alors soit que X et Y sont indépendantes, soit qu’il y
a une dépendance non linéaire entre les deux variables
 Si rXY  0 ou rXY  1 alors il existe une relation linéaire plus ou
moins forte entre X et Y
54
Le coefficient de corrélation de
l’échantillon
rxy  (signe de b1 ) r 2

rxy  (signe de b1 ) coefficient de détermination

55
Tester l'hypothèse d'une corrélation linéaire
significative entre X et Y
H 0 :  xy  0
H1 :  xy  0
 Si n-2 < 30, alors on calcule la statistique t suivante:

n2
t  rxy
1  rxy 2

 On compare avec la statistique de Student (Z si n-2 > 30)


 Règle de décision:
– on rejette H0 si t < -t/2(n-2) ou si t > t/2(n-2) au niveau  à n-2
degrés de liberté 56
Corrélation linéaire
Exemple d’application
Toujours en utilisant l’exemple numérique de l’acétate
26, mesurez le degré de dépendance linéaire entre X
et Y à l’aide des deux indices précédents.
Réponse
1 10
 S XY   ( xi  3.3)( yi  46.35)  8.38
9 i 1
Les dépenses en publicité et les ventes varient dans le même sens
n 10

S  ( x  x )( y
i i  y)  ( x  3.3)( y
i i  46.35)
rXY  XY  i 1
 i 1
 0.9845
S X .SY n n 10 10

 ( x  x ) . ( y
i 1
i
2

i 1
i  y)2  ( x  3.3) . ( y
i 1
i
2

i 1
i  46.35) 2

Il existe une relation linéaire très forte entre


les dépenses en publicité et les ventes 57
Corrélation linéaire
Coefficients de corrélation et nuage de points

58
Exemple de sortie SPSS
Exemple de révision …
La chaîne de restaurants Cocorico opère présentement 25 franchises et
envisage d’en ouvrir quelques autres d’ici deux ans. Comme élément de
l’étude de localisation, le responsable du dossier veut faire effectuer une
étude de régression afin de déterminer quels sont les principaux facteurs
qui influencent le bénéfice d’une franchise et sa rentabilité. Il a identifié
quatre variables qui lui semblent pertinentes :

• X1 : nombre de véhicules par semaine (en milliers) sur la route où est
située la franchise;
• X2 : cote (de 1 à 100) mesurant la facilité d’accès au restaurant
(franchise);
• X3 : revenu annuel moyen des ménages demeurant dans le secteur (en
1000 $);
• X4 : variable prenant la valeur 1 s’il y a au moins un concurrent dans un
rayon d’un kilomètre, et 0 autrement.

59
Exemple de sortie SPSS
Exemple de révision …
Le personnel a recueilli pour les 25 franchises existantes les données
associées à ces quatre variables, ainsi que les bénéfices hebdomadaires
moyens, Y (en 1000 $), pour la dernière année d’exploitation.

60
Exemple de sortie SPSS
Exemple de révision …
Le responsable croit que seulement le revenu annuel moyen (X3) des
ménages peut expliquer les bénéfices hebdomadaires moyens et vous
demande donc d’examiner le modèle suivant : Y   0   3 X3   . À l’aide
des résultats donnés au tableau de la page suivante, répondez aux
questions suivantes :
a) Donner l’équation de la droite de régression.
 b) Croyez-vous que cette droite s’ajuste bien aux données ? Justifier votre réponse à
l’aide d’un indice approprié.
c) Est-ce que ce modèle de régression linéaire simple est significatif au seuil  = 0,01 ?
Vérifiez à l’aide d’un test approprié.
d) Construire un intervalle de confiance à 95% pour Yˆ si le revenue annuel des
ménages est de 26.480 ?

61
Exemple de sortie SPSS
Exemple de révision : Sortie SPSS
Récapitulatif des observationsa

Nombre de
Bénéfices véhicules/s Facilité Revenu Concurrence
hebdomadai emaine sur d'accès au annuel des oui (1) ou non
res moyens la route restaurant ménages (0)
1 336,11 22 53 25,549 1
2 134,55 20 54 24,844 1
3 369,25 29 87 23,040 1
4 178,89 22 35 29,958 1
5 235,83 23 33 22,458 1
6 246,27 21 38 19,529 1
7 279,52 16 70 19,552 0
8 280,66 19 88 13,192 1

Y
9 156,27 18 86 24,362 0
 10 314,41 22 17 24,471 0
11 167,35 16 18 20,663 0
12 246,36 17 30 28,042 1
13 231,27 13 35 28,963 0
14 134,25 22 37 22,451 0
15 213,79 33 39 26,272 0

X3
16 101,58 12 26 23,192 1
17 123,49 17 39 26,480 0
18 235,96 19 49 19,438 0
19 291,84 18 58 23,927 0
20 268,13 16 94 23,641 1
21 235,51 11 23 31,059 1
22 303,14 18 65 18,333 0
23 314,22 28 12 25,854 0
24 279,92 20 69 33,246 1
25 358,69 31 73 27,355 0
Total N 25 25 25 25 25
a. Limité aux 100 premières observations
62
Exemple de sortie SPSS
Exemple de révision : Sortie SPSS …
Se : Écart type des erreurs théoriques

Récapitulatif du modèle

Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,04998a ,0025 -,0409 76,5885

a. Valeurs prédites : (constantes), Revenu annuel des ménages

2
Coefficient de détermination : rXY
Coefficient de corrélation : rXY

63
Exemple de sortie SPSS
Exemple de révision : Sortie SPSS …
T0 ou Z0 pour le test  b0 
d’hypothèse sur  0
 
Coefficientsa
 Sb0 
Coefficients non Coefficients Intervalle de confiance
standardisés standardisés à 95% de B

Erreur Borne Borne


Modèle B standard Bêta t Signification inférieure supérieure
1 (constante) 262,10 87,245 3,004 ,006 81,625 442,584 IC pour 0
Revenu
 annuel des
ménages
-,851 3,544 -,04998 -,240 ,812 -8,182 6,481
IC pour 3
a. Variable dépendante : Bénéfices hebdomadaires moyens

b0 Sb0
 b3  T ou Z pour le test
  d’hypothèse sur 
0 0
b3 Sb3
 Sb3  3

 LI , LS   b3  t / 2 Sb     0.851  2.069  3.544    8.18, 6.48


3

64
Exemple de sortie SPSS
Exemple de révision : Réponse
a) Donner l’équation de la droite de régression.

Yˆ  262.10  0.851X 3
b) Croyez-vous que cette droite s’ajuste bien aux données ? Justifier votre
réponse à l’aide d’un indice approprié.
C’est le coefficient de détermination qui donne une indication sur la

qualité de l’ajustement de la droite de régression. Or, rYX
2
 0.0025 qui
est trop faible. Donc, on a un très mauvais ajustement. Ainsi, le
revenue moyen des ménages n’explique pas d’une façon linéaire les
variations dans les bénéfices hebdomadaires.
c) Est-ce que ce modèle de régression linéaire simple est significatif au seuil
 = 0,01 ? Vérifiez à l’aide d’un test approprié.
Pour répondre à cette question on doit faire un test d’hypothèse sur  3

65
Exemple de sortie SPSS
Les étapes d’un test d’hypothèses sur  3

1. Énoncer les hypothèses H0 et H1.


H 0 : 3  0
H1 :  3  0

2. Préciser les conditions du test


 La population est normale
La variance résiduelle   est inconnue
2

 Le niveau de signification 0.01
 Si la taille de l’échantillon 25 – 2 = 23 < 30, on utilise t (Student)

3. Calculer l’écart réduit.


b3   3  0.85  0
T0    0.24
Sb3 3.54

4. Trouver la région critique au niveau de signification 


t / 2,( n 2) d .l  t0.005, 23d .l  2.807
On accepte H 0 , puisque  2.807  T0  0.24  2.807
66
Modèle non significatif
Exemple de sortie SPSS
Exemple de révision : Réponse
d) Construire un intervalle de confiance à 95% pour Yˆ si le revenu annuel des
ménages est de 26.480 ?
La valeur de X3 = 26.480 existe dans les données de départ et de ce fait on
applique la formule suivante pour déterminer l’intervalle de confiance (avec n-2
=23 < 30).

 LI , LS   262.1  0.851 26.480  2.069S (Yˆ / x0 ) , avec


 1 (26.480  x ) 2
ˆ
S (Y / x0 )  76.58  25
25
 ( xi  x ) 2
i 1
24.23
17.26

 
 Se2  25
S e2 (76.58) 2

Sb3  25
2
   ( xi  x )  2 
2
 467.976
 ( x  x )2  S b3 (3.54) 2
 
i 1

i 1
i 

 LI , LS    203.84, 275.28
67