Vous êtes sur la page 1sur 55

Mise en contexte

 Le nombre d’années d’expérience et le


nombre d’erreurs commises ;
 L’âge du conducteur et le nombre
d’accidents d’auto ;
 Le volume des ventes et les dépenses en
publicité ;
 Le nombre d’heures d’études et les résultats
aux examens ;
 …

2
Pr. BOULAHOUAL Adil
Mise en contexte
◦ Existe-il une relation ou une dépendance
entre les variables statistiques?
◦ Cette relation, si elle existe, est-elle linéaire
ou non ?
◦ Si une dépendance linéaire existe, de quelle
façon peut-on la traduire par une équation
mathématique ?
◦ La corrélation, si elle existe, est-elle forte ou
faible ?
◦ Si l’équation mathématique de la relation
entre les variables existe, comment prévoir
les valeurs d’une certaine variable à partir de
la connaissance de valeurs de l’autre variable 3
Pr. BOULAHOUAL Adil
Modèle Économique

 Un modèle consiste en une présentation


formalisée d’un phénomène sous forme
d’équations mathématiques.( normalement en
économétrie et comme toutes les variables économiques sont
Inférence statistique
interdépendantes (notion de système), il n'est pas suffisant de construire des
équations isolées mais plutôt il faut établir un système complet d‘équations.)
 Elle consiste alors à effectuer des études
sur l’échantillon et transposer les résultats
sur la population.
 Cette transposition n’est pas stricte, elle
attache toujours une probabilité aux
résultats et aux conclusions émises.

4
Pr. BOULAHOUAL Adil
CHAPITRE I

La régression linéaire

5
Pr. BOULAHOUAL Adil
Pr. BOULAHOUAL Adil
 L’analyse de la régression est une
méthode statistique qui permet d’étudier
le type de relation pouvant exister entre
une certaine variable (dépendante) dont
on veut expliquer les valeurs et une ou
plusieurs autres variables qui servent à
cette explication (variables
indépendantes)

 En d’autres termes, l’analyse de la


régression permet d’étudier les variations
de la variable dépendante en fonction des
6
Pr. BOULAHOUAL Adil
Le coût du loyer en fonction du nombre de pièces, du
niveau d’étage dans l’immeuble, des services offerts ...

Y  f ( X 1 , X 2 , X 3 ,..., X n )
Nombre de pièces
Coût du loyer
Services offerts
(piscine, stationnement intérieur, etc.)

L’étage dans l’immeuble …

Pr. BOULAHOUAL Adil


Une analyse de régression est :
- dite simple si elle permet de prédire
les valeurs d’une variable dite
dépendante (expliquée, endogène,Y ) à
partir des valeurs prises par une autre
variable dite indépendante (exogène,
explicative, X ).

- dite multiple si elle permet de prédire


les valeurs d’une variable dite
dépendante à partir des valeurs prises
par plusieurs autres variables dites
indépendantes Xi).Pr. BOULAHOUAL Adil 8
Nuage de points ou
diagramme de dispersion
Exemple : Nuage de points ou diagramme de dispersion

Supposons que le nombre d’heures


d’études nécessaires pour préparer
l’examen final en statistiques et le nombre
de bonnes réponses obtenues par chaque
étudiant sont donnés dans le tableau
suivant
Heures d’études : 5 8 6 9 10 8 5 4 10 4 10 7 9
Bonnes réponses 5 8 7 9 10 7 4 4 8 2 9 6 8

9
Pr. BOULAHOUAL Adil
Exemple : Nuage de points ou
diagramme de dispersion

10
Pr. BOULAHOUAL Adil
Objectif de la représentation graphique du nuage de point

Une fois la représentation graphique


effectuée, il est facile de soupçonner
l’existence d’une certaine relation entre
les deux variables (caractères étudiés). Il
faut maintenant chercher à exprimer cette
relation à l’aide d’une équation
mathématique. Y  f ( X )

Nous essayerons de trouver la forme mathématique de la fonction f

11
Pr. BOULAHOUAL Adil
Définition : Nous appelons régression
linéaire l’ajustement d’une droite au
nuage statistique d’une série de couples
de données.

Ainsi, une régression linéaire simple va


permettre de résumer, d’interpréter et de
prévoir les variations d’un caractère dit
dépendant (Y) en fonction d’un autre dit
indépendant (X) et ce en utilisant une
droite.
12
Pr. BOULAHOUAL Adil
 Modèle théorique de régression linéaire
simple
y = 0 + 1x + 
 Équation de la régression linéaire
simple (comment l'espérance de y est
liée à x)
E(y) ^ = 0 + 1x
y  b0  b1 x
 Équation estimée de la régression

linéaire simple
y^ : = Variable dépendante (modèle empirique)
ou expliquée
= valeur estimée de y pour une valeur x
0 et 1 = Coefficients théoriques de régression (à estimer à l’aide d’un échantillon par b0 et b1 )


= Erreur théorique
x = Variable aléatoire (d’autres
indépendante facteurs influencent Y)
ou explicative

Pr. BOULAHOUAL Adil


 L'équation estimée de la régression
linéaire simple (droite de la régression
estimée, modèle empirique) peut être
utilisée pour une estimation ponctuelle
de la valeur moyenne de y pour une
valeur particulière de x ou pour prévoir
la valeur ponctuelle
y^  b0 de
b1 xy associée à une
valeur particulière de x
y = Variable dépendante
^
y = valeur de prévision de y pour une valeur x;
x = Variable indépendante ou explicative
14
Pr. BOULAHOUAL Adil
Les différentes étapes d’une étude de régression

1- Spécification du
modèle

2- Validation du modèle

3- Estimation des
paramètres

4- Test des hypothèses

5- Application du modèle

15
Pr. BOULAHOUAL Adil
1- Spécification du modèle

Diagramme de dispersion

10
9
8
7
6
5
4
3
2
1
0
0 2 4 6 8 10

Heures d'études

Extrapolation Estimation Extrapolation

16
Pr. BOULAHOUAL Adil
Il existe plusieurs méthodes permettant
 0 modèle
y  le
d’estimer  1 x   théorique
par le modèle empirique
ŷ  b0  b1 x

 Méthode des moindres carrés


 Méthode de la vraisemblance
…

17
Pr. BOULAHOUAL Adil
La méthode des moindres carrés

Idée de base : Cette méthode essaie de


construire une droite de régression
empirique qui minimise la somme des
carrés des distances verticales entre
cette droite et chacun des points
observés. min  (yi  yˆ i ) 2

18
Pr. BOULAHOUAL Adil
Heures d’études 5 8 6 9 10 8 5 4 10 4 10 7 9
Bonnes réponses 5 8 7 9 10 7 4 4 8 2 9 6 8

Illustration graphique
Diagramme de dispersion

10
9
8
7 ( xi , yˆ i )
6
5 ( xi , yi )
4
3
2
1
0
0 2 4 6 8 10

Heures d'études

min  (yi  yˆ i ) 2
19
Pr. BOULAHOUAL Adil
Définition : nous appelons résidu ou
erreur empirique ou écart de ^ prévision, la
valeur ei = yi – yi , soit la différence
^
(l’écart vertical) entre la valeur observée
yi et la valeur estimée yi obtenue à
partir de la droite de régression, lorsque
x = L’objectif
xi . de la méthode des moindres carrés est de n
déterminer la droite de régression qui minimise  i
2
e
i 1

20
Pr. BOULAHOUAL Adil
La méthode des moindres carrés …

n
SCres  e 2
1  e 2
2  e 2
3  ...  e  e
2 2
n
i 1
i Cette mesure donne
l’ordre de grandeur
n
de la dispersion des
SCres    yi  ˆyi 
2
observations Yi
i 1
autour de la droite
n
de régression
SCres    yi  b0  b1 xi 
2

i 1
Il s’agit de trouver bo et b1 de sorte
que la somme des carrés des résidus SCres
soit la plus petite possible (minimale).

21
Pr. BOULAHOUAL Adil
3- Estimation des paramètres

Principes de la méthode des moindres carrés …


Comment calculer les coefficients b0 et b1?
Les estimateurs ponctuelles des paramètres de la droite de
régression obtenues par la méthode des moindres carrés sont :
b0  y  b1 x
n

Autre formule pour b1
x i y i  n x y
i 1
b1  n
 x i
2
 n x 2

i 1

b 0  y  b1 x
n
b1 
 ( x  x )( y  y )
i i

( x  x )
xi yi  n x y 2
i 1
b1  n
i
 x i2  n x 2
i 1 Taille de l’échantillon

22
Pr. BOULAHOUAL Adil
À partir des données ci-dessous,
déterminez les estimations ponctuelles
des paramètres de la droite de régression
selon la méthode des moindres carrés :

23
Pr. BOULAHOUAL Adil
n

x i y i  nxy
6670  5  30  40
b1  i 1
  0 , 67
n
5500  5  ( 30 ) 2

 i
x 2

i 1
 nx 2

yˆ  19, 9  0, 67 x
b0  y  b1 x  40  0, 67  30  19, 9
24
Pr. BOULAHOUAL Adil
EXEMPLE
Une entreprise veut mener une étude sur la
relation entre les dépenses hebdomadaires en
publicité et le volume de ventes qu’elle réalise.
Nous avons recueilli au cours des dix dernières
semaines les données suivantes :

À partir des données ci-dessus, déterminez les


estimations ponctuelles des paramètres de la
droite de régression selon la méthode des
moindres carrés.
25
Pr. BOULAHOUAL Adil
À partir de ces données, il est possible de tracer
le diagramme de dispersion :

26
Pr. BOULAHOUAL Adil
Les résultats intermédiaires suivants
servent à calculer les estimations
ponctuelles des paramètres de la droite de
régression :

27
Pr. BOULAHOUAL Adil
En appliquant les formules ci-dessous,
nous obtenons les valeurs numériques de
n b0 et b1
x y i i  nxy
1605  10  3, 3  46, 35
b1  i 1
  3, 95
n
128  10  (3, 3) 2

 i
x 2

i 1
 nx 2

b0  y  b1 x  46, 35  3, 95  3, 3  33, 31

yˆ  33, 31  3, 95 x
28
Pr. BOULAHOUAL Adil
La droite de régression qui permet de déterminer le volume moyen
des ventes pour un coût publicitaire donné x.

yˆ  33, 31  3, 95 x
Ordonnée à l’origine
(volume de vente Dépenses
moyen en
sans dépenser publicité
aucun dh en
publicité)
C’est
l’augmentation du
volume des ventes
(Y) pour une
augmentation Pr. BOULAHOUAL Adil 29
Interprétation des résultats et remarques…

Rq1 : Le point de cordonnées


( x, y) se
trouve sur la droite de régression.
Rq2 : Cette relation linéaire entre X et Y
est valide pour l’intervalle des valeurs de
X considérée dans l’énoncé, c’est-à-dire
de 1 à 5,5.
La droite de régression s’applique à
l’intérieur de l’étendue des valeurs
expérimentales qui ont été observées
pour la variable explicative (X). Nous
devrons donc éviter toute extrapolation
en dehors de ce domaine à moins d’être
Pr. BOULAHOUAL Adil 30
Rq3 : Pour la valeur x = 3,5 (située entre
1 et 5,5), nous pouvons utiliser la droite
de régression pour calculer la valeur
moyenne correspondante de Y

Exemple : Estimation du volume des


ventes moyen pour un coût de 3,5
millions de dollars en publicité

hebdomadaire.

= 33,31 + 3,95 (3,5) = 47,14 millions


de dollars 31
Pr. BOULAHOUAL Adil
2- Validation du modèle

Il existe trois mesures possibles pour


quantifier l’intensité de la relation entre
X et Y:
– Le coefficient de détermination de Y
en fonction de X
– Le coefficient de corrélation entre X
et Y
– La covariance entre X et Y

32
Pr. BOULAHOUAL Adil
Coefficient
Le coefficient de détermination de Y en
de détermination
fonction de X
Le coefficient de détermination
théoriqueYX
2
de Y en fonction de X, noté
mesure la proportion de la variation de Y
qui est expliquée par la régression ou qui
est expliquée par la variable X au niveau
0
de toute la population.2
YX 1
Le coefficient de détermination indique si le
modèle linéaire défini colle aux données .

33
Pr. BOULAHOUAL Adil
En pratique YX
2
est inconnu, car nous ne
possédons pas d’information sur toute la
population mais seulement sur 2
YX un rYX2 échantillon
de taille n, alors on estimera
n
par n
.
variation expliquée  ( yˆi  y )
2 2
b1  ( xi  x ) 2
r r 
2
YX
2
 i 1
n
 i 1
2
variation totale  
 ( yi  y )
n

  yi 
2
n
i 1
 i 1 

i 1
y 2
i 
n
rYX2 fournit une indication de la force de la liaison
possible pouvant exister entre Y et X au niveau
de la population. De plus, c’est un indice de la
2

qualité de l’ajustement
n
de la droite aux points
Rappel: expérimentaux.
n n   yi 
 i 1 
 i
( y
i 1
 y )2
  i
y 2

i 1

n 34
Pr. BOULAHOUAL Adil
 Dans quelle mesure l’équation estimée de la
régression s’ajuste-t-elle aux données?
◦ Le coefficient de détermination permet de mesurer
le degré d’adéquation
 Formule pour le coefficient de détermination
r2 = SCreg/SCT
où: SCT = SCreg + SCres

 i
( y  y )2
  i
( ˆ
y  y )2
  i i
( y  ˆ
y )2

SCT = Somme des carrés totale (variation


totale)
SCreg = Somme des carrés de la régression 35
Pr. BOULAHOUAL Adil
n n n

( ˆyi  y )
2
SCreg SCT  SCres  i
( y  y )   i
( y 2
ˆ
y )2

r 
2 i 1
n
   i 1
n
i 1

SCT SCT
( yi  y )
i 1
2
 i
( y
i 1
 y )2

n
 x i2  n x 2
2 i1
r  b 12 n 2 2
 y i  ny
i1

36
Pr. BOULAHOUAL Adil
2
Calculez
rYX pour l’exemple d’application des
coûts publicitaires et des ventes:
n

  yˆ  y
2
i
SCreg
r2
YX   i 1
n
SCT
 y  y
2
i
i 1

37
Pr. BOULAHOUAL Adil
variation expliquée 298, 008
r2
YX    0, 9692
variation totale 307, 525

Puisque rYX2
est proche de 1, on peut dire que la
droite de régression s’ajuste très bien au
nuage de points.

38
Pr. BOULAHOUAL Adil
Différence entre régression et corrélation ?

39
Pr. BOULAHOUAL Adil
ryx  (signe de b1 ) r 2

ryx  (signe de b1 ) coefficient de détermination

où: b1 est la pente de l’équation estimée


de régression estimée (empirique)

Le coefficient de corrélation théorique


(au niveau de la population)
yx  dénoté
est
ou simplement

40
Pr. BOULAHOUAL Adil
Le coefficient de corrélation peut être
déterminé de la manière suivante (ou
encore en prenant la racine carrée du
n
coefficient
( x de
x )( détermination):
 y y) i i n  x i yi    x i    yi 
rXY  i 1

n  x    xi  n  y    yi 
n n 2 2 2 2

( x
i 1
i  x ) . ( yi  y )
2

i 1
2
i i

• On a toujours:  1  rXY  1
• Si rXY  1 alors il existe une relation linéaire exacte entre X et Y
• Si rXY  alors
0 soit que X et Y sont indépendantes, soit qu’il y a une dépendance
non linéaire entre les deux variables
• Si rXY  0 ou rXY  alors
1 il existe une relation linéaire plus ou moins forte
entre X et Y
• Le coefficient de corrélation permet de voir s'il est
facile d'approcher les données par une droite.

41
Pr. BOULAHOUAL Adil
Toujours en utilisant l’exemple numérique
de la publicité et les ventes d'autos,
mesurez le degré de dépendance linéaire
entre X et Y.
Réponse
Les dépenses en publicité et les ventes varient dans le même sens
n 10

( x i  x )( yi  y ) ( x i  3, 3)( y i  46, 35)


75, 45
rXY  i 1
 i 1
  0, 9845
n n 10 10
19,10 * 307, 53
( x
i 1
i  x ) . ( yi  y )
2

i 1
2
( x
i 1
i  3, 3) . ( y i  46, 35) 2
2

i 1

Il existe une relation linéaire très forte entre


les dépenses en publicité et les ventes

42
Pr. BOULAHOUAL Adil
Pr. BOULAHOUAL Adil
4- Test d’hypothèse ou Validation de
la droite de régression Empirique

Test d’hypothèse sur β1


Pour vérifier si l’influence de la
variable indépendante X est
significative, nous procédons à un test
d’hypothèses sur β1
Y   0  1 X  
Si β1 = 0 alors peu importe les
valeurs de X, elles n’auront
pas d’impact sur Y

44
Pr. BOULAHOUAL Adil
Étapes contribuant à la validation de la droite de régression
empirique

 2 théoriques
 Estimer la variance des erreurs

 Estimer
0 1 et par intervalle de
confiance
1
 Test d’hypothèses sur

45
Pr. BOULAHOUAL Adil
Validation de la droite de régression empirique…

Estimation de la variance des erreurs théoriques  2


La précision des estimateurs b0 et b1 dépend de la valeur de la
variance des erreurs théoriques : plus   sera petite, plus ces
2

estimateurs sont précis.

Puisque, en pratique, la variance  


2
est inconnue, on l’estime
par le terme suivant :
n n

e 2
i  ( yi  yi )
ˆ 2

se2  s 2  i 1
 i 1
n2 n2

46
Pr. BOULAHOUAL Adil
Estimation de  b20 et  b21

En pratique, les variances  b20 et  b21 sont inconnues, alors nous


les estimons par :
 
 1 x 2 
sb0  s   n
2 2

n 2  
 
i 1
( xi  x )
  s 2 
sb1   n
2

 ( x  x )2 
 
i 1
i

47
Pr. BOULAHOUAL Adil
Yˆ  33, 31  3, 95 X
Exemple d’application …
Compléter le tableau suivant : 33,31 + 3,95 x 2 = 41,21

0.49 49.11 0.39 0.1521 7.6176


1.69 41.21 - 0.21 0.0441 26.4196

s 2
 1 ,1 8 4 7
s b20  0 , 7 9 3 9
s b21  0 , 0 6 2
48
Pr. BOULAHOUAL Adil
Estimation de b1 par intervalle de confiance

L’intervalle de confiance pour estimer b1,


la pente du modèle de régression
théorique, au niveau de confiance (1 - α)
est donné
 par: 
b1  t / 2 sb1  Si n-2 < 30 t / 2  t ( n  2 ) d .l

 b1  z / 2 sb1  Si n-2 ≥ 30 z / 2  N (0,1)

Si la valeur 0 appartient à l’intervalle de


confiance, nous devons
 accepter
1

l’hypothèse nulle: =0 au niveau de


signification choisit et nous concluons qu’il
n’existe pas de relation linéaire significative 49
Pr. BOULAHOUAL Adil
D’après les données de l’exemple numérique de
la publicité et le volume de ventes d'autos,
1 intervalle de confiance pour
construisez un
au niveau 95% :
Puisque n-2 = 10 -2 = 8 < 30, alors
Table de Student
b1  t / 2 sb1 
3, 95  t0 ,025 0, 062 
 
3, 95  2, 306 0, 062 
   3, 3758 à 4, 5242

50
Pr. BOULAHOUAL Adil
Le test d’hypothèses va nous permettre
de vérifier si l’intervalle de confiance de
β1 ne contient pas la valeur zéro.
 Deux tests sont couramment utilisés

◦ Test t ou z
◦ Test F ( Fischer)

N.B: les deux tests nécessitent une


estimation de se2, la variance des erreurs du
modèle de régression
51
Pr. BOULAHOUAL Adil
Les étapes d’un test z ou t d’hypothèses sur 1
H0 : =0
1. Énoncer les hypothèses H0 et Ha. 
H1 : 1 ≠ 0
2. Préciser les conditions du test 1
La normalité de la distribution des erreurs
Le niveau de signification α
variance résiduelle  
2
La est théoriquement inconnue
La loi que suit notre variable :
Si n – 2 ≥ 30, nous utilisons (Normale)
Si n – 2 < 30, nous utilisons t (Student)
b   1 b1
3. Calculer la statistique de test. z  1  Si n-2 ≥ 30
sb1 sb1
b   1 b1
t 1  Si n-2 < 30
sb1 sb1

Nous4. rejetons H0 t critique


Trouver la région sit / 2,( n au2) dlniveau det signification
t / 2,( nou
 2 ) dl
a

Nous rejetons H0 si
z  z / 2 z   zou
 /2

52
Pr. BOULAHOUAL Adil
D’après les données de l’exemple
d’application sur la publicité et le volume de
ventes d'autos, vérifiez au niveau de
signification a = 0,05 si la variance de X
explique la variance Y, à partir de la droite
de régression
Étape 1 linéaire obtenueÉtape 2
H0 : 1 = 0 n – 2 = 8 < 30, population normale,  inconnue
2

H1 : 1 ≠ 0

Étape 3 Étape 4

b1   1 b1 3,95  0 t 0, 025,8  2,306


t    15,86
sb1 sb1 0,062

Puisque : t  t 0,025,8 dl 15,86  2,306


Nous rejetons l’hypothèse nulle.
Cela implique que la variance de X explique la variance de Y au niveau a = 0,05
53
Pr. BOULAHOUAL Adil
Hypothèses du modèle

54
Pr. BOULAHOUAL Adil
TP n° I

Applications sous SPSS


POINT DE VENTE

55
Pr. BOULAHOUAL Adil
Déclaration des
Description de la valeurs possibles
variable des données
manquantes

Représente le nombre de
caractères maximum de la
donnée
le NOM de la
variable maximum
8 caractères). Décrit le format de la
variable
Numérique : Donnée numérique
Chaîne : Donnée alpha-numérique
56
Pr. BOULAHOUAL Adil

Vous aimerez peut-être aussi