Vous êtes sur la page 1sur 26

ANALYSE DE LA REGRESSION

Royaume du Maroc
C HAPITRE
Haut Commissariat 2. MODÈLE LINÉAIRE CLASSIQUE
au Plan
Institut National de Statistique
A THÉORIQUE/PRATIQUE
SPECTS
et d’Economie Appliquée

COMPLÉMENT
MUSTAPHA BERROUYNE
INGÉNIEUR EN CHEF PRINCIPAL
ENSEIGNANT À L’INSEA

ANNEE UNIVERSITAIRE 2023-2024


1. PRESENTATION DU MRLM

 a0 
 y1  1 x1,1  x1, p    1 

   =      1+    a
       
 yn  1 x1,n  xn, p     n 
a p 
y = Xa + 

Mustapha BERROUYNE 2 CHAPITRE 2. MODELE LINEAIRE STANDARD


2. ESTIMATION DES COEFFICIENTS
𝛛𝐒
La condition du premier ordre s’écrit : =𝟎
𝛛𝐚
𝛛𝐒
= 𝟎 ➔ − 𝟐 𝐗′ 𝐘 + 𝟐 𝐗′ 𝐗 𝐚 = 𝟎
𝛛𝐚
′ ′
➔ 𝐗 𝐗 𝐚 = 𝐗 𝐘 (𝟐)

➔ 𝐗′ 𝐘 − 𝐗 𝐚 = 𝟎 ➔ 𝐗 ′ 𝐮 = 𝟎 (3)
➔ Les résidus sont orthogonaux à X.
𝛛²𝐒
Les conditions du deuxième ordre s’écrivent : >𝟎
𝛛²𝐚
𝛛²𝐒
En effet, = 𝟐 𝐗′ 𝐗 > 𝟎
𝛛²𝐚
Mustapha BERROUYNE 3 CHAPITRE 2. MODELE LINEAIRE STANDARD
2. ESTIMATION DES COEFFICIENTS
    yt 
 1 1  1    y1 
   y    x1t yt 
𝐗′ 𝐘 =       2  =   
 
x  
 1, p x2 , p  xn , p     x y 
 un    pt t 
 n
  x1t   x pt   a0 
  
 a1 
  yt 

  x1t yt 

      
   =  

 x   x 2pt 
 
  pt x  ap   
pt 1tx     x pt yt 
 
Comme 𝐗 ′ 𝐗 la matrice carrée d’ordre (p+1) des produits croisés des
variables explicatives est symétrique semi-définie positive et s’il n y a pas
de colinéarité parfaite entre variables explicatives, alors elle est inversible
et on a :
Soit, 𝐚 = 𝐗 𝐗 ′ −𝟏 ′
𝐗𝐘
Mustapha BERROUYNE 4 CHAPITRE 2. MODELE LINEAIRE STANDARD
2. ESTIMATION DES COEFFICIENTS
❖ ETUDE DE CAS : LOGICIEL STATA
regress Y_CONSOM X1_PRIX X2_CYLINDRE X3_PUISSANCE X4_POIDS
COEFFICIENT BRUT

Mustapha BERROUYNE 5 CHAPITRE 2. MODELE LINEAIRE STANDARD


3. INTRPRETATION DES COEFFICIENTS
❖ COEFFICIENTS STANDARDISES
Les équations de régression décrivent la relation entre la V.D et un groupe de V.I, et leurs
coefficients de régression non standardisés mesurent les effets des variables indépendantes sur la
variable dépendante.
Cependant, la taille du coefficient de régression dépend des unités de mesure des variables.
Dans ce cas, c’est difficile de savoir laquelle des variables est la plus importante.
On ne peut pas comparer directement les coefficients de régression des variables car ils dépendent
de l’échelle de mesure des variables prédictrices et de la variable à expliquer.
Il est clair qu’il nous faut une bonne mesure des effets des V.I qui tienne compte des différences
d’unités de mesure tout en contrôlant les effets des autres variables indépendantes.
Cette statistique existe et s’appelle les coefficients de régression standardisés, ou de façon plus
simple, les coefficients Bêta.
Mustapha BERROUYNE 6 CHAPITRE 2. MODELE LINEAIRE STANDARD
3. INTRPRETATION DES COEFFICIENTS
❖ COEFFICIENTS STANDARDISES

Quelle est la variable qui a le plus d'influence sur la consommation ?


Quelle est la variable qui a le
plus d'influence sur la consommation ?

reg Y_CONSOM X1_PRIX X2_CYLINDRE X3_PUISSANCE X4_POIDS, beta

Mustapha BERROUYNE 7 CHAPITRE 2. MODELE LINEAIRE STANDARD


3. INTRPRETATION DES COEFFICIENTS
❖ COEFFICIENTS STANDARDISES

Une technique simple permettant d'obtenir les coefficients standardisés (Bêtas) consiste à centrer
et réduire toutes les variables (exogènes et endogène) et à lancer la régression sur les données
transformées.
Cependant, la procédure est un peu lourde et devient contraignante lorsque le fichier de données
est volumineux.
Il est possible de corriger les coefficients de la régression sur les données originelles avec les
écarts-type des variables pour obtenir les coefficients standardisés.
Pour la variable Xj, dont le coefficient estimé est initialement 𝐚𝐣, nous obtenons le coefficient
𝐱𝐣
standardisé 𝐣 avec : 𝐣 = 𝐚𝐣 𝐱
𝐲

Mustapha BERROUYNE 8 CHAPITRE 2. MODELE LINEAIRE STANDARD


3. INTRPRETATION DES COEFFICIENTS
❖ COEFFICIENTS STANDARDISES

Mustapha BERROUYNE 9 CHAPITRE 2. MODELE LINEAIRE STANDARD


4. REGRESSION AVEC LES VARIABLES QUALITATIVES
La régression telle que nous l'étudions met en relation des variables exclusivement continues.
Si on veut introduire des variables qualitatives, la stratégie consiste à procéder au simple
codage des variables, le codage 0/1 codage disjonctif complet est la plus connue.
Il faut savoir interpréter les résultats.
Lorsque les exogènes sont qualitatives, on peut mettre un pied dans le vaste domaine de la
comparaison des populations.
La technique paramétrique privilégiée dans ce cadre est l'analyse de variance (ANOVA).
Nous allons reprendre l'étude de cas sur la consommation des véhicules selon le type de
carburant (Gasoil, essence).
On veut répondre à la question suivante : la consommation est-elle significativement différente
d'un carburant à l'autre ?
Le problème que nous décrivons est une comparaison de moyennes de k populations.
𝑯𝟎 : 𝝁𝟏 = 𝝁𝟐
Il s'agit d'un test statistique:
𝑯𝟏 : 𝝁𝟏 ≠ 𝝁𝟐
où 𝝁𝒌 est la moyenne de la variable d'intérêt Y pour la population k.
Mustapha BERROUYNE 10 CHAPITRE 2. MODELE LINEAIRE STANDARD
4. REGRESSION AVEC LES VARIABLES QUALITATIVES

Une manière simple de visualiser les différences est d'afficher les boîtes à moustaches de la
variable Y selon le groupe d'appartenance.
Plus les boxplot seront décalés, plus forte sera la différenciation.
Essence Gasoil
25

Ferrari 456 GT
20
consom
15
10
5

Graphs by carb
Mustapha BERROUYNE 11 CHAPITRE 2. MODELE LINEAIRE STANDARD
nombre total d'enfants de deux groupes de femmes : celles
4. REGRESSION
qui ont répondu « Oui AVEC
» etLES VARIABLES
celles QUALITATIVES
qui ont répondu « Non » à la
question
✓ LE TESTsur
t la
DEfréquentation
DIFFERENCES DEdeMOYENNES
l'école.
Si différence il y a, le test t de Student servira à vérifier si
elle est significative. On s’attachera également à vérifier si
les conditions de normalité des distributions et d’égalité des
variances (homoscédasticité) sont respectées.

Mustapha BERROUYNE 12 CHAPITRE 2. MODELE LINEAIRE STANDARD


4. REGRESSION AVEC LES VARIABLES QUALITATIVES
❖ REGRESSION AVEC LA VARIABLE CARBURANT
✓ ANALOGIE AVEC LA REGRESSION  CODAGE DISJONCTIF COMPLET

A chaque modalité k de X , on associe une variable indicatrice (Dummy variable en anglais) tel e que :

Sur l'exemple de la consommation des véhicules :

Mustapha BERROUYNE 13 CHAPITRE 2. MODELE LINEAIRE STANDARD


4. REGRESSION AVEC LES VARIABLES QUALITATIVES
❖ REGRESSION AVEC LA VARIABLE CARBURANT
✓ ANALOGIE AVEC LA REGRESSION
 CODAGE DISJONCTIF COMPLET

Nous disposons d'un nouveau tableau de données,


et nous écrivons naturellement la régression comme suit :
𝒀𝑪𝑶𝑵𝑺𝑶𝑴 =𝒂𝟎 + 𝒂𝟏 𝐱 𝐙𝐄𝐒𝐒𝐄𝐍𝐂𝐄 + 𝒂𝟐 𝐱 𝐙𝐆𝐀𝐒𝐎𝐈𝐋 +𝛆
Pourtant, effectuer cette régression provoquerait immédiatement
une erreur en raison d'un problème flagrant de colinéarité.
La matrice (Z′Z) n'est pas inversible.
Mustapha BERROUYNE 14 CHAPITRE 2. MODELE LINEAIRE STANDARD
4. REGRESSION AVEC LES VARIABLES QUALITATIVES
❖ REGRESSION AVEC LA VARIABLE CARBURANT
✓ ANALOGIE AVEC LA REGRESSION  CODAGE DISJONCTIF COMPLET

Mustapha BERROUYNE 15 CHAPITRE 2. MODELE LINEAIRE STANDARD


4. REGRESSION AVEC LES VARIABLES QUALITATIVES
❖ REGRESSION AVEC LA VARIABLE
CARBURANT
✓ ANALOGIE AVEC LA REGRESSION
 CODAGE DISJONCTIF COMPLET

Mustapha BERROUYNE 16 CHAPITRE 2. MODELE LINEAIRE STANDARD


4. REGRESSION AVEC LES VARIABLES QUALITATIVES
❖ REGRESSION AVEC LA VARIABLE CARBURANT
✓ ANALOGIE AVEC LA REGRESSION
 CODAGE DISJONCTIF COMPLET

On part du constat que la dernière modalité K peut être déduite des autres dans le codage
disjonctif complet :
On omet tout simplement la variable ZK dans la régression.
L'équation de régression estimée à l'aide des MCO pour les données en omettant la variable
ZGASOIL devient : 𝒀𝑪𝑶𝑵𝑺𝑶𝑴 = 𝒂𝟎 + 𝒂𝟏 𝐱 𝐙𝐄𝐒𝐒𝐄𝐍𝐂𝐄
Reste à interpréter les coefficients de la régression.
Le choix de la modalité de référence K est très important.
Il faut qu'elle soit bien choisie pour que les interprétations aient une certaine consistance.
Mustapha BERROUYNE 17 CHAPITRE 2. MODELE LINEAIRE STANDARD
4. REGRESSION AVEC LES VARIABLES QUALITATIVES
❖ REGRESSION AVEC LA VARIABLE CARBURANT
✓ ANALOGIE AVEC LA REGRESSION
 LECTURE DE RESULTATS
L'équation de régression estimée à l'aide des MCO pour les données en omettant la variable
ZGASOIL devient : 𝒀𝑪𝑶𝑵𝑺𝑶𝑴 = 𝒂𝟎 + 𝒂𝟏 𝐱 𝐙𝐄𝐒𝐒𝐄𝐍𝐂𝐄
Si le carburant est le Gasoil, nous savons que Zi ESSENCE = 0. Par conséquent 𝒀𝒊,𝑪𝑶𝑵𝑺𝑶𝑴 = 𝒂𝟎
Si le carburant est l'Essence, nous savons que Zi,ESSENCE = 1, l'autre indicatrice vaut 0.
Nous en déduisons 𝒀𝒊,𝑪𝑶𝑵𝑺𝑶𝑴 = 𝒂𝟎 + 𝒂𝟏

En généralisant, nous observons :


𝒂𝟎 = 𝒚𝑮𝒂𝒔𝒐𝒊𝒍
𝒂𝟏 = 𝒚𝑬𝒔𝒔𝒆𝒏𝒄𝒆 −𝒚𝑮𝒂𝒔𝒐𝒊𝒍
Mustapha BERROUYNE 18 CHAPITRE 2. MODELE LINEAIRE STANDARD
4. REGRESSION AVEC LES VARIABLES QUALITATIVES
❖ REGRESSION AVEC LA VARIABLE CARBURANT
✓ ANALOGIE AVEC LA REGRESSION
 LECTURE DE RESULTATS
L'équation de régression estimée à l'aide des MCO pour les données en omettant la variable
ZGASOIL devient : 𝒀𝑪𝑶𝑵𝑺𝑶𝑴 = 𝒂𝟎 + 𝒂𝟏 𝐱 𝐙𝐄𝐒𝐒𝐄𝐍𝐂𝐄
Si le carburant est le Gasoil, nous savons que Zi ESSENCE = 0. Par conséquent 𝒀𝒊,𝑪𝑶𝑵𝑺𝑶𝑴 = 𝒂𝟎
Si le carburant est l'Essence, nous savons que Zi,ESSENCE = 1, l'autre indicatrice vaut 0.
Nous en déduisons 𝒀𝒊,𝑪𝑶𝑵𝑺𝑶𝑴 = 𝒂𝟎 + 𝒂𝟏

En généralisant, nous observons :


𝒂𝟎 = 𝒚𝑮𝒂𝒔𝒐𝒊𝒍
𝒂𝟏 = 𝒚𝑬𝒔𝒔𝒆𝒏𝒄𝒆 −𝒚𝑮𝒂𝒔𝒐𝒊𝒍
Mustapha BERROUYNE 19 CHAPITRE 2. MODELE LINEAIRE STANDARD
4. REGRESSION AVEC LES VARIABLES QUALITATIVES
❖ REGRESSION AVEC LA VARIABLE CARBURANT
✓ ANALOGIE AVEC LA REGRESSION  LECTURE DE RESULTATS

Mustapha BERROUYNE 20 CHAPITRE 2. MODELE LINEAIRE STANDARD


4. REGRESSION AVEC LES VARIABLES QUALITATIVES
❖ REGRESSION AVEC LA VARIABLE CARBURANT
✓ ANALOGIE AVEC LA REGRESSION
 LECTURE DE RESULTATS
1. Les coefficients de la régression s'interprètent comme une moyenne conditionnelle de
l'endogène (la constante) ou comme des écarts à cette moyenne (les autres coefficients).
2. On parle de cornered effect car la constante représente la moyenne conditionnelle de
l'endogène pour les observations portant la modalité exclue. Elle nous sert de moyenne de
référence.
3. Le test de significativité globale de la régression correspond exactement à une ANOVA à 1
facteur c.-à-d. tester l'égalité globale des moyennes conditionnelles.
4. Pour le cas particulier de (K = 2) groupes, nous avons une régression simple avec seul
indicatrice. Le test de significativité globale est équivalent au test de significativité de la pente,
il correspond à un test de comparaison de moyennes de 2 sous-populations.
Mustapha BERROUYNE 21 CHAPITRE 2. MODELE LINEAIRE STANDARD
4. REGRESSION AVEC LES VARIABLES QUALITATIVES
❖ REGRESSION AVEC LA VARIABLE CARBURANT
✓ ANALOGIE AVEC LA REGRESSION
 LECTURE DE RESULTATS

Nous pouvons donc dire que les véhicules à essence consomment significativement plus que les
diesels. L'écart est estimé à 𝒂𝟏 = 𝟓. 𝟕𝟎𝟓𝟕𝟏𝟒 litres au 100 km.
Pour obtenir les consommations moyennes conditionnelles, nous formons :
y𝑮𝒂𝒔𝒐𝒊𝒍 = 𝒂𝟎 = 𝟖, 𝟏𝟏𝟒𝟐𝟖𝟔
y𝑬𝒔𝒔𝒆𝒏𝒄𝒆 = 𝒂𝟎 + 𝒂𝟏 = 𝟖, 𝟏𝟏𝟒𝟐𝟖𝟔 + 𝟓, 𝟕𝟎𝟓𝟕𝟏𝟒 = 𝟏𝟑, 𝟖𝟐

Mustapha BERROUYNE 22 CHAPITRE 2. MODELE LINEAIRE STANDARD


4. REGRESSION AVEC LES VARIABLES QUALITATIVES
❖ REGRESSION AVEC LA VARIABLE CARBURANT
✓ ANALOGIE AVEC LA REGRESSION
 LECTURE DE RESULTATS

Mustapha BERROUYNE 23 CHAPITRE 2. MODELE LINEAIRE STANDARD


4. REGRESSION AVEC LES VARIABLES QUALITATIVES
❖ REGRESSION AVEC CARBURANT ET CYLINDREE
Nous souhaitons approfondir l'analyse en introduisant la variable CYLINDRE.
Le modèle s'écrit maintenant : 𝒀𝑪𝑶𝑵𝑺𝑶𝑴 = 𝒂𝟎 + 𝒂𝟏 𝐱 𝐂𝐘𝐋𝐈𝐍𝐃𝐑𝐄 + 𝒂𝟐 𝐱 𝐂𝐀𝐑𝐁𝐔𝐑𝐀𝐍𝐓 + 𝛆

Mustapha BERROUYNE 24 CHAPITRE 2. MODELE LINEAIRE STANDARD


4. REGRESSION AVEC LES VARIABLES QUALITATIVES
❖ REGRESSION AVEC CARBURANT ET CYLINDREE

La régression est de meilleure qualité avec un R2 = 0,9202, elle est globalement


significative bien évidemment (F = 161,54, p-value = 0,0000).
Les deux variables CYLINDRÉE et CARBURANT sont largement significatives à 5%.
La constante 𝒂𝟎 = 4,316 n'est pas intéressante. Elle correspondrait à la
consommation moyenne des véhicules de cylindrée nulle fonctionnant au gasoil.
Mustapha BERROUYNE 25 CHAPITRE 2. MODELE LINEAIRE STANDARD
4. REGRESSION AVEC LES VARIABLES QUALITATIVES
❖ REGRESSION AVEC CARBURANT ET CYLINDREE

La régression est de meilleure qualité avec un R2 = 0,9202, elle est globalement


significative bien évidemment (F = 161,54, p-value = 0,0000).
Les deux variables CYLINDRÉE et CARBURANT sont largement significatives à 5%.
La constante 𝒂𝟎 = 4,316 n'est pas intéressante. Elle correspondrait à la
consommation moyenne des véhicules de cylindrée nulle fonctionnant au gasoil.
En revanche, le coefficient de CARBURANT, 𝒂𝟐 = 𝟏, 𝟖𝟖, revêt une signification très
intéressante. A cylindrée égale, les essences consomment 1,88 litres au 100km de
plus que les gasoils. L'idée est que cet écart reste constant quelle que soit la
cylindrée des véhicules.
De même le coefficient de CYLINDRÉE 𝒂𝟏 = 𝟎, 𝟎𝟎𝟐𝟒 propose une lecture très
instructive : à type de carburant égal, l'augmentation de la cylindrée d'1 cm3
entraîne une augmentation de la consommation de 𝟎, 𝟎𝟎𝟐𝟒 litres au 100 km.
Mustapha BERROUYNE 26 CHAPITRE 2. MODELE LINEAIRE STANDARD

Vous aimerez peut-être aussi