Vous êtes sur la page 1sur 54

Table des matières

1 Généralités sur l’économétrie 1


1.1 Présentation de l’économétrie . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Dé…nitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.2 La démarche économétrique . . . . . . . . . . . . . . . . . . . . . 2
1.1.3 Le rôle de l’économétrie . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Le modèle économétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Dé…nition d’un modèle
3
1.2.2 La construction du modèle . . . . . . . . . . . . . . . . . . . . . . 3
1.2.3 Les principaux modèles en économétrie . . . . . . . . . . . . . . . 6
1.3 L’analyse de la corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 La corrélation paramétrique . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 La corrélation non paramétrique et les coe¢ cients de rang . . . . 8

2 La Régression Linéaire Simple 11


2.1 La droite des moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1 Le nuage statistique . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2 Caractérisations de la droite des MCO . . . . . . . . . . . . . . . 12
2.1.3 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Corrélation et Régression . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.1 Comparaison entre Régression et Corrélation . . . . . . . . . . . . 15
2.2.2 Corrélation et analyse de la variance . . . . . . . . . . . . . . . . 16
2.3 Propriétés statistiques de la droite . . . . . . . . . . . . . . . . . . . . . . 17
2.3.1 Hypothèses sur le modèle théorique . . . . . . . . . . . . . . . . . 17
2.3.2 Propriétés des estimateurs des MCO des paramètres . . . . . . . . 18
2.3.3 Lois des estimateurs des MCO pour un modèle linéaire gaussien . 19
2.4 Prévisions statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4.1 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4.2 Intervalle de con…ance d’une valeur prévue . . . . . . . . . . . . . 20
2.4.3 Intervalle de con…ance des paramètres . . . . . . . . . . . . . . . . 21
2.4.4 Intervalle de con…ance de prédiction . . . . . . . . . . . . . . . . . 22
2.5 Tests sur le modèle de régression simple . . . . . . . . . . . . . . . . . . . 23
2.5.1 Tests d’indépendance des variables . . . . . . . . . . . . . . . . . 23
2.5.2 Test dans le modèle linéaire Gaussien . . . . . . . . . . . . . . . . 29
2.5.3 Test de nullité à l’origine . . . . . . . . . . . . . . . . . . . . . . . 29
2.5.4 Test de comparaison de deux échantillons . . . . . . . . . . . . . . 30
2.6 Généralisation aux modèles non linéaires . . . . . . . . . . . . . . . . . . 30
2.6.1 Régression orthogonale . . . . . . . . . . . . . . . . . . . . . . . . 31

1
TABLE DES MATIÈRES 2

2.6.2 Régression curvilineaire . . . . . . . . . . . . . . . . . . . . . . . . 31

3 Le modèle de régression multiple 33


3.1 La formulation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.1 Le modèle théoriqueet exemples . . . . . . . . . . . . . . . . . . . 33
3.1.2 La formulation matricielle du modèle . . . . . . . . . . . . . . . . 34
3.1.3 Etapes du processus de modélisation linéaire . . . . . . . . . . . . 35
3.1.4 Hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Estimateurs des moindres carrés ordinaires . . . . . . . . . . . . . . . . . 37
3.2.1 Minimisation de la somme des carrés des erreurs . . . . . . . . . . 37
3.2.2 Propriétés statistiques des estimateurs . . . . . . . . . . . . . . . 40
3.2.3 Cas de normalité des erreurs . . . . . . . . . . . . . . . . . . . . . 42
3.3 Qualité de l’ajustement Analyse de la variance . . . . . . . . . . . . . . . 43
3.3.1 Tableau de l’analyse de la variance . . . . . . . . . . . . . . . . . 44
3.3.2 Le coe¢ cient de détermination1 . . . . . . . . . . . . . . . . . . . 45
3.4 Prévisions statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4 Tests d’hypothèses économétriques du modèle linéaire 48

5 Violation des hypothèses 49


5.1 Section3 : les conséquences de la violation des hypothèses d’homoscédas-

ticité et d’indépendance sérielle. . . . . . . . . . . . . . . . . . . . . . . . 49

1
Master MAIME 2014-2015 Cours d’Econométrie Pr D. Barro UFR-SEG, U.O2
1
U.A.M FAST Master 2 de Maths 2015 Statistique des Modèles Linéaires Pr D. BARRO
Chapitre 1

Généralités sur l’économétrie

1.1 Présentation de l’économétrie


1.1.1 Dé…nitions
Il n’existe pas une dé…ntion unique de l’économétrie. Voici quelques tentatives de
dé…nition de l’Econométrie.

Dé…nitions et caaractérisations
L’économétrie peut se dé…nir comme un ensemble d’études des relations quantitatives
de la vie économique faisant appel à l’analyse statistique et à la formulation mathématique.
L’économétrie sert à désigner la totalité des techniques statistiques conçues pour
mesurer des grandeurs économiques ainsi qu’à pratiquer de la recherche en économie
L’économétrie est une branche de l’économie qui traite de l’estimation pratique des
relations économiques.

De toutes ces tentatives de dé…nitions, il ressort que l’économétrie est de la statistique


appliquée à des situations pouvant être décrites par la science économique. L’économétrie
est un principal outil d’analyse quantitative utilisé par les économistes et gestionnaires
dans divers domaines d’application, comme la macroéconomie, la …nance ou le marketing.
Les méthodes de l’économétrie permettent de véri…er l’existence de certaines relations
entre des phénomènes économiques, et de mesurer concrètement ces relations, sur la base
d’observations de faits réels.
L’économétrie se base sur l’observation et la véri…cation chi¤rée (variable quantita-
tive ou qualitative) pour expliquer la relation entre les grandeurs économiques : véri…er
l’existence de liaisons entre les agrégats, mais aussi et surtout, détecter et préciser la
forme correcte de ces liaisons

1
1. Généralités sur l’économétrie 2

1.1.2 La démarche économétrique


La démarche économétrique consiste à représenter à l’aide d’équations le comporte-
ment d’un phénomène observé et à estimer les coe¢ cients des équations en recourant
à l’historique du phénomène et ceci dans le but de le comprendre, de l’exprimer, de le
représenter, de le reproduire et à le prévoir.
Les étapes de la démarche économétrique :
proposer un certain nombre de modèles rapprochés de la réalité par des théoriciens ;
les soumettre à des économètres pour les mathématiser ;
le rejet ou le maintien des dits modèles (pour des …ns de prévisions) dépend d’une
panoplie de tests statistiques et économétriques.

1.1.3 Le rôle de l’économétrie


a) L’économétrie comme outil de validation de la théorie
L’économétrie est un outil à la disposition de l’économiste qui lui permet d’in…rmer ou
de con…rmer les théories qu’il construit. Le théoricien postule des relations ; l’application
de méthodes économétriques fournit des estimations sur la valeur des coe¢ cients ainsi
que la précision attendue. Une question se pose alors : pourquoi estimer ces relations, et
les tester statistiquement ? Plusieurs raisons incitent à cette démarche :
- tout d’abord cela force l’individu à établir clairement et à estimer les interrelations
sous-jacentes.
- Ensuite, la con…ance aveugle dans l’intuition peut mener à l’ignorance de liaisons
importantes ou à leur mauvaise utilisation. De plus, des relations marginales mais
néanmoins explicatives, qui ne sont qu’un élément d’un modèle global, doivent être
testées et validées a…n de les mettre à leur véritable place.
- En…n, il est nécessaire de fournir, en même temps que l’estimation des relations,
une mesure de la con…ance que l’économiste peut avoir en celles-ci, c’est-à-dire la
précision que l’on peut en attendre. Là encore, l’utilisation de méthodes purement
qualitatives exclut toute mesure quantitative de la …abilité d’une relation.
b) L’économétrie comme outil d’investigation
L’économétrie n’est pas seulement un système de validation, mais également un outil
d’analyse. Nous pouvons citer quelques domaines où l’économétrie apporte une aide à la
modélisation, à la ré‡exion théorique ou à l’action économique par :
–la mise en évidence de relations entre des variables économiques qui n’étaient pas
a priori évidentes ou pressenties ;
–l’induction statistique ou l’inférence statistique consiste à inférer, à partir des ca-
ractéristiques d’un échantillon, les caractéristiques d’une population. Elle permet de dé-
terminer des intervalles de con…ance pour des paramètres du modèle ou de tester si un
1. Généralités sur l’économétrie 3

paramètre est signi…cativement inférieur, supérieur ou simplement di¤érent d’une valeur


…xée ;
–la simulation qui mesure l’impact de la modi…cation de la valeur d’une variable sur
une autre ;
– la prévision, par l’utilisation de modèles économétriques, qui est utilisée par les
pouvoirs publics ou l’entreprise a…n d’anticiper et éventuellement de réagir à l’environ-
nement économique.

1.2 Le modèle économétrique


1.2.1 Dé…nition d’un modèle

Il est délicat de fournir une dé…nition unique de la notion de modèle. La modélisation


est la conception d’un modèle. Un modèle est une représentation simpli…ée, schématique
d’un système complexe qui permet de dégager
- la structure et les concepts qui le caractérisent ;
- les relations fonctionnelles qu’entretiennent ces concepts
Dans le cadre de l’économétrie, nous pouvons considérer qu’un modèle consiste en
une présentation formalisée d’un phénomène sous forme d’équations dont les variables
sont des grandeurs économiques. L’objectif du modèle est de représenter les traits les
plus marquants d’une réalité qu’il cherche à styliser. Le modèle est donc l’outil que le
modélisateur utilise lorsqu’il cherche à comprendre et à expliquer des phénomènes. Pour
ce faire, il émet des hypothèses et explicite des relations. Dans l’analyse économétrique
les modèles statistiques utilisés sont constitués à partir d’une adaptation d’un modèle
économique théorique ou peuvent avoir une interprétation qui relève du raisonne-
ment économique
les données utilisées pour l’inférence statistique proviennent de l’observation du fonc-
tionnement de l’économie
les variables pour lesquelles les modèles statistiques de l’économétrie (modèles écono-
métriques ) sont construits sont également des variables que l’on retrouve dans les
modèles économiques.

1.2.2 La construction du modèle


Dans les sciences sociales, et particulièrement en économie, les phénomènes étudiés
concernent le plus souvent des comportements a…n de mieux comprendre la nature et
le fonctionnement des systèmes économiques. L’objectif du modélisateur est, dans le
1. Généralités sur l’économétrie 4

cadre de l’économétrie et au travers d’une mesure statistique, de permettre aux agents


économiques (ménages, entreprises, État...) d’intervenir de manière plus e¢ cace.
La construction d’un modèle comporte un certain nombre d’étapes qui sont toutes
importantes. En e¤et, en cas de faiblesse d’un des « maillons » , le modèle peut se
trouver invalidé pour cause d’hypothèses manquantes, de données non représentatives
ou observées avec des erreurs, etc. Examinons les di¤érentes étapes à suivre lors de la
construction d’un modèle, ceci à partir de l’exemple du modèle keynésien simpli…é.
1) Référence à une théorie
Une théorie s’exprime au travers d’hypothèses auxquelles le modèle fait référence.
Dans la théorie keynésienne, quatre propositions sont fondamentales :
1. la consommation et le revenu sont liés ;
2. le niveau d’investissement privé et le taux d’intérêt sont également liés ;
3. il existe un investissement autonome public ;
4. en…n, le produit national est égal à la consommation plus l’investissement privé et
public.
2) Formalisation des relations et choix de la forme des fonctions
À partir des propositions précédentes, nous pouvons construire des relations :
1. la consommation est fonction du revenu : C = f (Y) où f est une fonction positive
avec f > 0 ;
2. l’investissement privé dépend du taux d’intérêt :
3. le produit national (ou le revenu national) est égal à la consommation plus l’inves-
tissement : Y C +I +I .
À ce stade, nous n’avons postulé aucune forme particulière en ce qui concerne les
fonctions f et g . Ainsi, bien que des considérations d’ordre théorique nous renseignent
sur le signe des dérivées, il existe une multitude de fonctions de formes très di¤érentes
et ayant des signes de dérivées identiques,
Les deux premières équations re‡ètent des relations de comportements alors que la
troisième est une identité (aucun paramètre n’est à estimer).
3) Sélection et mesure des variables
Le modèle étant spéci…é, il convient de collecter les variables représentatives des
phénomènes économiques. Ce choix n’est pas neutre et peut conduire à des résultats
di¤érents, les questions qu’il convient de se poser sont par exemple :
–Faut-il raisonner en euros constants ou en euros courants ?
–Les données sont-elles brutes ou CVS1 ?
–Quel taux d’intérêt faut-il retenir (taux au jour le jour, taux directeur de la Banque
Centrale Européenne,...) ? etc.
1. Généralités sur l’économétrie 5

Nous distinguons plusieurs types de données selon que le modèle est spéci…é en :
–série temporelle : c’est le cas le plus fréquent en économétrie, il s’agit de variables
observées à intervalles de temps réguliers (la consommation annuelle, totale France, ex-
primée en euros courants sur 20 ans) ;
–coupe instantanée : les données sont observées au même instant et concernent les
valeurs prises par la variable pour un groupe d’individus1 spéci…ques (consommation
observée des agriculteurs pour une année donnée) ;
– panel : la variable représente les valeurs prises par un échantillon d’individus à
intervalles réguliers (la consommation d’un échantillon de ménages de la région parisienne
sur 20 ans) ;
–cohorte : très proches des données de panel, les données de cohorte se distinguent
de la précédente par la constance de l’échantillon, les individus sondés sont les mêmes
d’une période sur l’autre.
4) Décalages temporels
Dans le cadre de modèle spéci…é en séries temporelles, les relations entre les variables
ne sont pas toujours synchrones mais peuvent être décalées dans le temps. Nous pouvons
concevoir que la consommation de l’année t est expliquée par le revenu de l’année t - 1
et non celui de l’année t . Pour lever cette ambiguïté, il est d’usage d’écrire le modèle
en le spéci…ant à l’aide d’un indice de temps :Ct = a0 + a1 Y t 1 . La variable Yt-1 est
appelée « variable endogène retardée » .
On appelle « variable exogène » une variable dont les valeurs sont prédéterminées,
et « variable endogène » une variable dont les valeurs dépendent des variables exogènes.
5) Validation du modèle
La dernière étape est celle de la validation du modèle :
–Les relations spéci…ées sont-elles valides ?
– Peut-on estimer avec su¢ samment de précision les coe¢ cients ?
– Le modèle est-il véri…é sur la totalité de la période ?
– Les coe¢ cients sont-ils stables ? Etc.
À toutes ces questions, les techniques économétriques s’é¤orcent d’apporter des ré-
ponses.
1. Généralités sur l’économétrie 6

1.2.3 Les principaux modèles en économétrie


Les principaux modèles en économétrie

Modèles Linéarisations
linéaire : Y = ax + b _
Exponentielle : Y = B:Ax ln Y = X ln A + ln B () y = aX + b
Puissance ou log-linéaire : Y = BX a ln Y = a ln X + ln B () y = ax + b
logarithmique : Y = aX + b
Hyperbolique : Y = x ax0 + y0 ?Y = a
x x0
+ y0
ymax ymin
logistique : Y = ymin + aX + b
1 + exp (ax + b)
Parabolique : Y = ax2 + bx + c : Y = ax2 + bx + c
Modèle linéaire : Y = aX + b

1.3 L’analyse de la corrélation


1.3.1 La corrélation paramétrique
a) Contexte
Lorsque deux phénomènes ont une évolution commune, nous disons qu’ils sont «
corrélés » . La corrélation simple mesure le degré de liaison existant entre ces deux phé-
nomènes représentés par des variables. Si nous cherchons une relation entre trois variables
ou plus, nous ferons appel alors à la notion de corrélation multiple.
Nous pouvons distinguer la corrélation linéaire, lorsque tous les points du couple de
valeurs (x,y) des deux variables semblent alignés sur une droite, de la corrélation non
linéaire lorsque le couple de valeurs se trouve sur une même courbe d’allure quelconque.
b) Objectifs
On dispose de deux caractères X et Y. On distingue deux objectifs :
1. On cherche à savoir s’il existe un lien entre X et Y
Pour déterminer la liaison entre X et Y .
! On dé…nit un indice de liaison : coe¢ cient de corrélation, statistique du Khi-2,...
! Dans ce cas l’objet de l’estimation est la : mesure de l’intensité de la liaison
! Test d’hyptothèses : Existence du lien, pas d’existence de lien
2. On cherche à savoir si X a une in‡uence sur Y et éventuellement prédire Y à partir
de X. Pour ce faire
! On modélise l’in‡uence de X sur Y (régression logistique, analyse de la variance,
régression linéaire,...)
! Dans ce cas l’objet de l’estimation est la description de l’in‡uence et prédiction
1. Généralités sur l’économétrie 7

3. Test : validation d’hypothèse particulière : absence d’in‡uence, in‡uence linéaire,


quadratique,...
(
Corrélation =) quantilier la liaison entre X et Y
Conclusion
Régression =) quantilier l’e¤et, l’in‡uence de liaison entre X et Y

Dans tous les deux cas les deux variables statistiques sont quantitatives.

c) Mesure et interprétations du coe¢ cient de corrélation

Le coe¢ cient de corrélation est la mesure principale de la corrélation entre deux


variables X et Y à travers une série d’observations. Il est noté r(X,Y) et est dé…ni par la
formule :
P
p P
p pP P p
ni (xi x) (yi y) n i xi yi n xi yi
cov(X; Y ) i=1 i=1 i=1 i=1
r(X; Y ) = =s s =s s
(X) (Y ) P
p P p P
p Pp
ni (xi x)2 ni (yi y)2 ni xi 2 x2 ni yi 2 y 2
i=1 i=1 i=1 i=1

Cov (x,y) = covariance entre x et y ;


ou (X) et (Y ) sont les écarts type respectifs de X et de Y.
n est le nombre d’observations, la taille de l’échantillon.
Le coe¢ cient de corrélation n’est pas sensible aux unités de chacune de nos variables
mais reste très sensible à la présence de valeurs extrêmes de l’ensemble de données
(maximum et minimum).

Prporiété 1.1
Le coe¢ cient de corrélation d’un couple aléatoire est telle que : 1 (X; Y ) 1

Interprétations du coe¢ cient de corrélation1

Si r 0 alors les deux caractères varient dans le même sens ( %%ou &&):
Si r 0 alors les deux caractères varient en sens inverse ( %& ou &%):
Si jrj ' 1 (r 0:95 ou r 0:95) alors la dépendance entre les deux caractères est
très forte. Les deux variables sont dites très fortement corréllées.
Si jrj ' 0 ( 0:05 r 0:05) on dit que les deux variables sont très faiblement ou
pas corrélées.
proche de 1, les variables sont corrélées positivement. L’une des variables est fonction
a¢ ne croissante de l’autre variable.
proche de -1, les variables sont corrélées négativement. L’une des variables est fonction
a¢ ne croissante de l’autre variable.
1
U.O UFR-SEA Master 1 MAIME Econométrie Pr D. BARRO, Maître de Conférences
1. Généralités sur l’économétrie 8

proche de 0, les variables ne sont pas corrélées.


Dans la pratique, ce coe¢ cient est rarement très proche de l’une de ces trois bornes
(copules) et il est donc di¢ cile de proposer une interprétation …able à la simple lecture
de ce coe¢ cient. Ceci est surtout vrai en économie où les variables sont toutes plus au
moins liées entre elles.

Remarques sur la corélation

- une des deux variables au moins doit être aléatoire.


- le coe¢ cient de corrélation de Pearson ne mesure adéquatement que la liaison li-
néaire entre deux variables.
- la présence d’une corrélation n’implique pas forcément une relation de causalité
entre les deux variables impliquées.
- De plus, il n’est calculé qu’à partir d’un échantillon d’observations et non pas sur
l’ensemble des valeurs.

1.3.2 La corrélation non paramétrique et les coe¢ cients de


rang
a) Limites de la corrélation linéaire
Dans l’étude de la dépendance multivariée (bivariée en particulier), l’outil traditionnel
de mesure (le coe¢ cient de corrélation linéaire de Bravais-Pearson) comporte quelques
insu¢ sances dans la pratique. En e¤et
- Les moments d’ordre 2 doivent être …nis pour que ce coe¢ cient soit dé…ni.
- La corrélation linéaire n’intègre que la dépendance linéaire (rare en …nance et envi-
ronnement).
- Une corrélation nulle n’implique pas nécessairement l’indépendance.
- Le cadre de travail est gaussien (restriction sur la structure de dépendance)
- La corrélation linéaire dépend des distributions marginales.
Pour prouver ces propriétés, il convient de rapeler la notion de mesure de concordance
1. Généralités sur l’économétrie 9

qui généralise la notion de de corrélation

Dé…nition (mesure de concordance)


Une mesure numérique K d’association entre deux variables aléatoires X et Y est une
mesure de concordance si elle véri…e les propriétés suivantes :
P1 . K est dé…nie pour tout couple (X, Y) de variables aléatoires continues
P2 . Symétrie : K(X; Y ) = K(Y; X)
P3 . Normalisation : 1 K (X; Y ) 1
P4 . 1 = K (X; X) et K (X; X) = 1 pour toute variable aléatoire continue X.
P5 . K(X ; Y ) = 0 si et seulement si X et Y sont indépendantes
P6 . K (X; Y ) = K ( X; Y ) = K (X; Y )
P7 . Si f et g sont des fonctions strictement monotones respectivement sur ImX et
ImY alors K (f (X) ; g (Y )) = K (X; Y )

Preuve. Le coe¢ cient de corrélation (X; Y ) de (X; Y ) est telle que

Cov (X1 ; X2 ) E (X1 X2 ) E (X1 ) E (X2 )


(X; Y ) = p p = (1.1)
V ar (X) V ar (Y ) (X) (Y )

L1 ) La propriété L1 ) est donc triviale de par la dé…nition de :


L2 ) Soit K (f (X) ; g (Y )) = K (X; Y ) dans la propriété 7, où f et g sont des fonctions
strictement monotones, alors

E (X1 X2 ) E (X1 ) E (X2 ) E (X1 X2 ) E (X1 ) E (X2 )


=
(X) (Y ) (X) (Y )

Janos Aczel a montré que la solution de l’´equation est telle que fX (x) = a1 x + b1 et
fY (y) = a2 y + b2 où a1 et a2 > 0 sont de même signe (i:e a1 a2 > 0). C’est pourquoi cette
mesure est dite linéaire. Par exemple : si a et c sont de même signe (aX1 + b; cX2 + d) =
(X1 ; X2 ) tandis que (log X1 ; log X2 ) 6= (X1 ; X2 ) : Par conséquent, il reste invariant
par transformation linéaire mais ne l’est pas par transformation croissante et donc dé-
pend des distributions marginales.
L3 ) Si X1 et X2 sont indépendantes alors (X1 ; X2 ) = 0; mais la réciproque est
fausse (Contre-exemple, pour X N (0; 1) et Y = X 2 , on véri…e que cov (X; Y ) =
E (X 3 ) = 0 or X et Y ne sont pas indépendantes). Plus généralement,

E (X1 X2 ) E (X1 ) E (X2 )


(X1 ; X2 ) = 0 () = 0 =) E (X1 X2 ) = E (X1 ) E (X2 )
(X) (Y )

Janos Aczel a montré que la solution de l’´equation est telle que X1 N (m; ).
Conclusion : si (X1 ; X2 ) = 0 et si les X i sont gaussiennes alors X1 et X2 sont
indépendantes
Il existe principalement deux extensions de la corrélation linéaire aux cas des va-
riables ordinales. Ce sont le rho de Spearman et le Tau de Kendall.
1. Généralités sur l’économétrie 10

b) Tau de Kendall, Rho de Spearman

Le tau de kendall

Dé…nition 3 (tau de Kendall) Soient (X1 , X2 ) et (Y1 , Y2 ) deux couples de variables


aléatoires identiques de loi H. On dé…nit le tau de Kendall par :
XY = P [(X1 X2 )(X1 Y2 ) > 0] P [(X1 X2 )(Y1 Y2 ) < 0]

Le tau de Kendall n’est autre que la di¤érence entre la probabilité de concordance et


celle de discordance. Statistiquement, soit (x1 ; y1 ) ; (x2 , y2 ); :::; (xn ; yn ) un échantillon de
n observations d’un couple (X, Y).

P
T jP1
2 sign((xj xi ) (yj yi ))
[# paires concordantes] [# discordantes] j=2 i=1
= =
N ombre (
total de paires n (n 1)
1 si z 0
où la fonction sign(z) =
1 si z 0

Le Rho de Spearman2
Comme le tau de Kendall, le rho de Spearman est une mesure de dépendance basée
sur la notion de concordance. Soient (X1 ; Y1 ); (X2 ; Y2 ) et (X3 ; Y3 ) trois vecteurs aléatoires
indépendantes de même distribution H dont les distributions marginales sont F et G et
dont la copule associée est C.

Dé…nition (rho de Spearman) Le rho de Spearman est dé…nie comme étant


proportionnelle à la di¤érence de la probabilité de concordance et celle de
discordance des couples aléatoires (X1 ; Y1 ) et (X2 ; Y3 ) .
S
= X;Y = C = 3 ([P (X1 ; Y1 )(X2 ; Y3 ) > 0] P ((X1 ; Y1 )(X2 ; Y3 ) < 0)

Statistiquement, soit (x1 ; y1 ) ; (x2 , y2 ); :::; (xn ; yn ) un échantillon de n observations du


couple (X, Y).
P
Rj R Sj S
S
= qP qP ; Rj est le rang de xj et Si est le rang de yj
2 2
Rj R Sj S

On véri…e que si FX et FY sont les fonctions de répartition respectivement de X et


de Y, alors on a :
S
(X; Y ) = (FX (X) ; FY (Y ))

où est le coe¢ cient de corrélation linéaire. Contrairement au coe¢ cient de corréla-


tion, les deux mesures ci-dessus restent invariantes sous des transformations continues
et croissantes des marges.

2
U.O UFR-SEA Master 1 MAIME Econométrie Pr D. BARRO, Maître de Conférences
Chapitre 2

La Régression Linéaire Simple

Cependant, pour de nombreux phénomènes (notamment industriels), une étude ex-


haustive de tous les facteurs est impossible (e¤ectif très élevé ou complexité). Il en résulte
que la reproductibilité des conditions, d’une expérience à une autre, ne peut être garan-
tie. Partant de cet constat, la statistique va permettre d’étendre la notion de relation
fonctionnelle répétable, à celle de corrélation où la relation entre x et y est entachée
d’une certaine dispersion due à la variabilité des conditions d’expérience : on écrira
y = f (x) + ", où " est une variable aléatoire.

2.1 La droite des moindres carrés


2.1.1 Le nuage statistique
Le problème est d’étudier l’in‡uence d’une variable quantitative X (explicative ou
exogène) sur une autre variable quantitative Y (expliquée ou endogène). Pour ce faire, on
dispose donc d’un échantillon de n couples d’observations (xi ; yi ) que l’on peut représenter
sur un graphique, dans le plan R2 soit une distribution statistique double (X; Y ) =
f(xi ; yi ) ; 1 i ng :

Dé…nition 2.1
On appelle nuage statistique ou diagramme de dispersion du couple (X,Y) l’ensem-
ble des points de coordonnées (xi ; yi ) représentés dans un repère cartésien.

Selon la particularité de la relation entre les variables X et Y on peut obtenir di¤é-


rentes situations de nuages statistique. Mais à partir de cette représentation graphique,
il est souvent facile de soupçonner l’existence d’une relation entre les deux caractères
étudiées simultanément.
a) Liaison fonctionnelle
Les points s’alignent sur une courbe. On dit que la relation entre Y et X est fonc-
tionnelle : lorsque la valeur de X est donnée, celle de Y est déterminée sans ambiguïté.

11
2. La Régression Linéaire Simple 12

Y = f (X) :
Le cas le plus simple est la droite y = ax + b; a 6= 0; b 2 R: C’est le cas idéal
qui, expérimentalement, n’est jamais réalisé de façon parfaite. Les mesures sont en e¤et
toujours entachées de quelque imprécision.
Graphique
b) Ligne de régression
Lorsque X est donné, Y n’est pas complètement déterminé : ses valeurs se dis-
persent autour d’une certaine valeur moyenne. Mais les valeurs moyennes décrivent,
lorsque X varie, une courbe qui est appelée la ligne de régression de Y par rapport à X :
E (Y =X = x) = f (x)
Graphique
c) Liaison stochastique ou statistique (corrélation)
La liaison entre Y et X est alors appelée stochastique (ou statistique). Un cas par-
ticulièrement important est celui où le nuage se dispose suivant une forme allongée et
exhibe une tendance sensiblement linéaire.
Graphique

2.1.2 Caractérisations de la droite des MCO


On suppose que le nuage statistique peut être ajusté par une droite (D) : y = ax + b
qui décrive au mieux la tendance du nuage observé.
Hypothèse :
Pour chaque individu i, on a : yi = axi + b + "i , où "i est une certaine «erreur» , appe-
lée résidu. où les "i sont indépendantes d’une variable " d’espérance nulle et de variance
constante 2 quelque soit xi .

On recherche la droite y = ax + b, qui est dite droite des moindres carrés, telle
que la somme quadratique des résidus ei soit minimale.
On dispose de n couples de(xi ; yi ) constituant un n-échantillons d’observations indé-
pendantes. On suppose vraie l’hypothèse que la régression est linéaire.

Notation Interprétation dénonmination Observations Hypothèses


Variable aléatoire mesurant le
Yi
phénomène à expliquer pour

(voir document U niversite Charles de Gaulle Lille3

Nous allons nous intéresser à l’estimation de , et 2 par la méthode des moindres


P
carrés de telle sorte que "i : (yi yi )2 soit minimal. On étudiera ensuite les propriétés
2. La Régression Linéaire Simple 13

de a et b en tant qu’estimations de et ainsi que de l’estimation b2 de :


La méthode élémentaire de détermination de a et b est la suivante :
X
n X
n
2
S= (yi yi ) = (yi a bxi )2 = S(a; b)
i=1 i=1

@F @F
Le minimum est atteint pour @a
= @b
= 0, ce qui donne les deux équations suivante :

X
n X
n
(yi a bxi ) = 0 , y = a + bx et xi (yi a bxi ) = 0
i=1 i=1

on obtient : Pn
(y y)(xi x) Cov(x; y) sy
Pn i
b = i=1 2
= =r
i=1 (xi x) V ar(x) sx
La droite des moindres carrés passe donc par le centre de gravité du nuage (x; y) sa
pente est l’analogue empirique de la pente de la droite de régression

Proposition 2.1 : Les estimateurs â et b̂ des MCO de a et de b sont donnés


Cov(X; Y )
par b
a= et bb = E[Y ] + b
aX:
V ar(X)

On peut montrer que parmis les estimateurs sans biais de et , A et B sont ceux
de variance minimale. Pour estimer 2 = V ar(") il est naturel d’utiliser la variance des
P
résidus ei = yi yi , c’est-à-dire la quantité que l’on a minimisée ni=1 (yi yi )2 . On
montre alors :

Pn Pn
2 i=1 (yi yi ) 2 i=1 "i
2
2
Proposition 2.1 : La quantité = n 2
= n 2
est une estimatin de
donc estimateur sans biais.

2.1.3 Analyse de la variance


a) Tableau de l’analyse de la variance

Dé…nition 2.2 Dans le modèle de RLS, on appelle résidus de l’estimation par moindres
carrés ordinaires les variables aléatoires, notés ^"1 ; ^"2 ; :::; ^"n et dé…nies par ^"i = yi y^i
pour tout i = 1; ::; n:

Remarque : Le ie résidu ordinaire des ^"i s’interprète comme l’estimation de la partie de


yi qu’on ne peut pas expliquer par xi:

Proposition 2.2
P Pn
Dans le modèle de régression linéaire simple, on a : ni=1 ^"i = 0 et i=1 xi ^
"i = 0:
(2.1)
2. La Régression Linéaire Simple 14

Dans la RLS, on cherche à construire des estimateurs qui minimisent la Somme des
Carrés Résiduels (SCR) telle que :
X
n X
n
SCR = ^"2i = (yi y^i )2
i=1 i=1

En particulier, la prédiction est parfaite si SCR = 0: Plus généralement, pour mieux


juger de la qualité de la régression il faut comparer SCR à une valeur de rérérence. Pour
ce faire, considérons le résultat suivant :

Théorème 2.1 (Décomposition de la la régression)


Dans un modèle de RLS, la somme des carrés totale admet la décomposition suivante :
Pn P P
i=1 (yi y^i )2 = ni=1 (yi y^i )2 + ni=1 (^
yi yi )2
(2.2)
Pn 2
Preuve. En notant SCT = i=1 (yi y) (somme des carrés totaux), on obtient la
décomposition suivante :
X n
SCT = (yi y^i + y^i y)2
i=1
Xn X
n X
n
2 2
= (yi y^i ) + (^
yi y) + 2 (yi y^i ) (^
yi y)
i=1 i=1 i=1

Pour démontrer ce théorème, il su¢ t de montrer que :


Xn
(yi y^i ) (^
yi y) = 0
i=1

La dé…nition des ^"i permet d’écrire que le premier membre de cette égalité est est telle
que :
X n Xn X n X
n X
n X
n
(yi y^i ) (^
yi y) = ^"i (^
yi y) = ^"i y^i y ^"i = ^"i y^i car ^"i = 0
i=1 i=1 i=1 i=1 i=1 i=1

X
n X
n X
n X
n
=) (yi y^i ) (^
yi y) = ^"i (^
a0 + a
^ 1 xi ) = a
^0 ^"i + a
^1 ^"i xi = 0
i=1 i=1 i=1 i=1
d’après la propriété 2 ci-dessus
Par conséquent, on obtient le résultat suivant :
SCT = SCE + SCR (2.3)
La relation est dite équation d’analyse de la variance

SCT indique la variabilité totale de Y i.e l’information disponible dans les données.
SCE traduit la variabilité expliquée par le modèle i.e la variation de Y expliquée
par X.
SCR indique la variabilité non-expliquée (résiduelle) par le modèle i.el’écart entre
les valeurs observées de Y et celles prédites par le modèle.

Remarques : Deux sitautions extrêmes peuvent survenir


2. La Régression Linéaire Simple 15

! Meilleur des cas : SCR = 0. Dans ce cas la prévision est parfaite, le nuage statistique
présente des points alignés, Y est complètement expliqué par les x.
! Pire des cas : SCE = 0. Mauvaise prévision, X n’apporte aucune information le
dans la description de Y, nuage statistique ne présage aucun allure classique
Le tableau d’analyse de la variance est

Source de variation Somme de carrés


P
Expliquée SCE = ni=1 (yi y^i )2
P (2.4)
Résiduelle SCR = ni=1 (^
yi yi )2
Pn
Totale SCT = i=1 (yi y^i )2

c) Valeurs ajustées et Résidus

Dé…nition 2.2 Dans le modèle de régression linéaire simple, les valeurs ajustées issues
de l’estimation par les MCO de a0 et a 1 sont les n variables aléatoires notées
y^1 ; :::; y^n dé…nies par : y^i = a
^0 +â1 xi pour i = 1; :::; n:

2.2 Corrélation et Régression


2.2.1 Comparaison entre Régression et Corrélation

Corrélation Régression
Objecif s’il existe un lien entre X et Y s’il existe un lien entre X et Y
Variables
Rôles S

Prédiction

! Corrélation :

Liaison entre 2 variables quantitatives X et Y


Rôle symétrique (on peut permuter X et Y)
Rôle asymétrique

! Régression :

Liaison entre 2 variables quantitatives X et Y


Rôle asymétrique uniquement :
–X = variable explicative / Y = variable expliquée
–X = variable indépendante / Y = variable dépendante
2. La Régression Linéaire Simple 16

(on ne peut pas permuter X et Y)

Corrélation Régression
X = quantitative X = quantitative
Variables
Y = quantitative Y = quantitative
Symétrie de la liaison Oui / non Non

Etant donné deux variables aléatoires X et Y,une fonction f telle que f(X) soit aussi
proche que possible de Y en moyenne quadratique est déterminée par l’espérance condi-
tionnelle.En e¤e

2.2.2 Corrélation et analyse de la variance


Le coe¢ cient de détermination

À partir du théorème (3), on peut construire un estimateur de la capacité de la


variable explicative à déterminer le niveau de la variable dépendante. Cet indicateur
synthétique et le coe¢ cient de détermination R2 :

Dé…nition 2.3
On appelle coe¢ cientPde détermination de la régression, le nombre R2 dé…ni
n
SCE (yi y^i )2
par : R2 = = Pi=1n
SCT i=1 (yi y^i )2

Remarques
SCR
On établit que R2 = 1
SCT
Le rapport R2 mesure de la capacité des variables explicatives à faire varier, par
leurs propres variations, la variable endogène Y. C’est la proportion de Y expliquée par
X.
Par construction, on a : 0 R2 1:
Plus R2 est proche de 1, plus la part inexpiquée de la variance totale est petite
(proche de 0) ce qui correspond à un bon ajustement du nuage de points par la droite.
Le terme constant est nécessaire dans l’estimation pour que l’analyse de la variance
soit valide. En d’autres termes pour un modèle de RLS sans terme constant, R2 ne se
situe plus nécessairement entre 0 et 1 et n’est plus interprétable.

Proposition 2.2 Le coe¢ cient de détermination R2 de la régression est est égal


au carré du coe¢ cient de corrélation linéaire i ;e R2 = r2 (X; Y ).
2. La Régression Linéaire Simple 17

2.3 Propriétés statistiques de la droite


Les bonnes propriétés statistiques des estimateurs des MCO nécessitent qu’un en-
semble d’hypothèses soient satisfaites.

2.3.1 Hypothèses sur le modèle théorique


Hyptohèse 1(bis) ? : (linéarité dans les paramètres) : Le modèle dans la popula-
tion peut se décrire par une relation linéaire à une seule variable
explicative telle que yi = axi + b + "i ,
Hyptohèse 1 : Les Xj sont non aléatoires c’est à dire que les xij sont observées
sans erreurs
Hyptohèse 2 : E ("i ) = 0 i.e l’espérance de l’erreur est nulle. En moyenne le
modèle est bien spéci…é.
Hyptohèse 3 : E ("2i ) = V ("j ) = 2 ; la variance des termes aléatoire (conditio-
nellement à X) est constante. En d’autres termes, var("=x) = 2 , est constante (homos-
cédasticité)
Hyptohèse 4 : E ("i "j ) = 0 si i 6= j i.e cov ("i ; "j ) = 0 Les erreurs sont indépen-
dantes des varaibles explicatives.
Le résultat suivant est une conséquence immédiate des hypothèses 3 et 4.

Théorème 2.1 Sous les hypothèses H 3 et H 4 la matrice des variance-covariance des


erreurs est donnée par E ("t ") = 2 In où I n est la matrice unitaire d’ordre n.
0 1 0 1
"1 "21 "1 "2 :::: "1 "2
B C B C
B "2 C B "2 "1 "22 :::: "1 "2 C
Preuve. ? ?" " = B
t
B .. C
C "1 "2 ... "n =B
B .. .. .. .. CC
@ . A @ . . . . A
"n "n "1
"n "2 :::: "2n
0 1 0 1
2
0 :::: 0 1 0 :::: 0
B 2 C B C
B 0 :::: 0 C B 0 1 :::: 0 C
=) E (" ") = B
t
B .. .. .. .. C=
C
2B
B .. .. .. .. C
C=
2
In
@ . . . . A @ . . . . A
2
0 0 :::: 0 0 :::: 1
t 2
=) E (" ") = In
La matrice V(") = E ("t ") est dite scalaire
Hyptohèse 5 : E (X t ") = 0 () cov (xi ; "i ) = 0: Les erreurs sont indépendantes
(non-corrélation des erreurs).
() ?Hypothèse 5 (homoscédasticité) : La variance des termes aléatoires (conditio-
nellement à x) est constante. En d’autres termes,
var("=x) = 2 :
Hyptohèse 6 : "j N (0; ) ; normalité des erreurs
2. La Régression Linéaire Simple 18

2.3.2 Propriétés des estimateurs des MCO des paramètres


a) Estimateurs sans biais
Le résultat suivant établit les propriétés fondamentales des estimateurs.
Proposition 1.1 Sous les hypothèses (1) à (4) les estimateurs A^ et B
^ sont sans biais et
convergents de a et b.
Preuve. Les calculs qui permettent de le montrer, peuvent être omis mais ils consti-
tuent toutefois un bon entrainement à la pratique des opérateurs " espérance mathéma-
tique " et " variance ".Tenant compte de ce que Yi = xi + + i, on peut mettre ^
et ^ sous la forme suivante
Pn
(x x)(yi y)
A = Pn i
i=1
(x x)2
Pn i=1 i Pn
i=1 (x P x)yi i=1 (xi x)y
= n
i=1 (xi x)2
Pn
(x x)yi
= Pi=1 n
(x x)2
Pni=1 i
i=1 (x
Pn
x) (axi + b + "i )
=
(x x)2
Pn i=1 i Pn Pn
i=1 (x x) i=1 (x x)xi (x x)"i
= b Pn 2
+ a Pn 2
+ Pi=1
n
(xi x) i=1 (xi x) i=1 (xi x)2
Pi=1
n P n
(x x)xi i=1 (x x)"i
= a Pi=1 n + P n
i=1 (xi x)2 i=1 (xi x)2
Pn
(x x)"i
= a + Pi=1 n
i=1 (xi x)2
Ainsi, l’estimateur A est donc égal à la somme de la vraie valeur de a dans la population
et une combinaison de termes aléatoires. L’estimateur A est donc une variable aléatoire.
Par conséquent :
Pn Pn
i=1 (x x)"i i=1 (x x)E ("i )
E (A) = a + E Pn = a + P n =A
i=1 (xi x)2 i=1 (xi x)2
Par ailleurs, la dé…nition de B est telle que : B = y Ax = ax + b + " Ax =) B =
(a A) x + b + "
Par conséquent, E (B) = xE (a A) + b + E (") = b
Pour la convergence voir le document de OMS, le cours de Olivier Donni, et aussi
Econ2013.

Proposition 3.1 : Les quantités A^ et B


^ sont des estimateurs convergents de et

b) Théorème de Gauss

Théorème 1.1 (Théorème de Gauss)


2. La Régression Linéaire Simple 19

c) Estimateur de la la variance empirique

Théorème 1.1
(x x)2
La quantite Pn est un estimateur sans biais de 2

i=1 (xi x)2

2
Proposition 1 La quantité est un estimateur sans biais de

2.3.3 Lois des estimateurs des MCO pour un modèle linéaire


gaussien
Jusqu’à présent nous n’avions fait l’hypothèse que la régression est linéaire. Nous
allons en plus faire l’hypothèse suivante : " @(0; 2 ).

Proposition 2.3 : Si " suit une loi normale centrée de variance 2 alors :
a) La loi conditionnelle de Y jX = x est @( + x; 2 ).
b) Si les xi sont …xés,les lois de B, A et Y sont gaussiennes telles que :
2
^b 1 x2
a
^ @ a; Pn et @ b; 2
+ Pn
i=1 (xi x)2 n i=1 (xi x)2
2
1 (x x)
Y @ ax + b; 2 + Pn :
n i=1 (xi x)2

Les variables aléatoires A,B et Y sont des estimateurs de variance minimale de , et


2
. Dans ces conditions on peut véri…er que :
Pn
(n 2)b2 i=1 (yi yi )2 ns2y=x
2
= 2
= 2

est une réalisation d’une variable 2n 2 (on a dû estimer deux paramètres).


Les lois des variables aléatoires A et B supposent que la variance 2 est connu.Lorsqu’elle
est inconnue on utilise un estimateur.Ainsi,puisque :
pPn p
(^
a a) i=1 (x i x)2 (^
a a) ns2x
= Tn 2 (Studentan 2ddl)

et

(^b b) (^b b)
s = r Tn 2 (Studentan 2ddl)
x2 1 x
( n1 + Pn )) (1 + 2 )
x)2 n sx
i=1 (xi

On peut alors en déduire des intervalles de con…ance pour les coe¢ cient et .
2. La Régression Linéaire Simple 20

2.4 Prévisions statistiques


2.4.1 Problématique
Dans une entreprise, on peut distinguer trois fonctions essentielles que nous allons
brièvement illustrer par des exemples.
Décision : les performances d’un matériel dépendent de son âge. Au-dessous d’un
certain seuil de performance, il convient de le réformer. Etant donné l’âge d’un
matériel, il faudra décider de sa réforme ou de son maintien en activité.
Prévision : la consommation en matière première (ou en énergie) dépend de la quantité
produite. Visant, pour une période future, une certaine production, quel stock de
matière première faut-il prévoir ?
Contrôle : dans le même contexte, une certaine production ayant été assurée pour une
certaine consommation, cette dernière est-elle « normale » , faible, élevée ?
Ces trois problèmes se formulent …nalement de la même façon.

2.4.2 Intervalle de con…ance d’une valeur prévue


Dans un modèle de RLS on a :

Yn+1 = aXn+1 + b + "n+1 (2.5)

avec E("n+1 ) = 0 et V("n+1 ) = 2 ;cov ("i ; "j ) = 0 si i 6= j: on prédit la valeur


correspondante grace au modèle estimé Yn+1 = a ^Xn+1 + ^b où Yn+1 est la valeur prévue
pour Xn+1 :
la (n + 1)e valeur n’intervient pas dans le calcul des estimateurs
Remarques
Yn+1 = Y^n+1 ; la valeur ajustée qui fait intervenir la ie observation

Proposition (variance de la prévision yn+1 )


1 (xn+1 x)2
La variance de Yn+1 est V Yn+1 = 2 + Pn
n i=1 (xi x)2
1 (xn+1 x)2
La variance de Yn+1 est V Yn+1 = 2
+ Pn
n i=1 (xi x)2
e
la (n + 1) valeur n’intervient pas dans le calcul des estimateurs
Erreur de prévision
En prévision on s’intéresse généralement à l’erreur qu’on commet entre la vraie valeur
à prévoir Yn+1 et celle que l’on prévoit Yn+1 :

Dé…nition (Erreur de prévision)


On appelle erreur de prévision, le nombre "n+1 = Yn+1 Yn+1 .
L’erreur de prévision permet de quanti…er la capacité du modèle à prévoir
2. La Régression Linéaire Simple 21

Le résultat suivant résume les caractéristiques de l’erreur de prévision

Proposition (Erreur de prévision) L’erreur de prévision véri…e les propriétés


1 (x x)2
suivantes : E "n+1 = 0; V "n+1 = 2 1 + + Pn
n i=1 (xi x)2

2.4.3 Intervalle de con…ance des paramètres


2
! Intervalle de con…ance de
Pour un risque …xé …xé, l’intervalle de con…ance de 2 est tel que
" #
2 2
2 (n 2) ^ (n 2) ^
IC = ;
Cn 2 1 2 Cn 2 2

2
où Cn 2 1 2
est le fratile de niveau 1 2
de la loi n 2:

! Intervalle de con…ance de E (Yi )


Rappelons que E (Yi ) = aXi +b sous les hypothèses classiques du modèle. Ainsi, pour
un risque …xé …xé, l’intervalle de con…ance de E (Yi ) est tel que
" s #
1 (x0 x)2
IC (E (Yi )) = Y Tn 2 1 ^ + Pn
2 n i=1 (xi x)2

où tn 2 1 2 est le fratile de niveau 1 2 de la loi de Student à n-2 ddl.


En calculant les intervalles de con…ance pour tous les points de la droite, on obtient
une hyperbole appelée hyperbole de con…ance.
! Intervalle de con…ance de la valeur prévue
? ?On suppose que l’on souhaite donner une réponse moyenne à la variable
explicative de départ. On peut d’abord remarquer que loi de Y est la loi nor-
male :

2
@( + x; 2 1
(n + Pn(x x) 2 ))
i=1 (xi x)

Ensuite comme on sait que :

Pn
(n 2)b2 i=1 (yi yi )2 ns2y=x
= 2
= 2

2
est une réalisation d’une variable n 2 on en déduit que :
2. La Régression Linéaire Simple 22

s
Y x
ns2y=x Y x p
v
u 0 1= 2 (n
=q n 2
u
u 1 (x x) 2 2) s2y=x (1 + (x x)2
)
t 2@ + Pn A s2x
n i=1 (xi x)2

suit la loi de student Tn 2 à n-2 degré de liberté.


Ainsi, pour un risque …xé, on obtient donc une intervalle de con…ance, de au niveau
1 .
3 q q 2
2 (x x)2 2 (x x)2
7 sy=x 1 + sy=x 1 + 6
7 + x t =2 s2x s2x 6:
5 p ; + x + t =2 p 4
n 2 n 2

2.4.4 Intervalle de con…ance de prédiction


On suppose que l’on souhaite prévoir la valeur de Y pour une nouvelle valeur x0 de
X. Le choix naturel est y0 = + x0 . On détermine alors un intervalle de con…ance
en remarquant que la loi de Y 0 est la loi normale. On détermine alors un intervalle de
1 (x x)2
con…ance en remarquant que la loi de Y0 est la loi normale @ + x; 2 + Pn :
n i=1 (xi x)2
2
et la loi conditionnelle de Y jX = x0 est @( + x0 ; ).
En remarquant que Y0 et Y0 sont indépendantes on a :

1 (x0 x)2
Y0 Y0 @ 0; 2
1+ + Pn
n i=1 (xi x)2
et donc :

Y0 Y0 Y0 Y0 p
s =s n 2 Tn 2
2 1 (x0 x)2 1 (x0 x)2
b 1 + + Pn ns2y=x 1 + + Pn
n i=1 (xi x)2 n i=1 (xi x)2

D’où l’on peut déduire l’intervalle de prédiction au niveau 1


3 0 1 0 12
q (x0 x)2 q (x0 x)2
s2y=x @n+1+ A s2y=x @n+1+ A
7 2
SX 2
SX 6
IC (en+1 ) = 7
5 + x0 t =2 p
n 2
; + x0 + t =2 p
n 2
6:
4

Applications

Nous disposons d’un échantillon de 24 o¤res de vente d’appartements situés dans le


V ieme et le V I ieme arrondissement de paris en 1975.

Y prix en millier de francs 130 280 800 268 790 500 320 250 378 250
X surface en m2 28 50 196 55 190 110 60 48 90 35
2. La Régression Linéaire Simple 23

prix 350 300 155 245 200 325 85 78 375 200 270 295 85 495
X 86 65 32 52 40 70 28 30 105 52 80 60 20 100
Une représentation des couples (Xi ; Yi ),donne un nuage de points dont la la forme
autorise un ajustement linéaire. On pose donc le modèle Y = + X + " et on supposera
" @(0; 2 ). Des calculs élémentaires conduisent aux résultats suivants : x = 70:08333m2
et y = 309331F
q P24 q P24
1 2 1
sx = 24 i=1 (xi x)2 = 44:6915 m et sy = 24 i=1 (yi y)2 = 182950F et
P24
Cov(x; y) i=1 (xi x)(yi y)
r= = = 0:9733
sx sy 24sx sy

Il y’a une forte corrélation qui signi…e qu’à 97.33 pour cent le prix d’un appartement
est expliqué par sa surface.
On en déduit les estimations a ^ et ^b de a et b respectivement telsque : a
^ = 30:09221
et ^b = 3:9844

Et l’equation de la droite d’ajustement devient : y = 30:0921 + 3:9844x


La variance résiduelle s2y=x s’obtient directement par la formule s2y=x = (1 r2 )s2y , soit
s2y=x = 1762:1816 d’où sy=x = 41:98
et on en déduit :

b2 = n
s2
n 2 y=x
= 1922:38 b = 43:84

L’hypothèse de normalité de " permet alors de donner des intervalles de con…ance.


Ainsi, pour 2 ,on a ns2y=x = 2 qui suit une loi de 2n 2 . Ici n = 24,on a donc un 2 à 22
degrés de liberté,dont la table fournit les bornes 11 et 36:8 pour un intervalle symétrique
de niveau 0.95.
24s2y=s 24s2y=s
L’intervalle de con…ance pour 2 est donc : 36:8 = 1149:25 2
11
= 3844:76
ou encore :
33:90 62:01 Le test de signi…cation de la régression peut être e¤ectué par l’analyse
de la variance.

2.5 Tests sur le modèle de régression simple


2.5.1 Tests d’indépendance des variables
a) Problématique
Objectifs : Véri…er si les variables X et Y peuvent considérées comme indépendantes
b) Mécanisme du test
2. La Régression Linéaire Simple 24

Hypothèses
On fait l’hypothèse qu’il n’y a pas de liaison entre les variables, c’est-à-dire tester les
hypothèses suivantes
(
H0 : a = 0, les deux variables sont indépendantes
H1 : a 6= 0, les deux variables sont corrélées

Il s’agit d’un test bilatéral sur la pente


Remarque : Le test sur la corrélation est aussi appelé test sur la pente de la droite
de régression puisque a est la pente de la droite de régression.
Valeurs critiques du test
La variable aléatoire a^ étant de loi normale, il vient alors que :
2
a
^ a
a
^ N a; Pn =) N (0; 1) :
i=1 (xi x)2 pPn
i=1 (xi x)2
pPn
(^
a a)i=1 (xi x)2
En particulier Tn 2 (loi de student à n-2 degré de liberté)
^
où ^ étant l’estimateur sans biais de : pPn
i=1 (xi
a
^ x)2
Sous H0 ; la valeur calculée de la statistique est tcal = :
^
Ainsi, pour un risque …xé, on lit la valeur observée tobs sur la table de Student à
n-2 ddl. C’est le quantile associé à 2
- Si tcal tobs alors on accepte l’hypothèse H 0
Décision et conclusion
- Si tcal > tobs alors on rejette l’hypothèse H 0

Rappel : Test d’hypothèses et intervalle de con…ance

Dans la théorie des test d’hypothèses, la décision du test peut être prise en fonction
de l’intervalle de con…ance (zone d’acceptation et de rejet) du paramètre (moyenne,
fréquence, variance). Par exemple, le tableau suivant établit les correspondances pour la
région d’acceptation de la zone d’acceptation de H0 :

///////// Zone d’acceptation de l’hypothèse H0


Nature du test Test classique Intervalle de con…ance de m Intervalle de con…ance de p
" r #
t p0 (1 p0 )
Bilatéral T 2 [ t ; t ] Si X 2 m0 p p 2 p0 t
n n
r
p0 (1 p0 )
unilatéral droit T t Si X m0 + t p p p0 + t
n r n
p0 (1 p0 )
unilatéral gauche T t Si X m0 t p p p0 t
n n
pPn
a
^ i=1 (xi x)2
Ainsi, sous H0 la v.a Tn 2 et pour pour un risque la décision
^
à prendre équivaut à
2. La Régression Linéaire Simple 25

S
- Si a^ 2 IC (a) =] 1; tn 2;1 =2 [ ]tn 2;1 =2 ; 1[ alors on rejette H 0
Décision
- Sinon on accepte l’hypothèse H 0
On peut construire un autre test utilisant une autre statistique qui évite de calculer
B. Pn Pn
i=1 (Yi Y )2 B2 i=1 (Xi X)2 2
2
= 2 1
P
On a ni=1 (Yi Yi = 2 suit une loi de 2n 2 .
On peut construire un autre test utilisant une autre statistique qui évite de calculer
B.
P
On a que ni=1 (Yi Yi )2 = 2 suit une loi de 2n 2 . De plus, si l’hypothèse H0 de non
régression linéaire est satisfaite, i.e si = 0, alors :

qP
n
B i=1 (Xi X)
@(0; 1)

et donc

Pn Pn
i=1 (Yi Y )2 B2 i=1 (Xi X)2 2
2
= 2 1

P P
On en déduit (par le théorème de Cochran) que ni=1 (Yi Y )2 et ni=1 (Yi Yi )2
sont indépendante et
Pn
(Y Y )2
Pni=1 i (n 2) z(1; n 2)
i=1 (Yi Yi )2
En pratique yi y = yi yi + yi y et d’après la décomposition de la la régression ((Th
2.1)
X
n X
n X
n
2 2
(yi y) = (yi yi ) + (Yi y)2
i=1 i=1 i=1
Comme on sait que :
sy
y =y+r (x x)
sx
On en déduit que :

Pn Pn
i=1 (yi y)2 = r2 s2y = r2 i=1 (yi y)2 .

et que :

Pn Pn
i=1 (yi yi )2 = ns2y=x = (1 r2 ) i=1 (yi y)2 = (1 r2 )s2y .

r2
La statistique testée ci-dessus correspond donc à (n 2).
(1 r2 )
2. La Régression Linéaire Simple 26

b) Test centré sur la corrélation

Le test de signi…cativité global permet de se faire une idée sur la signi…cativité de la


relation entre les deux variables X et Y. En e¤et, le degré de signi…cativité dépend aussi
et surtout de la taille de l’échantillon. Par exemple,
R (X; Y ) 0:6 pour n = 10 n’est pas signi…catif au seuil de 5% (il peut être lié au
hasard)
R (X; Y ) 0:2 pour n = 200 est signi…catif au seuil de 5% (la taille fait que la
relation bien que faible a peu de chance d’être dû au hasard)

Tests sur le modèle

Le test d’indépendance entre deux varaibles X et Y peut être associé à un test de


signi…cativité du coe¢ cient de corrélation entre les deux variables (noté RXY pour un
échantillon et XY pour une population ou dans un contexte aléatoire). En e¤et, tes-
ter l’indépendance linéaire entre X et Y revient à tester l’hypothèse de nullité de leur
coe¢ cient de corrélation.

* Hypothèses :
(
H0 : XY = 0; corrélation nulle
, test bilatéral
H1 : XY 6= 0; corrélation pas nulle

Remarque : Le test sur la corrélation est aussi appelé test sur la pente de
la droite de régression. En e¤et, en considérant l’hypothèse nulle H0 on a :

H0 : XY = 0 (corrélation nulle) () H0 : a = 0 (pente nulle)

* Statistique du test :
Sous l’hypothèse nulle H0 ; le rapport de rXY sur son écart r type r suit suit la loi de
2
rXY 1 rXY
Student à n-2 degré de liberté, i.e Tn 1 où rXY = :
r n 2 p
jrXY j n 2
- on calcule la statistique tcal = p 2
Ainsi, pour un risque …xé, 1 RXY
- on lit sur la table de Student à n-2 la valeur observée tobs :

- Si tcal tobs alors on accepte l’hypothèse H0 :


* Décision et conclusion :
- Si tcal > tobs alors on accepte l’hypothèse H0
:
Application
X 5 2 7 9 15 3 10
Y 11 7 14 21 35 9 24
cov (X; Y )
rcal = = 0:9891 =) corrélation positive très forte.
X Y
2. La Régression Linéaire Simple 27

p p
jrXY j n 2 0:9891 7 2
tcal = p 2
= p = 15: 02
1 RXY 1 0:98912
Pour un risque de 5%, on a : tobs = t5 (0:5) =
On a : tcal tobs =) On rejette H0 pour conclure qu’il existe be et bien une
corrélation signi…cative (dépendance linéaire forte) entre X et Y.

Autre méthode : utilisation de la table de corrélation

Plutôt que d’utiliser le rapport de la corrélation, on peut utiliser la loi de R. En e¤et,


pour un risque donné R R ( ; ddl) dont les valeurs sont consignées sur une table dite
de la corrélation.
Ainsi, pour un risque …xé,
cov (X; Y )
- on calcule la statistique rcal = RXY =
X Y

* Décision et conclusion :
- Si Rcal Robs alors on accepte l’hypothèse H0 :
- Si Rcal > Robs alors on accepte l’hypothèse H0 :

Conditions du test sur la corrélation

Variables qualitatives
Distribution conjointe des deux variables binormale (Rmq : marges normales 6 =)
loi conjointe binormale)
Indépendance des observations
les coe¢ cients de corrélation de rang
Les dé…nitions de ces coe¢ cients sont généralement liées à la notion de concordance
et d’association. Ils constituent une généralisation du coe¢ cient de corrélation linéaire
dans les cas des variables aléatoires ordinales, discrètes ou si les extrêmes(outliers en
anglais) risquent de biaiser les résultats.

b) Le tau de Kendall

Dé…nition 2 Soit (X1 ; Y1 ) et (X2 ; Y2 ) deux vecteurs aléatoires continus i.i.d. On dé…nit
le tau de Kendall par :

= P [(X1 X2 ) (Y1 Y2 ) > 0] P [(X1 X2 ) (Y1 Y2 ) < 0] ; (2.6)

que l’on peut également réécrire de la manière suivante :

= 2P [(X1 X2 ) (Y1 Y2 ) > 0] 1: (2.7)


2. La Régression Linéaire Simple 28

C’est la di¤érence entre la probabilité de concordance et celle de la discordance.


Pour une série de n observations bivariées le tau de Kendall peut s’exprimer en
fonction des observations sous la forme :
2 XX
= sign(xi xk )(yi yk ) (2.8)
n(n 1) i k

où sign(z) = 1 si z 0 et sign(z) = 1 sinon.


Le tau de Kendall constitue une mesure de corrélation entre les rangs des observations
qui sont invariants par transformations croissantes.

Remarque 3 Pour une série de n observations bivariées le tau de Kendall se dé…nit


aussi comme la di¤érence entre la proportion de couples concordants et la proportion de
couples discordants, soit
P
n(n 1)
n(n 1)
2 2
P 4P
= n(n 1) n(n 1)
= 1; (2.9)
n(n 1)
2 2

P étant le nombre de paires concordantes. S’il y a concordance parfaite, c’est-à-dire s’il y


a concordance pour chacun de ces couples, le nombre P de paires concordantes est n(n2 1)
et on a bien : n(n4P 1) 1 = 2 1 = 1 .

4P
S’il y a discordance totale, P = 0 et on a bien n(n 1)
1= 1.

c) Le rhô de Spearman

En statistique, la corrélation de Spearman est généralement étudiée lorsque deux


variables statistiques semblent correlées sans que la relation entre les deux variables soit
de type a¢ ne. Elle consiste à trouver un coe¢ cient de corrélation, non pas entre les
valeurs exactes prises par les deux variables mais entre les rangs de ces valeurs. Elle est
utilisée lorsque les distributions des variables sont asymétriques (skew en anglais). Elle
permet de repérer des corrélations monotones.

Dé…nition 4 Soit (X1 ; Y1 ), (X2 ; Y2 ), (X3 ; Y3 ) trois couples indépendants de variables


aléatoires de même loi F .On appelle rhô de Spearman la quantité :

s= 3 [P [(X1 Y1 ) (X2 Y3 ) > 0] P [(X1 Y1 ) (X2 Y3 ) > 0]] ; (2.10)

que l’on peut aussi réécrire :

s = 6P [(X1 Y1 ) (X2 Y3 ) > 0] 3 : (2.11)


2. La Régression Linéaire Simple 29

Autrement dit, le rhô de Spearman de deux variables aléatoires X et Y de fonctions


de répartitions respectives F et G est égal au coe¢ cient de corrélation des variables
F (X) et F (Y ) distribuées selon la loi uniforme sur [0; 1] :

s (X; Y ) = (F (X); F (Y )): (2.12)

Statistiquement, pour un échantillon (x1 ; y1 ) ; (x2 ; y2 ) ; :::; (xn ; yn ) de réalisations d’un


couple (X; Y ) de variables aléatoires, on a :
Pn Pn
i=1 j=1 Ri R Sj S
s =s s (2.13)
2 2
Pn Pn
i=1 Ri R j=1 Sj S

P P
où Ri = nk=1 1fxk xi g est le rang de xi ; Sj = nk=1 1fyk yi g celui de yi , R et S en sont
les moyennes respectives.
Les coe¢ cients de corrélation sont des indicateurs statistiques permettant de mesurer
la dépendance entre variables aléatoires. Cependant, ils ne donnent pas d’information
sur la structure de cette dépendance. C’est pourquoi nous avons recours à la copule qui
est un outil relativement innovant de modélisation de la structure de dépendance de
plusieurs variables aléatoires. La connaissance de cet outil statistique est essentielle à
l’appréhension de nombreux domaines d’application de la …nance quantitative, notam-
ment dans la mesure des risques …nanciers que nous aborderons plus tard dans le chapitre
4. Ainsi, à chaque fois qu’il est nécessaire de modéliser une structure de dépendance de
plusieurs variables aléatoires, nous pouvons faire appel aux copules.

2.5.2 Test dans le modèle linéaire Gaussien


(voir cours de Beyi)

2.5.3 Test de nullité à l’origine


Objectif
Comme le coe¢ cient a, la variable aléatoire ^b suit aussi une loi normale d’espérance
égale à b, ordonnée à l’origine de la droite de régression y(x) = ax + b,

^b 2 1 x2
@ b; + Pn :
n i=1 (xi x)2
Hypothèses
En procédant comme précédemment, on peut tester les hypothèses suivantes,
(
H0 : b = 0, la droite passe par l’origine
; test bilatéral
H1 : a 6= 0, la droite ne passe pas par l’origine
2. La Régression Linéaire Simple 30

s
^b 1 x2
b P
+ n
n i=1 (xi x)2
Il en découle que : Tn 2 ; Student à n-2 degré de
^
liberté où ^ étant l’estimateur sans biais de : s
2
^b 1 + Pn x
n i=1 (xi x)2
Par conséquent, sous H0 ; la valeur calculée de la statistique est tcal = :
^
Décision
On prend une décision classique. Ou en passant par les intervalles de con…ance,
S
- Si a
^ 2 IC (a) =] 1; tn 2;1 =2 [ ]tn 2;1 =2 ; 1[ alors on rejette H 0
- Sinon on accepte l’hypothèse H 0

2.5.4 Test de comparaison de deux échantillons


a) Comparaison des ordonnées à l’origine
Soit deux groupes d’individus, sur lesquels ont été mesurées les valeurs de deux va-
riables Y et X : n1 individus pour le premier groupe, et n2 pour le second
Objectif : chercher à savoir si lesdeux droites ont la même pente ou pas.

Hypothèses
(
H0 : a1 = a2 ; même pente
, test bilatéral sur la pente
H1 : a1 6= a2 ; pas même pente

Les variable aléatoires a1 et a2 suivent chacune une loi normale telle que :
2
9
>
>
a
^1 N a1 ; Pn 2 = 2
(x
i=1 i x) Sous H0
2 =) a ^ N a; Pn
>
> i=1 (xi x)2
a
^2 N a2 ; Pn ;
i=1 (xi x)2
pPn
a^ a (^
a a) i=1 (xi x)2
Il en découle que : N (0; 1). En particulier
pPn ^
(x x) 2
i=1 i
Tn 2

2.6 Généralisation aux modèles non linéaires


De nombreux modèles se ramènent facilement au modèle linéaire par des transfor-
mations simples. Ainsi le modèle Y = X ; très utilisé en économétrie, devient li-
néaire en passant au logarithme. En e¤et, en posant Y 0 = ln(Y ); X 0 = ln(X) on ob-
tient Y 0 = ln( ) + X 0 . Il en va de même pour le modèle à croissance exponentielle :
2. La Régression Linéaire Simple 31

exp( + X)
Y = exp( X) ou encore le modèle logistique Y 0 = 1+exp( + X)
, qui rend compte des
variations d’un taux de réponse 0 Y 1 en fonction d’une excitation X.
Cependant ce n’est pas toujours possible ou aussi évident. Par exemple, le modèle
Y = + X + X 2 est linéaire mais est à deux variables explicatives : Si on pose
Z = X 2 on obtient Y = + X + Z c’est de la régression multiple.

2.6.1 Régression orthogonale


Si les erreurs sur X et sur Y sont de même ordre de grandeur, alors il est plus pertinent
d’e¤ectuer une « régression orthogonale » ou « régression géométrique » : pour chaque
point expérimental i, l’erreur di considérée est la distance du point à la droite modèle,
c’est-à-dire la distance prise perpendiculairement à la droite — d’où le terme orthogonal.
On considère toujours la méthode des "moindres carrés totaux" (MCT).
Graphique ( p
P 2 ^= C C2 + 1
On pose S = di : Dans ce cas,
^ = y ^x
La droite de régression passe encore par le point moyen du nuage statistique. Par
conséquent,
P P P P
1 ( yi2 ny 2 ) ( yi2 ny 2 ) (xi x)2 (yi y)2
C= P = P
2 nxy xi y 2 (xi x) (yi y)

Si l’on impose = 0, il vient que


P 2 qP P
2 P P
1 ( yi x2i ) ( (yi2 x2i )) + 4 ( xi yi )2 (xi x)2 (yi y)2
C= P = P
2 2 xi yi 2 (xi x) (yi y)

2.6.2 Régression curvilineaire

Dé…nititon : On appelle courbes de régression, et on quali…e de curvilinéaires, ou


parfois de non linéaires, les régressions dont la forme n’est pas une droite.

Régressions se ramenant au cas linéaire

Certains types de régression curvilinéaire peuvent être facilement convertis en régres-


sion linéaire, par des changements ou transformations de variables.
Ajustement exponentiel Y = B:AX
Lorsque pour un couple de variables (X,Y), les xi et les yi sont toutes en progression
arithmétique ou sensiblement, il est fortement conseillé d’utiliser un ajustement de type
exponentiel : Y = B:AX où A et B sont des constantes réelles positives.
2. La Régression Linéaire Simple 32

Linéarisation : Y = B:AX () ln Y = X ln A + ln B soit y = aX + b où


y = ln Y ; a = ln A; b = ln B : La méthode des moindres carrés permet d’obtenir :
cov (y; Y )
a= et b = y aX:
V (X)
Ajustement puissance Y = BX a
Lorsque pour une série (X,Y) les xi sont en progression arithmétique et les yi en
progression géométrique ou sensiblement, alors il est fortement conseillé d’utiliser un
ajustement de type puissance Y = BX a où a et B sont des constantes réelles positives.
Linéarisation : Y = BX a () ln Y = a ln X + ln B soit y = ax + b ou y =
cov (x; y)
ln Y ; x = ln X; b = ln B : D’après la méthode des moindres carrés, on a ; a = et
V (x)
b = y ax
D’autres types de régression curvilinéaire, telle que la r egression quadratique ou,
d’une mani ere plus g en erale, la r egression polynomiale :
y = a + b1 x + b2 x2 ou y = a + b1 x + b2 x2 + bp xp,
n ecessitent le recours a la r egression multiple, dont il sera question au paragraphe
3.
Les variables x , x2 , . . . sont alors consid er ees comme etant deux ou plusieurs
variables explicatives, qui pourraient tout aussi bien ^etre d esign ees par x1 , x2 , . . .
(x1 au lieu de x , x2
au lieu de x2 , . . .). Plus généralement on obtient le tableau suivant

Modèles Linéarisations
linéaire : Y = ax + b _
Exponentielle : Y = B:Ax ln Y = X ln A + ln B () y = aX + b
Puissance ou log-linéaire : Y = BX a ln Y = a ln X + ln B () y = ax + b
logarithmique : Y = aX + b
Hyperbolique : Y = x ax0 + y0 ?Y = a
x x0
+ y0
ymax ymin
logistique : Y = ymin + 1+exp(ax+b) aX + b
Parabolique : Y = ax2 + bx + c : Y = ax2 + bx + c
Modèle linéaire : Y = aX + b
Chapitre 3

Le modèle de régression multiple

3.1 La formulation du modèle


3.1.1 Le modèle théoriqueet exemples
La régression linéaire multivarié (RLM) est une généralisation à plusieurs variables
explicatives de la régression linéaire simple (RLS). Dans le cas multivariée, on cherche
à expliquer, avec le plus de précision possible, les valeurs prises par une variable endo-
gène Yi (variable expliquée, de réaction, dépendante, régressante) à l’aide de p variables
exogènes Xj ; j = 1; :::; p (variables explicatives, de contrôle, indépendante, régresseuse).
Alors pour chaque observation i l’équation de la régression s’écrit :

yi = a0 + a1 xi;1 + a2 xi2 + ::: + ap 1 xip 1 + ap xip + "i (3.1)

Les i = 1; 2; ::::; n correspondent à l’ordre (numéro) des observations


yi est la ie composante du vecteur des observations Y.
xij est la ie observation du j e vecteur explicatif Xj .
Les a0 ; a1 ; :::; ap sont les p+1 paramètres à estimer (coe¢ cients à déterminer) à partir
des n observations
"i est l’erreur du modèle résumant les informations manquantes dans l’explication
linéaire des variables yi .
Quelques exemples de modèles de RLM
Exemple 1 On e¤ectue 20 relevés pour expliquer la demande totale en élec-
tricité y à partir de la demande extérieure x1 et de l’heure à laquelle les
données sont prélevées x2 . Ainsi, pour chacune des observations (relevés) i ;
on obtient le modèle suivant :

yi = a0 + a1 xi1 + a2 xi2 + "i ou i = 0; 1; :::; 20: (3.2)


1
Master MAIME 2014-2015 Cours d’Econométrie Pr D. Barro UFR-SEG, U.O2

33
3. Le modèle de régression multiple 34

Exemple 2 On souhaite expliquer la consommation des véhicules (litres/km)


à partir de trois paramètres exogènes : la cylindrée du véhicule (taille du
cylindre en mètres cubes), la puissance du moteur (en kw) et le poids total
(en kilogramme). Si l’on dispose de 28 observations alors le modèle associé
est

yi = a0 + a1 xi1 + a2 xi2 + a1 xi1 + a3 xi3 + "i ou i = 1; :::; 28: (3.3)

Exemple 3 On dispose de 60 observations à partir d’un échantillon de


travailleurs. On compte expliquer les salaire à l’aide de trois (3) variables :
l’éducation (niveau d’inscription, diplômes), l’expérience et le secteur d’acti-
vité. Le modèle économétrique associé est

Salai re = a0 + a1 Education + a2 Experience + a3 Secteur + " (3.4)

Exemple 4 Le modèle économétrique du crime

y = f (x1 ; x2 ; :::x7 )
y = nombre d’heures passées dans les activités criminelles
x1 = salaire pour une heure passée dans une activité criminelle
x2 = salaire pour une heure passée dans une activité normale
x3 = autre revenu (que les activités criminelles et légales)

x4 = probabilité d’être attrapé
x5 = probabilité d’être reconnu coupable si attrapé
x6 = sentance si attrapé et reconnu coupable
x7 = âge
L’équation de régression associée à ce modèle est

yi = a0 + a1 xi1 + a2 xi2 + ::: + a7 xi7 + +"i ou i = 1; 2; :::; 7: (3.5)

3.1.2 La formulation matricielle du modèle


En tenant compte de toutes les n observations de l’échantillon, l’équation (3.1) ci-
dessus donne le système suivant :
8
>
> y1 = a0 +a1 x11 +a2 x12 :::: +aj x1j :::: ap x1p + "1
>
>
>
> y2 = a0 +a1 x21 +a2 x22 :::: +aj x2j :::: ap x2p + "2
>
>
>
< ... .. .. .. .. .. .. .. .. ..
. . . . . . . . .
>
> yi = a0 +a1 xi1 +a2 xi2 :::: +aj xij :::: ap xip + "i
>
>
>
> .. .. .. .. .. .. .. .. .. ..
>
> . . . . . . . . . .
>
:
yn = a0 +a1 xn1 +a2 xn2 :::: +aj xin :::: ap xnp + "n
3. Le modèle de régression multiple 35

On peut réécrire ce système sous la forme matricielle suivante


0 1 0 1 0 1 0 1
y1 1 x11 x12 :::: x1j :::: x1p a0 "1
B C B C B C B C
B y2 C B 1 x21 x22 :::: x2j :::: x2p C B a1 C B "2 C
B . C B . .. .. .. .. .. .. C B .. C B .. C
B .. C B .. . . . . . . C B . C B . C
B C B C B C B C
B C=B C B C+B C
B yi C B 1 xi1 xi2 :::: xij :::: xip C B aj C B "i C
B C B C B C B C
B .. C B .. .. .. .. .. .. C B .. C B .. C
@ . A @ . . . . . . A @ . A @ . A
yn 1 xn1 xn2 :::: x1 :::: xnp ap "n
| {z } | {z } | {z } | {z }
Y= X a +"

D’où le modèle matriciel :


Y = Xa + "
Y est la matrice (vecteur) expliquéée de dimension (n,1)
X est la matrice explicative de dimension (p+1,1)
ou a est la matrice (vecteur) des coe¢ cients de dimension (n,p+1)
" est la matrice (vecteur) des residus de dimension (n,1)
les a ij sont les coe¢ cients du système, les xi les inconnues et les bi les termes constants.

3.1.3 Etapes du processus de modélisation linéaire


Dans la RLM, le problème reste le même que dans le cas simple. Le processus de
modélisation obéît essentiellement aux étapes suivantes.
1. Estimer les coe¢ cients les coe¢ cients a0 ; a1 ; ::; ap à partir d’un échantillon d’obser-
vations (généralement estimation par la méthode des MCO)
2. Evaluer la précision de ces estimations (biais, convergence, variance des estima-
teurs)
3. Mesurer le pouvoir explicatif du modèle dans sa globalité (tableau d’analyse de la
variance)
4. Tester la réalité de la relation entre Y et les xi (test global sur la régression)
5. Tester l’apport marginal de chaque variable exogène dans l’explication de y (tester
la signi…cativité de chaque coe¢ cient)
6. Tester l’apport d’un groupe de variables explicatives (signi…cativité d’un groupe
de coe¢ cients)
7. Pour un nouvel individu i (au délà des n observations) pour lequel on fournit
la description (xi 1 , . . . , xi p ), calculer la valeur prédite y^i et la fourchette de
prédiction.
8. Interpréter les résultats en mettant en avant notamment l’impact des exogènes sur
l’endogène (interprétation des coe¢ cients, analyse structurelle).
1
Master MAIME 2014-2015 Pr D. Barro UFR-SEG, U.O2 Cours d’Econométrie
3. Le modèle de régression multiple 36

3.1.4 Hypothèses
Comme dans la RLS, les hyptohèses permettent de déterminer les propriétés des
estimateurs (avec ou sans biais, convergence) et les lois de distribution (loi de Student
pour chaque coe¢ cient pris individuellement et loi de Fisher dès que l’on traite d’un
groupe de coe¢ cients). En particulier, On distingue deux types d’hypothèses.

a) Hypothèses stochastiques

Les hypothèses stochastiques

Hypothèses Commentaires
(H1 ) Xj non aléatoires Xj non aléatoires Observées sans erreurs.
Espérance des erreurs En moyenne le modèle
(H2 ) E ("i ) = 0
(perturbations) nulle est bien spéci…é
E ("2i ) = 0
(H3 ) Variance constante contexte d’homoscédasticité
() V ("i ) = 0
non auto-corrélation E (X t ") = 0 Les erreurs sont indépendantes
(H4 )
des erreurs () cov (xi ; "i ) = 0 des variables explicatives
indépendantes des
(H5 ) Non corrélation des erreurs E ("i "j ) = 0 si i 6= j.
variables explicatives
(H6 ) Normalité des erreurs "j N (0; ) ;

(H1 ) : Les Xj sont non aléatoires (variables certaines) c’est à dire que les xij sont
observées sans erreurs.
(H2 ) : E ("i ) = 0 i.e l’espérance de l’erreur (perturbations) est nulle. En moyenne le
modèle est bien spéci…é. Autrement dit, l’ensemble des déterminants
(H3 ) : E ("2i ) = V ("j ) = 2
; la variance des est constante (contexte d’homoscédasti-
cité)
(H4) : E ("i "j ) = 0 si i 6= j. Les erreurs sont indépendantes des variables explicatives
(hypothèses de non auto-corrélation des erreurs). (H4) () cov ("i ; "j ) = 0
(H5 ) : E (X t ") = 0 () cov (xi ; "i ) = 0: Les erreurs sont indépendantes (non-
corrélation des erreurs) des variables explicatives.
(H6 ) : normalité des erreurs. En particulier, le résultat suivant est une conséquence
immédiate des hypothèses 3 et 4.

Théorème 2.1 : Sous les (H3 ) et (H4 ) la matrice des variance-covariance des
erreurs est donnée par E ("t ") = 2 In où I n est la matrice unitaire d’ordre n.
3. Le modèle de régression multiple 37

0 1 0 1
"1 "21 "1 "2 :::: "1 "2
B C B C
B "2 C B "2 "1 "22 :::: "1 "2 C
Preuve. En e¤et, " " = B
t
B .. C
C "1; "2 ; ...,"n =B
B .. .. ... .. C
C
@ . A @ . . . A
"n "n "1 "n "2 :::: "2n
0 1 0 1
2
0 :::: 0 1 0 :::: 0
B 2 C B C
B 0 :::: 0 C B 0 1 :::: 0 C
=) E " " = B
t
B .. .. .. .. C=
C
2B
B .. .. .. .. C
C = In
2

@ . . . . A @ . . . . A
2
0 0 :::: 0 0 :::: 1

La matrice V (") = E ("t ") est dite scalaire

b) Hypothèses structurelles

Trois hypothèses permettent de dé…nir la structure du modèle.


1
(H7 ) : La matrice (X t X) est régulière i.e det (X t X) 6= 0 ou encore (X t X) existe.
C’est l’hypothèse de non-colinéarité entre les variables exogènes. Cette hypothèse
correspond aussi à : rang(X) = p + 1 est rang(X t X) = p + 1:
(H8 ) : La matrice (X t X) =n tend vers une matrice non singulière lorsque n ! +1:
Cela signi…e que les valeurs de X dans l’échantillon ne peuvent pas augmenter ou
diminuer indé…niment lorsque la taille de l’échantillon augmente.
(H9 ) : La matrice des X n’est pas stochastique et le modèle des phénomènes exprimés
par Y est conditionnée aux réalisations de X observées dans l’échantillon.
Remarque
Les conséquences de la violation des certaines hypothèses (hétéroscédasticité, auto-
corrélation) font d’autres études.

3.2 Estimateurs des moindres carrés ordinaires


Cette section traite des propriétés des estimateurs des moindres carrés ordinaires
(MCO) lorsque le nombre d’observations devient très grand (tend vers l’in…ni).

3.2.1 Minimisation de la somme des carrés des erreurs


Comme dans un modèle de RLS, on cherche à estimer les paramètres a0 ; a1 ; :::; ap tels
P
que la somme des carrés des errreurs S = ni=1 "2i soit minimale. Dans le cas multivarié,
on a
Xn Xn
2
2
S= "i = yi a0 + a1 xi1 + a2 xi2 + ::: + ap 1 xip 1 + ap xip
i=1 i=1
1
Master MAIME 2014-2015 Pr D. Barro UFR-SEG, U.O2 Cours d’Econométrie
3. Le modèle de régression multiple 38

On passe de nouveau par les dérivées partielles. Plus précisement, les solutions a
^0 ; a
^1 ; :::; a
^p
du problème (3.6) sont solutions du système suivant
8 8 P
>
> @S > 2 ni=1 "i = 0
>
> = 0 >
>
>
> @a >
> P
> @S0
> >
> 2 ni=1 xl1 "i = 0
>
> =0 >
> ..
>
> @a >
> .
>
> 1 >
>
>
< .. >
<
.
@S () Pn
>
> = 0 >
> 2 i=1 xij "i = 0
>
> @a >
>
>
> j >
> ..
>
> .
.. >
> .
>
> >
>
>
> >
>
>
> @S >
> P
>
: =0 :
@ap 2 ni=1 xpi "i = 0
8
>
> a0 + a1 x1 + a2 x2 + ::: + ap xp =y
>
> P P P P
>
> na0 x1 + a1 ni=1 x2i1 + a2 ni=1 xi1 xi2 + ::: + ap ni=1 xi1 xip = a2 ni=1 xi1 yi
>
>
>
< .. ..
. .
() Pn Pn Pn 2 Pn
>
> na 0 x p + a 1 x i1 x ip + a 2 x ip x i2 + ::: + a p i=1 xip = i=1 xip yi
>
> i=1 i=1
>
> .
.. ..
>
> .
>
: P P P Pn
na0 xp + a1 ni=1 xi1 xip + a2 ni=1 xip xi2 + ::: + ap ni=1 x2ip = i=1 xip yi
On passe généralement par la forme matricielle. En particulier, soit " = ("1 ; :::; "n ) on
P
a : ni=1 "2i = "t " où " = Y Xa: Par conséquent, l’équation (3.6) s’écrit matriciellement

S = (Y Xa)t (Y Xa) (3.6)

Propriété 3.1 (Rappels sur les propriétés fondamentales de la transposition matricielle


(A + B)t = At + B t
(A:B)t = B t :At
(A:B:C)t = C t :B t :At
t
(At :B:C) = C t :B t :A

Application
La relation (3.7) s’écrit :
t
S = (Y Xa)t (Y Xa) = Y t at X t (Y Xa) =Y t Y Y t aX Y t Xa + (Xa)t Xa
=) S = Y t Y 2Y t Xa + at X t Xa

Lemme 3.1 (Propriétés des dérivées matricielles)


@ (X t C)
i) Soient X et C deux matrices de dim (p,1) alors =C
@X t
@ (X SX)
ii) Si S est une matrice symétrique de dim(p,p), alors = 2SX
@X
1
Master MAIME 2014-2015 Pr D. Barro UFR-SEG, U.O2 Cours d’Econométrie
3. Le modèle de régression multiple 39

0
1
c1
B . C P p @ (X t C)
Preuve. i) X t C = (x1 ; :::; xp ) B
@
.. C = xi ci =)
A i=1 = ci
@xi
cp
0 1
@ (X t C)
0 1
B @x1 C c1
B .. C
B . C B . C
B C B .. C
@ (X t C) B B @ (X t
C) C B
C B
C
C
=) =B C = B ci C = C
@X B @xi C B . C
B .. C B .. C
B . C @ A
B C
@ @ (X C) A t cp
@xp
0 Pp 1
0 10 1 0 1 xs
s11 s12 ::: s1p x1 x1 s11 x2 s12 ::: xp s1p B i=1 i 1i C
B .. C
B . .. .. .. C B . C B . .. .. .. C B . C
B .. . . . C B . C B .. C B C
B CB . C B . . . C B Pp C
B CB C B C B C
ii) SX = B si1 si2 ::: sip C B xi C=B x1 si1 si2 ::: xp sip C=B xi sji C
B . .. .. .. C B . C B . .. .. .. C B i=1 C
B .. . C B C B .. C B C
@ . . A @ .. A @ . . . A B ..
. C
B C
s11 s12 ::: s1p xp x1 s11 x2 s12 ::: xp s1p @ Pp A
xi spi
i=1
0 Pp 1
xs
B i=1 i 1i C
B .. C
B . C
B C
B Pp C
B C
=) X t SX = (x1 ; x2 ; :::; xp ) B xi sji C
B i=1 C
B .. C
B . C
B C
@ Pp A
xi spi
i=1
p p p 1
X X X
t
=) X SX = x211 s11 + x1 xi s1i + x22 s22 + x2 xi s2i + ::: + x2p spp + xp xi spi
i=1 i=1;i6=2 i=1
p
X XX
t
=) X SX = x2i sii + xi xj sij ou i; j = 1; :::; p:
i=1 i6=j

@X SX t X
=) = 2xi sii + 2 xi sij
@xi i6=j
0 P
p 1
2x1 s11 + 2 xi si1 0 10 1
B i=2 C s11 s12 :::: s1p x1
B .. C
B . C B .. .. .. .. C B . C
B C B . . . . C B . C
t
@X SX B B P
p C B CB . C
C B CB C
=) = B 2xi sii + 2 xi sij C = 2B si1 si2 :::: sip C B xi C = 2SX
@X B i=2 C B .. .. .. .. C B . C
B C B . C B C
B ..
. C @ . . . A @ .. A
B C
@ Pp A s11 s12 :::: s1p xp
2xp spp + 2 xj spj
j=1
3. Le modèle de régression multiple 40

Propriétés 3.2
1
L’estimateur des MCO â de a est donné par ba = (X t X) (X t Y )
De plus cet estimateur est sans biais de a

Preuve. D’après l’application ci-dessus : "t " = Y t Y 2Y t Xa + at X t Xa


@"t " @ (Y t Y 2Y t Xa + at X t Xa) @ (at X t Xa)
=) = = 2Y t X +
@a @a @a
Or S = X t X est une matrice symétrique et at X t Xa = at Sa:
(lemme 3:1) @ (at X t Xa) @ (at Sa)
=) = = 2SX = 2X t Xa
@a @a
@"t "
=) = 2Y t X + 2X t Xa
@a
Condition nécessaire
@"t " 1
= 0 =) Y t X + X t Xa = 0 =) a
^ = X tX Y tX
@a
Montrons que a
^ est un estimateur sans biais i.e E (^
a) = 0
1 1 1
a
^ = X tX Y tX = X tX Y tX ? = X tX X t (Xa + ")
1 1
^ = X tX
=) a X t Xa + X t X X t"
h i
1
=) E (^
a) = E X tX X t (Xa + ")
1 1
= E a + X tX X t" = a + X tX X t E (")

Or par ailleurs, E (") = 0 d’après l’hypothèse =) E (^


a) = a:

3.2.2 Propriétés statistiques des estimateurs


a) Propriétés de l’espérance et variance

Rappels (P roprietes3:3)
1
L’estimateur des MCO â de a est donné par ba = (X t X) (X t Y )
De plus cet estimateur est sans biais de a

b) Variance
La variance de l’estimateur (plus précisément sa matrice-covariance car c’est un vec-
teur) permet d’évaluer la précision de l’estimateur.

Proposition 3.4
2 1
La variance de l’estimateur des MCO b
a de a est V (b
a) = (X t X)
1
Master MAIME 2014-2015 Pr D. Barro UFR-SEG, U.O2 Cours d’Econométrie
3. Le modèle de régression multiple 41

Preuve. La matrice de variance-covariance de b


a est du type (p + 1; p + 1). On a :
0 1
V (b a0 ) cov (b a0 b
a1 ) ::: cov (b a0 b
aj ) ::: cov (b a0 b
ap )
B . . .. .. .. .. C
B .. .. . . . . C
B C
B C
a) = B cov (b
V (b ai b
a0 ) cov (b ai b
a1 ) ... cov (b ai b
aj ) ::: cov (b ai b
ap ) C
B .. .. .. .. .. C
B .. C
@ . . . . . . A
cov (b ap b
a0 ) cov (b ap b
a1 ) :::: cov (b ap b
aj ) ::: cov (b ap b
ap )

a) est une matrice symétrique avec sur sa diagonale principale les variances
V (b
Par ailleurs et par dé…nition, on a :

V (b
a) = E (b
a a))2 i:e V (b
E (b a) = E (b
a E (b
a)) (b
a a))t
E (b
1
En considérant l’expression ci-dessus de b
a; il vient que : b
a a = (X t X) X t"
t h i
1 1 1 1
=) V (b
a) = E X tX X t" X tX X t" =E X tX X t ""t X X t X

h it
1 1
car (X t X) = (X t X) symetrie

1 1
a) = X t X
=) V (b X t XE ""t X X t X car Xj n0 est pas stochastique
1 1 1 1
a) = X t X
=) V (b X t XE ""t X X t X = E "2 X X t X = 2
X tX

car E ("2 ) = 2 In où 2 est la variance commune des erreurs et X t X la quantité


d’information apportée par X

Interprétation : La realtion (3.2) signi…e que la connaissance apportée par â est


d’autant plus précise (V (b a) petite) que la quantité d’information approtée par X est
elevée.
Remarques
Du fait de (H2 ) on a : V ("i ) = E ("2i ) (E ("i ))2 = E ("2i ) car E ("i ) = 0. Par
conséquent, cov ("i ; "j ) = E ("i "j ) E ("i ) E ("j ) = E ("i "j ) car E ("i ) = E ("j ) = 0:
Par conséquent lorsqu’il n’y apas d’autocorrélation ni hétéroscédaticité des erreurs.
On a :
0 1
2
" 0 ::: 0
B .. .. .. .. C
B . . . . C
B C
B C
a) = E ""t
V (b =B 0 2
" ... 0 C= 2
" In
B .. .. .. .. C
B . . . . C
@ A
2
0 0 :::: "
2
Dans un contexte d’hétéroscédasticité (i.e V (") 6= In ) il faut faire appel à une autre
technique de correction
3. Le modèle de régression multiple 42

c) Propriétés asymptotiques
Les propriétés ci-dessous de l’estimateur MCO sont obtenues à distance …nie c-à-d
pour un nombre …ni d’observations. En d’autres termes, quel est le comportement de
l’estimation MCO lorsque la taille de l’échantillon augmente (n ! 1) ?
* Convergence de â

Propriété 3.5
Sous les hypothèses (H6 ) et (H8 ) l’estimateur MCO est convergent
P
en probabilité i.e a
^ a:
n!1

* Convergence de ^ 2
2
Dans un modèle de RLS l’estimateur sans biais de 2
est ^ 2 = n 2
:

Propriété 3.6
ky yk2
Dans un modèle de RLM, l’estimateur sans biais de 2
est ^ 2 =
X n 2
où ky yk = (y y)2

Comme dans le cas d’une RLS, le théorème de Gauss-Markov permet d’apprécier la


^ est ^ 2
qualité des estimateurs MCO a

Théorème 3.2 (Estimateurs BLUE)


^ et ^ 2
Parmi les estimateurs sans biais , linéaires en Y, les estimateurs MCO a
sont de variance minimale (BLUE : Best Linear Unbiased Estimators).

3.2.3 Cas de normalité des erreurs


Jusqu’à présent nous n’avions fait l’hypothèse que la régression est linéaire.Nous
allons en plus faire l’hypothèse suivante : " @ (0; 2 In )
a) Lois des estimateurs dans un contexte gaussien

Propriété 3.6 (lois des estimateurs)


Sous l’hypothèse (H6 ) on a :
2 1
a
^ @ a; (X t X)
2
(n p) ^ 2 a
^ 2
n p (Loi de khi deux à n-p degré de liberté)
2
^ et ^ sont indépendantes
a

b) Estimateurs du maximum de vraisemblance


Sous l’hypothèse (H6 ) on peut également estimer les paramètres par la méthode du
maximum de vraisemblance. Le problème consiste alors à maximiser la fonction de vrai-
semblance (ou plus précisement une transformation croissante de celle-ci), par exemple
3. Le modèle de régression multiple 43

le logarithme.

Théorème 3.2
~ et ~ 2 de a et de V (a) par la méthode du maximum
Les estimateurs respectis a
1 t ~"t~"
de vraisemblance sont tels que : a~ = (X t X) X t Y et ~ 2 = (Y X~a)n(Y X~a) =
n

Preuve. Sous les hypothèses classiques du modèle, le vecteur " est gaussien i.e "
N (0; 2 In ). Par conséquent Y = Xa + " N (Xa; ? 2 In ) et donc E(Y ) = Xa et
V(Y ) = 2 In : Par ailleurs, la loi normale multivariée de vecteur moyen et de matrice
de covariance a pour densité

1 1
f (x) = p exp (x )t 1
(x ) :
(2 )n det 2

En particulier en dimension
! 2, on obtient une!!
loi normale bivariée de corrélation ;
2
1 1 1 2
X = (X1 ; X2 ) N ; 2
de densité
2 2 1 2

1 1 "21 2 "1 "2 + "22


f (x1 ; x2 ) = p exp 2
2 1 2 1 2 2 1

où pour i = 1; 2 on a : "i = xi i:
2
Soit = (a; ) le vecteur à estimer. La fonction de vraisemblance est,

2 1 1 (Y Xa)t (Y Xa)
L (y; ) = L y; a; =p n
exp 2
(2 ) det 2
n
avec ou det = ( 2 ) : Ainsi,
n n 1
ln L y; a; 2
= ln (2 ) ln 2
2
(Y Xa)t (Y Xa)
2 2 2
~ et ~ 2 sont solutions du système di¤érentiel suivant
Les estimateurs cherchés a
8 8
> @ ln L > 1
< =0 < 2 X t (Y Xa) = 0
@a =) n 1
> @ ln L > (Y Xa)t (Y Xa) = 0
: = 0 : 2
+ 2
@ 2 2 2( ) 2

8 1
< a~ = (X t X) X t Y = a ^
Par suite t
: ~ 2 = (Y X~ a) (Y X~ a) ~"t~"
=
n n

3.3 Qualité de l’ajustement Analyse de la variance


Toute estimation doit être complétée par la mise en ouvre de tests d’hypothèses. En
e¤et, les résultats obtenus sont des réalisations de variables aléatoires : ils ne renseignent
3. Le modèle de régression multiple 44

pas avec une certitude sur la valeur des coe¢ cients contribuznt à générer les réalisations
de y dans le modèle linéaire Y = Xa + ":
On peut classer les tests économétriques en deux grandes catégories : les tests de
rectrictions sur le modèle et les test de spéci…cations.1
- Les tests de rectrictions sur le modèle examinent à l’intérieur des hypothèses stchas-
tiques (de H 1 à H 5 ) s’il est possible de simpli…er le modèle soit en supprimant
des variables (signi…cativité des variables, signi…cativité globale, signi…cativité par
bloc) soit en imposant des conditions sur les coe¢ cients ( ? Stabilité des coe¢ cients
(tests de Chow)).
- Les étudiants de spéci…cation examinent la pertinence des hypothèses stochastiques ( H 1
à H 5 ). En e¤et, l’application des certians outils et techniques d’estimations (MCO)
étant conditionnée par des hypothèses, il faut chercher à les véri…er avant d’utiliser
les résultats de tels outils (tests de noramlité des résidus, test d’autocorrélation,
test d’hétéroscédasticité).

3.3.1 Tableau de l’analyse de la variance


Dans la RLS, on cherche à construire des estimateurs qui minimisent la Somme des
Carrés Résiduels (SCR) telle que :
X
n X
n
SCR = ^"2i = (yi y^i )2
i=1 i=1

En particulier, la prédiction est parfaite si SCR = 0: Plus généralement, pour mieux


juger de la qualité de la régression il faut comparer SCR à une valeur de rérérence. Pour
ce faire, considérons le résultat suivant :
Théorème (décomposition de la la régression)

Théorème 5 (Décomposition de la la régression)

Dans un modèle de RLS, la somme des carrés totale admet la décomposition suivante :
Pn P P
i=1 (yi y^i )2 = ni=1 (yi y^i )2 + ni=1 (^
yi yi )2
(3.7)
Pn
Preuve. En notant SCT = i=1 (yi yi )2 (somme des carrés totaux), on obtient la
décomposition suivante :
X
n
SCT = (yi y^i + y^i yi )2
i=1
X
n X
n X
n
2 2
= (yi y^i ) + (^
yi yi ) + 2 (yi y^i ) (^
yi yi )
i=1 i=1 i=1

1
U.A.M FAST Master 2 de Maths 2015 Statistique des Modèles Linéaires Pr D. BARRO
3. Le modèle de régression multiple 45

Pn P
Or i=1 yi yi ) = ni=1 a^"i (xi x) = 0 car cov("; xi ) = 0:
(yi y^i ) (^
Par conséquent, on obtient le résultat suivant
d’où : SCT = SCE + SCR
La relation est dite équation d’analyse de la variance
SCT indique la variabilité totale de Y c.-à-d. l’information disponible dans les don-
nées.
SCE traduit la variabilité expliquée par le modèle c.-à-d. la variation de Y expliquée
par X.
SCR indique la variabilité non-expliquée (résiduelle) par le modèle c.-à-d. l’écart entre
les valeurs observées de Y et celles prédites par le modèle.
Remarques :
Deux situations extrêmes peuvent survenir
! Meilleur des cas :SCR = 0. Dans ce cas la prévision est parfaite, le nuage statis-
tique présente des points alignés, Y est complètement expliqué par les x.
! Pire des cas : SCE = 0. Mauvaise prévision, X n’apporte aucune information le
dans la description de Y.
Le tableau d’analyse de la variance est

Source de variation Somme de carrés


P
Expliquée SCE = ni=1 (yi y^i )2
P
Résiduelle SCR = ni=1 (^
yi yi )2
Pn
Totale SCT = i=1 (yi y^i )2

3.3.2 Le coe¢ cient de détermination2


À partir du théorème (2.2), on peut construire un estimateur de la capacité de la
variable explicative à déterminer le niveau de la variable dépendante. Cet indicateur
synthétique et le coe¢ cient de détermination R2 :

Dé…nition 6 Dans le modèle de RLS, on appelle coe¢ cient de détermination de la


régression, le nombre R2 dé…ni par :
Pn
2 SCE (yi y^i )2
R = = Pi=1
n
SCT i=1 (yi y^i )2
Remarques
SCR
* On établit que R2 = 1
SCT
* Le rapport R2 mesure de la capacité des variables explicatives à faire varier, par leurs
propres variations, la variable endogène Y. C’est la proportion de Y expliquée par
X.
2
U.A.M FAST Master 2 de Maths 2015 Statistique des Modèles Linéaires Pr D. BARRO
3. Le modèle de régression multiple 46

* On véri…e que 0 R2 1: En particulier


- si R = 0 =)

T ableau des mod eles avec le log iciel R


Syntaxe dans R Modèle Commentaires
Y ~X Y = a0 + a1 X
Y ~X1 + X2
Y ~X
Y ~X
Y ~X
Y ~X
Y ~X

3.4 Prévisions statistiques


Un des objectifs de la RL est de proposer des prévisions aux variables expliquées Y
(Point 7 des di¤érentes étapes de la modélisation linéaire).
Soit Xn+1 une nouvelle valeur de X, (au délà des n observations). On souhaite prédire
y^n+1 et donner une fourchette de prédiction. En dimension multiple, sous les hypothèses
(H1 ) ; :::; (H4 ) on a :

yi = a0 + a1 xi1 + a2 xi2 + ::: + ap 1 xip 1 + ap xip + "i ou i = 1; ::; n


=) yi = xi a + "i ou at = (a0 ; a1 ; :::; ap ) et xi = xi1 ; :::; xip

Le problème consiste à prévoir la valeur de yn+1 étant données les valeurs xn+1 =
(1; xn+1;1 ; :::; xn+1;p ) : Ainsi, on obtient yn+1 = xn+1 a + "n+1
E ("n+1 ) = 0
Et comme pour le modèle de RLS, on a : V ("n+1 ) = 2 .
"n+1 est indépendante des "i
En particulier si les valeurs des variables explicatives X(n+1) sont connues en (n + 1)
points, alors la prévision Y^n+1 = Yn+1 est telle que

: Y^n+1 = Xn+1 a
^ + ^"n+1

où â est l’estimateur des MCO de a obtenu à partir des n observations de xi :


Remarque
Pour la méthode des MCO on a : ^"n+1 = 0 d’où Yn+1 = Xn+1 a ^:
Dans ce cas l’erreur de prévision est : e^n+1 = Yn+1 Y^n+1 :
Problème : quelles sont les propriétés statistiques de e^n+1 ?
Espérance E (^ en+1 )
3. Le modèle de régression multiple 47

E (^
en+1 ) = E (xn+1 (^
a a))+E (^"n+1 ) = xn+1 E (^
a a)+E (^"n+1 ) = 0 =) E (^
en+1 ) =
0
Conclusion : Le prédicteur Yn+1 est sans biais.
Variance V(^ en+1 )

V (^
en+1 ) = V (xn+1 (^
a a) + ^"n+1 ) = V (xn+1 (^
a a) + ^"n+1 )
(
1
1 ^ = (X t X) X t Y avecY = Xa + "
a
= V xn+1 X t X X t " + "n+1 en e¤et : 1
^ a = (X t X) X t "
a
h i2
1
= xn+1 X t X Xt V (") + V ("n+1 ) car cov ("i ; "n+1 ) = 0
h i2
1
= xn+1 X t X Xt 2
+ 2

h i2
2 1
= 1 + xn+1 X t X Xt

h i2
2 t 1 t
=) V (^
en+1 ) = 1 + xn+1 (X X) X :

Conclusion Sous les hypothèses de normalité de " et de "n+1 ; l’erreur de


h i2
1
prévision suit une loi normale i.e e^n+1 N 0; 2 1 + xn+1 (X t X) X t

Conséquence (Intervalle de con…ance de prévision).


Pour un risque …xé, on détermine l’intervalle de con…ance de prévision
q
2
^
de prévision : par Yn+1 2 Yn+1 tn+1 1 2 1 + xn+1 (X t X) 1 X t
Chapitre 4

Tests d’hypothèses économétriques


du modèle linéaire

48
Chapitre 5

Violation des hypothèses

5.1 Section3 : les conséquences de la violation des

hypothèses d’homoscédasticité et d’indépendance


sérielle.
3.1. La remise en cause de l’hypothèse V (e ) =s 2 : l’hétéroscédasticité
L’hypothèse d’homoscédasticité suppose une homogénéité des comportements entre
les
di¤érentes observations dans l’échantillon. Dans le cas contraire, cela conduit à une
Cours_économétrie1_M1_économie_appliquée_ISGO_2013_2014
19
spéci…cation de la variance de la perturbation stochastique di¤érente de l’hypothèse
3. en
e¤et, les variances des écarts aléatoires ne sont plus identiques pour chaque point
d’observation (hétéroscédasticité).
3.1.1. Dé…nition
Le modèle hétéroscédastique "classique" suppose que les dispersions des perturba-
tions
individuelles ne sont pas identiques. C’est-à-dire que la variance connait une large
variation
dans le temps. Cela peut être le cas par exemple lorsque l’on s’intéresse à des groupes
dont les
caractéristiques sont très di¤érentes (propension à consommer selon la catégorie socio
professionnelle par exemple).
L’hétéroscédasticité quali…e des données qui n’ont pas une variance constante, i.e.
V (e ) 1 s 2 . L’hétéroscédasticité ne biaise pas l’estimation des coe¢ cients, mais
l’inférence habituelle n’est plus valide puisque les écarts-types trouvés ne sont pas les
bons.

49
5. Violation des hypothèses 50

L’hétéroscédasticité est une situation rencontrée fréquemment dans les données, il est
donc
important de savoir la détecter et la corriger.
3.1.2. Les sources usuelles du problème
Variables explicatives inobservées de variance di¤érentes pour certains groupes (dé-
…nis par
des variables observées)
ex. : - productivité inobservée par niveaux d’éducation
- qualité inobservée d’un bien par niveau de prix
- déterminants sociologiques du taux d’épargne par niveau de revenu
Exemple : Modèle de la part du revenu disponible dépensé en loisirs.
Les familles à faibles revenus dépensent relativement peu en loisirs. Les variations de
ces
dépenses entre ces familles sont donc faibles.
Pour les familles avec des revenus importants, le montant moyen relatif dépensé en
loisirs
sera plus élevé, mais il y aura une plus grande variabilité entre de telles familles.
Observations représentant des moyennes sur des sous-groupes d’individus.
Cours_économétrie1_M1_économie_appliquée_ISGO_2013_2014
20
Répétition d’une même valeur de la variable à expliquer pour des valeurs di¤érentes
d’une
variable explicative (ex : regroupement en tranches pour le revenu, etc.).
3.1.3. Hétéroscédasticité et estimation par les moindres carrés généralisés
La violation de l’hypothèse d’homoscédasticité conduit à redé…nir la matrice de va-
riance
covariance des perturbations. Elle devient non scalaire puisqu’elle n’est plus dé…nie
par le
produit de la matrice identité et d’un scalaire :
Les termes non nuls en dehors de la diagonale manifestent la présence d’autocorrél-
lation et
les termes di¤érents sur la diagonale indiquent la présence d’hétéroscédasticité.
Dans ce cas, les MCO n’étant plus à variance minimale, la méthode des moindres
carrés
généralisés (MCG) fournit un estimateur e¢ cace.
Le principe des MCG est le suivant :
On transforme le modèle de base en le multipliant par une matrice P de dimension
(NXN)
PY = PXb + Pe
5. Violation des hypothèses 51

La matrice P est telle que : PWP’ = I. il est à noter : P’(PWP’) P = P’P d’où il
vient que
P’P = W-1. Cette transformation permet de se ramener à des écarts aléatoires qui
sont
homoscédastiques et sériellement indépendants. La forme de P dépend du problème
à traiter,
par exemple, dans le cas de l’hétéroscédasticité, la matrice P s’écrit :
Cours_économétrie1_M1_économie_appliquée_ISGO_2013_2014
b
-
--
---
=
==W
=WW
L’estimateur des moindres carrés généralisés est également connu sous le nom d’esti-
mateur
d’Aitken. on voit qu’il est di¤érent de l’estimateur des MCO, lequel utilise la matrice
identité
I comme « matrice de pondération » au lieu de W-1 .
3.1.4. propriétés de l’estimateur des moindres carrés généralisés
Si ( ) * * * * E e / X = 0 (avece = Pe ; X = PX ) , alors
( ) ( ) ( ) ’1 ’’1 ’
***********
Eb /XEXXXY/XbEXXXe/Xb= - =+ - =
où * Y = PY
l’estimateur b est sans biais.
l’estimateur des MCG est convergent si ( ) ’
* * * p lim 1 n X X = Q , où * Q est une matrice …nie
dé…nie positive.
L’estimateur MCG est de distribution asymptotique normale, de moyenne b et de
variance
( ) ( ) ( ) 2 ’1 2 1 1
***
Var b / X s X X s X ’X = - = W- -
L’estimateur MCG b est l’estimateur linéaire sans biais de variance minimale pour
la
régression généralisée, en vertu du théorème de Gauss-Markov. Il est le meilleur
estimateur
Cours_économétrie1_M1_économie_appliquée_ISGO_2013_2014
5. Violation des hypothèses 52

22
linéaire sans biais (théorème d’Aitken). le théorème d’Aitken (1935) inclut le théorème
de
Gauss-Markov comme cas particulier lorsque W = I
Dans la pratique, le principal problème rencontré concerne la connaissance de la
matriceW.
En e¤et, l’estimateur MCG n’est pas opérationnel puisqueW est généralement incon-
nue. La
procédure d’estimation, dans ce cas, comporte deux étapes. Dans un 1er temps, on
calcule W
par les MCO et dans 2ème temps, on applique les MCO sur les données transformées
en rem
plaçant W par W :
()1
’ 1 ’ 1 mcqg b X X X Y
---=WW
Cet estimateur est connu sous le nom d’estimateur des moindres carrés quasi-généralisés
(Feasible Generalized Least Square), MCQG. Les MCQG, comme tout estimateur en
deux
étapes, sont potentiellement biaisés. Ils sont Cependant convergents.
3.2. Remise en cause de l’hypothèse E (e ) = 0 : les résidus sont autocorrélés.
3.2.1. Dé…nition :
L’autocorrélation est la présence de corrélation entre les termes de perturbations. Ce
cas est
fréquent avec des séries temporelles. Par exemple, si l’on s’intéresse aux évolutions
du salaire
d’un même individu au cours de sa carrière, il est di¢ cile de croire que les termes
d’erreur,
qui sont lié aux déterminants non observés du salaire, ne sont pas corrélés entre eux
au cours
du temps. Un "choc" sera vraisemblablement persistant : on parlera alors d’autocor-
rélation
Bibliographie
Bourbonnais R. 2000. Econométrie. Manuel et exercices corrigés. 3e édition.
Bourbonnais R. 2008. Exercices pédagogiques d’économétrie. Economica Green W.
2005. Econométrie. 5e édition
Phillippe Tassi : méthodes statistiques
Claudio Araujo, Jean-François Brun et Jean Louis Combes. 2004. Econométrie. Col-
lection Amphi