2.modele de Regression Multiple Avec R

INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique
stique I 2021 – 2022
Chapitre 1 - Modèle linéaire Simple

REGRESSION LINEAIRE - Modèle linéaire multiple
- Analyse de la variance à 1 facteur ANOVA-1
- Analyse de la variance à deux facteurs ANOVA-n
- Analyse de la covariance ANCOVA
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 1 | 53
Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022
1. MODELE ECONOMIQUE VS MODELE ECONOMETRIQUE
1.1 Modèle économique

Selon Barbancho, un modèle est l’expression mathématique d’une certaine théorie économique.
L’exemple de la loi psychologique fondamentale de Keynes est assez pertinent à cet effet. D’après cette
loi, en moyenne et la plupart du temps lorsque le revenu d’un individu augmente, il augmente aussi sa
consommation, mais dans une proportion moindre à l’augmentation de son revenu. Mathématiquement,
si on note la consommation par 𝐶𝑡 et le revenu par 𝑌𝑡, cette loi peut être spécifiée comme suit :
𝑪𝒕 = 𝜶𝟎 + 𝜶𝟏 𝒀𝒕
[avec 𝜶𝟏 : propension marginale à consommer, 𝟎 < 𝜶𝟏 < 1]
En général, le modèle spécifié par l’économiste est défini comme étant une maquette de la réalité ou
d’un phénomène sous forme d’équations dont les variables sont des grandeurs économiques.
A ce sujet, Lester C. Thurow note ceci : « Les équations décrivent à quoi ressemblerait le monde réel s’il
ressemblait à la théorie».
1.2 Modèle économétrique

Toujours selon Barbancho, un modèle économétrique n’est autre chose qu’un modèle économique qui
contient les spécifications nécessaires pour son application empirique. C’est donc le modèle économique
auquel on ajoute un terme d’erreur 𝜺𝒕 .
𝑪𝒕 = 𝜶𝟎 + 𝜶𝟏 𝒀𝒕 + 𝜺𝒕
[modèle spécifié par l’économètre]
La première partie de ce modèle [𝜶𝟎 + 𝜶𝟏 𝒀𝒕 ] constitue sa partie systématique et la deuxième [𝜺𝒕 ] sa

partie stochastique ou aléatoire.
Il convient de noter également que le terme d’erreur 𝜺𝒕 [bruit, perturbation ou aléa] dénote de la
différence entre l’économiste et l’économètre. Il synthétise l’influence sur 𝑪𝒕 [variable expliquée] de
toutes les autres variables oubliées et des erreurs éventuelles de spécification de la forme fonctionnelle
dans le modèle spécifié par l’économiste. De plus, sa présence dans le modèle rend les paramètres 𝜶𝟎 et
𝜶𝟏 inconnus, on ne sait plus les calculer, il faut donc les estimer.
1.3 principales méthodes de modélisation statistique

Les méthodes de modélisation statistique sont, en fait, très nombreuses. Nous citons ci-dessous les
principales, sachant que la croissance considérable des masses de données enregistrées dans différents
secteurs (internet, biologie à haut débit, marketing...), le besoin d’exploiter ces données sur le plan
statistique, ainsi que les outils modernes de calcul ont donné naissance ces dernières années (disons
depuis le début du XXIe siècle) à de nombreuses méthodes, de plus en plus sophistiquées et, dans le
même temps, de plus en plus “gourmandes” en temps calcul.
Dans les méthodes décrites ci-dessous, il y a presque toujours une variable privilégiée, en général appelée
variable à expliquer, ou variable réponse, et notée Y (il s’agit d’une variable aléatoire). Le but est alors de
construire un modèle permettant d’expliquer “au mieux” cette variable Y en fonction de variables
explicatives observées sur le même échantillon.

a. Le modèle linéaire (gaussien) de base
À la fois le plus simple, le plus ancien et le plus connu des modèles statistiques, il englobe
essentiellement :
✓ la régression linéaire simple et multiple,
✓ l’analyse de variance
✓ et l’analyse de covariance.
Dans ce modèle, les variables explicatives (régresseurs ou facteurs) ne sont pas aléatoires (elles sont à
effets fixes). Pour pouvoir être exploité pleinement, ce modèle nécessite l’hypothèse de normalité des
erreurs, donc de la variable à expliquer (hypothèse gaussienne).
b. Le modèle linéaire généralisé

Il généralise le précédent à deux niveaux :
• d’une part, la loi des erreurs, donc de la variable réponse, n’est plus nécessairement gaussienne, mais
doit appartenir à l’une des lois de la famille exponentielle ;
• d’autre part, la liaison linéaire entre l’espérance de la variable réponse et les variables explicatives se
fait à travers une fonction particulière appelée fonction lien (spécifiée a priori).
Ce modèle englobe différentes méthodes telles que :
✓ la régression logistique,
✓ la régression de Poisson,
✓ le modèle log-linéaire
✓ ou certains modèles de durée de vie.
c. Les modèles non linéaires

De façon très générale, il s’agit de modèles permettant d’expliquer la variable réponse (aléatoire) au
moyen des variables explicatives (non aléatoires dans les modèles usuels), à travers une fonction
quelconque, inconnue (on est donc en dehors du cadre du modèle linéaire généralisé). Cette classe de
modèles est très vaste et relève, en général, de la statistique non paramétrique. Citons, à titre
d’exemple :
✓ la régression non paramétrique,
✓ les GAM (Generalized Additive Models)
✓ et les réseaux de neurones.
d. Les modèles mixtes

On désigne sous ce terme des modèles permettant d’expliquer la variable aléatoire réponse au moyen
de diverses variables explicatives :
✓ certaines étant aléatoires (on parle en général de facteurs à effets aléatoires) et intervenant dans la
modélisation de la variance du modèle,
✓ d’autres ne l’étant pas (on parle de facteurs à effets fixes) et intervenant dans la modélisation de la
moyenne.
On trouve ainsi des modèles linéaires gaussiens mixtes, des modèles linéaires généralisés mixtes et des
modèles non linéaires mixtes.

e. Les modèles pour données répétées

On appelle données répétées, ou données longitudinales, des données observées au cours du temps sur
les mêmes individus (en général, il s’agit de personnes ou d’animaux suivis dans le cadre d’une
expérimentation médicale ou biologique). De façon claire, il est nécessaire de prendre en compte dans
ces modèles une certaine dépendance entre les observations faites sur un même individu à différents
instants. Les modèles linéaires ou linéaires généralisés, qu’ils soient standards ou mixtes, sont utilisés
dans ce contexte.
f. Les modèles pour séries chronologiques

Les séries chronologiques sont les observations, au cours du temps, d’une certaine grandeur
représentant un phénomène économique, social ou autre. Si les données répétées et séries
chronologiques ont en commun de rendre compte de l’évolution au cours du temps d’un phénomène
donné, on notera que ces deux types de données ne sont pas réellement de même nature (dans une série
chronologique, ce sont rarement des personnes ou des animaux que l’on observe).
Pour les séries chronologiques, on utilise des modèles spécifiques :

✓ Modèles AR (Auto-Regressive, ou auto-régressifs),
✓ MA (Moving Average, ou moyennes mobiles),
✓ ARMA,
✓ ARIMA (I pour Integrated)...
✓ ARCH
✓ GARCH
g. L’analyse discriminante et la classification

S’il est plus courant d’utiliser ces méthodes dans un contexte d’exploration des données plutôt que dans
un contexte de modélisation, l’analyse discriminante et la classification peuvent tout de même être
utilisées dans la phase de recherche d’un modèle permettant d’ajuster au mieux les données considérées.
C’est en particulier le cas lorsque la variable réponse du modèle envisagé est de nature qualitative.
h. Les modèles par arbre binaire de régression et de classification

Ces méthodes (plus connues sous le nom de CART, pour Classification And Regression Trees) consistent
à découper une population en deux parties, en fonction de celle des variables explicatives et du
découpage en deux de l’ensemble de ses valeurs ou modalités qui expliquent au mieux la variable
réponse. On recommence ensuite sur chaque sous-population ainsi obtenue, ce qui permet de définir, de
proche en proche, un arbre binaire et de classer les variables explicatives selon l’importance de leur
liaison avec la variable réponse (on parle d’arbre de régression en présence d’une variable réponse
quantitative et d’arbre de classification en présence d’une variable réponse qualitative). De telles
méthodes peuvent constituer un complément intéressant au modèle linéaire ou au modèle linéaire
généralisé.

i. Quelques autres modèles

Concernant les méthodes de modélisation statistique, on ne saurait être exhaustif dans cette
introduction. Parmi les méthodes récentes, faisant un usage intensif de l’ordinateur, citons, pour
mémoire :
✓ la régression PLS (Partial Least Squares),
✓ les méthodes d’agrégation, ou de combinaison, de modèles (bagging, boosting, random forests),
✓ les méthodes de régularisation
✓ et les SVM (Support Vector Machines).
Dans ce document, nous n’aborderons qu’un petit nombre de modèles parmi ceux évoqués ci-dessus. En
fait, tous les modèles qui seront abordés relèvent du modèle linéaire gaussien : le modèle de base.

2. PRELIMINAIRES A TOUTE MODELISATION STATISTIQUE
Quel que soit le modèle, ou le type de modèles, envisagé face à un jeu de données, quel que soit le
problème qu’il s’agit de traiter, une modélisation statistique ne peut sérieusement s’envisager que sur
des données “propres”, c’est à dire pré-traitées, afin de les débarrasser, autant que faire se peut, de tout
ce qui peut nuire à la modélisation : codes erronés, données manquantes, données aberrantes, variables
inutiles, variables redondantes... C’est cet ensemble de pré-traitements que nous décrivons dans ce
paragraphe. On notera que cette phase est parfois appelée datamanagement, autrement dit “gestion
des données”.
a. “Nettoyage” des données

Avant toute chose, il faut disposer d’un fichier informatique contenant les données dans un format
exploitable (texte ou excel, par exemple), les individus étant disposés en lignes et les variables en
colonnes. Avec ce fichier, il faut essayer de repérer d’éventuels codes interdits ou aberrants : chaîne de
caractères pour une variable numérique ; code “3” pour la variable sexe ; valeur 153 pour l’âge d’un
groupe d’individus, etc. Une fois repérés, ces codes doivent être corrigés si possible, supprimés sinon.
Dans cette phase, il faut également essayer de repérer des données manquantes en grande quantité, soit
sur une colonne (une variable), soit sur une ligne (un individu). Si quelques données manquantes ne sont
pas vraiment gênantes dans la plupart des traitements statistiques, il n’en va pas de même lorsque cela
concerne un fort pourcentage des observations d’une variable ou d’un individu. Dans ce cas, il est
préférable de supprimer la variable ou l’individu (dont la colonne, ou la ligne, serait, de toutes façons,
inexploitable).
b. Analyse univariée
Cette phase, souvent fastidieuse, consiste à étudier chaque variable l’une après l’autre, afin d’en
connaître les principales caractéristiques et d’en repérer, le cas échéant, certaines anomalies.
Pour les variables quantitatives, on pourra faire un histogramme ou un diagramme en boîte et déterminer
des caractéristiques telles que le minimum, le maximum, la moyenne, l’écart-type, la médiane et les
quartiles. Cela peut conduire à supprimer une variable (si elle présente très peu de variabilité), à la
transformer (par exemple, en prenant son logarithme si elle est à valeurs positives et très dissymétrique),
ou encore à repérer des valeurs très particulières (que l’on devra, éventuellement, corriger ou éliminer).
Pour les variables qualitatives, on pourra faire un diagramme en colonnes des modalités et déterminer
les effectifs et les fréquences de ces dernières. Cela pourra encore conduire à supprimer une variable (si
tous les individus, ou presque, présentent la même modalité), ou à en regrouper des modalités “proches”
(si certains effectifs sont trop faibles).
Ces analyses univariées permettent également de prendre connaissance des données et de fournir
certaines indications pour la phase ultérieure de modélisation. Toutefois, il faut noter que ces analyses
peuvent être inenvisageables avec des données “fortement multidimensionnelles”, c’est-à-dire
comportant des centaines, voire des milliers, de variables ; on rencontre aujourd’hui de telles données
dans certains contextes particuliers.

c. Analyses bivariées
Ces analyses ont pour but d’étudier d’éventuelles liaisons existant entre couples de variables. Il peut
s’agir de deux variables explicatives, dont on soupçonne qu’elles sont fortement corrélées, dans le but
d’éliminer l’une des deux. Il peut aussi s’agir d’étudier les liens entre la variable à expliquer et chaque
variable explicative (de façon systématique), pour avoir une première idée des variables explicatives
susceptibles de jouer un rôle important lors de la modélisation. Enfin, ces analyses peuvent aussi
permettre de repérer des points aberrants (ou extrêmes) qui n’ont pas pu l’être avec les analyses
univariées.
Rappelons que, pour étudier la liaison entre deux variables quantitatives, on dispose, comme graphique,
du nuage de points (ou diagramme de dispersion) et, comme indicateur de liaison, du coefficient de
corrélation linéaire. Dans le cas d’une variable quantitative et d’une variable qualitative, on dispose du
diagramme en boîtes parallèles et du rapport de corrélation. Enfin, dans le cas de deux variables
qualitatives, on utilise en général un diagramme en colonnes de profils (profils-lignes ou profils-colonnes
selon ce que l’on souhaite mettre en évidence) et des indicateurs de liaison liés au khi-deux (coefficients
de Tschuprow ou de Cramer).
d. Analyses multivariées quantitatives

Elles consistent à déterminer la matrice des corrélations entre toutes les variables quantitatives
considérées, notamment la variable à expliquer, lorsque celle-ci est quantitative. Cela peut permettre
encore de supprimer des variables très corrélées, par exemple afin d’éviter de faire une régression sur
de telles variables, dont on sait que les résultats seraient très instables, voire sans aucune signification.
Cela permet aussi de prendre connaissance de la structure de corrélation entre les variables considérées,
ce qui est toujours utile dans le cadre d’une modélisation.
On peut également envisager, à ce niveau, de réaliser une analyse en composantes principales (A.C.P.)
de toutes ces variables, afin de préciser davantage, de façon globale, leurs relations linéaires.
e. Analyses multivariées qualitatives

C’est le pendant des analyses ci-dessus, cette fois pour les variables qualitatives. On peut, tout d’abord,
déterminer la matrice des coefficients de Tschuprow (ou celle des coefficients de Cramer) et l’analyser
comme une matrice de corrélations. Toutefois, il est bien connu que, dans la pratique, ces coefficients
sont systématiquement petits : pratiquement toujours inférieurs à 0.5 et le plus souvent compris entre
0.1 et 0.3. Leur interprétation est donc, en général, assez délicate. Ils permettent néanmoins de repérer
les liaisons les plus importantes, même si elles sont de l’ordre de 0.3, 0.4 ou 0.5.
Il est d’autant plus important d’envisager, dans ces analyses préliminaires, de réaliser une analyse des
correspondances multiples (A.C.M.) entre variables qualitatives. Celle-ci permettra, le cas échéant, de
confirmer une liaison forte entre certains couples de variables et, si nécessaire, d’en éliminer quelques-
unes. L’A.C.M. permet également de regrouper certaines modalités d’une même variable lorsque celles-
ci apparaissent proches dans l’ensemble des résultats et, par suite, de simplifier les données. Enfin, le
tableau de Burt, fourni avec les résultats de l’A.C.M., permet de repérer des occurrences très faibles pour
certains croisements de modalités et d’envisager encore d’autres regroupements.

f. Bilan
Une fois réalisées toutes les étapes préliminaires décrites ci-dessus, on dispose de données “mises au
propre”, simplifiées, et dont on commence à connaître certaines caractéristiques. On peut, à partir de ce
moment-là, envisager leur modélisation.
Les modèles susceptibles d’être adaptés aux données considérées, parmi tous ceux décrits dans le
paragraphe précédent, sont nécessairement limités à ce stade-là. Ils sont fonction de la nature des
données ainsi que des questions posées par l’utilisateur, autrement dit de ses objectifs.
Insistons ici sur le fait que des données sont toujours recueillies (produites) par un utilisateur (biologiste,
informaticien, gestionnaire...) dans un but bien précis. La modélisation statistique doit avoir pour objectif
premier de répondre aux questions que s’est posé cet utilisateur lorsqu’il a décidé de recueillir les
données. Une collaboration entre utilisateur et statisticien est donc, à ce niveau-là, absolument
indispensable.

3. LES ETAPES DU PROCESSUS DE MODELISATION
1. Estimer les valeurs des coefficients (𝛽0 ; 𝛽1 ; 𝛽2 ; … ; 𝛽𝑝 ) à partir d’un échantillon de données
(estimateur des moindres carrés ordinaires).
2. Évaluer la précision de ces estimations (biais, variance des estimateurs).
3. Mesurer le pouvoir explicatif du modèle dans sa globalité (tableau d’analyse de variance, coefficient
de détermination).
4. Tester la réalité de la relation entre Y et les exogènes Xj (test de significativité globale de la

régression).
5. Tester l’apport marginal de chaque variable explicative dans l’explication de Y (test de significativité
de chaque coefficient).
6. Tester l’apport d’un groupe de variables explicatives dans l’explication de Y (test de significativité
simultanée d’un groupe de coefficient).
7. Pour un nouvel individu 𝑖 ∗ pour lequel on fournit la description (𝑥 ∗1 ; … ; 𝑥 ∗𝑝 ), calculer la valeur

prédite 𝑦 ∗ et la fourchette de prédiction.
8. Interpréter les résultats en mettant en avant notamment l’impact des exogènes sur l’endogène
(interprétation des coefficients, analyse structurelle).
9. Tester à postériori la validité du modèle c-à-d sa conformité avec les hypothèses de départ.
10. Si le modèle est satisfaisant, il peut servir à des fins explicatives ou prospectives sinon reprendre
toutes les étapes précédentes avec une nouvelle spécification de modèle.
Variable Variables Nom de la technique de

à Expliquer explicatives modélisation
1 quantitative 1 quantitative Régression linéaire Simple
1 quantitative 𝒏 quantitatives Régression linéaire Multiple
1 quantitative 1 qualitative ANOVA à un facteur
1 quantitative 𝒏 qualitatives ANOVA à 𝒏 facteur
1 quantitative 𝒏 quantitatives + qualitatives ANCOVA
n quantitative 𝒏 qualitatives MANOVA à 𝒏 facteur
n quantitative 𝒏 quantitatives + qualitatives MANCOVA
1 qualitative 𝒏 quantitatives + qualitative Analyse Discriminante Linéaire

1 qualitative 𝒏 quantitatives + qualitative Régression Logistique
1 variable de comptage 𝒏 quantitatives + qualitative Régression de poisson

1 variable censurée ou tronquée 𝒏 quantitatives + qualitative Régression Tobit
1 variable de durée 𝒏 quantitatives + qualitative Régression de durée

4. ESIMATION DES PARAMETRES DU MODELE
Le modèle étant 𝒀𝒕 = 𝜷𝟎 + 𝜷𝟏 𝑿𝟏𝒕 + 𝜷𝟐 𝑿𝟐𝒕 + ⋯ + 𝜷𝒑 𝑿𝒑𝒕 + 𝜺𝒕

il comporte deux parties :
✓ la partie déterministe ou systématique : 𝒀𝒕 = 𝑓(𝑿𝒊𝒕 )
✓ la partie aléatoire ou stochastique : 𝒀𝒕 = 𝑓(𝜺𝒕 )
a. Hypothèses sur la partie déterministe ou systématique : 𝑌𝑡 𝑒𝑡 𝑋𝑖𝑡
 H1. Les variables 𝑋𝑗 = 𝑋1 , … 𝑋𝑝 et 𝑌 sont observées sans erreur. Y est aléatoire par l’intermédiaire de 𝜺𝒕 , c’est-à-dire que
la seule erreur possible sur Y provient des insuffisances des variables exogène 𝑋𝑖 = 𝑋𝑖 , … 𝑋𝑝 à expliquer ses valeurs dans
le modèle et les 𝑋𝑖 = 𝑋𝑖 , … 𝑋𝑝 ne sont pas aléatoire
 H2. La variable 𝑌 doit être gaussiennes et stationnaires en niveau.
 H3. Le modèle est linéaire en ses paramètres tels que l’exprime l’équation.
 H4. Le nombre d’observations 𝒏 doit être supérieur au nombre des paramètres à estimer.
 H5. La matrice X’X est non singulière de rang K, c’est-à-dire |X’X| ≠ 0 et (X’X)−1 existe. Cette hypothèse implique l’absence
de colinéarité entre les exogènes, autrement dit les différents vecteurs 𝑋𝑗 = 𝑋1 , … 𝑋𝑝 sont linéairement indépendants. En
cas de multicolinéarité, la méthode des MCO devient défaillante.
b. Hypothèses sur la partie aléatoire : 𝜀𝑡
 H6. 𝑪𝒐𝒗(𝑿, 𝜺) = 𝟎 (Hypothèse d’indépendance entre la partie déterministe et la partie aléatoire) : 𝑿𝒋 est une variable
aléatoire contrôlée (indépendante de l’aléa) : Cette hypothèse signifie que l’erreur et les variables explicatives ont une
influence séparée sur la variable endogène.)
𝜺𝟏 𝑬(𝜺𝟏 ) 𝟎
𝜺𝟐 𝑬(𝜺 𝟐 ) 𝟎
 H7. 𝑬(𝜺𝒕 ) = 𝑬 ( ) = ( ) = ( ) (Hypothèse de centralité des erreurs) C’est-à-dire qu’en moyenne, l’influence
⋮ ⋮ 𝟎
𝜺𝒏 𝑬(𝜺 ) 𝟎 𝒏
de 𝜺𝒕 sur le modèle est nulle, ce qui revient à admettre que le modèle est correctement spécifié. Autrement dit les effets
des facteurs autres que le prédicteur (régresseur ou la variable explicative) s’équilibrent.
𝟏 … 𝟎
 H8. 𝑽(𝜺𝒕 ) = 𝑬(𝜺𝟐𝒕 ) = 𝝈𝟐𝜺 𝑰 = 𝝈𝟐𝜺 ( ⋮ ⋱ 𝟎) (Hypothèse d’homoscédasticité des erreurs) Les
𝟎 𝟎 𝟏
erreurs 𝜺𝒕 ont une variance constante et finie. Plus explicitement, il s’agit d’assumer que les variables explicatives
omises dans le modèle influent toutes pratiquement de façon constante sur la variable expliquée.
 H9. 𝑪𝒐𝒗(𝜺𝒕 , 𝜺𝒔 ) = 𝟎 (Hypothèse non autocorrélation des erreurs) Les erreurs 𝜺𝒕 de différentes périodes sont
indépendantes les unes des autres.
Ces quatre hypothèses sont fondamentales pour l’application de la méthode des MCO. Pour utiliser la méthode du maximum
de vraisemblance, on suppose en outre vérifiée l’hypothèse de normalité des aléas c'est-à-dire :
 H10. 𝜺𝒕 ~𝑵(𝟎, 𝝈𝟐𝜺 ) (Hypothèse de normalité des erreurs) Cette hypothèse est la clé de l’inférence statistique. Elle est
donc nécessaire pour mener les tests.
On peut résumer ces hypothèses en énonçant Les erreurs sont IID c’est-à-dire que les erreurs sont normalement distribuées,
non-autocorrélées et homoscédastiques.

Les quantités inconnues et qui sont donc à estimer dans ce modèle sont : 𝜷𝟎 ; 𝜷𝟏 … 𝜷𝒑 et 𝝈𝟐𝜺 . L’objectif des méthodes
d’estimation est de trouver des estimateurs de ces paramètres inconnus qui possèdent les propriétés requises par la théorie
statistique (estimateur non biaisé, convergent, à variance minimum et robuste)
Remarque :
❖ Lorsque les hypothèses H6, H7, H8 et H9 sont réalisées, on dit que les erreurs sont des bruits blancs. Et lorsqu’on y ajoute
l’hypothèse H10, on parle des bruits blancs gaussiens.
❖ Lorsque toutes les hypothèses sous-tendant la méthode des MCO sont remplies, le théorème de Gauss – Markov avance
que ses estimateurs sont BLUE [Best Linear Unbiased Estimator], c’est-à-dire qu’ils sont les meilleurs estimateurs
linéaires, non biaisés et à variance minimale.
Un bruit blanc est un processus stochastique dont la composante à chaque date a une espérance nulle et la même variance,
et dont des composantes à des dates différentes ont une covariance nulle.
𝜷𝟎
𝜷
les quantités sont donc inconnues dans ce modèle : 𝜷 = ( 𝟏 ) et 𝝈𝟐𝜺 . L’objectif des méthodes d’estimation est de
⋮
𝜷𝒑
̂𝟎
𝜷
̂= ̂𝟏
𝜷
trouver des estimateurs de ces paramètres inconnus : 𝜷 ̂ 𝟐𝜺
et 𝝈
⋮
̂𝒑
𝜷
( )

5. ESIMATEURS DES MCO : Moindres Carrés Ordinaires
Comme vu au chapitre précédent, les différents sont obtenus en minimisant la somme quadratique des résidus.
Mathématiquement, le problème se présente comme suit :
MCO :
𝑛
𝑀𝑖𝑛 ∑ 𝑒𝑡2
𝑡=1
𝑛
2
𝑀𝑖𝑛 ∑(𝑌𝑡 − 𝑌̂𝑡 )
𝑡=1
𝑛 𝑛
2 2
𝑀𝑖𝑛 ∑(𝑌𝑡 − 𝛽0 + 𝛽1 𝑋1𝑡 + 𝛽2 𝑋2𝑡 + ⋯ + 𝛽𝑝 𝑋𝑝𝑡 ) = ∑(𝑌𝑡 − 𝑋𝛽̂ )
𝑡=1 𝑡=1
En notation matricielle
𝑛
𝑀𝑖𝑛 ∑ 𝑒𝑡2 = 𝑒 ′ 𝑒 = (𝑌 − 𝑋𝛽̂ )′(𝑌 − 𝑋𝛽̂ )

𝑡=1
= (𝑌′ − 𝑋′𝛽̂ ′)(𝑌 − 𝑋𝛽̂ )
= (𝑌′ − 𝑋′𝛽̂ ′)(𝑌 − 𝑋𝛽̂ )
Un développement mathématique permet d’exprimer 𝛽̂
̂ = (𝑿′𝑿)−𝟏 𝑿′𝒀
𝜷
On voit que l’on ne peut obtenir l’estimateur 𝜷̂ que si (𝑿′𝑿) est inversible. Lorsqu’il y a colinéarité des variables explicatives,
la matrice (𝑿′𝑿) n’est pas inversible. (Hypothèse H5)
𝛽̂0
̂
𝛽̂ = 𝛽1 il y a 𝒑 + 𝟏 coefficients à estimer
⋮
𝛽̂𝑝
( )
Estimateur de la variance de l’erreur 𝝈𝟐𝜺
Détermination d’un estimateur sans biais de 𝝈𝟐𝜺 qui est un paramètre inconnu pour l’utilisation des MCO.
On montre que l’estimateur sans biais de 𝝈𝟐𝜺 est :
𝒆′ 𝒆
̂ 𝟐𝜺 =
𝝈
𝒏 − (𝒑 + 𝟏)
𝑺𝑪𝑹
̂ 𝟐𝜺 =
𝝈
𝒏 − (𝒑 + 𝟏)
Avec SCR = Somme des carrés des résidus

Les propriétés des estimateurs des moindres carrés ordinaires et estimateurs du maximum de vraisemblance
Les estimateurs des M.C.O 𝜷 ̂ 𝟎, 𝜷

̂ 𝟏 , …,𝜷
̂ 𝒑 sont des estimateurs sans biais : 𝐸(𝜷) = 𝜷, et, parmi les estimateurs sans biais
fonctions linéaires des yi, ils sont de variance minimum (propriété de Gauss-Markov) ; ils sont donc “BLUE” : best linear
unbiaised estimators. Sous hypothèse de normalité des erreurs, les estimateurs du M.V (maximum de vraisemblance), qui
coïncident avec ceux des moindres carrés, sont uniformément meilleurs ; ils sont efficaces c’est-à-dire que leur matrice de
covariance atteint la borne inférieure de Cramer-Rao.
La matrice symétrique des variances – covariances :
𝑉𝑎𝑟(𝛽̂0 ) 𝐶𝑜𝑣(𝛽̂0 𝛽̂1 ) … 𝐶𝑜𝑣(𝛽̂0 𝛽̂𝑝 )

𝐶𝑜𝑣(𝛽̂0 𝛽̂1 ) 𝑉𝑎𝑟(𝛽̂1 ) … 𝐶𝑜𝑣(𝛽̂1 𝛽̂𝑝 )
𝛺(𝛽̂) =
⋮ ⋮ ⋱
̂ ̂ 𝑉𝑎𝑟(𝛽̂𝑝 ) )
( 𝐶𝑜𝑣(𝛽0 𝛽1 ) … …
̂ 𝟐𝜺 (𝑿′𝑿)−𝟏
𝜴(𝜷̂) = 𝝈
RESUME GENERALE : Modèle linéaire multiple (estimateur de paramètres)
̂ = (𝑿′𝑿)−𝟏 𝑿′𝒀
𝜷
𝒆′ 𝒆
̂ 𝟐𝜺 =
𝝈
𝒏 − (𝒑 + 𝟏)
̂ 𝟐𝜺 (𝑿′𝑿)−𝟏 : Matrice des variances -covariances

𝜴(𝜷̂) = 𝝈
Ce sont ces résultats qu’affichent tous les logiciels statistiques et économétriques.

DEFINITION DE LA METHODE
La régression linéaire multiple consiste à expliquer et ou prédire une

variable quantitative Y par p variables quantitatives X1, X2,…,Xp. Le
modèle de régression multiple est une généralisation du modèle de
régression simple. On suppose donc les n données collectés suivent le
modèle suivant :
𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝟏 + 𝜷𝟐 𝒙𝟐 + ⋯ + 𝜷𝒏 𝒙𝒏 + 𝜺𝒊
LES HYPOTHESES DU MODELE
Le modèle étant 𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝟏 + 𝜷𝟐 𝒙𝟐 + ⋯ + 𝜷𝒏 𝒙𝒏 + 𝜺𝒊 il comporte deux parties :

❖ la partie déterministe ou systématique : 𝑌𝑡 = 𝑓(𝑋𝑡 )
❖ la partie aléatoire ou stochastique : 𝑌𝑡 = 𝑓(𝜀𝑡 )

PRESENTATION DE LA STRUCTURE DES DONNEES

(DATAFRAME OU AUTRE STRUCTURE DE DONNEE)
MISE EN ŒUVRE DE LA METHODE SOUS R
# ETAPES
# 1ere étape : Importer les données
# 2eme étape : Représenter les variables
# 3eme étape : Estimer les paramètres 𝜷𝒊
# 4eme étape : Choix de variables
# 5eme étape : Analyser les résidus
# 6eme étape : Tester la validité du modèle par la vérification des hypothèses
# 7eme étape : Prédir une nouvelle valeur
# 8eme étape : Cas de prédicteurs binaires ou qualitatifs
# 9eme étape : Cas avec interactions

#1ere étape : Importer les données

#+------------------------------+#
setwd("C:/jeudonnee")
smp<-read.table("smp2.csv",header=TRUE,sep=";",check.names=FALSE)
str(smp)
summary(smp)
Expliquer la durée de l’interview en fonction de :

• age : âge des détenus
• dep.cons : existence d’une dépression
• abus : existence d’un abus dans l’enfance
• duree : durée de l’incarcération
• dur.interv : durée de l’entrevue avec le détenu
# 2eme étape : Représenter les variables

# +-----------------------------------+#
a) créer une nouvelle data frame avec les variables choisies
df<-data.frame(smp$dur.interv,smp$age,smp$duree,smp$dep.cons,smp$abus)
summary(df)
cor(df,use="complete.obs")
smp.dur.interv smp.age smp.duree smp.dep.cons smp.abus

smp.dur.interv 1.00000000 0.06140941 -0.05340679 0.24504200 0.08505253
smp.age 0.06140941 1.00000000 0.34067462 -0.07957043 -0.05800493
smp.duree -0.05340679 0.34067462 1.00000000 -0.14760838 0.04766465
smp.dep.cons 0.24504200 -0.07957043 -0.14760838 1.00000000 0.03708542
smp.abus 0.08505253 -0.05800493 0.04766465 0.03708542 1.00000000
- cette option, use="complete.obs", supprime les lignes contenant des valeurs manquantes.
- La dernière option, use="pairwise.complete", supprime les lignes contenant des valeurs manquantes, mais
uniquement pour la paire de variables sur laquelle se fait le calcul.
cor(df, use="pairwise.complete")
smp.dur.interv smp.age smp.duree smp.dep.cons smp.abus
smp.dur.interv 1.00000000 0.08573358 -0.05138160 0.18892514 0.09873841
smp.age 0.08573358 1.00000000 0.33365481 -0.09796141 -0.04938004
smp.duree -0.05138160 0.33365481 1.00000000 -0.15129275 0.03516752
smp.dep.cons 0.18892514 -0.09796141 -0.15129275 1.00000000 0.04157571
smp.abus 0.09873841 -0.04938004 0.03516752 0.04157571 1.00000000

b) Visualiser les corrélations deux a deux

pairs(df)

c) Visualiser les corrélations deux a deux
library(corrplot)
cor<- cor(df, use="pairwise.complete")
corrplot(cor)

d) Visualiser les corrélations deux a deux
library(GGally)
library(ggplot2)
ggpairs(df)

e) ACP avec l’endogène en illustratif #

library(FactoMineR)
res.pca<-PCA(df,quanti.sup=1)

# 3eme étape : Estimer les paramètres

# +--------------------------------+#
# Faire la régression
regM <- lm(smp$dur.interv ~ smp$age + smp$duree + smp$dep.cons + smp$abus)
regM$coefficients
(Intercept) smp$age smp$duree smp$dep.cons smp$abus
57.6146447 0.1442986 -1.2381254 9.3107425 3.4864864
# Voir l'intervalle de confiance des coefficients estimés

confint(regM)
2.5 % 97.5 %
(Intercept) 49.2261075 66.0031819
smp$age 0.0248842 0.2637129
smp$duree -3.1237499 0.6474992
smp$dep.cons 6.1304123 12.4910727
smp$abus 0.1211335 6.8518393
summary(regM)
Call:
lm(formula = smp$dur.interv ~ smp$age + smp$duree + smp$dep.cons + smp$abus)
Residuals:
Min 1Q Median 3Q Max
-62.362 -11.748 -0.609 11.566 62.948
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 57.61464 4.27028 13.492 < 2e-16 ***
smp$age 0.14430 0.06079 2.374 0.0180 *
smp$duree -1.23813 0.95990 -1.290 0.1977
smp$dep.cons 9.31074 1.61898 5.751 1.49e-08 ***
smp$abus 3.48649 1.71317 2.035 0.0423 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 18.03 on 536 degrees of freedom
(258 observations deleted due to missingness)
Multiple R-squared: 0.076, Adjusted R-squared: 0.06911
F-statistic: 11.02 on 4 and 536 DF, p-value: 1.348e-08
# REMARQUES :
# 1) Il est d'usage de commencer par regarder si le modèle est significativement

différent de zéro dans les sorties de summary() grâce à la p-value du test de
Fisher. Si cette p-value est supérieure à 0,05 « le modèle ne vaut rien ». Si le
modèle est significativement différent de zéro, on peut s'intéresser directement
au coefficient de détermination.
# 2) La valeur de R2 est donnée, ainsi que le Ra2 ajustée. La valeur du R2 est

élevée (R2 = 0.076). En d’autres termes, 7,60% de la variabilité de la durée
d’interview est expliquée par l’ensemble des explicatives. Ce qui est vraiment
insuffisant.

# 3) Les valeurs estimées par le modèle :

− Soit le modèle initial : 𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝟏 + 𝜷𝟐 𝒙𝟐 + ⋯ + 𝜷𝒑 𝒙𝒑 𝜺𝒊
− Après estimation on obtient : 𝒀̂=𝜷 ̂𝟎 + 𝜷̂ 𝟏 𝒙𝟏 + 𝜷
̂ 𝟐 𝒙𝟐 + ⋯ +𝜷
̂ 𝒑 𝒙𝒑
• ̂ 𝟎 ici l’interecpt (ou la constante) est estimé à 57.61464

𝜷 avec un P-value
< 0.05, ce qui veut dire la constante est significativement différent de zéro
et qu’il doit apparaitre dans le modèle. (L'interecpt 𝜷𝟎 représente la valeur
de l'espérance mathématique 𝑬(𝒀𝒊 ) (moyenne de la variable dépendante 𝒀𝒊 )
lorsque les valeur des variables explicatives sont toutes nulles (égale à 𝟎),
c-a-d la valeur moyenne de la durée de l’interview quand les explicatives sont
nulles est égale à 57.61 minutes : cela n’a pas ici de signification
pertinente)
• ̂ 𝟏 ici le coefficient estimé de l’âge à 0.14430 avec un P-value < 0.05, ce qui
𝜷
veut dire ce coefficient est significativement différent de zéro. Cela indique
qu’il y a une liaison significative entre l’âge et la durée de l’interview.
(Le coefficient 𝜷𝟏 , associé à la variable explicative 𝒙𝒊 , représente la
variation de 𝐸(𝒀𝒊 ) (espérance de la variable dépendante 𝒀𝒊 ) lorsque 𝒙𝒊 augmente
d'une unité, donc quand l’âge augmente d’1 an la durée de l’interview augmente
de 0.14430 minutes. Soit 8.658 secondes).
• Les interprétations sont identiques pour tous les autres coefficients, on

notera que le coefficient de la variable durée de l’incarcération n’est pas
significatif. il n’y a donc pas de liaison significative entre la durée de
l’incarcération et la durée de l’interview et donc la durée de l’incarcération
ne doit donc pas figurer dans le modèle final.
• 𝝈𝟐𝜺 ici l’écart-type résiduel est estimé à 0.8307 ainsi que le nombre de degré
de liberté (n-2) = 8

MODELE ET SELECTION AUTOMATIQUE DES EXPLICATIVES
# Traitement de données manquantes

smp <- na.omit(smp)
# modèle stepwise backward

modele_complet <- lm(dur.interv ~ . , data = smp)
modele_2 <- step(modele_complet, direction="backward")
Start: AIC=2326.27
dur.interv ~ age + prof + duree + discip + n.enfant + n.fratrie +
ecole + separation + juge.enfant + place + abus + grav.cons +
dep.cons + ago.cons + ptsd.cons + alc.cons + subst.cons +
scz.cons + char + rs + ed + dr + suicide.s + suicide.hr +
suicide.past
Df Sum of Sq RSS AIC

- prof 7 1866.21 112337 2319.0
- place 1 0.73 110471 2324.3
- abus 1 1.44 110472 2324.3
- duree 1 5.36 110476 2324.3
- separation 1 9.88 110481 2324.3
- rs 1 11.42 110482 2324.3
- dr 1 13.92 110485 2324.3
- char 1 26.55 110497 2324.4
- suicide.s 1 57.02 110528 2324.5
- scz.cons 1 65.94 110537 2324.5
- n.fratrie 1 81.79 110553 2324.6
- discip 1 88.64 110559 2324.6
- suicide.past 1 94.86 110566 2324.6
- ptsd.cons 1 149.89 110621 2324.8
- ago.cons 1 307.77 110779 2325.4
- suicide.hr 1 317.78 110789 2325.4
- subst.cons 1 365.67 110836 2325.6
- grav.cons 1 464.60 110935 2326.0
<none> 110471 2326.3
- ecole 1 576.51 111047 2326.4
- juge.enfant 1 634.75 111105 2326.6
- age 1 917.20 111388 2327.6
- ed 1 967.42 111438 2327.8
- dep.cons 1 1279.63 111750 2328.9
- alc.cons 1 1431.91 111903 2329.5
- n.enfant 1 1881.26 112352 2331.1
Step: AIC=2319.02
dur.interv ~ age + duree + discip + n.enfant + n.fratrie + ecole +
separation + juge.enfant + place + abus + grav.cons + dep.cons +
ago.cons + ptsd.cons + alc.cons + subst.cons + scz.cons +
char + rs + ed + dr + suicide.s + suicide.hr + suicide.past

- place 1 0.02 112337 2317.0
- duree 1 3.70 112341 2317.0
- abus 1 6.05 112343 2317.0
- dr 1 12.88 112350 2317.1
- separation 1 15.68 112353 2317.1
- rs 1 23.41 112360 2317.1
- scz.cons 1 24.49 112361 2317.1
- char 1 28.86 112366 2317.1
- discip 1 53.27 112390 2317.2
- suicide.s 1 81.81 112419 2317.3
- n.fratrie 1 90.17 112427 2317.3
- ptsd.cons 1 141.20 112478 2317.5
- suicide.past 1 178.46 112515 2317.7
- suicide.hr 1 329.96 112667 2318.2
- grav.cons 1 380.30 112717 2318.4
- subst.cons 1 381.76 112719 2318.4
- ago.cons 1 382.68 112720 2318.4
- ecole 1 427.40 112764 2318.6
- juge.enfant 1 488.98 112826 2318.8
<none> 112337 2319.0
- ed 1 806.66 113144 2319.9
- age 1 836.32 113173 2320.0
- dep.cons 1 1317.47 113654 2321.7
- alc.cons 1 1460.34 113797 2322.2
- n.enfant 1 1780.00 114117 2323.4
Step: AIC=2317.02
dur.interv ~ age + duree + discip + n.enfant + n.fratrie + ecole +
separation + juge.enfant + abus + grav.cons + dep.cons +
ago.cons + ptsd.cons + alc.cons + subst.cons + scz.cons +
char + rs + ed + dr + suicide.s + suicide.hr + suicide.past

- duree 1 3.69 112341 2315.0

- abus 1 6.15 112343 2315.0
- dr 1 13.17 112350 2315.1
- separation 1 16.52 112353 2315.1
- rs 1 23.42 112360 2315.1
- scz.cons 1 24.47 112361 2315.1
- char 1 28.86 112366 2315.1
- discip 1 53.28 112390 2315.2
- suicide.s 1 81.89 112419 2315.3
- n.fratrie 1 90.58 112428 2315.3
- ptsd.cons 1 141.27 112478 2315.5
- suicide.past 1 178.59 112516 2315.7
- suicide.hr 1 330.99 112668 2316.2
- grav.cons 1 380.29 112717 2316.4
- ago.cons 1 382.68 112720 2316.4
- subst.cons 1 383.19 112720 2316.4
- ecole 1 427.49 112764 2316.6
<none> 112337 2317.0
- juge.enfant 1 682.75 113020 2317.5
- ed 1 807.05 113144 2317.9
- age 1 836.61 113174 2318.0
- dep.cons 1 1317.46 113654 2319.7
- alc.cons 1 1464.90 113802 2320.2
- n.enfant 1 1779.98 114117 2321.4
Step: AIC=2315.03
dur.interv ~ age + discip + n.enfant + n.fratrie + ecole + separation +
juge.enfant + abus + grav.cons + dep.cons + ago.cons + ptsd.cons +
alc.cons + subst.cons + scz.cons + char + rs + ed + dr +
suicide.s + suicide.hr + suicide.past

- abus 1 7.68 112348 2313.1
- dr 1 15.72 112356 2313.1
- separation 1 18.53 112359 2313.1
- rs 1 22.75 112363 2313.1
- scz.cons 1 24.21 112365 2313.1
- char 1 30.05 112371 2313.1
- discip 1 57.43 112398 2313.2
- suicide.s 1 84.23 112425 2313.3
- n.fratrie 1 87.56 112428 2313.3
- ptsd.cons 1 141.96 112483 2313.5
- suicide.past 1 186.81 112527 2313.7
- suicide.hr 1 330.59 112671 2314.2
- grav.cons 1 379.47 112720 2314.4
- subst.cons 1 379.50 112720 2314.4
- ago.cons 1 380.71 112721 2314.4
- ecole 1 435.39 112776 2314.6
<none> 112341 2315.0
- juge.enfant 1 680.88 113022 2315.5
- ed 1 807.20 113148 2315.9
- age 1 898.29 113239 2316.2
- dep.cons 1 1317.04 113658 2317.7
- alc.cons 1 1524.23 113865 2318.5
- n.enfant 1 1785.69 114126 2319.4
Step: AIC=2313.06
dur.interv ~ age + discip + n.enfant + n.fratrie + ecole + separation +
juge.enfant + grav.cons + dep.cons + ago.cons + ptsd.cons +
alc.cons + subst.cons + scz.cons + char + rs + ed + dr +
suicide.s + suicide.hr + suicide.past

- separation 1 14.22 112363 2311.1
- dr 1 15.88 112364 2311.1
- rs 1 23.48 112372 2311.1
- scz.cons 1 27.76 112376 2311.2
- char 1 27.98 112376 2311.2
- discip 1 59.96 112408 2311.3
- suicide.s 1 81.57 112430 2311.3
- n.fratrie 1 92.35 112441 2311.4
- ptsd.cons 1 142.42 112491 2311.6
- suicide.past 1 200.67 112549 2311.8
- suicide.hr 1 324.05 112672 2312.2
- ago.cons 1 376.33 112725 2312.4
- subst.cons 1 382.17 112730 2312.4
- grav.cons 1 388.66 112737 2312.4
- ecole 1 437.68 112786 2312.6
<none> 112348 2313.1
- juge.enfant 1 707.67 113056 2313.6
- ed 1 801.26 113150 2313.9
- age 1 921.06 113269 2314.3
- dep.cons 1 1310.60 113659 2315.7
- alc.cons 1 1522.53 113871 2316.5
- n.enfant 1 1788.66 114137 2317.4
Step: AIC=2311.11
dur.interv ~ age + discip + n.enfant + n.fratrie + ecole + juge.enfant +
grav.cons + dep.cons + ago.cons + ptsd.cons + alc.cons +
subst.cons + scz.cons + char + rs + ed + dr + suicide.s +
suicide.hr + suicide.past

- dr 1 17.45 112380 2309.2

- rs 1 22.89 112385 2309.2
- char 1 29.29 112392 2309.2
- scz.cons 1 31.59 112394 2309.2
- discip 1 56.95 112419 2309.3
- suicide.s 1 81.31 112444 2309.4
- n.fratrie 1 94.90 112457 2309.4
- ptsd.cons 1 145.57 112508 2309.6
- suicide.past 1 194.70 112557 2309.8
- suicide.hr 1 325.78 112688 2310.3
- subst.cons 1 369.99 112733 2310.4
- ago.cons 1 371.70 112734 2310.4
- grav.cons 1 376.31 112739 2310.5
- ecole 1 448.93 112811 2310.7
<none> 112363 2311.1
- juge.enfant 1 693.66 113056 2311.6
- ed 1 811.46 113174 2312.0
- age 1 913.60 113276 2312.4
- dep.cons 1 1408.76 113771 2314.1
- alc.cons 1 1541.19 113904 2314.6
- n.enfant 1 1775.87 114138 2315.4
Step: AIC=2309.17
subst.cons + scz.cons + char + rs + ed + suicide.s + suicide.hr +
suicide.past

- rs 1 20.04 112400 2307.2
- char 1 28.51 112408 2307.3
- scz.cons 1 31.09 112411 2307.3
- discip 1 57.73 112438 2307.4
- suicide.s 1 79.67 112460 2307.5
- n.fratrie 1 92.01 112472 2307.5
- ptsd.cons 1 156.45 112536 2307.7
- suicide.past 1 199.71 112580 2307.9
- suicide.hr 1 324.24 112704 2308.3
- subst.cons 1 360.36 112740 2308.5
- ago.cons 1 382.51 112762 2308.5
- grav.cons 1 390.28 112770 2308.6
- ecole 1 435.14 112815 2308.7
<none> 112380 2309.2
- juge.enfant 1 716.99 113097 2309.7
- ed 1 796.72 113177 2310.0
- age 1 918.49 113298 2310.4
- dep.cons 1 1393.12 113773 2312.1
- alc.cons 1 1543.75 113924 2312.7
- n.enfant 1 1759.63 114140 2313.4
Step: AIC=2307.25
subst.cons + scz.cons + char + ed + suicide.s + suicide.hr +
suicide.past

- char 1 19.68 112420 2305.3
- scz.cons 1 29.45 112429 2305.3
- discip 1 57.05 112457 2305.4
- suicide.s 1 85.95 112486 2305.6
- n.fratrie 1 98.64 112499 2305.6
- ptsd.cons 1 152.72 112553 2305.8
- suicide.past 1 194.88 112595 2305.9
- suicide.hr 1 337.42 112737 2306.4
- subst.cons 1 366.10 112766 2306.6
- grav.cons 1 378.87 112779 2306.6
- ago.cons 1 393.80 112794 2306.7
- ecole 1 442.28 112842 2306.8
<none> 112400 2307.2
- juge.enfant 1 729.14 113129 2307.8
- ed 1 848.03 113248 2308.3
- age 1 900.41 113300 2308.5
- dep.cons 1 1426.90 113827 2310.3
- alc.cons 1 1585.77 113986 2310.9
- n.enfant 1 1754.34 114154 2311.5
Step: AIC=2305.32
subst.cons + scz.cons + ed + suicide.s + suicide.hr + suicide.past

- scz.cons 1 30.81 112451 2303.4
- discip 1 54.90 112475 2303.5
- suicide.s 1 94.80 112515 2303.7
- n.fratrie 1 97.64 112517 2303.7
- ptsd.cons 1 149.66 112569 2303.8
- suicide.past 1 188.63 112608 2304.0
- suicide.hr 1 335.56 112755 2304.5
- subst.cons 1 355.50 112775 2304.6
- grav.cons 1 359.72 112779 2304.6
- ago.cons 1 418.69 112838 2304.8
- ecole 1 457.87 112878 2304.9

<none> 112420 2305.3
- juge.enfant 1 709.71 113129 2305.8
- ed 1 835.91 113256 2306.3
- age 1 897.24 113317 2306.5
- dep.cons 1 1420.02 113840 2308.4
- alc.cons 1 1571.20 113991 2308.9
- n.enfant 1 1770.64 114190 2309.6
Step: AIC=2303.43
subst.cons + ed + suicide.s + suicide.hr + suicide.past

- discip 1 51.39 112502 2301.6
- n.fratrie 1 90.28 112541 2301.8
- suicide.s 1 103.81 112554 2301.8
- ptsd.cons 1 142.89 112593 2301.9
- suicide.past 1 197.28 112648 2302.1
- suicide.hr 1 353.00 112804 2302.7
- subst.cons 1 358.28 112809 2302.7
- ago.cons 1 420.72 112871 2302.9
- grav.cons 1 424.24 112875 2302.9
- ecole 1 443.52 112894 2303.0
<none> 112451 2303.4
- juge.enfant 1 707.81 113158 2304.0
- ed 1 854.95 113305 2304.5
- age 1 876.50 113327 2304.6
- dep.cons 1 1398.10 113849 2306.4
- alc.cons 1 1567.05 114018 2307.0
- n.enfant 1 1800.13 114251 2307.8
Step: AIC=2301.61
dur.interv ~ age + n.enfant + n.fratrie + ecole + juge.enfant +
subst.cons + ed + suicide.s + suicide.hr + suicide.past

- n.fratrie 1 78.46 112580 2299.9
- suicide.s 1 92.21 112594 2299.9
- ptsd.cons 1 132.05 112634 2300.1
- suicide.past 1 194.88 112697 2300.3
- suicide.hr 1 341.38 112843 2300.8
- subst.cons 1 381.88 112884 2301.0
- ago.cons 1 418.78 112921 2301.1
- grav.cons 1 437.45 112939 2301.2
- ecole 1 446.38 112948 2301.2
<none> 112502 2301.6
- juge.enfant 1 732.26 113234 2302.2
- age 1 833.46 113335 2302.6
- ed 1 865.77 113368 2302.7
- dep.cons 1 1373.22 113875 2304.5
- alc.cons 1 1524.63 114027 2305.0
- n.enfant 1 1760.31 114262 2305.9
Step: AIC=2299.89
dur.interv ~ age + n.enfant + ecole + juge.enfant + grav.cons +
ed + suicide.s + suicide.hr + suicide.past

- suicide.s 1 100.98 112681 2298.2
- ptsd.cons 1 128.09 112708 2298.3
- suicide.past 1 199.11 112779 2298.6
- suicide.hr 1 350.01 112930 2299.1
- subst.cons 1 392.82 112973 2299.3
- grav.cons 1 423.00 113003 2299.4
- ago.cons 1 435.15 113016 2299.4
- ecole 1 477.64 113058 2299.6
<none> 112580 2299.9
- juge.enfant 1 702.52 113283 2300.4
- age 1 855.59 113436 2300.9
- ed 1 875.70 113456 2301.0
- dep.cons 1 1337.34 113918 2302.7
- alc.cons 1 1500.05 114080 2303.2
- n.enfant 1 1723.14 114303 2304.0
Step: AIC=2298.25
ed + suicide.hr + suicide.past

- ptsd.cons 1 127.10 112808 2296.7
- suicide.past 1 192.22 112874 2296.9
- suicide.hr 1 330.68 113012 2297.4
- subst.cons 1 360.30 113042 2297.5
- grav.cons 1 408.77 113090 2297.7
- ecole 1 463.66 113145 2297.9
- ago.cons 1 485.33 113167 2298.0
<none> 112681 2298.2
- juge.enfant 1 714.21 113396 2298.8
- ed 1 833.57 113515 2299.2

- age 1 853.69 113535 2299.3
- dep.cons 1 1240.79 113922 2300.7
- alc.cons 1 1443.05 114124 2301.4
- n.enfant 1 1725.53 114407 2302.4
Step: AIC=2296.71
dep.cons + ago.cons + alc.cons + subst.cons + ed + suicide.hr +
suicide.past

- suicide.past 1 201.00 113009 2295.4
- suicide.hr 1 307.71 113116 2295.8
- grav.cons 1 322.96 113131 2295.9
- subst.cons 1 371.92 113180 2296.0
- ecole 1 451.54 113260 2296.3
- ago.cons 1 506.21 113315 2296.5
<none> 112808 2296.7
- juge.enfant 1 670.82 113479 2297.1
- ed 1 777.38 113586 2297.5
- age 1 832.56 113641 2297.7
- dep.cons 1 1267.81 114076 2299.2
- alc.cons 1 1496.86 114305 2300.0
- n.enfant 1 1756.87 114565 2300.9
Step: AIC=2295.42
dep.cons + ago.cons + alc.cons + subst.cons + ed + suicide.hr

- subst.cons 1 357.55 113367 2294.7
- grav.cons 1 389.53 113399 2294.8
- ecole 1 433.60 113443 2295.0
- ago.cons 1 448.74 113458 2295.0
<none> 113009 2295.4
- suicide.hr 1 582.38 113592 2295.5
- juge.enfant 1 745.66 113755 2296.1
- ed 1 784.83 113794 2296.2
- age 1 837.55 113847 2296.4
- dep.cons 1 1293.66 114303 2298.0
- alc.cons 1 1629.61 114639 2299.2
- n.enfant 1 1794.08 114804 2299.8
Step: AIC=2294.7
dep.cons + ago.cons + alc.cons + ed + suicide.hr

- ecole 1 418.23 113785 2294.2
- ago.cons 1 467.71 113835 2294.4
- grav.cons 1 497.27 113864 2294.5
<none> 113367 2294.7
- suicide.hr 1 611.34 113978 2294.9
- age 1 612.91 113980 2294.9
- juge.enfant 1 746.44 114113 2295.3
- ed 1 755.78 114123 2295.4
- dep.cons 1 1317.57 114685 2297.3
- n.enfant 1 1712.64 115080 2298.7
- alc.cons 1 2176.61 115544 2300.4
Step: AIC=2294.18
dur.interv ~ age + n.enfant + juge.enfant + grav.cons + dep.cons +
ago.cons + alc.cons + ed + suicide.hr

- grav.cons 1 439.97 114225 2293.7
- ago.cons 1 523.42 114309 2294.0
<none> 113785 2294.2
- juge.enfant 1 578.11 114363 2294.2
- age 1 631.80 114417 2294.4
- suicide.hr 1 651.06 114436 2294.5
- ed 1 698.55 114484 2294.7
- dep.cons 1 1391.67 115177 2297.1
- n.enfant 1 1741.43 115527 2298.3
- alc.cons 1 2201.32 115987 2299.9
Step: AIC=2293.74
dur.interv ~ age + n.enfant + juge.enfant + dep.cons + ago.cons +
alc.cons + ed + suicide.hr

- ago.cons 1 373.15 114598 2293.1
<none> 114225 2293.7
- age 1 579.69 114805 2293.8
- juge.enfant 1 624.29 114849 2293.9
- ed 1 849.89 115075 2294.7
- suicide.hr 1 1046.49 115272 2295.4
- n.enfant 1 1695.82 115921 2297.7
- dep.cons 1 1977.11 116202 2298.7
- alc.cons 1 2435.50 116661 2300.2
Step: AIC=2293.05
dur.interv ~ age + n.enfant + juge.enfant + dep.cons + alc.cons +

ed + suicide.hr

<none> 114598 2293.1
- age 1 617.51 115216 2293.2
- juge.enfant 1 632.11 115230 2293.3
- ed 1 679.77 115278 2293.4
- suicide.hr 1 870.20 115469 2294.1
- n.enfant 1 1661.09 116259 2296.8
- dep.cons 1 1704.31 116303 2297.0
- alc.cons 1 2361.24 116960 2299.3
# Résumé du modèle
summary(modele_2)
Call:
lm(formula = dur.interv ~ age + n.enfant + juge.enfant + dep.cons +
alc.cons + ed + suicide.hr, data = smp)
Residuals:
-60.052 -11.581 -0.181 9.669 59.180
Coefficients:
(Intercept) 48.00415 3.77130 12.729 < 2e-16 ***
age 0.10901 0.07472 1.459 0.14538
n.enfant 1.14694 0.47933 2.393 0.01719 *
juge.enfant 3.02667 2.05049 1.476 0.14072
dep.cons 4.82723 1.99166 2.424 0.01581 *
alc.cons 7.01174 2.45780 2.853 0.00456 **
ed 1.57778 1.03076 1.531 0.12665
suicide.hr 4.16848 2.40691 1.732 0.08408 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

> # Anova du modèle

> print(anova(modele_2, test="Chisq"))
Analysis of Variance Table
Response: dur.interv
Df Sum Sq Mean Sq F value Pr(>F)
age 1 542 541.9 1.8678 0.172507
n.enfant 1 1789 1789.4 6.1679 0.013423 *
juge.enfant 1 1578 1578.4 5.4404 0.020178 *
dep.cons 1 5548 5548.3 19.1241 1.569e-05 ***
alc.cons 1 2732 2732.2 9.4174 0.002298 **
ed 1 843 842.7 2.9046 0.089114 .
suicide.hr 1 870 870.2 2.9994 0.084075 .
Residuals 395 114598 290.1
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

# 4eme étape : Choix de variables

# +----------------------------+#
library(leaps)
choix<-regsubsets(smp$dur.interv ~ smp$age + smp$duree + smp$dep.cons +
smp$abus,data=smp,nbest=2,nvmax=4)
plot(choix,scale="bic")
# avec :
nbest=2 (les deux meilleurs explicatives) ;
nvmax=5 (sur l’ensemble des 4 explicatives)
bic (avec le critère de BIC, on peut prendre le critère de Rajuste, Cp de
Mallows, etc.)
Conclusion
Le critère est optimum pour la ligne en haut du graphique, mais nous conserverons
ici le modèle à trois variables (age ; dep.cons ; abus)

Faisons à nouveau la régression sur les variables retenues
reg.fin<-lm(smp$dur.interv ~ smp$age + smp$dep.cons + smp$abus)

reg.fin$coefficients
(Intercept) smp$age smp$dep.cons smp$abus
51.4367211 0.1606132 7.7316184 4.2045544

confint(reg.fin)
2.5 % 97.5 %
(Intercept) 46.7921269 56.0813152
smp$age 0.0565261 0.2647002
smp$dep.cons 4.8924299 10.5708070
smp$abus 1.1326058 7.2765030
# Voir le résumé des résultats du modèle final

summary(reg.fin)
Call:
lm(formula = smp$dur.interv ~ smp$age + smp$dep.cons + smp$abus)
Residuals:
-61.43 -13.38 -1.42 11.49 62.30
Coefficients:
(Intercept) 51.43672 2.36585 21.741 < 2e-16 ***
smp$age 0.16061 0.05302 3.029 0.00254 **
smp$dep.cons 7.73162 1.44622 5.346 1.2e-07 ***
smp$abus 4.20455 1.56478 2.687 0.00737 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

INTERPRETATION
• La durée de l’entretien augmente de 0,16 minute lorsque l’âge augmente d’un

an toutes choses égales par ailleurs (cétéris paribus) ;
• Par rapport à un détenu qui n’a pas eu de dépression, celui qui en a eu a
une durée d’interview de 7,73 minutes de plus (cétéris paribus)
• Par rapport à un détenu qui n’a pas été abusé dans l’enfance, celui qui a
été abusé a une durée d’interview de 4,20 minutes de plus (cétéris paribus)
• Un détenu qui a eu une dépression et qui a été abusé a une durée d’interview
de 7,73+4,20 = 11,93 minutes de plus par rapport à celui qui n’a pas été
abusé et qui n’a pas eu de dépression

# 5eme étape : Analyser les résidus

# +------------------------------+#
res.m<-rstudent(reg.fin)
plot(res.m,pch=15,cex=.5,ylab="Residus",ylim=c(-3,3))
abline(h=c(-2,0,2),lty=c(2,1,2))
En théorie 95% des résidus studentisés se trouvent dans l’intervalle [-2;2]. Ici
on a visuellement beaucoup de résidus qui se trouvent dans cet intervalle. Ce
qui est acceptable.
sum(as.numeric(abs(res.m)<=2))/nrow(df)*100
[1] 88.86108

LE PROBLEME DE LA COLINEARITE
On parle de colinéarité entre 2 variables exogènes lorsque la corrélation linéaire entre ces variables est
élevée (ex. 𝒓 > 𝟎. 𝟖 a-t-on l'habitude d'indiquer mais ce n'est pas une règle absolue). On peut
généraliser cette première définition en définissant la colinéarité comme la corrélation entre une des
exogènes avec une combinaison linéaire des autres exogènes.
Il y a multicolinéarité lorsque l’hypothèse de l’orthogonalité des exogènes ou encore de leur

indépendance linéaire |X’X| ≠ 0 est relâchée. Dans ce cas, la méthode des moindres carrés ordinaires est
défaillante et il devient difficile d’isoler l’impact individuel de chaque exogène sur l’endogène.
On distingue généralement deux types de multicolinéarité : la multicolinéarité parfaite ou exacte et la

quasi multicolinéarité ou multicolinéarité imparfaite.
En cas de multicolinéarité parfaite, la matrice X’X est singulière, et par conséquent son inverse (𝐗’𝐗)–1
n’existe pas, ce qui rend la méthode des MCO complètement défaillante; il n’est donc pas possible
devant une telle situation d’estimer les paramètres du modèle.
Dans la pratique, c’est plutôt le cas de quasi multicolinéarité qui est fréquent. En effet, la
multicolinéarité imparfaite correspond au cas où la matrice est non singulière, mais son déterminant est
proche de 0. La conséquence directe est qu’on aura des valeurs très grandes dans la matrice inverse
(X’X)–1. La conséquence, et donc le problème posé par la multicolinéarité est que, du fait de la valeur
élevée des variances des coefficients estimés, les résultats de l’estimation perdent en précision, c’est-à-
dire que les t de Student seront faibles, et les coefficients statistiquement nuls, pendant que le R2 et le F
sont élevés.
L’autre problème posé par la multicolinéarité est l’instabilité de paramètre et l’effet de masque qui rend
difficile la mise en évidence de la contribution individuelle de différentes variables explicatives sur
l’endogène.
Hiérarchie des hypothèses

À noter que si l'hypothèse de non colinéarité n'est pas vérifiée, l'estimation du modèle est impossible
(elle nécessiterait d'inverser une matrice singulière) alors que pour toutes les autres hypothèses
l'estimation est possible mais donne un estimateur biaisé et/ou non efficace (à variance non minimale).

1. TEST DE DETECTION DE LA MULTICOLINEARITE
setwd("C:/Users/ASUS/Desktop/jeudonnee")
smp <- read.table("smp2.csv",header=TRUE,sep=";",check.names=FALSE)
reg.fin <- lm(smp$dur.interv ~ smp$age + smp$dep.cons + smp$abus)
library(car)
vif(reg.fin)
smp$age smp$dep.cons smp$abus
1.011970 1.010842 1.004446
VIF et MULTICOLINEARITE
Les facteurs d'inflation de la variance ou VIF mesurent l'inflation des variances des estimations des paramètres en
raison des colinéarités qui existent entre les prédicteurs. C'est une mesure de combien la variance du coefficient de
régression estimé βk est « gonflé » par l'existence d'une corrélation entre les variables prédictives du modèle.
• Un VIF de 1 signifie qu'il n'y a pas de corrélation entre le k ème prédicteur et les variables prédictives restantes, et
donc la variance de βk n'est pas du tout gonflée.
• La règle générale est que les VIF supérieurs à 4 justifient une enquête plus approfondie, tandis que les VIF
supérieurs à 10 sont des signes de multicolinéarité grave nécessitant une correction.
VIF
library(olsrr)
ols_vif_tol(reg.fin)
Variables Tolerance VIF
1 smp$age 0.9881713 1.011970
2 smp$dep.cons 0.9892744 1.010842
3 smp$abus 0.9955736 1.004446
2. TRAITEMENT DE LA MULTICOLINEARITE
La colinéarité peut fausser complètement l’interprétation des coefficients de la régression. Il faut la détecter. Il faut la
traiter.
❖ Parmi les traitements possibles : la sélection de variables.

D’autant plus intéressante qu’elle aide à l’interprétation des résultats en mettant en avant les variables les plus
intéressantes.
Mais Attention, ce ne sont que des procédures automatiques. Elles peuvent proposer des solutions différentes. Il faut
les voir comme des scénarios que l’on soumet (fait valider par) à l’expertise du domaine.
❖ D’autres techniques de régression permettent de mieux gérer les problèmes de colinéarité, ce sont par exemple
✓ Régression RIDGE
✓ Régression LASSO
✓ Régression ELASTIC NET
✓ Régression sur facteurs de l’ACP
✓ Régression PLS
Ces techniques de régression seront traitées dans le cours relatif aux techniques
prédictives en DATA MINING.

# 6eme étape : Tester la validité du modèle

# +---------------------------------------+#
LES DONNEES
residus<-residuals(reg.fin)
res.normalise<-rstudent(reg.fin)
val.estimees<-fitted.values(reg.fin)
1) test si de 𝑪𝒐𝒗(𝑿, 𝜺) = 𝟎
Test Graphique
Graphique "Scale-Location" : On trace le nuage de points : (𝑒𝑖 ; 𝑦𝑖 − 𝑒𝑖 )

Si on ne peut pas ajuster le nuage de points par une "ligne" (droite ou courbe), on admet que 𝜺 et X1,...,Xp sont indépendantes.
plot(reg.fin,1)
REMARQUE :
Problème :
Lorsque cette hypothèse n’est pas respectée, l'estimateur des moindres carrés ordinaires est biaisé et n'est pas convergent
(le biais ne tend donc pas à disparaître si la taille de l'échantillon est grande). Il produirait donc une erreur systématique des
valeurs estimées.
Solution :
La méthode des variables instrumentales est plus efficace que les MCO pour estimer les paramètres du modèle en cas
d’endogénéité des explicatives.

2) test de linéarité du modèle
Test de Rainbow :
Pour conclure à la non-linéarité du modèle de régression, on préconise le test de Rainbow : si p-valeur < 0.05, on rejette la
linéarité du modèle et on admet qu’un modèle de régression non-linéaire est plus adapté aux données.
𝐻0 ∶ 𝑙𝑒 𝑚𝑜𝑑è𝑙𝑒 𝑒𝑠𝑡 𝑙𝑖𝑛é𝑎𝑖𝑟𝑒

𝐻1 ∶ 𝑙𝑒 𝑚𝑜𝑑è𝑙𝑒 𝑛′ 𝑒𝑠𝑡 𝑝𝑎𝑠 𝑙𝑖𝑛é𝑎𝑖𝑟𝑒
library(lmtest)
raintest(reg.fin)
Rainbow test
data: reg.fin
Rain = 1.5615, df1 = 371, df2 = 367, p-value = 1.032e-05
# Conclusion : la p-value < 0.05 donc on rejette 𝐻0 , le modèle n’est pas linéaire

3) Test de 𝑬(𝜺𝒕 ) = 𝟎
mean(residus)
[1] -1.137007e-14 ≈ 0
4) 𝜺𝒕 ~𝑵(𝟎, 𝝈𝟐𝜺 ) normalité des erreurs
TEST DE SHAPIRO WILK

# 𝑯𝟎 : La distribution suit la loi normale
# 𝑯𝟏 : La distribution ne suit pas la loi normale
shapiro.test(residus)
Shapiro-Wilk normality test
data: residus
W = 0.98078, p-value = 2.69e-08
# Conclusion : p-value < 0.05, on rejette 𝐻0 : Donc la distribution ne suit
pas une loi normale
TEST DE JARQUE BERA

library(tseries)
jarque.bera.test(residus)
Shapiro-Wilk normality test
data: residus
W = 0.98078, p-value = 2.69e-08
# Conclusion : p-value < 0.05, on rejette 𝐻0 : Donc la distribution ne suit
pas une loi normale
REMARQUE :
Problème : Sa violation ne touche pas le caractère non biaisé des paramètres mais rend l’inférence, dans le modèle linéaire,
impossible car les distributions des estimateurs ne sont plus connues.
Solution :
✓ Le meilleur remède à la non-normalité des résidus est d’agrandir la taille de l’échantillon.
✓ La transformation de Box – Cox, sur les variables non normales intervenant dans le modèle, est souvent aussi indiquée.

5) 𝑽(𝜺𝒕 ) = 𝑬(𝜺𝟐𝒕 ) = 𝝈𝟐𝜺 (Hypothèse d’homoscédasticité des erreurs)
plot(reg.fin,1)
TEST DE BREUSCH-PAGAN
𝐻0 ∶ 𝑖𝑙 𝑦 𝑎 ℎ𝑜𝑚𝑜𝑠𝑐é𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑡é
𝐻1 ∶ 𝑖𝑙 𝑦 𝑎 ℎé𝑡é𝑟𝑜𝑠𝑐é𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑡é
install.packages("lmtest")
library(lmtest)
bptest(reg.fin)
studentized Breusch-Pagan test
data: reg.fin
BP = 1.2721, df = 3, p-value = 0.7358
# Conclusion : p-value > 0.05, on ne peut rejeter 𝐻0 : Donc il y a
homoscédasticité

TEST DE WHITE
𝐻0 ∶ 𝑖𝑙 𝑦 𝑎 ℎ𝑜𝑚𝑜𝑠𝑐é𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑡é
𝐻1 ∶ 𝑖𝑙 𝑦 𝑎 ℎé𝑡é𝑟𝑜𝑠𝑐é𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑡é
install.packages("het.test")
install.packages("vars")
library(het.test)
library(vars)
df<-data.frame(smp$dur.interv,smp$age,smp$duree,smp$dep.cons,smp$abus)
df1<-na.omit(df)
mod<-VAR(df1)
whites.htest(mod)
White's Test for Heteroskedasticity:

====================================
No Cross Terms
H0: Homoskedasticity
H1: Heteroskedasticity
Test Statistic:
139.4040
Degrees of Freedom:
150
P-value:
0.7218
# Conclusion : p-value > 0.05, on ne peut rejeter 𝐻0 : Donc il y a

homoscédasticité
Problème :
La conséquence directe de cette violation est que les estimateurs des MCO, bien que encore non biaisés, ne sont plus
efficients, puisque n’ayant plus une variance minimale. Et par conséquent les t de Student et F de Fisher ne sont plus utilisables
à des fins d’inférence.
Solution :
Si l’hypothèse d’homoscédasticité n’est pas vériﬁée, on peut eﬀectuer une transformation pour stabiliser la variance. Les deux
transformations les plus courantes sont :
▪ 𝑌 𝑒𝑛 𝑙𝑜𝑔 𝑌 si σ est proportionnel E(Y)
▪ 𝑌 𝑒𝑛 √𝑌 si σ2 est proportionnel E(Y)
A chaque transformation, faire le test graphique pour voir si le problème est résolu par la transformation des variables.

6) 𝑻𝒆𝒔𝒕 𝒅′ 𝒂𝒖𝒕𝒐𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒕𝒊𝒐𝒏𝒅𝒆𝒔 𝒆𝒓𝒓𝒆𝒖𝒓𝒔 𝑪𝒐𝒗(𝜺𝒕 , 𝜺𝒔 ) = 𝟎
On a une autocorrélation des erreurs lorsque les erreurs sont liées par un processus de reproduction.
On peut distinguer l’autocorrélation positive de l’autocorrélation négative.
plot(res.m,pch=15,cex=.5,ylab="Residus",ylim=c(-3,3),type=”b”)
abline(h=c(-2,0,2),lty=c(2,1,2))
acf(residus,plot = FALSE)
Autocorrelations of series ‘residus’, by lag
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
1.000 0.456 0.361 0.341 0.360 0.294 0.327 0.318 0.305 0.338 0.295 0.298 0.323 0.309 0.268
15 16 17 18 19 20 21 22 23 24 25 26 27 28
0.306 0.339 0.303 0.284 0.289 0.257 0.233 0.279 0.231 0.235 0.211 0.211 0.192 0.225

acf(residus,plot = TRUE)
#
Conclusion : La droite horizontale pointillée sur le graphique issu de la fonction
"acf" nous indique le seuil critique au-delà duquel l'autocorrélation est
considérée significative. En effet, sous hypothèse d'indépendance, la corrélation
croisée de deux séries X et Y (de même taille n, et de même moyenne et écart-
type) sera dans 95% des cas comprise dans l'intervalle
TEST DE DURBAN - WATSON

conditions
• Pour utiliser ce test, le modèle doit comporter impérativement un terme constant
• La variable à expliquer ne doit pas figurer parmi les variables explicatives
# 𝑯𝟎 : 𝜌1 = 0 il n’y a pas d’autocorrélation d’ordre 1
# 𝑯𝟏 : 𝜌1 ≠ 0 il y a une autocorrélation d’ordre 1
install.packages("lmtest")
library(lmtest)
dwtest(reg.fin)
Durbin-Watson test
data: reg.fin
DW = 1.086, p-value < 2.2e-16
alternative hypothesis: true autocorrelation is greater than 0
# Conclusion : La p-value < 0.05 donc on rejette H0. Il y a autocorrélation
d’ordre 1

TEST DE BREUSCH-GODFREY
Il permet de tester une autocorrélation d’un ordre supérieur à 1, et il reste valide en présence de la variable à
expliquer retardée parmi les variables explicatives
# 𝑯𝟎 : il n’y a pas d’autocorrélation
# 𝑯𝟏 : il a autocorrélation
library(lmtest)
bgtest(reg.fin)
Breusch-Godfrey test for serial correlation of order up to 1
data: reg.fin
LM test = 155.93, df = 1, p-value < 2.2e-16
# Conclusion : La p-value < 0.05 donc on rejette H0. Il y a autocorrélation

d’autocorrélation d’ordre 1
Problème :
Il y a autocorrélation des erreurs lorsque l’hypothèse 𝐶𝑜𝑣(𝜀𝑡 , 𝜀𝑠 ) = 0 est violée. La conséquence directe est que les
estimateurs des MCO, bien qu’ils gardent encore leur caractère non biaisé, ne sont plus efficients, puisque n’ayant plus une
variance minimale.
Il faut noter aussi que l’autocorrélation des erreurs est un phénomène que l’on ne retrouve qu’en travaillant sur séries
temporelles. En principe, le problème ne se pose pas sur cross sections, sauf le cas rare de corrélation spatiale des résidus,
Solution :
Lorsque le test conclut à l’évidence d’une autocorrélation, la correction se fait en appliquant la méthode des Moindres Carrés
Généralisés [MCG ou GLS pour le sigle anglais] de Gauss-Aitken, qui consiste simplement à l’application des MCO sur les
données transformées.
smp1<-na.omit(smp) # gls ne supporte pas les données manquantes

library(nlme)
reglm<-lm(smp$dur.interv ~ smp$age + smp$dep.cons + smp$abus)
reggls<-gls(dur.interv ~ age + dep.cons + abus, data=smp1)
reglm$coefficients
51.4367211 0.1606132 7.7316184 4.2045544
reggls$coefficients
(Intercept) age dep.cons abus
54.0410540 0.1119359 8.2510150 1.9183688

𝑻𝒆𝒔𝒕 𝒅𝒆 𝑪𝒉𝒐𝒘 ∶ 𝒔𝒕𝒂𝒃𝒊𝒍𝒊𝒕é 𝒐𝒖 𝒓𝒖𝒑𝒕𝒖𝒓𝒆 𝒅𝒆 𝒔𝒕𝒓𝒖𝒄𝒕𝒖𝒓𝒆
Le test de Chow est un test statistique et économétrique afin de déterminer si les coefficients de deux séries linéaires sont
égaux. Les coefficients sont établis par régression linéaire.
Il est surtout utilisé dans le cadre de séries temporelles pour savoir s'il y a une cassure significative par une certaine date qui
séparerait les données en deux blocs ; il permet également d'évaluer l'impact des variables indépendantes sur les deux
groupes ainsi construits. Ce test s'appuie sur la loi de Fisher.
# 𝑯𝟎 : il n’y a pas de rupture de structure

# 𝑯𝟏 : il a rupture de structure
install.packages("strucchange")
library(strucchange)
sctest(y ~ x)
library(strucchange)
sctest(smp$dur.interv ~ smp$age + smp$dep.cons + smp$abus, type = "Chow")
Chow test
data: smp$dur.interv ~ smp$age + smp$dep.cons + smp$abus

F = 34.129, p-value < 2.2e-16
# Conclusion : La p-value < 0.05 donc on rejette H0. Il y a DONC pas un changement
de structure.

# 7eme étape : Prédire une nouvelle valeur

# +--------------------------------------+#
Ayant une nouvelle observation xnew, il suffit d’utiliser les estimations pour
prévoir la valeur de Y correspondante. Cependant, la valeur prédite est de peu
d’intérêt sans l’intervalle de confiance associée.
smp1<-data.frame(smp$dur.interv,smp$age,smp$dep.cons,smp$abus)
reglm<-lm(smp.dur.interv~smp.age+smp.dep.cons+smp.abus, data=smp1)
summary(reglm)
Call:
lm(formula = smp.dur.interv ~ smp.age + smp.dep.cons + smp.abus,
data = smp1)
Residuals:
-61.43 -13.38 -1.42 11.49 62.30
Coefficients:
(Intercept) 51.43672 2.36585 21.741 < 2e-16 ***
smp.age 0.16061 0.05302 3.029 0.00254 **
smp.dep.cons 7.73162 1.44622 5.346 1.2e-07 ***
smp.abus 4.20455 1.56478 2.687 0.00737 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Exemple :
Nous disposons d’un nouvel individu avec les valeur des variables :
(age dep.cons abus)
-----------------------------------------------
Xnew<-matrix(c(45,1,0),nrow=1)
colnames(Xnew)<-c("smp.age","smp.dep.cons","smp.abus")
Xnew<-as.data.frame(Xnew)
Xnew
smp.age smp.dep.cons smp.abus
1 45 1 0
-----------------------------------------------
predict(reglm, Xnew, interval="pred")
fit lwr upr
1 66.39593 28.75605 104.0358
# REMARQUES :
Il faut noter que l’argument xnew de la fonction predict doit être un data-
frame avec les mêmes noms des variables explicatives (ici : age dep.cons abus).

# 8eme étape : cas d’introduction d’une variable qualitative binaire

# +----------------------------------------------------------------+#
Dans la modélisation qui suit, nous avons deux variables indicatrices (dummy en
anglais) comment s’interprète les coefficients de ces variables ?
Expliquer le comportement la durée de l’interview en fonction de :

• dep.cons : existence d’une dépression # variable binaire
• abus : existence d’un abus dans l’enfance # variable binaire
reg.fin<-lm(smp$dur.interv ~ smp$age + smp$dep.cons + smp$abus)

51.4367211 0.1606132 7.7316184 4.2045544
# Voir le résumé des résultats du modèle final

summary(reg.fin)
Call:
lm(formula = smp$dur.interv ~ smp$age + smp$dep.cons + smp$abus)
Residuals:
-61.43 -13.38 -1.42 11.49 62.30
Coefficients:
(Intercept) 51.43672 2.36585 21.741 < 2e-16 ***
smp$age 0.16061 0.05302 3.029 0.00254 **
smp$dep.cons 7.73162 1.44622 5.346 1.2e-07 ***
smp$abus 4.20455 1.56478 2.687 0.00737 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

INTERPRETATION
• Par rapport à un détenu qui n’a pas eu de dépression, celui qui en a eu a
une durée d’interview de 7,73 minutes de plus (cétéris paribus)
• Par rapport à un détenu qui n’a pas été abusé dans l’enfance, celui qui a
été abusé a une durée d’interview de 4,20 minutes de plus (cétéris paribus)

Cas d’une variable qualitative polytomique

• age : age des detenus
• dep.cons : existence d’une dépression # variable binaire
• abus : existence d’un abus dans l’enfance # variable binaire
• dur.interv : duree de l’entrevue avec le détenu
• prof : profession du détenu
reg.fin<-lm(smp$dur.interv ~ smp$age + smp$dep.cons + smp$abus + smp$prof)

(Intercept) smp$age
67.450300 0.154829
smp$dep.cons smp$abus
7.783246 4.127321
smp$profartisan smp$profautre
-13.881089 -13.449860
smp$profcadre smp$profemploy?
-21.501286 -15.748287
smp$profouvrier smp$profprof.interm?diaire
-15.881334 -15.925772
smp$profsans emploi
-16.303711

confint(reg.fin)
2.5 % 97.5 %
(Intercept) 47.70993228 87.1906681
smp$age 0.04619967 0.2634583
smp$dep.cons 4.92691582 10.6395766
smp$abus 1.03849167 7.2161505
smp$profartisan -33.14595138 5.3837732
smp$profautre -33.81313656 6.9134170
smp$profcadre -41.87444164 -1.1281294
smp$profemploy? -34.90305688 3.4064820
smp$profouvrier -34.94019235 3.1775239
smp$profprof.interm?diaire -35.45728830 3.6057433
smp$profsans emploi -35.38001200 2.7725901
summary(reg.fin)
Residuals:
-61.39 -12.91 -1.43 10.88 62.81
Coefficients:
(Intercept) 67.45030 10.05506 6.708 3.96e-11 ***
smp$age 0.15483 0.05533 2.798 0.00527 **
smp$dep.cons 7.78325 1.45492 5.350 1.18e-07 ***
smp$abus 4.12732 1.57334 2.623 0.00889 **
smp$profartisan -13.88109 9.81285 -1.415 0.15762
smp$profautre -13.44986 10.37234 -1.297 0.19514
smp$profcadre -21.50129 10.37738 -2.072 0.03862 *
smp$profemploy? -15.74829 9.75677 -1.614 0.10694
smp$profouvrier -15.88133 9.70792 -1.636 0.10229
smp$profprof.interm?diaire -15.92577 9.94867 -1.601 0.10986
smp$profsans emploi -16.30371 9.71680 -1.678 0.09380 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


INTERPRETATION
R choisit par défaut comme variable de référence la variable par ordre
alphabétique (ici agriculteur)
• Toutes les modalités de la variable Profession ne sont pas significatives,

sauf la profession cadre. C’est donc elle que nous allons interpréter. Si les
autres modalités étaient significatives, ce serait la même interprétation
• Par rapport à un détenu agriculteur, l’interview d’un détenu cadre dure de
moins de 21,50 minutes
REMARQUE
• R recode chaque modalité la variable prof (qui est à huit modalités) en 7
variables binaire et prend la 1ère modalité par ordre alphabétique comme
modalité de référence (ici Agriculteur). C’est pourquoi elle ne figure pas
dans la sortie summary du modèle.

(Intercept) 67.45030 10.05506 6.708 3.96e-11 ***
smp$age 0.15483 0.05533 2.798 0.00527 **
smp$dep.cons 7.78325 1.45492 5.350 1.18e-07 ***
smp$abus 4.12732 1.57334 2.623 0.00889 **
smp$profartisan -13.88109 9.81285 -1.415 0.15762
smp$profautre -13.44986 10.37234 -1.297 0.19514
smp$profcadre -21.50129 10.37738 -2.072 0.03862 *
smp$profemploy? -15.74829 9.75677 -1.614 0.10694
smp$profouvrier -15.88133 9.70792 -1.636 0.10229
smp$profprof.interm?diaire -15.92577 9.94867 -1.601 0.10986
smp$profsans emploi -16.30371 9.71680 -1.678 0.09380 .
• Dans l’hypothèse où on veut prendre une autre modalité comme modalité de

référence par exemple (cadre), on fait la syntaxe suivante
smp$prof <- relevel(smp$prof, ref="cadre")
summary(reg.fin)
Call:
lm(formula = smp$dur.interv ~ smp$age + smp$dep.cons + smp$abus +
smp$prof)
Residuals:
-61.39 -12.91 -1.43 10.88 62.81
Coefficients:
(Intercept) 45.94901 4.91915 9.341 < 2e-16 ***
smp$age 0.15483 0.05533 2.798 0.00527 **
smp$dep.cons 7.78325 1.45492 5.350 1.18e-07 ***
smp$abus 4.12732 1.57334 2.623 0.00889 **
smp$profagriculteur 21.50129 10.37738 2.072 0.03862 *
smp$profartisan 7.62020 4.51512 1.688 0.09190 .
smp$profautre 8.05143 5.60914 1.435 0.15160
smp$profemploy? 5.75300 4.37521 1.315 0.18895

smp$profouvrier 5.61995 4.25983 1.319 0.18749
smp$profprof.interm?diaire 5.57551 4.79995 1.162 0.24579
smp$profsans emploi 5.19757 4.28025 1.214 0.22502
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

• Dans l’hypothèse où on veut voir l’effet global de la variable profession sur

la durée de l’interview et non les effets de chaque modalité de la variable
prof, on exécutera la commande suivante :
drop1(reg.fin, .~.,test="F")
Single term deletions
Model:
smp$dur.interv ~ smp$age + smp$dep.cons + smp$abus + smp$prof
Df Sum of Sq RSS AIC F value Pr(>F)
<none> 267010 4374.5
smp$age 1 2871.8 269882 4380.4 7.8298 0.005275 **
smp$dep.cons 1 10496.5 277507 4401.0 28.6184 1.182e-07 ***
smp$abus 1 2524.0 269534 4379.5 6.8816 0.008891 **
smp$prof 7 2244.0 269254 4366.7 0.8740 0.526570
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
INTERPRETATION
Au lieu de coder les 7 modalités en variables et prendre une comme modalité de
référence, on a ici une seule variable prof dont la p-value > 0.05. On conclut
donc à la non significativité de la variable prof.

# 9eme étape : Modèle avec interaction

# +---------------------------------+#
• Jusqu’à maintenant, nous avons considéré l’effet de chaque variable indépendante x1, x2… xk comme constant
quelque soit la valeur prise par les autres variables indépendantes.
• La possibilité existe pourtant que l’effet de x1, ou de x2, ou… de xk ne soit pas constant, mais varie en fonction des
valeurs prises par une des autres variables indépendantes introduite dans le modèle
✓ Par exemple, que l’effet de x1 diffère selon la valeur prise par x2
✓ On dit dans ce cas qu’il y a interaction entre x1 et x2
✓ Nota Bene : On peut étendre ce principe et s’intéresser aux cas où l’effet d’une variable x1 ou x2 ou…xk dépend
de 2, 3… autres variables du modèle.
En d’autres termes, il s’agit de voir si l’effet d’une variable exogène sur

l’endogène dépend des modalités d’une autre (ou des autres) variables exogènes.
• Nous allons examiner tour à tour trois formes d’interaction, selon le type de variables indépendantes qu’elles
impliquent
a) Interaction entre 2 variables quantitatives (intervalles)
b) Interaction entre 1 variable quantitative et 1 variable catégorielle
c) Interaction entre 2 variables catégorielles
REMARQUE IMPORTANTE :
Les tests des effets principaux n’ont de sens qu’en l’absence d’interaction

• n.enfant : nombre d’enfants du détenu
• dep.cons : existence d’une dépression
• abus : existence d’un abus dans l’enfance
reg.fin<-lm(smp$dur.interv ~ smp$age + smp$dep.cons + smp$abus + smp$n.enfant)

summary(reg.fin)
Call:
lm(formula = smp$dur.interv ~ smp$age + smp$dep.cons + smp$abus +
smp$n.enfant)
Residuals:
-60.604 -13.286 -1.301 10.641 62.853
Coefficients:
(Intercept) 52.07229 2.45366 21.222 < 2e-16 ***
smp$age 0.10825 0.06047 1.790 0.07385 .
smp$dep.cons 7.45650 1.47476 5.056 5.44e-07 ***
smp$abus 4.20633 1.59441 2.638 0.00852 **
smp$n.enfant 0.85321 0.42905 1.989 0.04712 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


A) - INTERACTION ENTRE 2 VARIABLES QUANTITATIVES (INTERVALLES)
Considérons dans notre modèle l’interaction entre l’âge et le nombre d’enfants. Sous R cela consiste à ajouter une
nouvelle variable comme explicative (le produit des deux variables = age*nb.enfant)
reg.inter1<-lm(dur.interv ~ age + dep.cons + abus + n.enfant + age*nb.enfant,

data=smp)
drop1(reg.inter1, .~.,test="F")
Model:
dur.interv ~ dep.cons + abus + age * n.enfant
<none> 264676 4274.9
dep.cons 1 9510.8 274186 4298.3 25.7286 5.011e-07 ***
abus 1 2608.0 267284 4279.9 7.0551 0.00808 **
age 1 377.1 265053 4273.9 1.0202 0.31282
n.enfant 1 0.2 264676 4272.9 0.0006 0.98112
age:n.enfant 1 136.8 264812 4273.2 0.3700 0.54320
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
summary(reg.inter1)
Call:
lm(formula = dur.interv ~ age + dep.cons + abus + n.enfant +
age * n.enfant, data = smp)
Residuals:
-60.540 -13.138 -1.311 10.823 62.948
Coefficients:
(Intercept) 53.28238 3.15967 16.863 < 2e-16 ***
age 0.07853 0.07775 1.010 0.31282
dep.cons 7.48849 1.47634 5.072 5.01e-07 ***
abus 4.23928 1.59603 2.656 0.00808 **
n.enfant 0.03348 1.41436 0.024 0.98112
age:n.enfant 0.01726 0.02838 0.608 0.54320
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

INTERPRETATION

B) - INTERACTION ENTRE 1 VARIABLE QUANTITATIVE ET 1 VARIABLE CATEGORIELLE
Considérons dans notre modèle l’interaction entre l’âge et l’abus dans l’enfance. Sous R cela consiste à ajouter une
nouvelle variable comme explicative (le produit des deux variables = age*abus)
Trans formons d’abord la variable abus en facteur

smp$abus <- factor(smp$abus, labels=c("non abuse","abuse"))
reg.inter2<-lm(dur.interv ~ age + dep.cons + abus + n.enfant + age*abus,

data=smp)
Model:
dur.interv ~ age + dep.cons + abus + n.enfant + age * abus
<none> 263379 4271.3
age 1 2298.3 265677 4275.6 6.2480 0.012656 *
dep.cons 1 8896.5 272275 4293.3 24.1853 1.086e-06 ***
abus 1 2693.4 266072 4276.7 7.3220 0.006974 **
n.enfant 1 1424.7 264803 4273.2 3.8731 0.049453 *
age:abus 1 1433.7 264812 4273.2 3.8976 0.048739 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
summary(reg.inter2)
Call:
age * abus, data = smp)
Residuals:
-60.447 -13.633 -1.372 11.152 62.808
Coefficients:
(Intercept) 49.72828 2.72138 18.273 < 2e-16 ***
age 0.16977 0.06792 2.500 0.01266 *
dep.cons 7.25534 1.47531 4.918 1.09e-06 ***
abusabuse 13.67974 5.05547 2.706 0.00697 **
n.enfant 0.84273 0.42821 1.968 0.04945 *
age:abusabuse -0.24572 0.12446 -1.974 0.04874 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

INTERPRETATION

C) - INTERACTION ENTRE 2 VARIABLES CATEGORIELLES
Considérons dans notre modèle l’interaction entre l’abus et la dépression. Sous R cela consiste à ajouter une nouvelle
variable comme explicative (le produit des deux variables = abus*dep.cons)
Trans formons d’abord la variable abus en facteur

smp$dep.cons <- factor(smp$dep.cons, labels=c("non déprimé","déprimé"))
reg.inter3<-lm(dur.interv ~ age + dep.cons + abus + n.enfant + abus*dep.cons,

data=smp)
Model:
dur.interv ~ age + dep.cons + abus + n.enfant + abus * dep.cons
<none> 262654 4269.3
age 1 1341.7 263995 4271.0 3.6575 0.056217 .
dep.cons 1 3316.1 265970 4276.4 9.0399 0.002734 **
abus 1 74.9 262729 4267.5 0.2042 0.651450
n.enfant 1 1488.1 264142 4271.4 4.0567 0.044370 *
dep.cons:abus 1 2158.7 264812 4273.2 5.8845 0.015520 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
summary(reg.inter3)
Call:
abus * dep.cons, data = smp)
Residuals:
-59.212 -13.950 -1.021 11.138 62.911
Coefficients:
(Intercept) 52.63299 2.45625 21.428 < 2e-16 ***
age 0.11539 0.06034 1.912 0.05622 .
dep.consdéprimé 5.21789 1.73546 3.007 0.00273 **
abusabuse 0.94115 2.08247 0.452 0.65145
n.enfant 0.86125 0.42761 2.014 0.04437 *
dep.consdéprimé:abusabuse 7.81697 3.22242 2.426 0.01552 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

INTERPRETATION

Considérons dans notre modèle l’interaction entre l’abus et la profession. Sous R cela consiste à ajouter une nouvelle
variable comme explicative (le produit des deux variables = abus*prof)
reg.inter4<-lm(dur.interv ~ age + dep.cons + abus + prof + n.enfant +

abus*prof, data=smp)
Model:
dur.interv ~ age + dep.cons + abus + prof + n.enfant + abus *
prof
<none> 259344 4271.5
age 1 953.9 260298 4272.1 2.5746 0.10904
dep.cons 1 9982.7 269327 4296.7 26.9446 2.747e-07 ***
abus 1 73.0 259417 4269.7 0.1971 0.65721
prof 7 2150.0 261494 4263.4 0.8290 0.56332
n.enfant 1 1482.0 260826 4273.6 4.0000 0.04589 *
abus:prof 7 2615.0 261959 4264.7 1.0083 0.42392
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
summary(reg.inter4)
Call:
lm(formula = dur.interv ~ age + dep.cons + abus + prof + n.enfant +
abus * prof, data = smp)
Residuals:
-59.722 -13.045 -1.127 10.321 62.299
Coefficients:
(Intercept) 71.68237 11.62290 6.167 1.17e-09 ***
age 0.10098 0.06293 1.605 0.1090
dep.consdéprimé 7.73923 1.49095 5.191 2.75e-07 ***
abusabuse -9.90249 22.30499 -0.444 0.6572
profartisan -18.46221 11.40829 -1.618 0.1060
profautre -14.82484 12.26578 -1.209 0.2272
profcadre -22.42005 12.01755 -1.866 0.0625 .
profemploy? -20.59823 11.37277 -1.811 0.0705 .
profouvrier -20.51001 11.29724 -1.815 0.0699 .
profprof.interm?diaire -17.44984 11.63579 -1.500 0.1342
profsans emploi -18.79194 11.31147 -1.661 0.0971 .
n.enfant 0.87235 0.43618 2.000 0.0459 *
abusabuse:profartisan 15.04030 22.85672 0.658 0.5107
abusabuse:profautre 8.35378 23.65298 0.353 0.7241
abusabuse:profcadre 2.68691 24.30365 0.111 0.9120
abusabuse:profemploy? 17.79935 22.63313 0.786 0.4319
abusabuse:profouvrier 17.96687 22.50778 0.798 0.4250
abusabuse:profprof.interm?diaire 7.42997 22.98440 0.323 0.7466
abusabuse:profsans emploi 11.45498 22.49016 0.509 0.6107
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


INTERPRETATION

2.modele de Regression Multiple Avec R

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

2.modele de Regression Multiple Avec R

Transféré par

Droits d'auteur :

Formats disponibles

INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique

stique I 2021 – 2022

Chapitre 1 - Modèle linéaire Simple

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

1. MODELE ECONOMIQUE VS MODELE ECONOMETRIQUE

1.1 Modèle économique

1.2 Modèle économétrique

La première partie de ce modèle [𝜶𝟎 + 𝜶𝟏 𝒀𝒕 ] constitue sa partie systématique et la deuxième [𝜺𝒕 ] sa

1.3 principales méthodes de modélisation statistique

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

a. Le modèle linéaire (gaussien) de base

b. Le modèle linéaire généralisé

c. Les modèles non linéaires

d. Les modèles mixtes

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

e. Les modèles pour données répétées

f. Les modèles pour séries chronologiques

Pour les séries chronologiques, on utilise des modèles spécifiques :

g. L’analyse discriminante et la classification

h. Les modèles par arbre binaire de régression et de classification

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

i. Quelques autres modèles

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

2. PRELIMINAIRES A TOUTE MODELISATION STATISTIQUE

a. “Nettoyage” des données

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

d. Analyses multivariées quantitatives

e. Analyses multivariées qualitatives

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

3. LES ETAPES DU PROCESSUS DE MODELISATION

2. Évaluer la précision de ces estimations (biais, variance des estimateurs).

4. Tester la réalité de la relation entre Y et les exogènes Xj (test de significativité globale de la

7. Pour un nouvel individu 𝑖 ∗ pour lequel on fournit la description (𝑥 ∗1 ; … ; 𝑥 ∗𝑝 ), calculer la valeur

Variable Variables Nom de la technique de

1 qualitative 𝒏 quantitatives + qualitative Analyse Discriminante Linéaire

1 variable de comptage 𝒏 quantitatives + qualitative Régression de poisson

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

4. ESIMATION DES PARAMETRES DU MODELE

Le modèle étant 𝒀𝒕 = 𝜷𝟎 + 𝜷𝟏 𝑿𝟏𝒕 + 𝜷𝟐 𝑿𝟐𝒕 + ⋯ + 𝜷𝒑 𝑿𝒑𝒕 + 𝜺𝒕

a. Hypothèses sur la partie déterministe ou systématique : 𝑌𝑡 𝑒𝑡 𝑋𝑖𝑡

 H2. La variable 𝑌 doit être gaussiennes et stationnaires en niveau.

b. Hypothèses sur la partie aléatoire : 𝜀𝑡

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

5. ESIMATEURS DES MCO : Moindres Carrés Ordinaires

𝑀𝑖𝑛 ∑ 𝑒𝑡2 = 𝑒 ′ 𝑒 = (𝑌 − 𝑋𝛽̂ )′(𝑌 − 𝑋𝛽̂ )

Un développement mathématique permet d’exprimer 𝛽̂

Estimateur de la variance de l’erreur 𝝈𝟐𝜺

Avec SCR = Somme des carrés des résidus

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

Les estimateurs des M.C.O 𝜷 ̂ 𝟎, 𝜷

La matrice symétrique des variances – covariances :

𝑉𝑎𝑟(𝛽̂0 ) 𝐶𝑜𝑣(𝛽̂0 𝛽̂1 ) … 𝐶𝑜𝑣(𝛽̂0 𝛽̂𝑝 )

RESUME GENERALE : Modèle linéaire multiple (estimateur de paramètres)

̂ 𝟐𝜺 (𝑿′𝑿)−𝟏 : Matrice des variances -covariances

Ce sont ces résultats qu’affichent tous les logiciels statistiques et économétriques.

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

La régression linéaire multiple consiste à expliquer et ou prédire une

LES HYPOTHESES DU MODELE

Le modèle étant 𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝟏 + 𝜷𝟐 𝒙𝟐 + ⋯ + 𝜷𝒏 𝒙𝒏 + 𝜺𝒊 il comporte deux parties :

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

PRESENTATION DE LA STRUCTURE DES DONNEES