Académique Documents
Professionnel Documents
Culture Documents
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 1 | 53
En général, le modèle spécifié par l’économiste est défini comme étant une maquette de la réalité ou
d’un phénomène sous forme d’équations dont les variables sont des grandeurs économiques.
A ce sujet, Lester C. Thurow note ceci : « Les équations décrivent à quoi ressemblerait le monde réel s’il
ressemblait à la théorie».
Il convient de noter également que le terme d’erreur 𝜺𝒕 [bruit, perturbation ou aléa] dénote de la
différence entre l’économiste et l’économètre. Il synthétise l’influence sur 𝑪𝒕 [variable expliquée] de
toutes les autres variables oubliées et des erreurs éventuelles de spécification de la forme fonctionnelle
dans le modèle spécifié par l’économiste. De plus, sa présence dans le modèle rend les paramètres 𝜶𝟎 et
𝜶𝟏 inconnus, on ne sait plus les calculer, il faut donc les estimer.
Dans les méthodes décrites ci-dessous, il y a presque toujours une variable privilégiée, en général appelée
variable à expliquer, ou variable réponse, et notée Y (il s’agit d’une variable aléatoire). Le but est alors de
construire un modèle permettant d’expliquer “au mieux” cette variable Y en fonction de variables
explicatives observées sur le même échantillon.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 2 | 53
À la fois le plus simple, le plus ancien et le plus connu des modèles statistiques, il englobe
essentiellement :
✓ la régression linéaire simple et multiple,
✓ l’analyse de variance
✓ et l’analyse de covariance.
Dans ce modèle, les variables explicatives (régresseurs ou facteurs) ne sont pas aléatoires (elles sont à
effets fixes). Pour pouvoir être exploité pleinement, ce modèle nécessite l’hypothèse de normalité des
erreurs, donc de la variable à expliquer (hypothèse gaussienne).
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 4 | 53
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 5 | 53
Quel que soit le modèle, ou le type de modèles, envisagé face à un jeu de données, quel que soit le
problème qu’il s’agit de traiter, une modélisation statistique ne peut sérieusement s’envisager que sur
des données “propres”, c’est à dire pré-traitées, afin de les débarrasser, autant que faire se peut, de tout
ce qui peut nuire à la modélisation : codes erronés, données manquantes, données aberrantes, variables
inutiles, variables redondantes... C’est cet ensemble de pré-traitements que nous décrivons dans ce
paragraphe. On notera que cette phase est parfois appelée datamanagement, autrement dit “gestion
des données”.
b. Analyse univariée
Cette phase, souvent fastidieuse, consiste à étudier chaque variable l’une après l’autre, afin d’en
connaître les principales caractéristiques et d’en repérer, le cas échéant, certaines anomalies.
Pour les variables quantitatives, on pourra faire un histogramme ou un diagramme en boîte et déterminer
des caractéristiques telles que le minimum, le maximum, la moyenne, l’écart-type, la médiane et les
quartiles. Cela peut conduire à supprimer une variable (si elle présente très peu de variabilité), à la
transformer (par exemple, en prenant son logarithme si elle est à valeurs positives et très dissymétrique),
ou encore à repérer des valeurs très particulières (que l’on devra, éventuellement, corriger ou éliminer).
Pour les variables qualitatives, on pourra faire un diagramme en colonnes des modalités et déterminer
les effectifs et les fréquences de ces dernières. Cela pourra encore conduire à supprimer une variable (si
tous les individus, ou presque, présentent la même modalité), ou à en regrouper des modalités “proches”
(si certains effectifs sont trop faibles).
Ces analyses univariées permettent également de prendre connaissance des données et de fournir
certaines indications pour la phase ultérieure de modélisation. Toutefois, il faut noter que ces analyses
peuvent être inenvisageables avec des données “fortement multidimensionnelles”, c’est-à-dire
comportant des centaines, voire des milliers, de variables ; on rencontre aujourd’hui de telles données
dans certains contextes particuliers.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 6 | 53
c. Analyses bivariées
Ces analyses ont pour but d’étudier d’éventuelles liaisons existant entre couples de variables. Il peut
s’agir de deux variables explicatives, dont on soupçonne qu’elles sont fortement corrélées, dans le but
d’éliminer l’une des deux. Il peut aussi s’agir d’étudier les liens entre la variable à expliquer et chaque
variable explicative (de façon systématique), pour avoir une première idée des variables explicatives
susceptibles de jouer un rôle important lors de la modélisation. Enfin, ces analyses peuvent aussi
permettre de repérer des points aberrants (ou extrêmes) qui n’ont pas pu l’être avec les analyses
univariées.
Rappelons que, pour étudier la liaison entre deux variables quantitatives, on dispose, comme graphique,
du nuage de points (ou diagramme de dispersion) et, comme indicateur de liaison, du coefficient de
corrélation linéaire. Dans le cas d’une variable quantitative et d’une variable qualitative, on dispose du
diagramme en boîtes parallèles et du rapport de corrélation. Enfin, dans le cas de deux variables
qualitatives, on utilise en général un diagramme en colonnes de profils (profils-lignes ou profils-colonnes
selon ce que l’on souhaite mettre en évidence) et des indicateurs de liaison liés au khi-deux (coefficients
de Tschuprow ou de Cramer).
Il est d’autant plus important d’envisager, dans ces analyses préliminaires, de réaliser une analyse des
correspondances multiples (A.C.M.) entre variables qualitatives. Celle-ci permettra, le cas échéant, de
confirmer une liaison forte entre certains couples de variables et, si nécessaire, d’en éliminer quelques-
unes. L’A.C.M. permet également de regrouper certaines modalités d’une même variable lorsque celles-
ci apparaissent proches dans l’ensemble des résultats et, par suite, de simplifier les données. Enfin, le
tableau de Burt, fourni avec les résultats de l’A.C.M., permet de repérer des occurrences très faibles pour
certains croisements de modalités et d’envisager encore d’autres regroupements.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 7 | 53
f. Bilan
Une fois réalisées toutes les étapes préliminaires décrites ci-dessus, on dispose de données “mises au
propre”, simplifiées, et dont on commence à connaître certaines caractéristiques. On peut, à partir de ce
moment-là, envisager leur modélisation.
Les modèles susceptibles d’être adaptés aux données considérées, parmi tous ceux décrits dans le
paragraphe précédent, sont nécessairement limités à ce stade-là. Ils sont fonction de la nature des
données ainsi que des questions posées par l’utilisateur, autrement dit de ses objectifs.
Insistons ici sur le fait que des données sont toujours recueillies (produites) par un utilisateur (biologiste,
informaticien, gestionnaire...) dans un but bien précis. La modélisation statistique doit avoir pour objectif
premier de répondre aux questions que s’est posé cet utilisateur lorsqu’il a décidé de recueillir les
données. Une collaboration entre utilisateur et statisticien est donc, à ce niveau-là, absolument
indispensable.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 8 | 53
1. Estimer les valeurs des coefficients (𝛽0 ; 𝛽1 ; 𝛽2 ; … ; 𝛽𝑝 ) à partir d’un échantillon de données
(estimateur des moindres carrés ordinaires).
3. Mesurer le pouvoir explicatif du modèle dans sa globalité (tableau d’analyse de variance, coefficient
de détermination).
5. Tester l’apport marginal de chaque variable explicative dans l’explication de Y (test de significativité
de chaque coefficient).
6. Tester l’apport d’un groupe de variables explicatives dans l’explication de Y (test de significativité
simultanée d’un groupe de coefficient).
8. Interpréter les résultats en mettant en avant notamment l’impact des exogènes sur l’endogène
(interprétation des coefficients, analyse structurelle).
9. Tester à postériori la validité du modèle c-à-d sa conformité avec les hypothèses de départ.
10. Si le modèle est satisfaisant, il peut servir à des fins explicatives ou prospectives sinon reprendre
toutes les étapes précédentes avec une nouvelle spécification de modèle.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 9 | 53
H1. Les variables 𝑋𝑗 = 𝑋1 , … 𝑋𝑝 et 𝑌 sont observées sans erreur. Y est aléatoire par l’intermédiaire de 𝜺𝒕 , c’est-à-dire que
la seule erreur possible sur Y provient des insuffisances des variables exogène 𝑋𝑖 = 𝑋𝑖 , … 𝑋𝑝 à expliquer ses valeurs dans
le modèle et les 𝑋𝑖 = 𝑋𝑖 , … 𝑋𝑝 ne sont pas aléatoire
H3. Le modèle est linéaire en ses paramètres tels que l’exprime l’équation.
H4. Le nombre d’observations 𝒏 doit être supérieur au nombre des paramètres à estimer.
H5. La matrice X’X est non singulière de rang K, c’est-à-dire |X’X| ≠ 0 et (X’X)−1 existe. Cette hypothèse implique l’absence
de colinéarité entre les exogènes, autrement dit les différents vecteurs 𝑋𝑗 = 𝑋1 , … 𝑋𝑝 sont linéairement indépendants. En
cas de multicolinéarité, la méthode des MCO devient défaillante.
H6. 𝑪𝒐𝒗(𝑿, 𝜺) = 𝟎 (Hypothèse d’indépendance entre la partie déterministe et la partie aléatoire) : 𝑿𝒋 est une variable
aléatoire contrôlée (indépendante de l’aléa) : Cette hypothèse signifie que l’erreur et les variables explicatives ont une
influence séparée sur la variable endogène.)
𝜺𝟏 𝑬(𝜺𝟏 ) 𝟎
𝜺𝟐 𝑬(𝜺 𝟐 ) 𝟎
H7. 𝑬(𝜺𝒕 ) = 𝑬 ( ) = ( ) = ( ) (Hypothèse de centralité des erreurs) C’est-à-dire qu’en moyenne, l’influence
⋮ ⋮ 𝟎
𝜺𝒏 𝑬(𝜺 ) 𝟎 𝒏
de 𝜺𝒕 sur le modèle est nulle, ce qui revient à admettre que le modèle est correctement spécifié. Autrement dit les effets
des facteurs autres que le prédicteur (régresseur ou la variable explicative) s’équilibrent.
𝟏 … 𝟎
H8. 𝑽(𝜺𝒕 ) = 𝑬(𝜺𝟐𝒕 ) = 𝝈𝟐𝜺 𝑰 = 𝝈𝟐𝜺 ( ⋮ ⋱ 𝟎) (Hypothèse d’homoscédasticité des erreurs) Les
𝟎 𝟎 𝟏
erreurs 𝜺𝒕 ont une variance constante et finie. Plus explicitement, il s’agit d’assumer que les variables explicatives
omises dans le modèle influent toutes pratiquement de façon constante sur la variable expliquée.
H9. 𝑪𝒐𝒗(𝜺𝒕 , 𝜺𝒔 ) = 𝟎 (Hypothèse non autocorrélation des erreurs) Les erreurs 𝜺𝒕 de différentes périodes sont
indépendantes les unes des autres.
Ces quatre hypothèses sont fondamentales pour l’application de la méthode des MCO. Pour utiliser la méthode du maximum
de vraisemblance, on suppose en outre vérifiée l’hypothèse de normalité des aléas c'est-à-dire :
H10. 𝜺𝒕 ~𝑵(𝟎, 𝝈𝟐𝜺 ) (Hypothèse de normalité des erreurs) Cette hypothèse est la clé de l’inférence statistique. Elle est
donc nécessaire pour mener les tests.
On peut résumer ces hypothèses en énonçant Les erreurs sont IID c’est-à-dire que les erreurs sont normalement distribuées,
non-autocorrélées et homoscédastiques.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 10 | 53
Les quantités inconnues et qui sont donc à estimer dans ce modèle sont : 𝜷𝟎 ; 𝜷𝟏 … 𝜷𝒑 et 𝝈𝟐𝜺 . L’objectif des méthodes
d’estimation est de trouver des estimateurs de ces paramètres inconnus qui possèdent les propriétés requises par la théorie
statistique (estimateur non biaisé, convergent, à variance minimum et robuste)
Remarque :
❖ Lorsque les hypothèses H6, H7, H8 et H9 sont réalisées, on dit que les erreurs sont des bruits blancs. Et lorsqu’on y ajoute
l’hypothèse H10, on parle des bruits blancs gaussiens.
❖ Lorsque toutes les hypothèses sous-tendant la méthode des MCO sont remplies, le théorème de Gauss – Markov avance
que ses estimateurs sont BLUE [Best Linear Unbiased Estimator], c’est-à-dire qu’ils sont les meilleurs estimateurs
linéaires, non biaisés et à variance minimale.
Un bruit blanc est un processus stochastique dont la composante à chaque date a une espérance nulle et la même variance,
et dont des composantes à des dates différentes ont une covariance nulle.
𝜷𝟎
𝜷
les quantités sont donc inconnues dans ce modèle : 𝜷 = ( 𝟏 ) et 𝝈𝟐𝜺 . L’objectif des méthodes d’estimation est de
⋮
𝜷𝒑
̂𝟎
𝜷
̂= ̂𝟏
𝜷
trouver des estimateurs de ces paramètres inconnus : 𝜷 ̂ 𝟐𝜺
et 𝝈
⋮
̂𝒑
𝜷
( )
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 11 | 53
Comme vu au chapitre précédent, les différents sont obtenus en minimisant la somme quadratique des résidus.
Mathématiquement, le problème se présente comme suit :
MCO :
𝑛
𝑀𝑖𝑛 ∑ 𝑒𝑡2
𝑡=1
𝑛
2
𝑀𝑖𝑛 ∑(𝑌𝑡 − 𝑌̂𝑡 )
𝑡=1
𝑛 𝑛
2 2
𝑀𝑖𝑛 ∑(𝑌𝑡 − 𝛽0 + 𝛽1 𝑋1𝑡 + 𝛽2 𝑋2𝑡 + ⋯ + 𝛽𝑝 𝑋𝑝𝑡 ) = ∑(𝑌𝑡 − 𝑋𝛽̂ )
𝑡=1 𝑡=1
En notation matricielle
𝑛
̂ = (𝑿′𝑿)−𝟏 𝑿′𝒀
𝜷
On voit que l’on ne peut obtenir l’estimateur 𝜷̂ que si (𝑿′𝑿) est inversible. Lorsqu’il y a colinéarité des variables explicatives,
la matrice (𝑿′𝑿) n’est pas inversible. (Hypothèse H5)
𝛽̂0
̂
𝛽̂ = 𝛽1 il y a 𝒑 + 𝟏 coefficients à estimer
⋮
𝛽̂𝑝
( )
Détermination d’un estimateur sans biais de 𝝈𝟐𝜺 qui est un paramètre inconnu pour l’utilisation des MCO.
On montre que l’estimateur sans biais de 𝝈𝟐𝜺 est :
𝒆′ 𝒆
̂ 𝟐𝜺 =
𝝈
𝒏 − (𝒑 + 𝟏)
𝑺𝑪𝑹
̂ 𝟐𝜺 =
𝝈
𝒏 − (𝒑 + 𝟏)
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 12 | 53
Les propriétés des estimateurs des moindres carrés ordinaires et estimateurs du maximum de vraisemblance
̂ 𝟐𝜺 (𝑿′𝑿)−𝟏
𝜴(𝜷̂) = 𝝈
̂ = (𝑿′𝑿)−𝟏 𝑿′𝒀
𝜷
𝒆′ 𝒆
̂ 𝟐𝜺 =
𝝈
𝒏 − (𝒑 + 𝟏)
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 13 | 53
DEFINITION DE LA METHODE
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 14 | 53
# ETAPES
# 1ere étape : Importer les données
# 2eme étape : Représenter les variables
# 3eme étape : Estimer les paramètres 𝜷𝒊
# 4eme étape : Choix de variables
# 5eme étape : Analyser les résidus
# 6eme étape : Tester la validité du modèle par la vérification des hypothèses
# 7eme étape : Prédir une nouvelle valeur
# 8eme étape : Cas de prédicteurs binaires ou qualitatifs
# 9eme étape : Cas avec interactions
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 15 | 53
setwd("C:/jeudonnee")
smp<-read.table("smp2.csv",header=TRUE,sep=";",check.names=FALSE)
str(smp)
summary(smp)
cor(df,use="complete.obs")
cor(df, use="pairwise.complete")
smp.dur.interv smp.age smp.duree smp.dep.cons smp.abus
smp.dur.interv 1.00000000 0.08573358 -0.05138160 0.18892514 0.09873841
smp.age 0.08573358 1.00000000 0.33365481 -0.09796141 -0.04938004
smp.duree -0.05138160 0.33365481 1.00000000 -0.15129275 0.03516752
smp.dep.cons 0.18892514 -0.09796141 -0.15129275 1.00000000 0.04157571
smp.abus 0.09873841 -0.04938004 0.03516752 0.04157571 1.00000000
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 16 | 53
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 17 | 53
library(corrplot)
cor<- cor(df, use="pairwise.complete")
corrplot(cor)
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 18 | 53
library(GGally)
library(ggplot2)
ggpairs(df)
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 19 | 53
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 20 | 53
# Faire la régression
regM <- lm(smp$dur.interv ~ smp$age + smp$duree + smp$dep.cons + smp$abus)
regM$coefficients
(Intercept) smp$age smp$duree smp$dep.cons smp$abus
57.6146447 0.1442986 -1.2381254 9.3107425 3.4864864
summary(regM)
Call:
lm(formula = smp$dur.interv ~ smp$age + smp$duree + smp$dep.cons + smp$abus)
Residuals:
Min 1Q Median 3Q Max
-62.362 -11.748 -0.609 11.566 62.948
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 57.61464 4.27028 13.492 < 2e-16 ***
smp$age 0.14430 0.06079 2.374 0.0180 *
smp$duree -1.23813 0.95990 -1.290 0.1977
smp$dep.cons 9.31074 1.61898 5.751 1.49e-08 ***
smp$abus 3.48649 1.71317 2.035 0.0423 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 18.03 on 536 degrees of freedom
(258 observations deleted due to missingness)
Multiple R-squared: 0.076, Adjusted R-squared: 0.06911
F-statistic: 11.02 on 4 and 536 DF, p-value: 1.348e-08
# REMARQUES :
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 21 | 53
• ̂ 𝟏 ici le coefficient estimé de l’âge à 0.14430 avec un P-value < 0.05, ce qui
𝜷
veut dire ce coefficient est significativement différent de zéro. Cela indique
qu’il y a une liaison significative entre l’âge et la durée de l’interview.
(Le coefficient 𝜷𝟏 , associé à la variable explicative 𝒙𝒊 , représente la
variation de 𝐸(𝒀𝒊 ) (espérance de la variable dépendante 𝒀𝒊 ) lorsque 𝒙𝒊 augmente
d'une unité, donc quand l’âge augmente d’1 an la durée de l’interview augmente
de 0.14430 minutes. Soit 8.658 secondes).
• 𝝈𝟐𝜺 ici l’écart-type résiduel est estimé à 0.8307 ainsi que le nombre de degré
de liberté (n-2) = 8
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 22 | 53
Step: AIC=2319.02
dur.interv ~ age + duree + discip + n.enfant + n.fratrie + ecole +
separation + juge.enfant + place + abus + grav.cons + dep.cons +
ago.cons + ptsd.cons + alc.cons + subst.cons + scz.cons +
char + rs + ed + dr + suicide.s + suicide.hr + suicide.past
Step: AIC=2317.02
dur.interv ~ age + duree + discip + n.enfant + n.fratrie + ecole +
separation + juge.enfant + abus + grav.cons + dep.cons +
ago.cons + ptsd.cons + alc.cons + subst.cons + scz.cons +
char + rs + ed + dr + suicide.s + suicide.hr + suicide.past
Step: AIC=2315.03
dur.interv ~ age + discip + n.enfant + n.fratrie + ecole + separation +
juge.enfant + abus + grav.cons + dep.cons + ago.cons + ptsd.cons +
alc.cons + subst.cons + scz.cons + char + rs + ed + dr +
suicide.s + suicide.hr + suicide.past
Step: AIC=2313.06
dur.interv ~ age + discip + n.enfant + n.fratrie + ecole + separation +
juge.enfant + grav.cons + dep.cons + ago.cons + ptsd.cons +
alc.cons + subst.cons + scz.cons + char + rs + ed + dr +
suicide.s + suicide.hr + suicide.past
Step: AIC=2311.11
dur.interv ~ age + discip + n.enfant + n.fratrie + ecole + juge.enfant +
grav.cons + dep.cons + ago.cons + ptsd.cons + alc.cons +
subst.cons + scz.cons + char + rs + ed + dr + suicide.s +
suicide.hr + suicide.past
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 24 | 53
Step: AIC=2309.17
dur.interv ~ age + discip + n.enfant + n.fratrie + ecole + juge.enfant +
grav.cons + dep.cons + ago.cons + ptsd.cons + alc.cons +
subst.cons + scz.cons + char + rs + ed + suicide.s + suicide.hr +
suicide.past
Step: AIC=2307.25
dur.interv ~ age + discip + n.enfant + n.fratrie + ecole + juge.enfant +
grav.cons + dep.cons + ago.cons + ptsd.cons + alc.cons +
subst.cons + scz.cons + char + ed + suicide.s + suicide.hr +
suicide.past
Step: AIC=2305.32
dur.interv ~ age + discip + n.enfant + n.fratrie + ecole + juge.enfant +
grav.cons + dep.cons + ago.cons + ptsd.cons + alc.cons +
subst.cons + scz.cons + ed + suicide.s + suicide.hr + suicide.past
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 25 | 53
Step: AIC=2303.43
dur.interv ~ age + discip + n.enfant + n.fratrie + ecole + juge.enfant +
grav.cons + dep.cons + ago.cons + ptsd.cons + alc.cons +
subst.cons + ed + suicide.s + suicide.hr + suicide.past
Step: AIC=2301.61
dur.interv ~ age + n.enfant + n.fratrie + ecole + juge.enfant +
grav.cons + dep.cons + ago.cons + ptsd.cons + alc.cons +
subst.cons + ed + suicide.s + suicide.hr + suicide.past
Step: AIC=2299.89
dur.interv ~ age + n.enfant + ecole + juge.enfant + grav.cons +
dep.cons + ago.cons + ptsd.cons + alc.cons + subst.cons +
ed + suicide.s + suicide.hr + suicide.past
Step: AIC=2298.25
dur.interv ~ age + n.enfant + ecole + juge.enfant + grav.cons +
dep.cons + ago.cons + ptsd.cons + alc.cons + subst.cons +
ed + suicide.hr + suicide.past
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 26 | 53
Step: AIC=2296.71
dur.interv ~ age + n.enfant + ecole + juge.enfant + grav.cons +
dep.cons + ago.cons + alc.cons + subst.cons + ed + suicide.hr +
suicide.past
Step: AIC=2295.42
dur.interv ~ age + n.enfant + ecole + juge.enfant + grav.cons +
dep.cons + ago.cons + alc.cons + subst.cons + ed + suicide.hr
Step: AIC=2294.7
dur.interv ~ age + n.enfant + ecole + juge.enfant + grav.cons +
dep.cons + ago.cons + alc.cons + ed + suicide.hr
Step: AIC=2294.18
dur.interv ~ age + n.enfant + juge.enfant + grav.cons + dep.cons +
ago.cons + alc.cons + ed + suicide.hr
Step: AIC=2293.74
dur.interv ~ age + n.enfant + juge.enfant + dep.cons + ago.cons +
alc.cons + ed + suicide.hr
Step: AIC=2293.05
dur.interv ~ age + n.enfant + juge.enfant + dep.cons + alc.cons +
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 27 | 53
# Résumé du modèle
summary(modele_2)
Call:
lm(formula = dur.interv ~ age + n.enfant + juge.enfant + dep.cons +
alc.cons + ed + suicide.hr, data = smp)
Residuals:
Min 1Q Median 3Q Max
-60.052 -11.581 -0.181 9.669 59.180
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 48.00415 3.77130 12.729 < 2e-16 ***
age 0.10901 0.07472 1.459 0.14538
n.enfant 1.14694 0.47933 2.393 0.01719 *
juge.enfant 3.02667 2.05049 1.476 0.14072
dep.cons 4.82723 1.99166 2.424 0.01581 *
alc.cons 7.01174 2.45780 2.853 0.00456 **
ed 1.57778 1.03076 1.531 0.12665
suicide.hr 4.16848 2.40691 1.732 0.08408 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Response: dur.interv
Df Sum Sq Mean Sq F value Pr(>F)
age 1 542 541.9 1.8678 0.172507
n.enfant 1 1789 1789.4 6.1679 0.013423 *
juge.enfant 1 1578 1578.4 5.4404 0.020178 *
dep.cons 1 5548 5548.3 19.1241 1.569e-05 ***
alc.cons 1 2732 2732.2 9.4174 0.002298 **
ed 1 843 842.7 2.9046 0.089114 .
suicide.hr 1 870 870.2 2.9994 0.084075 .
Residuals 395 114598 290.1
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 28 | 53
library(leaps)
choix<-regsubsets(smp$dur.interv ~ smp$age + smp$duree + smp$dep.cons +
smp$abus,data=smp,nbest=2,nvmax=4)
plot(choix,scale="bic")
# avec :
nbest=2 (les deux meilleurs explicatives) ;
nvmax=5 (sur l’ensemble des 4 explicatives)
bic (avec le critère de BIC, on peut prendre le critère de Rajuste, Cp de
Mallows, etc.)
Conclusion
Le critère est optimum pour la ligne en haut du graphique, mais nous conserverons
ici le modèle à trois variables (age ; dep.cons ; abus)
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 29 | 53
Residuals:
Min 1Q Median 3Q Max
-61.43 -13.38 -1.42 11.49 62.30
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 51.43672 2.36585 21.741 < 2e-16 ***
smp$age 0.16061 0.05302 3.029 0.00254 **
smp$dep.cons 7.73162 1.44622 5.346 1.2e-07 ***
smp$abus 4.20455 1.56478 2.687 0.00737 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
INTERPRETATION
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 30 | 53
res.m<-rstudent(reg.fin)
plot(res.m,pch=15,cex=.5,ylab="Residus",ylim=c(-3,3))
abline(h=c(-2,0,2),lty=c(2,1,2))
En théorie 95% des résidus studentisés se trouvent dans l’intervalle [-2;2]. Ici
on a visuellement beaucoup de résidus qui se trouvent dans cet intervalle. Ce
qui est acceptable.
res.m<-rstudent(reg.fin)
sum(as.numeric(abs(res.m)<=2))/nrow(df)*100
[1] 88.86108
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 31 | 53
LE PROBLEME DE LA COLINEARITE
On parle de colinéarité entre 2 variables exogènes lorsque la corrélation linéaire entre ces variables est
élevée (ex. 𝒓 > 𝟎. 𝟖 a-t-on l'habitude d'indiquer mais ce n'est pas une règle absolue). On peut
généraliser cette première définition en définissant la colinéarité comme la corrélation entre une des
exogènes avec une combinaison linéaire des autres exogènes.
En cas de multicolinéarité parfaite, la matrice X’X est singulière, et par conséquent son inverse (𝐗’𝐗)–1
n’existe pas, ce qui rend la méthode des MCO complètement défaillante; il n’est donc pas possible
devant une telle situation d’estimer les paramètres du modèle.
Dans la pratique, c’est plutôt le cas de quasi multicolinéarité qui est fréquent. En effet, la
multicolinéarité imparfaite correspond au cas où la matrice est non singulière, mais son déterminant est
proche de 0. La conséquence directe est qu’on aura des valeurs très grandes dans la matrice inverse
(X’X)–1. La conséquence, et donc le problème posé par la multicolinéarité est que, du fait de la valeur
élevée des variances des coefficients estimés, les résultats de l’estimation perdent en précision, c’est-à-
dire que les t de Student seront faibles, et les coefficients statistiquement nuls, pendant que le R2 et le F
sont élevés.
L’autre problème posé par la multicolinéarité est l’instabilité de paramètre et l’effet de masque qui rend
difficile la mise en évidence de la contribution individuelle de différentes variables explicatives sur
l’endogène.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 32 | 53
setwd("C:/Users/ASUS/Desktop/jeudonnee")
smp <- read.table("smp2.csv",header=TRUE,sep=";",check.names=FALSE)
library(car)
vif(reg.fin)
smp$age smp$dep.cons smp$abus
1.011970 1.010842 1.004446
VIF et MULTICOLINEARITE
Les facteurs d'inflation de la variance ou VIF mesurent l'inflation des variances des estimations des paramètres en
raison des colinéarités qui existent entre les prédicteurs. C'est une mesure de combien la variance du coefficient de
régression estimé βk est « gonflé » par l'existence d'une corrélation entre les variables prédictives du modèle.
• Un VIF de 1 signifie qu'il n'y a pas de corrélation entre le k ème prédicteur et les variables prédictives restantes, et
donc la variance de βk n'est pas du tout gonflée.
• La règle générale est que les VIF supérieurs à 4 justifient une enquête plus approfondie, tandis que les VIF
supérieurs à 10 sont des signes de multicolinéarité grave nécessitant une correction.
VIF
library(olsrr)
ols_vif_tol(reg.fin)
Variables Tolerance VIF
1 smp$age 0.9881713 1.011970
2 smp$dep.cons 0.9892744 1.010842
3 smp$abus 0.9955736 1.004446
2. TRAITEMENT DE LA MULTICOLINEARITE
La colinéarité peut fausser complètement l’interprétation des coefficients de la régression. Il faut la détecter. Il faut la
traiter.
❖ D’autres techniques de régression permettent de mieux gérer les problèmes de colinéarité, ce sont par exemple
✓ Régression RIDGE
✓ Régression LASSO
✓ Régression ELASTIC NET
✓ Régression sur facteurs de l’ACP
✓ Régression PLS
Ces techniques de régression seront traitées dans le cours relatif aux techniques
prédictives en DATA MINING.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 33 | 53
LES DONNEES
residus<-residuals(reg.fin)
res.normalise<-rstudent(reg.fin)
val.estimees<-fitted.values(reg.fin)
1) test si de 𝑪𝒐𝒗(𝑿, 𝜺) = 𝟎
Test Graphique
plot(reg.fin,1)
REMARQUE :
Problème :
Lorsque cette hypothèse n’est pas respectée, l'estimateur des moindres carrés ordinaires est biaisé et n'est pas convergent
(le biais ne tend donc pas à disparaître si la taille de l'échantillon est grande). Il produirait donc une erreur systématique des
valeurs estimées.
Solution :
La méthode des variables instrumentales est plus efficace que les MCO pour estimer les paramètres du modèle en cas
d’endogénéité des explicatives.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 34 | 53
Test de Rainbow :
Pour conclure à la non-linéarité du modèle de régression, on préconise le test de Rainbow : si p-valeur < 0.05, on rejette la
linéarité du modèle et on admet qu’un modèle de régression non-linéaire est plus adapté aux données.
library(lmtest)
raintest(reg.fin)
Rainbow test
data: reg.fin
Rain = 1.5615, df1 = 371, df2 = 367, p-value = 1.032e-05
# Conclusion : la p-value < 0.05 donc on rejette 𝐻0 , le modèle n’est pas linéaire
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 35 | 53
3) Test de 𝑬(𝜺𝒕 ) = 𝟎
mean(residus)
[1] -1.137007e-14 ≈ 0
data: residus
W = 0.98078, p-value = 2.69e-08
# Conclusion : p-value < 0.05, on rejette 𝐻0 : Donc la distribution ne suit
pas une loi normale
data: residus
W = 0.98078, p-value = 2.69e-08
# Conclusion : p-value < 0.05, on rejette 𝐻0 : Donc la distribution ne suit
pas une loi normale
REMARQUE :
Problème : Sa violation ne touche pas le caractère non biaisé des paramètres mais rend l’inférence, dans le modèle linéaire,
impossible car les distributions des estimateurs ne sont plus connues.
Solution :
✓ Le meilleur remède à la non-normalité des résidus est d’agrandir la taille de l’échantillon.
✓ La transformation de Box – Cox, sur les variables non normales intervenant dans le modèle, est souvent aussi indiquée.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 36 | 53
plot(reg.fin,1)
TEST DE BREUSCH-PAGAN
𝐻0 ∶ 𝑖𝑙 𝑦 𝑎 ℎ𝑜𝑚𝑜𝑠𝑐é𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑡é
𝐻1 ∶ 𝑖𝑙 𝑦 𝑎 ℎé𝑡é𝑟𝑜𝑠𝑐é𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑡é
install.packages("lmtest")
library(lmtest)
bptest(reg.fin)
studentized Breusch-Pagan test
data: reg.fin
BP = 1.2721, df = 3, p-value = 0.7358
# Conclusion : p-value > 0.05, on ne peut rejeter 𝐻0 : Donc il y a
homoscédasticité
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 37 | 53
TEST DE WHITE
𝐻0 ∶ 𝑖𝑙 𝑦 𝑎 ℎ𝑜𝑚𝑜𝑠𝑐é𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑡é
𝐻1 ∶ 𝑖𝑙 𝑦 𝑎 ℎé𝑡é𝑟𝑜𝑠𝑐é𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑡é
install.packages("het.test")
install.packages("vars")
library(het.test)
library(vars)
df<-data.frame(smp$dur.interv,smp$age,smp$duree,smp$dep.cons,smp$abus)
df1<-na.omit(df)
mod<-VAR(df1)
whites.htest(mod)
No Cross Terms
H0: Homoskedasticity
H1: Heteroskedasticity
Test Statistic:
139.4040
Degrees of Freedom:
150
P-value:
0.7218
Problème :
La conséquence directe de cette violation est que les estimateurs des MCO, bien que encore non biaisés, ne sont plus
efficients, puisque n’ayant plus une variance minimale. Et par conséquent les t de Student et F de Fisher ne sont plus utilisables
à des fins d’inférence.
Solution :
Si l’hypothèse d’homoscédasticité n’est pas vérifiée, on peut effectuer une transformation pour stabiliser la variance. Les deux
transformations les plus courantes sont :
▪ 𝑌 𝑒𝑛 𝑙𝑜𝑔 𝑌 si σ est proportionnel E(Y)
▪ 𝑌 𝑒𝑛 √𝑌 si σ2 est proportionnel E(Y)
A chaque transformation, faire le test graphique pour voir si le problème est résolu par la transformation des variables.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 38 | 53
On a une autocorrélation des erreurs lorsque les erreurs sont liées par un processus de reproduction.
On peut distinguer l’autocorrélation positive de l’autocorrélation négative.
res.m<-rstudent(reg.fin)
plot(res.m,pch=15,cex=.5,ylab="Residus",ylim=c(-3,3),type=”b”)
abline(h=c(-2,0,2),lty=c(2,1,2))
acf(residus,plot = FALSE)
Autocorrelations of series ‘residus’, by lag
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
1.000 0.456 0.361 0.341 0.360 0.294 0.327 0.318 0.305 0.338 0.295 0.298 0.323 0.309 0.268
15 16 17 18 19 20 21 22 23 24 25 26 27 28
0.306 0.339 0.303 0.284 0.289 0.257 0.233 0.279 0.231 0.235 0.211 0.211 0.192 0.225
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 39 | 53
acf(residus,plot = TRUE)
#
Conclusion : La droite horizontale pointillée sur le graphique issu de la fonction
"acf" nous indique le seuil critique au-delà duquel l'autocorrélation est
considérée significative. En effet, sous hypothèse d'indépendance, la corrélation
croisée de deux séries X et Y (de même taille n, et de même moyenne et écart-
type) sera dans 95% des cas comprise dans l'intervalle
install.packages("lmtest")
library(lmtest)
dwtest(reg.fin)
Durbin-Watson test
data: reg.fin
DW = 1.086, p-value < 2.2e-16
alternative hypothesis: true autocorrelation is greater than 0
# Conclusion : La p-value < 0.05 donc on rejette H0. Il y a autocorrélation
d’ordre 1
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 40 | 53
TEST DE BREUSCH-GODFREY
Il permet de tester une autocorrélation d’un ordre supérieur à 1, et il reste valide en présence de la variable à
expliquer retardée parmi les variables explicatives
# 𝑯𝟎 : il n’y a pas d’autocorrélation
# 𝑯𝟏 : il a autocorrélation
library(lmtest)
bgtest(reg.fin)
data: reg.fin
LM test = 155.93, df = 1, p-value < 2.2e-16
Problème :
Il y a autocorrélation des erreurs lorsque l’hypothèse 𝐶𝑜𝑣(𝜀𝑡 , 𝜀𝑠 ) = 0 est violée. La conséquence directe est que les
estimateurs des MCO, bien qu’ils gardent encore leur caractère non biaisé, ne sont plus efficients, puisque n’ayant plus une
variance minimale.
Il faut noter aussi que l’autocorrélation des erreurs est un phénomène que l’on ne retrouve qu’en travaillant sur séries
temporelles. En principe, le problème ne se pose pas sur cross sections, sauf le cas rare de corrélation spatiale des résidus,
Solution :
Lorsque le test conclut à l’évidence d’une autocorrélation, la correction se fait en appliquant la méthode des Moindres Carrés
Généralisés [MCG ou GLS pour le sigle anglais] de Gauss-Aitken, qui consiste simplement à l’application des MCO sur les
données transformées.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 41 | 53
Le test de Chow est un test statistique et économétrique afin de déterminer si les coefficients de deux séries linéaires sont
égaux. Les coefficients sont établis par régression linéaire.
Il est surtout utilisé dans le cadre de séries temporelles pour savoir s'il y a une cassure significative par une certaine date qui
séparerait les données en deux blocs ; il permet également d'évaluer l'impact des variables indépendantes sur les deux
groupes ainsi construits. Ce test s'appuie sur la loi de Fisher.
library(strucchange)
sctest(smp$dur.interv ~ smp$age + smp$dep.cons + smp$abus, type = "Chow")
Chow test
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 42 | 53
Ayant une nouvelle observation xnew, il suffit d’utiliser les estimations pour
prévoir la valeur de Y correspondante. Cependant, la valeur prédite est de peu
d’intérêt sans l’intervalle de confiance associée.
smp1<-data.frame(smp$dur.interv,smp$age,smp$dep.cons,smp$abus)
reglm<-lm(smp.dur.interv~smp.age+smp.dep.cons+smp.abus, data=smp1)
summary(reglm)
Call:
lm(formula = smp.dur.interv ~ smp.age + smp.dep.cons + smp.abus,
data = smp1)
Residuals:
Min 1Q Median 3Q Max
-61.43 -13.38 -1.42 11.49 62.30
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 51.43672 2.36585 21.741 < 2e-16 ***
smp.age 0.16061 0.05302 3.029 0.00254 **
smp.dep.cons 7.73162 1.44622 5.346 1.2e-07 ***
smp.abus 4.20455 1.56478 2.687 0.00737 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Exemple :
Nous disposons d’un nouvel individu avec les valeur des variables :
(age dep.cons abus)
-----------------------------------------------
Xnew<-matrix(c(45,1,0),nrow=1)
colnames(Xnew)<-c("smp.age","smp.dep.cons","smp.abus")
Xnew<-as.data.frame(Xnew)
Xnew
smp.age smp.dep.cons smp.abus
1 45 1 0
-----------------------------------------------
predict(reglm, Xnew, interval="pred")
fit lwr upr
1 66.39593 28.75605 104.0358
# REMARQUES :
Il faut noter que l’argument xnew de la fonction predict doit être un data-
frame avec les mêmes noms des variables explicatives (ici : age dep.cons abus).
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 43 | 53
Dans la modélisation qui suit, nous avons deux variables indicatrices (dummy en
anglais) comment s’interprète les coefficients de ces variables ?
Residuals:
Min 1Q Median 3Q Max
-61.43 -13.38 -1.42 11.49 62.30
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 51.43672 2.36585 21.741 < 2e-16 ***
smp$age 0.16061 0.05302 3.029 0.00254 **
smp$dep.cons 7.73162 1.44622 5.346 1.2e-07 ***
smp$abus 4.20455 1.56478 2.687 0.00737 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
INTERPRETATION
• Par rapport à un détenu qui n’a pas eu de dépression, celui qui en a eu a
une durée d’interview de 7,73 minutes de plus (cétéris paribus)
• Par rapport à un détenu qui n’a pas été abusé dans l’enfance, celui qui a
été abusé a une durée d’interview de 4,20 minutes de plus (cétéris paribus)
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 44 | 53
summary(reg.fin)
Residuals:
Min 1Q Median 3Q Max
-61.39 -12.91 -1.43 10.88 62.81
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 67.45030 10.05506 6.708 3.96e-11 ***
smp$age 0.15483 0.05533 2.798 0.00527 **
smp$dep.cons 7.78325 1.45492 5.350 1.18e-07 ***
smp$abus 4.12732 1.57334 2.623 0.00889 **
smp$profartisan -13.88109 9.81285 -1.415 0.15762
smp$profautre -13.44986 10.37234 -1.297 0.19514
smp$profcadre -21.50129 10.37738 -2.072 0.03862 *
smp$profemploy? -15.74829 9.75677 -1.614 0.10694
smp$profouvrier -15.88133 9.70792 -1.636 0.10229
smp$profprof.interm?diaire -15.92577 9.94867 -1.601 0.10986
smp$profsans emploi -16.30371 9.71680 -1.678 0.09380 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 45 | 53
INTERPRETATION
R choisit par défaut comme variable de référence la variable par ordre
alphabétique (ici agriculteur)
REMARQUE
• R recode chaque modalité la variable prof (qui est à huit modalités) en 7
variables binaire et prend la 1ère modalité par ordre alphabétique comme
modalité de référence (ici Agriculteur). C’est pourquoi elle ne figure pas
dans la sortie summary du modèle.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 46 | 53
drop1(reg.fin, .~.,test="F")
Model:
smp$dur.interv ~ smp$age + smp$dep.cons + smp$abus + smp$prof
Df Sum of Sq RSS AIC F value Pr(>F)
<none> 267010 4374.5
smp$age 1 2871.8 269882 4380.4 7.8298 0.005275 **
smp$dep.cons 1 10496.5 277507 4401.0 28.6184 1.182e-07 ***
smp$abus 1 2524.0 269534 4379.5 6.8816 0.008891 **
smp$prof 7 2244.0 269254 4366.7 0.8740 0.526570
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
INTERPRETATION
Au lieu de coder les 7 modalités en variables et prendre une comme modalité de
référence, on a ici une seule variable prof dont la p-value > 0.05. On conclut
donc à la non significativité de la variable prof.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 47 | 53
• Jusqu’à maintenant, nous avons considéré l’effet de chaque variable indépendante x1, x2… xk comme constant
quelque soit la valeur prise par les autres variables indépendantes.
• La possibilité existe pourtant que l’effet de x1, ou de x2, ou… de xk ne soit pas constant, mais varie en fonction des
valeurs prises par une des autres variables indépendantes introduite dans le modèle
✓ Par exemple, que l’effet de x1 diffère selon la valeur prise par x2
✓ On dit dans ce cas qu’il y a interaction entre x1 et x2
✓ Nota Bene : On peut étendre ce principe et s’intéresser aux cas où l’effet d’une variable x1 ou x2 ou…xk dépend
de 2, 3… autres variables du modèle.
• Nous allons examiner tour à tour trois formes d’interaction, selon le type de variables indépendantes qu’elles
impliquent
a) Interaction entre 2 variables quantitatives (intervalles)
b) Interaction entre 1 variable quantitative et 1 variable catégorielle
c) Interaction entre 2 variables catégorielles
REMARQUE IMPORTANTE :
Les tests des effets principaux n’ont de sens qu’en l’absence d’interaction
Call:
lm(formula = smp$dur.interv ~ smp$age + smp$dep.cons + smp$abus +
smp$n.enfant)
Residuals:
Min 1Q Median 3Q Max
-60.604 -13.286 -1.301 10.641 62.853
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 52.07229 2.45366 21.222 < 2e-16 ***
smp$age 0.10825 0.06047 1.790 0.07385 .
smp$dep.cons 7.45650 1.47476 5.056 5.44e-07 ***
smp$abus 4.20633 1.59441 2.638 0.00852 **
smp$n.enfant 0.85321 0.42905 1.989 0.04712 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 48 | 53
Considérons dans notre modèle l’interaction entre l’âge et le nombre d’enfants. Sous R cela consiste à ajouter une
nouvelle variable comme explicative (le produit des deux variables = age*nb.enfant)
drop1(reg.inter1, .~.,test="F")
Single term deletions
Model:
dur.interv ~ dep.cons + abus + age * n.enfant
Df Sum of Sq RSS AIC F value Pr(>F)
<none> 264676 4274.9
dep.cons 1 9510.8 274186 4298.3 25.7286 5.011e-07 ***
abus 1 2608.0 267284 4279.9 7.0551 0.00808 **
age 1 377.1 265053 4273.9 1.0202 0.31282
n.enfant 1 0.2 264676 4272.9 0.0006 0.98112
age:n.enfant 1 136.8 264812 4273.2 0.3700 0.54320
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
summary(reg.inter1)
Call:
lm(formula = dur.interv ~ age + dep.cons + abus + n.enfant +
age * n.enfant, data = smp)
Residuals:
Min 1Q Median 3Q Max
-60.540 -13.138 -1.311 10.823 62.948
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 53.28238 3.15967 16.863 < 2e-16 ***
age 0.07853 0.07775 1.010 0.31282
dep.cons 7.48849 1.47634 5.072 5.01e-07 ***
abus 4.23928 1.59603 2.656 0.00808 **
n.enfant 0.03348 1.41436 0.024 0.98112
age:n.enfant 0.01726 0.02838 0.608 0.54320
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
INTERPRETATION
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 49 | 53
Considérons dans notre modèle l’interaction entre l’âge et l’abus dans l’enfance. Sous R cela consiste à ajouter une
nouvelle variable comme explicative (le produit des deux variables = age*abus)
drop1(reg.inter2, .~.,test="F")
Single term deletions
Model:
dur.interv ~ age + dep.cons + abus + n.enfant + age * abus
Df Sum of Sq RSS AIC F value Pr(>F)
<none> 263379 4271.3
age 1 2298.3 265677 4275.6 6.2480 0.012656 *
dep.cons 1 8896.5 272275 4293.3 24.1853 1.086e-06 ***
abus 1 2693.4 266072 4276.7 7.3220 0.006974 **
n.enfant 1 1424.7 264803 4273.2 3.8731 0.049453 *
age:abus 1 1433.7 264812 4273.2 3.8976 0.048739 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
summary(reg.inter2)
Call:
lm(formula = dur.interv ~ age + dep.cons + abus + n.enfant +
age * abus, data = smp)
Residuals:
Min 1Q Median 3Q Max
-60.447 -13.633 -1.372 11.152 62.808
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 49.72828 2.72138 18.273 < 2e-16 ***
age 0.16977 0.06792 2.500 0.01266 *
dep.cons 7.25534 1.47531 4.918 1.09e-06 ***
abusabuse 13.67974 5.05547 2.706 0.00697 **
n.enfant 0.84273 0.42821 1.968 0.04945 *
age:abusabuse -0.24572 0.12446 -1.974 0.04874 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
INTERPRETATION
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 50 | 53
Considérons dans notre modèle l’interaction entre l’abus et la dépression. Sous R cela consiste à ajouter une nouvelle
variable comme explicative (le produit des deux variables = abus*dep.cons)
drop1(reg.inter3, .~.,test="F")
Single term deletions
Model:
dur.interv ~ age + dep.cons + abus + n.enfant + abus * dep.cons
Df Sum of Sq RSS AIC F value Pr(>F)
<none> 262654 4269.3
age 1 1341.7 263995 4271.0 3.6575 0.056217 .
dep.cons 1 3316.1 265970 4276.4 9.0399 0.002734 **
abus 1 74.9 262729 4267.5 0.2042 0.651450
n.enfant 1 1488.1 264142 4271.4 4.0567 0.044370 *
dep.cons:abus 1 2158.7 264812 4273.2 5.8845 0.015520 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
summary(reg.inter3)
Call:
lm(formula = dur.interv ~ age + dep.cons + abus + n.enfant +
abus * dep.cons, data = smp)
Residuals:
Min 1Q Median 3Q Max
-59.212 -13.950 -1.021 11.138 62.911
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 52.63299 2.45625 21.428 < 2e-16 ***
age 0.11539 0.06034 1.912 0.05622 .
dep.consdéprimé 5.21789 1.73546 3.007 0.00273 **
abusabuse 0.94115 2.08247 0.452 0.65145
n.enfant 0.86125 0.42761 2.014 0.04437 *
dep.consdéprimé:abusabuse 7.81697 3.22242 2.426 0.01552 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
INTERPRETATION
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 51 | 53
Considérons dans notre modèle l’interaction entre l’abus et la profession. Sous R cela consiste à ajouter une nouvelle
variable comme explicative (le produit des deux variables = abus*prof)
drop1(reg.inter4, .~.,test="F")
Single term deletions
Model:
dur.interv ~ age + dep.cons + abus + prof + n.enfant + abus *
prof
Df Sum of Sq RSS AIC F value Pr(>F)
<none> 259344 4271.5
age 1 953.9 260298 4272.1 2.5746 0.10904
dep.cons 1 9982.7 269327 4296.7 26.9446 2.747e-07 ***
abus 1 73.0 259417 4269.7 0.1971 0.65721
prof 7 2150.0 261494 4263.4 0.8290 0.56332
n.enfant 1 1482.0 260826 4273.6 4.0000 0.04589 *
abus:prof 7 2615.0 261959 4264.7 1.0083 0.42392
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
summary(reg.inter4)
Call:
lm(formula = dur.interv ~ age + dep.cons + abus + prof + n.enfant +
abus * prof, data = smp)
Residuals:
Min 1Q Median 3Q Max
-59.722 -13.045 -1.127 10.321 62.299
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 71.68237 11.62290 6.167 1.17e-09 ***
age 0.10098 0.06293 1.605 0.1090
dep.consdéprimé 7.73923 1.49095 5.191 2.75e-07 ***
abusabuse -9.90249 22.30499 -0.444 0.6572
profartisan -18.46221 11.40829 -1.618 0.1060
profautre -14.82484 12.26578 -1.209 0.2272
profcadre -22.42005 12.01755 -1.866 0.0625 .
profemploy? -20.59823 11.37277 -1.811 0.0705 .
profouvrier -20.51001 11.29724 -1.815 0.0699 .
profprof.interm?diaire -17.44984 11.63579 -1.500 0.1342
profsans emploi -18.79194 11.31147 -1.661 0.0971 .
n.enfant 0.87235 0.43618 2.000 0.0459 *
abusabuse:profartisan 15.04030 22.85672 0.658 0.5107
abusabuse:profautre 8.35378 23.65298 0.353 0.7241
abusabuse:profcadre 2.68691 24.30365 0.111 0.9120
abusabuse:profemploy? 17.79935 22.63313 0.786 0.4319
abusabuse:profouvrier 17.96687 22.50778 0.798 0.4250
abusabuse:profprof.interm?diaire 7.42997 22.98440 0.323 0.7466
abusabuse:profsans emploi 11.45498 22.49016 0.509 0.6107
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 52 | 53
INTERPRETATION
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 53 | 53