Académique Documents
Professionnel Documents
Culture Documents
ue I 2021 – 2022
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 1 | 18
En général, le modèle spécifié par l’économiste est défini comme étant une maquette de la réalité ou
d’un phénomène sous forme d’équations dont les variables sont des grandeurs économiques.
A ce sujet, Lester C. Thurow note ceci : « Les équations décrivent à quoi ressemblerait le monde réel s’il
ressemblait à la théorie».
Il convient de noter également que le terme d’erreur 𝜺𝒕 [bruit, perturbation ou aléa] dénote de la
différence entre l’économiste et l’économètre. Il synthétise l’influence sur 𝑪𝒕 [variable expliquée] de
toutes les autres variables oubliées et des erreurs éventuelles de spécification de la forme fonctionnelle
dans le modèle spécifié par l’économiste. De plus, sa présence dans le modèle rend les paramètres 𝜶𝟎 et
𝜶𝟏 inconnus, on ne sait plus les calculer, il faut donc les estimer.
Dans les méthodes décrites ci-dessous, il y a presque toujours une variable privilégiée, en général appelée
variable à expliquer, ou variable réponse, et notée Y (il s’agit d’une variable aléatoire). Le but est alors de
construire un modèle permettant d’expliquer “au mieux” cette variable Y en fonction de variables
explicatives observées sur le même échantillon.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 2 | 18
À la fois le plus simple, le plus ancien et le plus connu des modèles statistiques, il englobe
essentiellement :
la régression linéaire simple et multiple,
l’analyse de variance
et l’analyse de covariance.
Dans ce modèle, les variables explicatives (régresseurs ou facteurs) ne sont pas aléatoires (elles sont à
effets fixes). Pour pouvoir être exploité pleinement, ce modèle nécessite l’hypothèse de normalité des
erreurs, donc de la variable à expliquer (hypothèse gaussienne).
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 3 | 18
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 4 | 18
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 5 | 18
Quel que soit le modèle, ou le type de modèles, envisagé face à un jeu de données, quel que soit le
problème qu’il s’agit de traiter, une modélisation statistique ne peut sérieusement s’envisager que sur
des données “propres”, c’est à dire pré-traitées, afin de les débarrasser, autant que faire se peut, de tout
ce qui peut nuire à la modélisation : codes erronés, données manquantes, données aberrantes, variables
inutiles, variables redondantes... C’est cet ensemble de pré-traitements que nous décrivons dans ce
paragraphe. On notera que cette phase est parfois appelée datamanagement, autrement dit “gestion
des données”.
b. Analyse univariée
Cette phase, souvent fastidieuse, consiste à étudier chaque variable l’une après l’autre, afin d’en
connaître les principales caractéristiques et d’en repérer, le cas échéant, certaines anomalies.
Pour les variables quantitatives, on pourra faire un histogramme ou un diagramme en boîte et déterminer
des caractéristiques telles que le minimum, le maximum, la moyenne, l’écart-type, la médiane et les
quartiles. Cela peut conduire à supprimer une variable (si elle présente très peu de variabilité), à la
transformer (par exemple, en prenant son logarithme si elle est à valeurs positives et très dissymétrique),
ou encore à repérer des valeurs très particulières (que l’on devra, éventuellement, corriger ou éliminer).
Pour les variables qualitatives, on pourra faire un diagramme en colonnes des modalités et déterminer
les effectifs et les fréquences de ces dernières. Cela pourra encore conduire à supprimer une variable (si
tous les individus, ou presque, présentent la même modalité), ou à en regrouper des modalités “proches”
(si certains effectifs sont trop faibles).
Ces analyses univariées permettent également de prendre connaissance des données et de fournir
certaines indications pour la phase ultérieure de modélisation. Toutefois, il faut noter que ces analyses
peuvent être inenvisageables avec des données “fortement multidimensionnelles”, c’est-à-dire
comportant des centaines, voire des milliers, de variables ; on rencontre aujourd’hui de telles données
dans certains contextes particuliers.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 6 | 18
c. Analyses bivariées
Ces analyses ont pour but d’étudier d’éventuelles liaisons existant entre couples de variables. Il peut
s’agir de deux variables explicatives, dont on soupçonne qu’elles sont fortement corrélées, dans le but
d’éliminer l’une des deux. Il peut aussi s’agir d’étudier les liens entre la variable à expliquer et chaque
variable explicative (de façon systématique), pour avoir une première idée des variables explicatives
susceptibles de jouer un rôle important lors de la modélisation. Enfin, ces analyses peuvent aussi
permettre de repérer des points aberrants (ou extrêmes) qui n’ont pas pu l’être avec les analyses
univariées.
Rappelons que, pour étudier la liaison entre deux variables quantitatives, on dispose, comme graphique,
du nuage de points (ou diagramme de dispersion) et, comme indicateur de liaison, du coefficient de
corrélation linéaire. Dans le cas d’une variable quantitative et d’une variable qualitative, on dispose du
diagramme en boîtes parallèles et du rapport de corrélation. Enfin, dans le cas de deux variables
qualitatives, on utilise en général un diagramme en colonnes de profils (profils-lignes ou profils-colonnes
selon ce que l’on souhaite mettre en évidence) et des indicateurs de liaison liés au khi-deux (coefficients
de Tschuprow ou de Cramer).
Il est d’autant plus important d’envisager, dans ces analyses préliminaires, de réaliser une analyse des
correspondances multiples (A.C.M.) entre variables qualitatives. Celle-ci permettra, le cas échéant, de
confirmer une liaison forte entre certains couples de variables et, si nécessaire, d’en éliminer quelques-
unes. L’A.C.M. permet également de regrouper certaines modalités d’une même variable lorsque celles-
ci apparaissent proches dans l’ensemble des résultats et, par suite, de simplifier les données. Enfin, le
tableau de Burt, fourni avec les résultats de l’A.C.M., permet de repérer des occurrences très faibles pour
certains croisements de modalités et d’envisager encore d’autres regroupements.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 7 | 18
f. Bilan
Une fois réalisées toutes les étapes préliminaires décrites ci-dessus, on dispose de données “mises au
propre”, simplifiées, et dont on commence à connaître certaines caractéristiques. On peut, à partir de ce
moment-là, envisager leur modélisation.
Les modèles susceptibles d’être adaptés aux données considérées, parmi tous ceux décrits dans le
paragraphe précédent, sont nécessairement limités à ce stade-là. Ils sont fonction de la nature des
données ainsi que des questions posées par l’utilisateur, autrement dit de ses objectifs.
Insistons ici sur le fait que des données sont toujours recueillies (produites) par un utilisateur (biologiste,
informaticien, gestionnaire...) dans un but bien précis. La modélisation statistique doit avoir pour objectif
premier de répondre aux questions que s’est posé cet utilisateur lorsqu’il a décidé de recueillir les
données. Une collaboration entre utilisateur et statisticien est donc, à ce niveau-là, absolument
indispensable.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 8 | 18
1. Estimer les valeurs des coefficients (𝛽0 ; 𝛽1 ; 𝛽2 ; … ; 𝛽𝑝 ) à partir d’un échantillon de données
(estimateur des moindres carrés ordinaires).
3. Mesurer le pouvoir explicatif du modèle dans sa globalité (tableau d’analyse de variance, coefficient
de détermination).
5. Tester l’apport marginal de chaque variable explicative dans l’explication de Y (test de significativité
de chaque coefficient).
6. Tester l’apport d’un groupe de variables explicatives dans l’explication de Y (test de significativité
simultanée d’un groupe de coefficient).
7. Pour un nouvel individu 𝑖 ∗ pour lequel on fournit la description (𝑥 ∗1 ; … ; 𝑥 ∗𝑝 ), calculer la valeur
prédite 𝑦 ∗ et la fourchette de prédiction.
8. Interpréter les résultats en mettant en avant notamment l’impact des exogènes sur l’endogène
(interprétation des coefficients, analyse structurelle).
9. Tester à postériori la validité du modèle c-à-d sa conformité avec les hypothèses de départ.
10. Si le modèle est satisfaisant, il peut servir à des fins explicatives ou prospectives sinon reprendre
toutes les étapes précédentes avec une nouvelle spécification de modèle.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 9 | 18
INTRODUCTION
Jusqu'ici, nous nous sommes principalement concentrés sur les modèles linéaires. Les modèles linéaires sont
relativement simples à décrire et à mettre en œuvre et présentent des avantages par rapport à d'autres approches
en termes d'interprétation et d'inférence. Cependant, la régression linéaire standard peut avoir d'importantes
limitations en termes de puissance prédictive. En effet, l'hypothèse de linéarité est presque toujours
approximative et parfois médiocre. Nous voyons que nous pouvons améliorer les moindres carrés en utilisant
la régression ridge, le lasso, la régression en composantes principales et d’autres techniques. Dans ce contexte,
l’amélioration est obtenue en réduisant la complexité du modèle linéaire, et donc la variance des estimations.
Mais nous utilisons toujours un modèle linéaire, qui ne peut être amélioré que jusqu'à présent! Dans ce
chapitre, nous assouplissons l'hypothèse de linéarité tout en essayant de maintenir autant d'interprétabilité que
possible. Pour ce faire, nous examinons des extensions très simples de modèles linéaires tels que la régression
polynomiale et des step functions, ainsi que des approches plus sophistiquées telles que les splines, la
régression locale et les modèles additifs généralisés.
La régression polynomiale étend le modèle linéaire en ajoutant des prédicteurs supplémentaires, obtenus
en élevant chacun des prédicteurs d'origine à une puissance. Par exemple, une régression cubique utilise
trois variables, X, X2 et X3, en tant que prédicteurs. Cette approche offre un moyen simple d’apporter un
ajustement non linéaire aux données.
Les fonctions d'étape (step function) coupent la plage d'une variable en K régions distinctes afin de
produire une variable qualitative. Cela a pour effet de donner une fonction constante par morceaux.
Les régression splines sont plus souples que les polynômes et les fonctions par étapes et sont en fait une
extension des deux. Ils impliquent de diviser la gamme de X en K régions distinctes. Dans chaque région,
une fonction polynomiale est adaptée aux données. Cependant, ces polynômes sont contraints de se joindre
en douceur aux limites de la région, ou nœuds. À condition que l'intervalle soit divisé en suffisamment de
régions, cela peut produire un ajustement extrêmement flexible.
Les splines de lissage (smoothing splines) ressemblent aux régressions splines, mais se présentent dans
une situation légèrement différente. Les splines de lissage résultent de la réduction au minimum du critère
de la somme des carrés soumis à une pénalité de lissage.
La régression locale est similaire aux splines, mais diffère de manière importante. Les régions sont
autorisées à se chevaucher et le font de manière très fluide.
Les modèles additifs généralisés nous permettent d'étendre les méthodes ci-dessus pour traiter plusieurs
prédicteurs.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 10 | 18
le modèle additif généralisé (en anglais, generalized additive model ou GAM) est un modèle statistique développé
par Trevor Hastie et Rob Tibshirani pour fusionner les propriétés du modèle linéaire généralisé avec celles
du modèle additif.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 11 | 18
Dans ce chapitre, vous apprendrez à calculer les modèles de régression non linéaire et comment comparer les différents modèles
afin de choisir celui qui correspond le mieux à vos données.
Régression polynomiale. Il s’agit de l’approche simple pour modéliser les relations non linéaires. Il ajoute des termes
polynomiaux ou quadratiques (carrés, cubes, etc.) à une régression.
Régression spline. S’adapte à une courbe lisse avec une série de segments polynomiaux. Les valeurs délimitant les segments
spline s’appellent Noeuds.
Modèles additifs généralisées (GAM). Convient aux modèles spline avec sélection automatisée de nœuds.
Les mesures RMSE et R2 seront utilisées pour comparer les différents modèles (voir chapitre @ref (régression linéaire)).
Rappelons que, le RMSE représente l’erreur de prédiction du modèle, c’est-à-dire la différence moyenne entre les valeurs de résultats
observées et les valeurs de résultats prévues. Le R2 représente la corrélation au carré entre les valeurs de résultats observées et
prévues. Le meilleur modèle est le modèle avec le RMSE le plus bas et le R2 le plus élevé.
Contenu :
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 12 | 18
Nous utiliserons l’ensemble de données [dans le paquet], introduit dans le chapitre @ref (régression-analyse), pour
prédire la valeur médiane de la maison (), dans la banlieue de Boston, en fonction de la variable prédictrice (pourcentage
de statut inférieur de la population).BostonMASSmdevlstat
Nous diviserons aléatoirement les données en ensemble de formation (80 % pour la construction d’un modèle prédictif)
et en ensemble de tests (20 % pour l’évaluation du modèle). Assurez-vous de définir les graines pour la reproductibilité.
Tout d’abord, visualisez l’intrigue de dispersion des variables vs comme suit :medvlstat
ggplot(train.data, aes(lstat, medv) ) +
geom_point() +
stat_smooth()
Le graphique ci-dessus suggère une relation non linéaire entre les deux variables
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 13 | 18
L’équation standard du modèle de régression linéaire peut être écrite comme .medv = b0 + b1*lstat
Calculez le modèle de régression linéaire :
# Make predictions
predictions <- model %>% predict(test.data)
# Model performance
data.frame(
RMSE = RMSE(predictions, test.data$medv),
R2 = R2(predictions, test.data$medv)
)
## RMSE R2
## 1 6.07 0.535
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 14 | 18
4. Régression polynomiale
La régression polynomiale ajoute des termes polynomiaux ou quadratiques à l’équation de régression comme suit :
En R, pour créer un prédicteur x^2, vous devez utiliser la fonction , comme suit: . Cette relance x à la puissance 2.I()I(x^2)
La régression polynomiale peut être calculée en R comme suit :
# Make predictions
predictions <- model %>% predict(test.data)
# Model performance
data.frame(
RMSE = RMSE(predictions, test.data$medv),
R2 = R2(predictions, test.data$medv)
)
## RMSE R2
## 1 4.96 0.689
Visualisez la ligne de régression polynomiale fith comme suit :
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 15 | 18
5. Transformation logarithmique
Lorsque vous avez une relation non linéaire, vous pouvez également essayer une transformation logarithm des
variables prédicteurs :
# Build the model
model <- lm(medv ~ log(lstat), data = train.data)
# Make predictions
predictions <- model %>% predict(test.data)
# Model performance
data.frame(
RMSE = RMSE(predictions, test.data$medv),
R2 = R2(predictions, test.data$medv)
)
## RMSE R2
## 1 5.24 0.657
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 16 | 18
6. Régression de Spline
La régression polynomiale ne capture qu’une certaine courbure dans une relation non lignenelle. Une autre approche,
et souvent supérieure, de la modélisation des relations non lignenelles est d’utiliser des splines (P. Bruce et Bruce
2017).
Les splines permettent d’interpoler en douceur entre les points fixes, appelés nœuds. La régression polynomiale est
calculée entre les noeuds. En d’autres termes, les splines sont des séries de segments polynomiaux enfilés ensemble,
se joignant à des nœuds (P. Bruce et Bruce 2017).
Le package R inclut la fonction de création d’un terme b-spline dans un modèle de régression.splinesbs
Vous devez spécifier deux paramètres : le degré du polynomial et l’emplacement des nœuds. Dans notre exemple,
nous placerons les nœuds au quartile inférieur, au quartile médian et au quartile supérieur :
knots <- quantile(train.data$lstat, p = c(0.25, 0.5, 0.75))
Nous allons créer un modèle à l’aide d’une spline cubique (degré = 3):
library(splines)
# Make predictions
predictions <- model %>% predict(test.data)
# Model performance
data.frame(
RMSE = RMSE(predictions, test.data$medv),
R2 = R2(predictions, test.data$medv)
)
## RMSE R2
## 1 4.97 0.688
Notez que les coefficients pour un terme spline ne sont pas interprétables.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 17 | 18
Une fois que vous avez détecté une relation non linéaire dans vos données, les termes polynomiaux peuvent ne pas
être suffisamment flexibles pour capturer la relation, et les termes spline nécessitent de spécifier les nœuds.
Les modèles additifs généralisées, ou GAM, sont une technique pour s’adapter automatiquement à une régression
spline. Cela peut être fait en utilisant le paquet R:mgcv
library(mgcv)
# Make predictions
predictions <- model %>% predict(test.data)
# Model performance
data.frame(
RMSE = RMSE(predictions, test.data$medv),
R2 = R2(predictions, test.data$medv)
)
## RMSE R2
## 1 5.02 0.684
Le terme indique la fonction de trouver les « meilleurs » noeuds pour un terme spline.s(lstat)gam()
En analysant les mesures RMSE et R2 des différents modèles, on peut voir que la régression polynomiale, la régression
spline et les modèles additifs généralisées surpassent le modèle de régression linéaire et les approches de
transformation du journal.
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 18 | 18