Vous êtes sur la page 1sur 4

Modélisation (régression linéaire, logistique,

simple, multiple, notions essentielles


gilles.hunault "at" univ-angers.fr

Table des matières cliquable


1. Qu'est-ce qu'une régression ?

2. Comment effectuer une régression ?

3. Le modèle linéaire

4. Un exemple de régression linéaire simple

5. R et la régression

6. Un exemple minimaliste de régression linéaire multiple

7. Un exemple minimaliste de régression logistique

1. Qu'est-ce qu'une régression ?


Il y a un certain nombre de situations où on cherche à modéliser les valeurs d'une variable,
notée classiquement Y, en fonction d'une ou plusieurs autres variables notées Xi. Le modèle,
soigneusement défini par des équations, peut servir soit à décrire les phénomènes, souvent
dans une optique de causalité, soit à prédire de nouvelles valeurs, à condition de prendre
certaines précautions. Ainsi, au vu de l'évolution de la population mondiale sur les dix
dernières années, il serait stupide de vouloir prédire la taille de la population mondiale en l'an
3500.

Suivant la nature de Y, le nombre et la nature des Xi, cette modélisation porte différents noms
dits de régression :

Modélisation Nature de la Régression

avec un seul X régression simple

avec plus d'un seul X régression multiple


Plutôt que de parler de Xi et de Y, l'usage, parfois incorrect, veut qu'on parle de variables
explicatives et de variable expliquée, de variables indépendantes et de variable dépendante,
alors qu'il serait sans doute plus simple d'employer les termes de régresseurs et de régressée.
On trouve aussi l'appellation de variables exogènes et variable endogène.

Lorsque Y et les Xi sont quantitatives, le modèle le plus simple, le plus connu et le plus étudié
est nommé régression linéaire, en anglais linear regression.

Si Y est qualitative, le modèle est nommé régression logistique, logistic regression en anglais.
Le cas le plus simple est la régression logistique binaire (Y n'a que deux modalités). Si ce
n'est pas le cas, la régression logistique peut être multinomiale, polytomique, ordinale,
nominale...

L'usage historique veut qu'on parle d'analyse de la variance, soit encore ANOVA en anglais
(ANalysis Of VAriance) plutôt que de régression par analyse de la variance lorsqu'on étudie Y
quantitative en fonction de Xi qualitatives.

Il n'y a pas à notre connaissance de terme réservé pour désigner l'étude de Y qualitative en
fonction de Xi qualitatives, dont le cas le plus simple est l'analyse de tri croisé (via un test du
χ² d'indépendance), même si on peut effectuer des régressions logistiques qualitatives. Cela
tient sans doute au fait que les calculs utilisés sont fort différents de toutes les autres
régressions.

Xi Xi quantitatives et
Modélisation Xi qualitatives
quantitatives qualitatives

Y analyse de la
linéaire analyse de la covariance
quantitative variance

régression quali-
Y qualitative logistique logistique
quali ?

2. Comment effectuer une régression ?


Pour réaliser une «bonne» régression linéaire, il faut effectuer plusieurs étapes. Tout d'abord il
faut choisir un modèle parmi les modèles possibles. Si on a plusieurs Xi, la sélection de
variables, en régression multiple avec ou sans interaction (variables supplémentaires définies
comme produits des variables de départ), est une étape souvent délicate. Il faut ensuite
déterminer les paramètres du modèle, c'est-à-dire trouver les coefficients dans la ou les
équations de régression. Après, il faut tester la qualité générale du modèle, tester la nullité des
coefficients, et analyser l'ajustement du modèle aux données par l'analyse des résidus.

Chaque type de régression (linéaire, logistique...) a ses propres calculs et estimateurs pour la
détermination du modèle via la sélection de variables, le ou les tests de qualité de la
régression, l'analyse des résidus. De plus, les variables Xi doivent parfois vérifier certaines
conditions (normalité, non colinéarité, non multi-colinéarité...) pour qu'on ait le droit d'utiliser
le modèle.

3. Le modèle linéaire
Le modèle linéaire (copie locale) vient modéliser Y en fonction de X (un ou plusieurs Xi) par
la relation matricielle Y = Xaβ + ε où Xa est X augmenté d'une colonne de 1, afin de prendre
en compte une constante dans le modèle. Ainsi, en régression linéaire simple on cherche à
relier les yi en fonction des xi par la relation yi = β1xi + β0 + εi où ε est la variable de bruit
(modélisée par une vecteur aléatoire dans Rn de moyenne nulle et de variance σ2In). Bien sûr,
en pratique on ne distingue pas X de Xa et on s'autorise à réécrire le modèle de régression
linéaire simple avec la relation yi = axi + b + εi pour retrouver l'écriture d'une droite des
«petites classes».

Pour résoudre Y = Xaβ, c'est-à-dire pour trouver les βi, on pourrait penser qu'il suffit d'utiliser
l'inverse matriciel de X. Mais en général on ne peut pas calculer l'inverse de la matrice X car
X n'est pas forcément une matrice carrée. Toutefois, si on multiplie de part et d'autre par la
transposée de X notée ici X' (car X' X est toujours une matrice carrée), alors on peut résoudre
matriciellement le problème, ce qui se nomme estimateur MCO (moindres carrés ordinaires,
ou OLS en anglais) car la solution (X' X)-1X'Y -- quand elle existe -- minimise la somme des
carrés des distances euclidiennes entre les yi et les vecteurs (xβ)i. On peut montrer que cet
estimateur est sans biais. Les εi sont nommés résidus de la régression.

La qualité de la régression linéaire s'analyse au travers du R² dit coefficient de corrélation


multiple empirique ou encore coefficient de détermination, -- du R²a (R² ajusté) dans le cas de
régression linéaire multiple -- et de la statistique F de Fisher. Attention : une «bonne» valeur
de ce R² n'est pas suffisante pour garantir une «bonne» régression.

Si on ajoute l'hypothèse de normalité des résidus, on peut calculer des intervalles de confiance
pour les paramètres βi et un intervalle de confiance pour la prédiction d'un point xj. Il est alors
possible d'effectuer un test t de Student pour savoir si les coefficients de la régression peuvent
être considérés comme nuls ou non.

4. Un exemple de régression linéaire simple


Nous reprenons ici les données food utilisées au chapitre 2 du manuel d'utilisation écrit par L.
Adkins pour la prise en mains du logiciel d'analyse économétrique gretl en tant que logiciel
adapté au fameux ouvrage Principles of Econometrics (4ème edition), de R. Carter Hill,
William E. Griffiths, and Guay C. Lim, Wiley (2007, 608pp) et dont le site Web associé est

http://principlesofeconometrics.com/poe4/poe4.htm

Les données food comprennent deux variables : wfoodexp et winc dont les noms anglais sont
weekly food expenditure exprimée en dollars et weekly income exprimée en hecto dollars (un
hecto dollar=100 dollars) comme on peut le lire sur le site des données de l'ouvrage de Carter
et al. sur la page food.def.

La modélisation consiste à exprimer la dépense hebdomadaire en nourriture en fonction du


revenu hebdomadaire. Voici les calculs et les graphiques extraits des pages 19, 20 et 22 :
De plus, la prédiction de la dépense pour un revenu de 2000 dollars par semaine est indiqué
page 23 :