Académique Documents
Professionnel Documents
Culture Documents
linéaire
Rappels de cours sur la régression linéaire
Source PMP STA 21
Principe général
La régression linéaire permet l’analyse des relations entre plusieurs variables. Le but est de
déterminer si les variations d’une variable d’intérêt (variable expliquée) peuvent-être
expliquées par les variations d’autres variables en lien (variables explicatives). Par exemple,
on peut chercher à savoir si l’âge, le sexe, la couleur de cheveux des individus ont une
influence sur le taux d’accidents de la route de ces personnes.
Avant toute analyse, il est intéressant de représenter les données. Le but de la régression
simple est de chercher une fonction f telle que
yi ≈ f ( xi )
Ainsi une étude de régression simple débute toujours par un tracé des observations. Cette
première représentation permet de savoir si le modèle linéaire est pertinent. Pour choisir le
modèle de relation, on doit faire des observations sur un échantillon d'individus. Les données
recueillies sur ces individus sont représentées graphiquement à l'aide d'un nuage de points.
Si le nuage a une forme particulière s'apparentant à une courbe mathématique, on choisira
la fonction mathématique correspondant à cette courbe.
Modèle de régression linéaire : modèle le plus simple qui exprime la relation entre Y et X à
l'aide une fonction linéaire. Graphiquement, la relation est représentée par une droite
d'équation :
y=b0 +b1 x
1
Si la relation était parfaitement linéaire : sur l'échantillon, cela se traduirait par des points
alignés et l'on pourrait écrire la relation entre Y et X sous la forme :
Y =b0 +b1 X
Mais la relation observée sur un échantillon n'est en générale pas exacte. Ces différences
peuvent être expliquées par d'autres variables ayant une influence sur la variable et qui ne
seraient pas prises en compte dans le modèle, ou encore par des erreurs de mesures.
Pour rendre compte de cette situation, on écrit la relation entre la tension et l'âge sous la
forme générale suivante : droite + erreur
Y =b0 +b1 X + ε
La variable Y est aléatoire. La variable X est supposée non aléatoire, on la mesure sans
erreur sur chaque individu.
Pour étudier le modèle, on pose des conditions sur les erreurs. On supposera que les
erreurs sont des variables indépendantes, de même loi, centrées et de même variance (que
l'on notera σ 2, condition d'homoscédasticité qu'il faudra vérifier).
Qualité de l’ajustement
Pour le modèle choisi, Y peut varier en fonction :
On va mesurer la part de chacune de ces deux sources de variation pour évaluer la qualité
de l'ajustement du modèle aux données. C’est la décomposition de la variance
La variation totale des observations yi autour de leur moyenne peut être décomposée en
deux parties : la variance expliquée par la régression (mesure la variation des valeurs
ajustées autour de la moyenne y la variance résiduelle ou non expliquée (partie de la
variation totale qui n'est pas expliquée par le modèle de régression).
Cas particuliers :
- si R2=0, le modèle n'explique rien, les variables X et Y ne sont pas corrélées linéairement.
- si R2=1 , les points sont alignés sur la droite, la relation linéaire explique toute la variation.
2
Une valeur de R2 proche de 1 (voir chapitre corrélation de Pearson) est nécessaire pour
avoir un ajustement raisonnable mais en aucun cas suffisant.
Tests
Test global de significativité de la régression
Il paraît raisonnable de tester la significativité globale du modèle, c'est à dire tester si tous
les coefficients sont supposés nuls, excepté la constante.
La statistique du test est la statistique F de Fisher et la loi de F sous H 0 est une loi de Fisher
à (1 , n−2) degrés de liberté où n est le nombre d’individus dans l’échantillon. Sous H 0 , on
s'attend à observer une valeur de F proche de 0. Plus la valeur de F est grande et plus elle
est en faveur de H 1.
- est-ce-que le coefficient b 1 est non nul, autrement dit la variable X a-t-elle réellement
une influence sur Y ?
- est-ce-que le coefficient b 0 est non nul, autrement dit faut-il une constante dans le
modèle ?
La statistique du test est une statistique T de Student et sous H 0 la statistique T suit la loi de
Student à n − 2 degrés de liberté. Sous H 0, on s'attend à observer une valeur de T proche
de 0. Plus la valeur de ¿ T ∨¿est grande et plus elle est en faveur de H 1.La règle de décision
est basée sur la p-valeur : si p−value ≤ α , on rejette H 0 au risque d'erreur α .
1. La première est la modélisation : nous avons supposé que la variable Y est expliquée
de manière linéaire par la variable X via le modèle de régression présenté au-dessus
2. La seconde est l'étape d'estimation : nous avons ensuite estimé les paramètres grâce
aux données récoltées.
Or, les hypothèses sur le résidu ε ont permis d'établir des propriétés statistiques des
estimateurs obtenus.
3
3. Enfin la troisième étape est celle de validation à laquelle ce paragraphe est consacré.
Nous aborderons le problème de la validation des hypothèses sur les résidus et la
qualité de l'ajustement observation par observation.
L'examen des résidus constitue une étape primordiale de la régression linéaire. Cette étape
est essentiellement fondée sur des méthodes graphiques, et il est donc difficile d'avoir des
règles strictes de décision.
4
La régression linéaire dans R
L’étude d’une régression linéaire dans R se fait à l’aide de la fonction lm de la manière
suivante. On pourra utiliser les fonctions summary, plot, sur les résultats de la régression.
Pour obtenir plus de détails consulter l’aide.
lm(y~x)
Exercices
Exercice 1
Les données sont fournies dans le fichier Excel dans l’onglet correspondant à l’exercice.
Exercice 2
On étudie l’influence d’un antibiotique sur une culture bactérienne. On répartit dans 10 tubes
des volumes égaux de culture additionnés d’une quantité X d’antibiotique, et on mesure,
après incubation, la densité optique D.
Les données sont fournies dans le fichier Excel dans l’onglet correspondant à l’exercice.
5
Exercice 3
Une société de transport veut établir une politique d’entretien des camions de sa flotte. Tous
sont de même modèle et utilisés à des transports semblables. La direction de la société est
d’avis qu’une liaison statistique entre le coût direct de déplacements (cents par km) et
l’espace de temps écoulé depuis la dernière inspection de ce camion serait utile.
Les données sont fournies dans le fichier Excel dans l’onglet correspondant à l’exercice.
Exercice 4
Une étudiante en sociologie veut analyser, dans le cadre d’un projet de fin de session, s’il
existe une relation linéaire entre la densité de population dans les régions métropolitaines et
le taux de criminalité correspondant dans ces régions. Le taux de criminalité (Y) est indiqué
en nombre de crimes par 10 000 habitants et la densité de population (X) est mesurée en
milliers d’habitants par km2
Les données sont fournies dans le fichier Excel dans l’onglet correspondant à l’exercice.