Vous êtes sur la page 1sur 6

TD n°3 : Régression

linéaire
Rappels de cours sur la régression linéaire
Source PMP STA 21

Principe général
La régression linéaire permet l’analyse des relations entre plusieurs variables. Le but est de
déterminer si les variations d’une variable d’intérêt (variable expliquée) peuvent-être
expliquées par les variations d’autres variables en lien (variables explicatives). Par exemple,
on peut chercher à savoir si l’âge, le sexe, la couleur de cheveux des individus ont une
influence sur le taux d’accidents de la route de ces personnes.

Avant toute analyse, il est intéressant de représenter les données. Le but de la régression
simple est de chercher une fonction f telle que

yi ≈ f ( xi )

Pour définir ≈ il faut se donner un critère quantifiant la qualité de l'ajustement de la fonction f


aux données.

Ainsi une étude de régression simple débute toujours par un tracé des observations. Cette
première représentation permet de savoir si le modèle linéaire est pertinent. Pour choisir le
modèle de relation, on doit faire des observations sur un échantillon d'individus. Les données
recueillies sur ces individus sont représentées graphiquement à l'aide d'un nuage de points.
Si le nuage a une forme particulière s'apparentant à une courbe mathématique, on choisira
la fonction mathématique correspondant à cette courbe.

Modèle de régression linéaire : modèle le plus simple qui exprime la relation entre Y et X à
l'aide une fonction linéaire. Graphiquement, la relation est représentée par une droite
d'équation :

y=b0 +b1 x

Ce modèle particulier comporte deux paramètres (coefficients) :

- Le coefficient b 1 : la pente de la droite ; b 1>0 si la droite est croissante, b 1=0 si la


droite est horizontale et b 1<0 si la droite est décroissante ;
- Le coefficient b 0 : l'ordonnée du point d'intersection de la droite avec l'axe vertical en
x=0 .

1
Si la relation était parfaitement linéaire : sur l'échantillon, cela se traduirait par des points
alignés et l'on pourrait écrire la relation entre Y et X sous la forme :

Y =b0 +b1 X

Mais la relation observée sur un échantillon n'est en générale pas exacte. Ces différences
peuvent être expliquées par d'autres variables ayant une influence sur la variable et qui ne
seraient pas prises en compte dans le modèle, ou encore par des erreurs de mesures.

Pour rendre compte de cette situation, on écrit la relation entre la tension et l'âge sous la
forme générale suivante : droite + erreur

Y =b0 +b1 X + ε

- 1er terme : b 0+ b1 x entièrement déterminé par l'âge ;


- 2ème terme : le terme d'erreur ε qui varie de façon aléatoire d'un individu à l'autre.

Le terme d'erreur ε est une variable aléatoire.

La variable Y est aléatoire. La variable X est supposée non aléatoire, on la mesure sans
erreur sur chaque individu.

Pour étudier le modèle, on pose des conditions sur les erreurs. On supposera que les
erreurs sont des variables indépendantes, de même loi, centrées et de même variance (que
l'on notera σ 2, condition d'homoscédasticité qu'il faudra vérifier).

Qualité de l’ajustement
Pour le modèle choisi, Y peut varier en fonction :

- de X, selon la relation linéaire postulée


- d'autres variables non prises en compte et synthétisées dans le terme d'erreur.

On va mesurer la part de chacune de ces deux sources de variation pour évaluer la qualité
de l'ajustement du modèle aux données. C’est la décomposition de la variance

La variation totale des observations yi autour de leur moyenne peut être décomposée en
deux parties : la variance expliquée par la régression (mesure la variation des valeurs
ajustées autour de la moyenne y la variance résiduelle ou non expliquée (partie de la
variation totale qui n'est pas expliquée par le modèle de régression).

On peut également en déduire le coefficient de détermination R2 . Afin d'avoir une idée


globale de la qualité de l'ajustement linéaire, on définit R2 le coefficient de détermination qui
est le carré du coefficient de corrélation. Il mesure la part de la variation totale de Y
expliquée par le modèle de régression sur X.

Cas particuliers :

- si R2=0, le modèle n'explique rien, les variables X et Y ne sont pas corrélées linéairement.
- si R2=1 , les points sont alignés sur la droite, la relation linéaire explique toute la variation.

2
Une valeur de R2 proche de 1 (voir chapitre corrélation de Pearson) est nécessaire pour
avoir un ajustement raisonnable mais en aucun cas suffisant.

Tests
Test global de significativité de la régression
Il paraît raisonnable de tester la significativité globale du modèle, c'est à dire tester si tous
les coefficients sont supposés nuls, excepté la constante.

Cela correspond dans le cas de la régression linéaire simple à H 0 :b 1=0 contre H 1 : b1 ≠ 0

La statistique du test est la statistique F de Fisher et la loi de F sous H 0 est une loi de Fisher
à (1 , n−2) degrés de liberté où n est le nombre d’individus dans l’échantillon. Sous H 0 , on
s'attend à observer une valeur de F proche de 0. Plus la valeur de F est grande et plus elle
est en faveur de H 1.

La règle de décision (rejet ou non de H 0) est basée sur la p-valeur : si p−value ≤ α , on


rejette H 0au risque d'erreur α.

Tests sur les paramètres


Pour toute régression linéaire telle que décrite dans le premier paragraphe, il paraît
raisonnable de se poser les questions suivantes :

- est-ce-que le coefficient b 1 est non nul, autrement dit la variable X a-t-elle réellement
une influence sur Y ?
- est-ce-que le coefficient b 0 est non nul, autrement dit faut-il une constante dans le
modèle ?

Il est possible d’expliciter les questions précédentes en termes de tests d'hypothèse,


l’hypothèse nulle H 0 étant l’hypothèse de nullité des coefficients.

La statistique du test est une statistique T de Student et sous H 0 la statistique T suit la loi de
Student à n − 2 degrés de liberté. Sous H 0, on s'attend à observer une valeur de T proche
de 0. Plus la valeur de ¿ T ∨¿est grande et plus elle est en faveur de H 1.La règle de décision
est basée sur la p-valeur : si p−value ≤ α , on rejette H 0 au risque d'erreur α .

Analyse des résidus


Les différentes phases d'un régression peuvent se résumer par trois étapes successives.

1. La première est la modélisation : nous avons supposé que la variable Y est expliquée
de manière linéaire par la variable X via le modèle de régression présenté au-dessus
2. La seconde est l'étape d'estimation : nous avons ensuite estimé les paramètres grâce
aux données récoltées.

Or, les hypothèses sur le résidu ε ont permis d'établir des propriétés statistiques des
estimateurs obtenus.

3
3. Enfin la troisième étape est celle de validation à laquelle ce paragraphe est consacré.
Nous aborderons le problème de la validation des hypothèses sur les résidus et la
qualité de l'ajustement observation par observation.

L'examen des résidus constitue une étape primordiale de la régression linéaire. Cette étape
est essentiellement fondée sur des méthodes graphiques, et il est donc difficile d'avoir des
règles strictes de décision.

Les principaux points à vérifier sont les suivants

- Analyse de la normalité L'hypothèse de normalité sera examinée à l'aide d'un


graphique comparant les quantiles des résidus estimés aux quantiles sous
l'hypothèse de normalité. Ce type de graphique est appelé droite de Henry. Si les
résidus ne sont pas normalement distribués, ils vont s'écarter de la droite.
- Analyse de l'homoscédasticité Il n'existe pas de procédure précise pour vérifier
l'hypothèse d'homoscédasticité. Nous proposons plusieurs graphiques possibles pour
détecter une hétéroscédasticité. Il est recommandé de tracer les résidus en fonction
des valeurs ajustées. Si une structure apparaît (tendance, cône, vagues), l'hypothèse
d'homoscédasticité risque fort de ne pas être vérifiée.
- Analyse de la structure des résidus Les résidus sont supposés être indépendants.
L'indépendance est très difficile à tester de manière formelle. Le test de Durbin-
Watson est le plus souvent utilisé, consiste à tester H 0 : l'indépendance, contre H 1 :
les résidus sont non-indépendants d'une certaine façon. Cependant il existe de
nombreux modèles de non-indépendance qui ne seront pas forcément détectés par
ce test.
- Ajustement individuel au modèle et valeur aberrante Pour analyser la qualité de
l'ajustement d'une observation, il faut regarder le résidu correspondant à cette
observation. Si ce résidu est anormalement élevé alors l'individu i est appelé individu
aberrant ou atypique. Il convient alors d'essayer d'en comprendre la raison (erreur de
mesure, individu provenant d'une sous-population) et éventuellement d'éliminer cette
observation car elle peut modifier les estimations. Une valeur aberrante ou atypique
est une observation qui est mal expliquée par le modèle et admet un résidu élevé.
Généralement les données aberrantes sont détectées en traçant des graphiques. La
détection des données aberrantes ne dépend que de la grandeur des résidus.
o Valeurs prévues vs. résidus. Ce tracé est particulièrement utile pour tester
l'hypothèse de linéarité concernant la relation entre les variables
indépendantes et la variable dépendante. Plus précisément, si la relation est
linéaire, les résultats des résidus doivent former un "nuage" homogène autour
de la droite centrale.
o Valeurs prévues vs. observées. Ce tracé est particulièrement utile pour
identifier des groupes potentiels d'observations qui ne sont pas bien prévus.
o Valeurs observées vs. résidus. Ce tracé est très utile pour détecter des points
atypiques ou groupes d'observations qui ont systématiquement des prévisions
trop fortes ou trop faibles.

4
La régression linéaire dans R
L’étude d’une régression linéaire dans R se fait à l’aide de la fonction lm de la manière
suivante. On pourra utiliser les fonctions summary, plot, sur les résultats de la régression.
Pour obtenir plus de détails consulter l’aide.

lm(y~x)

Exercices
Exercice 1
Les données sont fournies dans le fichier Excel dans l’onglet correspondant à l’exercice.

1. Charger les données dans R. Utiliser la fonction read.xlsx


2. Tracer le diagramme de dispersion des couples (xi ; yi). À la vue de ce diagramme,
pouvons-nous soupçonner une liaison linéaire entre ces deux variables ?
3. Déterminer pour ces observations l’équation de la régression linéaire et l’estimation
des coefficients correspondant
4. Donner les ordonnées des y i calculés par la droite des moindres carrés
correspondant aux différentes valeurs des x i
5. Tracer ensuite la droite sur le même graphique.
6. Quelle est une estimation plausible de Y à x i=21 ?
7. Quel est l’écart entre la valeur observée de Y à x iet la valeur estimée avec la droite
des moindres carrés ? Comment appelons-nous cet écart ?
8. Est-ce que la droite de la régression obtenue à la question 3 passe par le point
moyen ( x , y ) ? Pouvons-nous généraliser cette conclusion à n’importe laquelle droite
de régression ?

Exercice 2
On étudie l’influence d’un antibiotique sur une culture bactérienne. On répartit dans 10 tubes
des volumes égaux de culture additionnés d’une quantité X d’antibiotique, et on mesure,
après incubation, la densité optique D.

Les données sont fournies dans le fichier Excel dans l’onglet correspondant à l’exercice.

1. Un ajustement linéaire semble-t-il justifié ?


2. En transformant une des deux variables avec une fonction adaptée, déterminer une
équation de régression en précisant quelle est la variable explicative et la variable
expliquée ?
3. Donner une prévision de D pour une quantité d’antibiotique X = 0, 5. Donner
l’intervalle de sécurité à 95% de cette prévision

5
Exercice 3
Une société de transport veut établir une politique d’entretien des camions de sa flotte. Tous
sont de même modèle et utilisés à des transports semblables. La direction de la société est
d’avis qu’une liaison statistique entre le coût direct de déplacements (cents par km) et
l’espace de temps écoulé depuis la dernière inspection de ce camion serait utile.

Les données sont fournies dans le fichier Excel dans l’onglet correspondant à l’exercice.

1. Quelle variable devrions-nous identifier variable dépendante (Y) et laquelle devrions-


nous identifier variable explicative (X) ?
2. Tracer le diagramme de dispersion de ces observations. Est-ce que le nuage de
points suggère une forme de liaison particulière ?
3. Calculer l’équation de la régression linéaire
4. Avec l’équation de la droite des moindres carrés, quelle est l’estimation la plus
plausible du coût direct de déplacement pour des camions dont la dernière inspection
remonte à 6 mois ?
5. D’après les résultats de cette étude, un délai supplémentaire d’un mois pour
l’inspection d’un camion occasionnera-t-il une augmentation ou une diminution du
coût direct ? Quelle sera vraisemblablement la valeur de cette variation de coût ?
6. Calculer la variation qui est expliquée par la droite des moindres carrés.
7. Quelle est la variation résiduelle ?
8. Calculer le coefficient R2 et interpréter le résultat.
9. Analyser graphiquement les résidus. Répondent-ils aux hypothèses demandées par
le modèle de régression linéaire

Exercice 4
Une étudiante en sociologie veut analyser, dans le cadre d’un projet de fin de session, s’il
existe une relation linéaire entre la densité de population dans les régions métropolitaines et
le taux de criminalité correspondant dans ces régions. Le taux de criminalité (Y) est indiqué
en nombre de crimes par 10 000 habitants et la densité de population (X) est mesurée en
milliers d’habitants par km2

Les données sont fournies dans le fichier Excel dans l’onglet correspondant à l’exercice.

1. Tracer le diagramme de dispersion de ces observations


2. Calculer les coefficients du modèle de régression linéaire
3. À quelle augmentation du taux de criminalité pouvons-nous nous attendre pour une
variation unitaire (ici 1 000 habitants par km2) de la densité de population ?
4. Estimer le taux de criminalité le plus plausible pour une densité de population de 7
500 habitants par km2
5. Calculer la variation qui est expliquée par la droite des moindres carrés
6. Quelle proportion de la variation totale est expliquée par ce modèle

Vous aimerez peut-être aussi