Vous êtes sur la page 1sur 35

STT-2400

Régression linéaire

Pierre Duchesne
courriel: duchesne@dms.umontreal.ca
téléphone: 343-7267
bureau: 4251
web: www.dms.umontreal.ca/~duchesne
Version: 28 décembre 2007
Plan de cours

 1. Nuages de points et régression.


 2. Régression linéaire simple.
 3. Régression linéaire multiple.
 4. Tester la qualité de l’ajustement.
 5. Transformations.
 6. Choix des variables.
 7. Diagnostiquer un modèle de régression: étude des
résidus.
 8. Valeurs aberrantes et influence des observations.

2 STT-2400; Régression linéaire


Barème
 Le barème proposé est le suivant:

– Examen intra : 35%.


– Examen final : 45%.
– Devoirs : 20%.
Ouvrages de référence
 Weisberg, S. (2005), Applied Linear Regression, Wiley:
NY (Obligatoire).
 Sen, A. et Srivastava, M. (1990), Regression Analysis,
Springer-Verlag; NY (Recommandé).

3 STT-2400; Régression linéaire


Régression linéaire (STT-2400)

Section 1
Nuages de points et la régression.
Qu’est-ce que l’analyse de
régression?
 L’objectif premier de l’analyse de régression, ou plus
simplement de la régression, est l’étude des relations
de dépendance.
– Est-ce que la distance parcourue, durant une période
donnée, dans une certaine catégorie de véhicules
routiers, est affectée par le prix de l’essence?
– Est-ce que le niveau de cholestérol est affecté si un
individu suit une diète? Est-ce que d’autres variables
entrent en ligne de compte, comme l’âge, le sexe, le
conditionnement physique?

5 STT-2400; Régression linéaire


Une méthode possible: la
régression linéaire

 La méthode privilégiée dans STT-2400 est la


régression linéaire.
 Il existe d’autres techniques:
– Régression non-linéaire; régression non-paramétrique; réseaux de
neurones;
– Etc.
 La majorité des techniques existantes qui rivalisent
avec la régression linéaire reposent fortement sur
la compréhension de la régression linéaire.

6 STT-2400; Régression linéaire


Objectifs de la régression

 Comme technique statistique, on peut


affirmer qu’un objectif fondamental de la
régression est de synthétiser l’information
disponible.
 On recherche un modèle parcimonieux.
 La simplicité est également un objectif: pour
des performances comparables, on
recherche le modèle le plus simple.

7 STT-2400; Régression linéaire


Spécification d’un modèle

 Parfois un modèle est déjà dicté par des considérations


théoriques:
 1. Pour un objet de masse m, on sait que F = ma, c’est-à-dire
que pour une accélération donnée a, on peut trouver exactement
la force F.
 2. La théorie de la chimie prédit que, pour un échantillon de gaz
à température constante, la relation suivante est satisfaite: pv=
c, où p est la pression et v le volume. Une fois que c et  sont
fixés, pour une pression donnée, on peut exactement trouver le
volume.

8 STT-2400; Régression linéaire


Spécification d’un modèle (suite)

 Parfois, on ignore le modèle mais on doit tenter


de relier une variable réponse à des préviseurs.
 Exemple: est-ce que les pays dont le revenu
per capita est plus élevé ont tendance à afficher
un plus bas taux de natalité que ceux avec un
revenu per capita plus bas?
– Variable réponse: taux de natalité;
– Préviseur: revenu per capita.

9 STT-2400; Régression linéaire


Première étape: outils graphiques

 Lorsque nous avons à notre disposition une


variable réponse et un seul préviseur, l’outil
graphique fondamental est le nuage de points.
– Axe vertical: variable réponse;
– Axe horizontal: préviseur.
 En présence de plusieurs préviseurs, la
généralisation de cette idée est le nuage de
points matriciel.

10 STT-2400; Régression linéaire


Exemple: héritage de la taille
 Durant la période 1893-1898, Karl Pearson a étudié
l’héritage des traits génétiques d’une génération à l’autre.
 Population: mères au Royaume-Uni d’un âge inférieur à 65
ans et filles adultes âgées de plus de 18 ans.
 Taille de l’échantillon: n = 1375.
 Question d’intérêt: hérédité de la mère à la fille.
 Préviseur: taille de la mère (Mheight).
 Variable réponse: taille de la fille (Dheight).
 Est-ce que des mamans grandes (petites) ont tendance à
avoir des filles grandes (petites)?
11 STT-2400; Régression linéaire
En résumé, exemple des tailles
 1. Si les filles et leur mère avaient exactement la même taille, les
points devraient être répartis sur la droite y = x.
 2. Une question d’intérêt est s’il semble exister une relation entre
la variable réponse et le préviseur: ici clairement oui!
 3. Le nuage de points est de forme plutôt elliptique.
 4. Il est important de dégager la tendance générale suivie par la
majorité des points.
 5. Il est également important de faire un examen des points plus
isolés (points ayant un effet de levier, valeurs aberrantes; sujet
traité dans la dernière partie du cours).

12 STT-2400; Régression linéaire


Exemple: jeux de données de
Forbes
 James D. Forbes était un physicien écossais de la fin du 19ième
siècle.
 Il a étudié la relation entre la pression atmosphérique et le point
d’ébullition de l’eau.
 L’altitude peut être obtenu à partir de la pression atmosphérique en
utilisant un baromètre (pression plus faible correspondant à une
altitude plus élevée).
 Fragilité des baromètres du milieu du 19ième siècle a incité Forbes
a considérer la possibilité d’utiliser la température d’ébullition de
l’eau comme un substitut pour une lecture directe de la pression
atmosphérique.

13 STT-2400; Régression linéaire


Exemple (suite)
 Données: récoltées dans les Alpes et en Écosse.
 Les données ont été recueillies en mesurant la pression locale
en pouces de mercure avec un baromètre, et le point d’ébullition
de l’eau en degrés Fahrenheit avec un thermomètre.
 Au niveau de la mer, l’eau bout à 100 degrés Celsius (degrés C
= (degrés F - 32)*5/9) mais cela décroît avec des altitudes plus
élevées (ou des pressions atmosphériques plus faibles).
 Cela prend plus de temps faire cuire un œuf à la coque en haute
altitude! (la température n’est pas aussi forte!)

14 STT-2400; Régression linéaire


En résumé, données de Forbes

 1. La taille échantillonnale est beaucoup plus


faible que dans l’exemple sur les tailles.
 2. Les points semblent fortement répartis
autour d’une droite: pour une température
donnée, ceci suggère peu de variation dans la
pression atmosphérique.
 3. Cependant, un examen visuel fait ressortir
une erreur systématique.

15 STT-2400; Régression linéaire


Retrait de la tendance linéaire, ou
première analyse des résidus
 Pour une droite y = mx + b où le coefficient de pente
(m) et d’ordonnée à l’origine (b) sont fournis, on peut
retirer la tendance linéaire de la pression
atmosphérique en considérant:

résidu
 i   pression atmosphéri que i  mxi  b
On fait le graphique du résidu versus la température:

l’axe vertical est sur une échelle plus petite,
augmentant ainsi la résolution.
 Un effet de courbure est nettement présent.

16 STT-2400; Régression linéaire


Transformation pour améliorer la
linéarité

 Afin que les méthodes de régression linéaire fonctionnent


bien, il faut habituellement qu’un lien linéaire soit présent.
 Lorsque ce n’est pas le cas, on peut envisager de
transformer la variable réponse, ou encore le préviseur.
 On peut refaire les analyses pour voir si les
transformations améliorent la qualité du lien linéaire.
 Dans le cas des données de Forbes, une théorie issue de
la physique suggérait de considérer log(Pression) versus
log(Température).

17 STT-2400; Régression linéaire


Exemple, Smallmouth bass
 C’est un poisson populaire dans les sports de pêche.
 Lors de l’étude de la croissance des populations de poissons, on
pourrait vouloir comprendre la dépendance de la longueur du
poisson en fonction de l’âge du poisson.
 Variable réponse: longueur en mm.
 Préviseur: âge à la capture (déterminé en comptant des
anneaux).
 Taille de l’échantillon: n = 439.
 C’est une étude transversale (i.e. que toutes les observations ont
été prises au même moment), par opposition à une étude
longitudinale.
18 STT-2400; Régression linéaire
Utilisation d’un smoother
(procédure SAS PROC LOESS)
 On remarque sur le graphique une ligne pleine et une ligne
pointillée qui n’est pas tout à fait une droite.
 Essentiellement, l’idée consiste à calculer des moyennes à
chaque valeur du préviseur (ici âge) et de relier les points
obtenus.
 Si on ne dispose pas de valeurs répétées pour une valeur du
préviseur x (disons), on peut prendre des valeurs dans un
voisinage de x.
 C’est un exemple de régression dite nonparamétrique.
 En SAS la procédure qui permet de calculer des smoother est
PROC LOESS.

19 STT-2400; Régression linéaire


PROC LOESS pour l’exemple sur
les tailles
 Dans cette situation, le smoother a été obtenu en
calculant la « meilleure droite » dans des voisinages de
chacun des x.
 Le smoother LOESS et la ligne droite sont en accord pour
le centre du préviseur Mheight (la moyenne du préviseur),
et sont moins en accord aux extrémités (c’est souvent le
cas que les smoothers sont moins fiables aux extrémités
du graphique).
 Ce genre de graphique tend à révéler de l’information sur
ce que l’on appellera la fonction moyenne.

20 STT-2400; Régression linéaire


Exemple, prévision de la
température

 Les données portent sur la chute de neige à


Fort Collins, Colorado (USA).
 La question d’intérêt porte sur la prévision des
chutes de neige du 1er janvier au 30 juin
sachant les précipitations du 1er septembre au
31 décembre.

21 STT-2400; Régression linéaire


En résumé, exemple des chutes de
neige
 On note que la force de la relation (linéaire ou autre)
semble beaucoup plus faible.
 C’est un exemple de situation ou l’on pourrait penser
que la variable réponse et le préviseur ne sont pas
corrélés.
 Éventuellement, nous voudrons tester l’hypothèse que
les deux variables sont non-corrélées versus la contre-
hypothèse qu’il existe une corrélation.
 L’idée sera de comparer les deux ajustements d’une
façon à préciser plus tard durant le semestre.
22 STT-2400; Régression linéaire
Exemple, croissance des dindons
 Des dindons contenus dans des enclos clairement
identifiés sont élevés avec une diète identique, à
l’exception que pour un enclos donné, de la méthionine
(c’est un acide aminé) est ajoutée (elle est
comptabilisée comme un pourcentage de la diète des
dindons).
 La méthionine a été fournies de trois façons différentes.
 Pour la dose = 0, il y avait 10 enclos.
 Pour les autres doses, cinq enclos ont reçu une certaine
dose selon un certain procédé.
23 STT-2400; Régression linéaire
En résumé, exemple des dindons

 De manière générale, le poids semble


augmenter avec la dose.
 Si on ignore pour l’instant les trois sources de
méthionine, on peut dire que de manière
générale, une relation linéaire est plus ou
moins satisfaisante.

24 STT-2400; Régression linéaire


Fonctions moyennes

 Considérons que la variable réponse est Y, et que le


préviseur est X.
 On veut savoir comment la distribution de Y est
affectée lorsque l’on fait varier X.
 On définit la fonction moyenne de la manière suivante:


x.
E Y X  x 
C’est une fonction qui dépend de manière générale de

25 STT-2400; Régression linéaire


Un exemple de fonction moyenne:
la droite

 Dans l’exemple sur les tailles, on pourrait


penser que la relation est linéaire entre la
variable réponse (Dheight) et le préviseur
(Mheight) et postuler:

E Dheight Mheight  x    0  1 x
 Il y a donc deux paramètres, l’ordonné à
l’origine et le paramètre de pente.

26 STT-2400; Régression linéaire


Origine du terme régression

 On a déjà mentionné que si y = x, c’est-à-dire si


0 = 0 et 1 = 1, alors les filles auraient la même
taille que leur mère.
 La droite pointillée a été déterminé selon la
technique des moindres carrés, technique qui
fera l’objet de la prochaine section.
 Cette droite est déterminée par les données.
 On note que la pente est inférieure à un.

27 STT-2400; Régression linéaire


Origine du terme régression (suite)

 Ainsi, les mères qui sont grandes ont tendance à avoir


des filles qui sont plus grandes que la moyenne, mais plus
petites que leur mère (en effet la pente est inférieure à
un).
 Les mères qui sont petites ont tendance à avoir des filles
qui sont petites (par rapport à la moyenne), mais plus
grandes que leur mère.
 Le phénomène illustré ici suggère une régression des
valeurs extrêmes d’une génération donnée vers la
moyenne la génération qui suit.

28 STT-2400; Régression linéaire


Un autre exemple de fonction
moyenne: régression non-linéaire
 Dans l’exemple des dindons, nous aurions pu faire appel à un
modèle de croissance.

E Y Dose  x    0  1 1  exp  2 x 
 Exemple:

 Interprétation des paramètres: Dose = 0 donne le baseline


0 (croissance de base sans traitement). Si x est grand, alors
la fonction moyenne approche 0 + 1, qui peut-être perçu
comme la limite de croissance. On aura alors 2 comme un
terme qui détermine à quel rythme la croissance maximale
est atteinte.

29 STT-2400; Régression linéaire


Fonctions variances
Définition:
varY X  x 

 C’est la variance de la variable réponse lorsque l’on fixe


le préviseur X à la valeur particulière x.
 Exemples:
– Dheight étant donné Mheight: variance plutôt
constante pour chaque valeur de Mheight.
– Exemple des poissons: plutôt plausible également.
– Exemple des dindons: il faut faire attention, puisque
chaque chiffre est une moyenne pour un groupe
d’enclos et on ne peut apprécier la variabilité entre
les enclos.
30 STT-2400; Régression linéaire
Hypothèse courante en régression
linéaire

 Souvent l’on supposera une hypothèse de


variance constante, que l’on résumera comme
suit:
varY X  x    2

31 STT-2400; Régression linéaire


En résumé, exemple classique de
Anscombe
 Ce qu’il faut retenir avec cet exemple est que l’utilisation
des graphiques est souvent essentiel.
 Il faut rappeler que les statistiques décrivant l’ajustement
sont toutes fins pratiques identiques.
 Premier cas: situation idéale;
 Second cas: ligne droite n’est peut-être pas la fonction moyenne;
courbe lisse, peut-être quadratique?
 Troisième cas: une valeur semble aberrante (outlier);
 Quatrième cas: il y a peu d’information sur la fonction moyenne; un
seul point dicte l’allure de la régression; il est rare que l’on veut qu’une
seule observation possède une telle influence.
32 STT-2400; Régression linéaire
Exemple, consommation d’essence
 Lorsque l’on dispose de plusieurs préviseurs, le nuage de points
matriciel peut s’avérer particulièrement utile.

 Le jeu de données porte sur la consommation d’essence, et plus


particulièrement sur la variation de la consommation dans les 50
états et le District de Columbia.
– Drivers = nombre de permis de conduire dans l’état;
– FuelC = Essence vendue pour usage routier (milliers de gallons);
– Income = Revenu personnel par personne (année 2000, en milliers de
dollars);
– Miles = Distance totale des autoroutes en miles dans l’état;
– Pop = population 2001 des individus de plus de 16 ans;
– Tax = Taxe sur l’essence dans l’état;
– State = nom de l’état;
– Essence = 1000 x FuelC / Pop;
– PermisCon = 1000 x Drivers / Pop;
– logMiles = logarithme en base 2 du préviseur Miles.
33 STT-2400; Régression linéaire
En résumé, exemple sur la
consommation d’essence
 Chaque graphique est pertinent dans l’élaboration d’une
régression d’une variable réponse en fonction d’un
préviseur.
 Il semble que la variable Essence a tendance à diminuer
en moyenne à mesure que la variable Taxe augmente,
mais il y a beaucoup de variation.
 Globalement, la variable essence semble au mieux peu
reliée avec chacune des variables dans le nuage de points
matriciel.

34 STT-2400; Régression linéaire


En résumé, exemple sur la
consommation d’essence (suite)
 L’information dans un nuage de point matriciel est marginale,
puisque l’on regarde la variable réponse en fonction de
chaque préviseur pris un à la fois.
 Une étude simultanée entre la variable réponse et l’ensemble
des préviseurs pourrait mener à des conclusions différentes.
 Les relations existantes entre les préviseurs est également
importante.
 Il est attendu que si ces derniers ne sont pas reliés entre eux,
que l’information contenue dans un nuage de points matriciel
soit assez complète.

35 STT-2400; Régression linéaire

Vous aimerez peut-être aussi