Vous êtes sur la page 1sur 5

1

Université Joseph Fourier


L2/STA230

TD7 Régression linéaire

Objectifs : Expliquer un facteur modélisé par une variable aléatoire gaussienne à l’aide d’une
variable explicative, au vu d’une série de n couples d’observations des variables explicatives et à
expliquer. Construction d’un modèle linéaire défini par trois paramètres inconnus. Estimer ces
paramètres et valider le modèle ajusté. Si le modèle est déclaré satisfaisant calculer une prévision
du facteur à expliquer, pour une nouvelle valeur de la variable explicative.

Exercice 1 Il s’agit de traiter un exemple fictif, construit par Anscombe qui montre la nécessité
d’une analyse des résidus pour juger de l’adéquation du modèle ajusté. Il s’agit de quatre jeux
de 11 données dont les résultats numériques identiques sont résumés dans le tableau suivant.

x̄ ȳ sx sy cxy
jeu n.1 à 4 9.0 7.5 3.2 1.9 5.00

Ajustez une droite de régression simple et calculez les diverses statistiques d’ajustement (en
particulier σ̂ 2 et R2 ). On donne ci-dessous les quatre graphes correspondants. Vos Conclusions ?

jeu n. 1 jeu n. 2
11

9
10

8
9

7
8
y

6
7

5
6

4
5

3
4

4 6 8 10 12 14 4 6 8 10 12 14

x x

jeu n. 3 jeu n. 4
12
12

10
10
y

8
8

6
6

4 6 8 10 12 14 8 10 12 14 16 18

x x

Exercice 2 On dit souvent que le pouls Y d’une personne est relié à l’âge X par Y = 220 − X.
Supposons que l’on veuille le prouver empiriquement et que pour cela on dispose des observations
2

suivantes :
âge 18 23 25 35 65 54 34
p 202 186 187 180 156 169 174

âge 56 72 19 23 42 18 39 37
p 172 153 199 193 174 198 183 178

On donne les résultats suivants :


X X X
xi = 560, yi = 2704, x2i = 25188,

X X
yi2 = 490438, xi yi = 97534.

Les données du pouls et de l’âge confirment-elles la règle indiquée ci-dessus. (On pourra au
seuil de 5%, tester a = −1 contre l’hypothèse a 6= −1, et b = 220 contre l’hypothèse b 6= 220..)

Exercice 3 On veut prédire la hauteur H d’un arbre en fonction de son diamètre D. Pour faire
une régression linéaire, on effectue un changement de variable en posant Y = ln H et X = ln D.
Voici les mesures faites sur 5 arbres.

X −1.61 −1.20 −0.97 −0.51 −0.42


Y 2.22 2.27 2.38 2.60 2.65

On donne les résultats suivants :


X X X
xi = −4.71, yi = 12.12, x2i = 5.4095,

X X
yi2 = 29.5282, xi yi = −11.0458.

1. Donner le coefficient de corrélation linéaire empirique entre X et Y.


2. Donner l’équation de la droite de régression empirique de Y par rapport à X.
3. Tester la signification de cette régression au seuil 5%.
4. Donner la hauteur prévue d’un arbre de diamètre 0.7.
5. Donner un intervalle de confiance de niveau 95% pour la prédiction d’un arbre de diamètre
0.7.

Exercice 4 On étudie la pollution de l’air dans 41 villes américaines par la variable Y, mesurant
le volume de So2 dans l’air en micro-grammes par m3 , en fonction de la température moyenne
annuelle X, exprimée en degrés F. On donne les résultats numérique suivant :
X X X X X
xi = 2286, yi = 1232, x2i = 129549, yi2 = 59050, xi yi = 65698.

1. Donner l’équation de la droite de régression empirique de Y par rapport à X.


2. Tester la régression linéaire au seuil de 1%, c’est-à-dire faire le test a = 0 contre a 6= 0.
3

Exercice 5 On souhaite vérifier si l’augmentation du poids d’un mouton dépend du poids de


ce mouton. On cherche donc s’il existe deux constantes a et b telles que Y = aX + b + ε où
X et Y sont les variables correspondant respectivement aux poids des moutons avant et après
suralimentation, et où Z est une variable aléatoire de loi N (0, σ 2 ). Sur 10 moutons, on donne
les résultats suivants :
X X X X X
xi = 406, yi = 423, x2i = 16570, yi2 = 18057, xi yi = 17280.

1. Estimer les paramètres a, b et σ 2 .


2. Tester au seuil 5%, l’hypothèse “a = 1.2”contre l’hypothèse “a > 1.2”.

Exercice 6 On a mesuré pour 16 malades atteints de leucémie :


– xi le logarithme décimal du nombre de globules blancs le jour du diagnostic de la maladie,
– yi le nombre de semaines de survie après le diagnostic.
On suppose que chaque yi est une observation d’une loi N (axi + b, σ 2 ) et que les 16 mesures
sont indépendantes. On donne les résultats suivants
X X X
xi = 64.63, yi = 1061, x2i = 266, 457,
X X
yi2 = 113611, xi yi = 3972.26.

1. Estimer les paramètres a, b et σ 2 .


2. Calculer un intervalle de confiance pour le paramètre σ 2 , au seuil de 5%.
3. Calculer un intervalle de confiance pour le paramètre a, au seuil de 5%.
4. Tester l’hypothèse “a = 0” contre l’hypothèse “a 6= 0” au seuil de 5%.

Exercice 7 (Extrait de l’examen, DEUG SVST2, juin 1997, Grenoble) Le volume d’air ex-
piré Y est une mesure standard du fonctionnement pulmonaire. Pour identifier une population
possédant un fonctionnement pulmonaire anormal, il faut établir un modèle pour le volume d’air
expiré dans une population normale. Pour cela, on mesure Y et la taille X sur des garçons âgés
de 10 à 15 ans.
On obtient les résumés numériques suivants :
X X X
xi = 1872, yi = 32.3, x2i = 294320,
X X
yi2 = 93.11, xi yi = 5156.20.
1. Quelles hypothèses faut-il faire pour pouvoir utiliser un modèle de régression linéaire ?
2. Calculer les estimations des coefficients de la droite de régression linéaire (y = âx + b̂).
Donner les valeurs du coefficient de corrélation ainsi que de la variance estimée.
3. Tester la pertinence de la régression, au risque de 1%.
4. Établir l’intervalle de confiance de la valeur prédite pour x = 160 cm, au niveau de
confiance de 95%.
5. Est-il normal qu’un adolescent de 12 ans, mesurant 160 cm, expire un volume d’air de 2.7
litres ?
4

Exercice 8 (Extrait de l’examen, DEUG SV2, décembre 2002, Grenoble) On envisage de


prévoir la taille des oeufs de coucou susceptibles d’être pondus dans un nid, à partir de ses
dimensions. La variable Y désigne la variable “longueur d’un oeufs ” et la variable X le “diamètre
d’un nid” en mm. Pour chaque oeuf d’un échantillon de n = 16 oeufs de coucou, on a relevé
d’une part la réalisation de Y et d’autre part celle de X pour le nid où il a été trouvé. Les
valeurs observées (xi , yi ) du couple (X, Y ) sont les suivantes :

xi 100 113 110 106 112 105 107 108


yi 19.8 22.1 21.5 20.9 22 20.8 21.2 21
xi 122 126 121 122 110 116 118 120
yi 23.8 24.9 24 23.8 21.7 22.8 23.1 23.5

1. Préciser le modèle de régression linéaire approprié pour aborder le problème de prévision


posé et les hypothèses de travail nécessaires pour appliquer l’analyse de ce modèle.

2. Calculer les estimations des paramètres a, b et σ 2 du modèle correspondant aux données


(cf. indication numérique ci-dessous).

3. En choisissant un niveau de risque de 1%, faire le test de l’hypothèse “a = 0” contre


l’hypothèse “a 6= 0”.

4. Le graphique des résidu standardisés de la régression estimée est donné ci-après. Commen-
ter ce graphique et conclure quant à la validité du modèle.

5. On s’intéresse aux nids de 128 mm de diamètre et on cherche à prévoir la taille des oeufs
de coucou qu’on peut s’attendre à y trouver.

(a) Quelle est la valeur prédite de la longueur de tels oeufs, c’est-à-dire l’estimation de
la moyenne de Y lorsque X = 128.

(b) Déterminer l’intervalle de confiance pour cette moyenne au niveau de confiance 95%.

(c) On suppose que la longueur des oeufs concernés est une variable aléatoire de loi
normale de moyenne 25.14 mm et de variance 0.0108 mm2 . Évaluer la probabilité
qu’un oeuf de coucou qu’on trouve dans un nid de 128 mm de diamètre soit de
longueur supérieure à 26 mm.

Indications numériques :

X X X
xi = 1816, yi = 356.9, x2i = 206952,

X X
yi2 = 7992.07, xi yi = 40668.3.
5

Valeurs résiduelles en fonction de l’ordre des X

2
1
Valeur résiduelle studentisée

0
−1

5 10 15

Ordre d’observation

Exercice 9 (Extrait de l’examen, DEUG SV2, décembre 2000, Grenoble) Dans le cadre
de travaux de recherche sur la durée de la saison de végétation en montagne, des stations
météorologiques sont installées à différentes altitudes. La température moyenne ainsi que l’alti-
tude (en mètres) de chaque saison sont relevées et données dans le tableau ci-dessous :

Alt. 1040 1230 1500 1600 1740 1950 2200 2530 2800 3100

Temp. 7.4 6 4.5 3.8 2.9 1.9 1 -1.2 -1.5 -4.5

A partir de l’altitude d’un lieu, on cherche à évaluer sa température moyenne sans avoir
implanter une nouvelle station.
1. Expliquer en quoi la méthode de régression linéaire est adaptée à cette problématique.
Préciser le modèle approprié.
2. Formuler les hypothèses nécessaires à cette analyse.
3. Calculer les estimations des paramètres a, b et σ 2 .
4. Faire le test de pertinence permettant de vérifier que le coefficient a est non nul au risque
de 5%.
5. On suppose que les hypothèses du modèle sont toutes vérifiées. Sachant qu’une certaine
plante ne survit qu’à une température moyenne supérieure à −6o c, est-il raisonnable de
penser que l’on ne trouvera pas cette plante à une altitude de 3500 mètres ?
Indications numériques :
X X X
xi = 19690, yi = 20.3, x2i = 42925500,
X X
yi2 = 162.41, xi yi = 17671.

Vous aimerez peut-être aussi