Vous êtes sur la page 1sur 10

L2 snv (toute option)

Corrigé : Série corrélation et régression


Exo1 : Les notes à l’épreuve de première session d’anglais et de biostatistique de 60 étudiants inscrits en master
en 2018 ont été analysées. Les statistiques descriptives résumées figurent dans le tableau ci-dessous. On
voudrait savoir s’il existe une relation entre la note d’anglais et la note de biostatistique en master :

1. De quel type de problème s’agit-il ? 2. Formulez explicitement les hypothèses du test statistique. 3. Quel test
statistique utilisez-vous ? 4. Appliquez le test statistique. 5. Que concluez-vous au seuil α= 0,05 ?
Solution : 1. Corrélation: Tester la liaison entre 2 variables quantitatives : note d’anglais et note de
biostatistique. Rôle symétrique (il est possible que les 2 variables soient liées mais l’une n’est pas susceptible
de dépendre de l’autre : il ne s’agit pas d’un problème de régression).
2. les hypothèses :
•Hypothèse nulle (H0) : r= 0 Il n’existe pas de liaison linéaire entre la note d’anglais et la note de biostatistique
chez les étudiants de master.
•Hypothèse alternative (H1) : r≠0 Il existe une liaison entre la note d’anglais et la note de biostatistique chez les
étudiants de master.
3. Le test du coefficient de corrélation de Pearson
(∑ 𝒙𝒊 )(∑ 𝒚𝒊 ) (𝟔𝟎×𝟏𝟑.𝟐)(𝟔𝟎×𝟏𝟐.𝟕)
𝑪𝒐𝒗(𝑿,𝒀) ∑ 𝒙𝒊 𝒚 𝒊 − 𝟏𝟎𝟏𝟕𝟑−
𝒏 𝟔𝟎
4. Application du test : 𝒓 = ; 𝒄𝒐𝒗(𝑿, 𝒀) = = = 𝟏. 𝟗
𝝈𝒙 𝝈𝒀 𝒏−𝟏 𝟔𝟎−𝟏
𝟏.𝟗
𝒓= = 𝟎. 𝟓 ; Par ailleurs, on peut utiliser le t de Student afin de tester la significativité de r :
𝟏.𝟓×𝟐.𝟔
𝒓 𝟏−𝒓𝟐 𝟏−(𝟎.𝟓)𝟐 0.5
𝒕𝟎 = 𝒐ù 𝑺𝒓 = √ =√ = 𝟎. 𝟏 et par suite 𝒕𝟎 = =5
𝑺𝒓 𝒏−𝟐 𝟔𝟎−𝟐 0.1

Conclusion : Les notes d’anglais et de biostatistique sont positivement corrélées chez les étudiants de master
Exo2 : On mesure, sur un ensemble de volontaires, une note de stress (X) et le nombre de consultations Y au
cours des trois mois suivants le passage du test de stress. On trouve :
X 0 10 14 5 20 3 12 22 2 1
Y 1 2 3 2 5 2 3 15 1 6
1
1. Existe-t-il une liaison significative entre le stress et les consultations ?
2. Une note de stress de 25 conduit à combien de consultations en moyenne?
Solution : 𝑋̅ = 8.9 𝑒𝑡 𝑌̅ = 4.4 ; 𝜎𝑋 = 7.96 𝑒𝑡 𝜎𝑌 = 4.15 𝑒𝑡 𝑐𝑜𝑣(𝑋, 𝑌) = 19.6 d’où r = 0.65
Pour n=10 et au risque 𝛼 = 0.05 le coefficient de Pearson théorique est rthéorique=0.5760 < 0.65 (voir table
du coefficient de Pearson)
Ceci nous permet de rejeter H0 et de conclure qu’il existe une liaison significative entre le stress et le nombre
de consultations.
Afin d’estimer le nombre de consultations suite à la note de stress 10, il faut déterminer la liaison fonctionnelle
entre les deux variables X et Y qui s’exprime par l’équation de la droite de régression : Y=aX+b où
𝜎𝑦
𝑎 = 𝑟 𝜎 𝑒𝑡 𝑏 = 𝑌̅ − 𝑎𝑋̅ ;
𝑥
On retrouve a = 0.34 et b = 1.37 d’où b = 1.37 d’où Y= 0.34X+ 1.37 et par suite Y=9.87≈ 10
Les calculs ci-dessus ont été effectués par Excel 2010, il est fortement recommandé de les revérifier.

Exo3 : Lors d’une intervention chirurgicale, on a mesuré les variables suivantes pour 141 sujets :
X : pression expiratoire post-opératoire en mbar
Z : pression expiratoire pré-opératoire en mbar
Les résultats obtenus sont : mX = 32 mZ = 71 sx2= 354 sz2= 873 et ∑xz = 358 852
1. La liaison entre la pression expiratoire post-opératoire et la pression expiratoire pré-opératoire est-elle
significative ?
2. Pour un sujet dont la pression expiratoire pré-opératoire est de 100 mbar, quelle est la moyenne attendue de
la pression expiratoire post-opératoire ?
Solution :
𝟑𝟓𝟖𝟖𝟓𝟐−𝟏𝟒𝟏×𝟑𝟐×𝟕𝟏
1. Le coefficient de corrélation entre x et z vaut : 𝐫𝐗𝐙 = = 𝟎. 𝟒𝟗
𝟏𝟒𝟎√𝟑𝟓𝟒×𝟖𝟕𝟑
Pour savoir si la liaison entre x et z est significative, il faut tester les hypothèses : Ho : ρxz = 0 et H1 : ρxz ≠ 0
où ρxz est le vrai coefficient de corrélation entre x et z. On calcule donc :
𝐫𝐗𝐙 𝟎. 𝟒𝟗
𝐭𝟎 = √𝐧 − 𝟐 = √𝟏𝟑𝟗 = 𝟔. 𝟔𝟑 à 𝟏𝟑𝟗 𝐝𝐝𝐥
√𝟏 − (𝟎. 𝟒𝟗) 𝟐
√𝟏 − 𝐫𝐗𝐙 𝟐

rXZ est significativement différent de 0 avec p < 1‰. On constate que la liaison entre x et z est positive.
2. Pour répondre à la question, il faut d’abord estimer l’équation de la droite de régression de x en z qui s’écrit
𝐒 𝟑𝟓𝟒
𝐱̂=a (z−mz)+mx. On sait que la pente de la droite de régression est égale à: 𝐚 = 𝐫𝐗𝐙 𝐒𝐗 = 𝟎. 𝟒𝟗√𝟖𝟕𝟑 = 𝟎. 𝟑𝟏
𝐙
On a donc: 𝐱̂= 32 + 0,31 (z - 71) = 0,31 z + 10 , z et x étant exprimés en mbar.
Pour z = 100 mbar, on obtient donc : 𝐱̂= 41 mbar. Rappelons d’une part que ce chiffre (41) est la valeur
moyenne attendue de la pression expiratoire post-opératoire pour une pression expiratoire pré-opératoire de 100
mbar, et d’autre part que le calcul est justifié parce que la liaison entre x et z est significative.
Exo4 : On désire étudier la relation entre la consommation quotidienne de cigarettes et l’espérance de vie. On a
réalisé une enquête auprès de 15 sujets dont voici les résultats :
Consommation journalière X 8 22 18 1 4 14 27 0 3 16 2 10 5 8 12
Age du décès Y 72 74 68 75 84 76 70 79 85 72 84 72 83 84 77
1. Existe-t-il une liaison significative ?
2. Calculer le nombre d'années perdues en fumant 2, 10 et 20 cigarettes?
3. Quelle conclusion en tirez-vous?
Solution : 𝑋̅ = 10 𝑒𝑡 𝑌̅ = 72.81 ; 𝜎𝑋 = 8.09 𝑒𝑡 𝜎𝑌 = 18.11 𝑒𝑡 𝑐𝑜𝑣(𝑋, 𝑌) = −3.07 d’où 𝑟 = −0.687
Pour n=15 et au risque 𝛼 = 0.05 le coefficient de Pearson théorique est rthéorique=0.4821 < |−0.687| (voir
table du coefficient de Pearson) ; il existe donc une liaison significative entre la consommation quotidienne de
cigarettes et l’espérance de vie.
2
Afin d’estimer le nombre d'années perdues en fumant 2, 10 et 20 cigarettes, il faut déterminer la liaison
fonctionnelle entre les deux variables X et Y qui s’exprime par l’équation de la droite de régression : Y=aX+b
𝜎𝑦
où 𝑎 = 𝑟 𝜎 𝑒𝑡 𝑏 = 𝑌̅ − 𝑎𝑋̅ ; procéder de la même manière que l’exo précédent. (a= - 0.49)
𝑥
Les calculs ci-dessus ont été effectués par Excel 2010, il est fortement recommandé de les vérifier.
Exo5 : Les données du tableau ci-dessous proviennent des archives d’un laboratoire de recherche. Elles
renseignent sur un suivi (de plus de 30 années) de l’évolution des arbres d’une réserve naturelle. Ces données
nous permettent d’obtenir des estimations de poids sans avoir à couper les arbres pour les peser, méthode
destructive et problématique. Faites une analyse de la relation entre ces 2 variables. Peut-on estimer de façon
précise le poids d’un arbre dont le périmètre est égal à 525 ?
Périmètre du tronc 358 375 393 394 360 351 398 362 409 406 487 498
Poids de l’arbre 760 821 928 1009 766 726 1209 750 1036 1094 1635 1517
Périmètre du tronc 438 465 469 440 376 444 438 467 448 478 457 456
Poids de l’arbre 1197 1244 1495 1026 912 1398 1197 1613 1475 1571 1506 1458
Périmètre du tronc 389 405 405 392 327 395 427 385 404 416
Poids de l’arbre 944 1241 1023 1067 693 1085 1242 1017 1084 1151

Solution :(Résumé) 𝑋̅ = 415 𝑒𝑡 𝑌̅ = 1123 ; 𝜎𝑋 = 42.5 𝑒𝑡 𝜎𝑌 = 329 𝑒𝑡 𝑐𝑜𝑣(𝑋, 𝑌) = 10617.68


d’où 𝑟 = 0.934 ; 𝒂 = 𝟔. Les calculs ci-dessus ont été effectués par Excel 2010, il est fortement recommandé
de les vérifier.
Exo6 : On donne le tableau à double entrée relatif à l’étude de la série double suivante : individus classés selon
les deux caractères : poids et taille. x désigne le poids en kg et y la taille en cm.
y x 𝟒𝟎 à < 𝟒𝟓 𝟒𝟓à < 𝟓𝟎 𝟓𝟎 à < 𝟓𝟓 𝟓𝟓 à < 𝟔𝟎

𝟏𝟓𝟎 à < 𝟏𝟓𝟓 20 9 1 0


𝟏𝟓𝟓 à < 𝟏𝟔𝟎 2 18 4 1
𝟏𝟔𝟎 à < 𝟏𝟔𝟓 0 5 12 6
𝟏𝟔𝟓 à < 𝟏𝟕𝟎 0 1 7 14
1. Représenter cette série en un nuage de points.
2. Calculer le coefficient de corrélation.
3. Déterminer les équations des deux droites de régression et construire les droites sur le graphique précédent.
Solution : résumé
̅ = 𝟒𝟗. 𝟕 𝒆𝒕 𝒚
2. Pour les calculs on utilisera les centres des classes : 𝒙 ̅ = 𝟏𝟓𝟗. 𝟑𝟓 et 𝒓 = 𝟎. 𝟗𝟏 ,
3. les équations des deux droites d’ajustement : 𝒚 = 𝟎. 𝟖𝟕𝒙 + 𝟏𝟏𝟔. 𝟏𝟏 𝒆𝒕 𝒙 = 𝟎. 𝟗𝟓𝒚 − 𝟏𝟎𝟏. 𝟔𝟖
Exo7 : Une entreprise pharmaceutique envisage la fabrication d’un nouveau produit. Elle étudie la demande
pour ce produit afin de déterminer le prix de vente qui lui permettra de maximiser la recette. Dans le tableau
suivant, figurent les résultats de l’enquête, réalisée pour déterminer la demande y de ce nouveau produit en
fonction de son prix de vente x en euro.
X 200 250 300 350 450 500
Y 550 430 400 310 260 210
1. Représenter graphiquement le nuage de points
2. Calculer le coefficient de corrélation et déterminer l’ajustement linéaire.
3. On cherche maintenant à déterminer un ajustement de y en fonction de x, de la forme y=bx a.
 Déterminer a et b. (ind. on se ramène à un ajustement, en posant v=lny , B=lnb et u=lnx).
 Calculer le coefficient de corrélation entre u et v.
 Estimer la demande, si le prix est fixé à 400 euro.
4. Lequel des deux ajustements semble le plus judicieux ?

3
Solution : résumé : 1. le nuage de points :
600
500
400
300
200
100
0
0 100 200 300 400 500 600

2. 𝒓 = −𝟎. 𝟗𝟕 ; 𝒂 = −𝟏. 𝟎𝟒𝟑𝟓 ; 𝒃 = 𝟕𝟏𝟔. 𝟓𝟐𝟏𝟕


3. 𝒂 = −𝟏. 𝟎𝟎𝟑𝟐 𝑩 = 𝟏𝟏. 𝟔𝟑𝟕𝟔 𝒃 = 𝒆𝑩 = 𝟏𝟏𝟑𝟐𝟕𝟖. 𝟖𝟎𝟔
𝒓 = −𝟎. 𝟗𝟖𝟗𝟏 𝒚 = 𝟏𝟏𝟑𝟐𝟕𝟖𝒙−𝟏.𝟎𝟎𝟑𝟐
𝒑𝒐𝒖𝒓 𝒙 = 𝟒𝟎𝟎 𝒐𝒏 𝒕𝒓𝒐𝒖𝒗𝒆 𝒚 = 𝟐𝟕𝟖
Exo8 : On a administré une drogue à 40 rats partagés en 4 groupes de 10 chacun. Pour le 1° groupe, la dose est
1 unité, pour le 2° groupe, 2 unités, pour le 3° groupe, 4 unités et pour le 4° groupe, 8 unités. Les effets des
doses sont proportionnels aux logarithmes des nombres d’unités administrés. En mesurant la performance de
ces rats sous l’influence de ces doses, on obtient les résultats moyens suivants :
Unités 1 2 4 8
Résultats moyens 9.5 12.1 21.2 22.8
1. Représenter les résultats : x : logarithme de la dose, y résultat moyen.
2. Ajuster une droite sur ces résultats
3. Comparer les résultats expérimentaux et les valeurs calculées.
Solution : résumé : si x = logarithme décimal de la dose, on a:
x log1=0 log2=0.3 log4=0.6 log8=0.9
y 9.5 12.1 21.2 22.8
𝟒𝟗
̅ = 𝟎. 𝟒𝟓 𝒆𝒕 𝒚
𝒙 ̅ = 𝟏𝟔. 𝟒 et par suite : 𝒚 = 𝒙 + 𝟗. 𝟎𝟓 (pour effectuer la comparaison ; rajouter une
𝟑
𝟒𝟗
ligne dans le tableau ci-dessus contenant les valeurs calculées ; par exemple : y1= 𝟑 . 𝟎 + 𝟗. 𝟎𝟓 = 𝟗. 𝟎𝟓)
Exo9 : L’observation des prix des quantités sur un marché de la tomate a donné les résultats suivants :

Quantités x en kg 10 20 35 50 70 90 110 130


Prix y au kg en 𝝐 5 3.75 2.75 2.25 1.75 1.25 0.8 0.5

Ainsi, une quantité de 35 kg de tomates est vendue au prix de 2.75 euro le kg


1) Tracer le nuage de points. Puis déterminer la droite d’ajustement linéaire y=ax+b, qui permet d’expliquer
le prix au kg par la quantité achetée. Calculer le coefficient de corrélation entre x et y et expliquer son
signe. Prévoir le prix d’un kg de tomates pour un achat de 140 kg.
2) Chercher maintenant un ajustement par une fonction logarithme de la forme : y=a lnx+b. (Indication : en
posant : u = lnx on se ramènera à un ajustement linéaire : y= au+b). Calculer le coefficient de corrélation
entre u et y. Prévoir le prix au kg pour un achat de 140 kg.
3) Indiquer lequel de ces deux ajustements vous semble le plus judicieux. (Justifier votre réponse).

Solution : 1) Le nuage de points :

4
On calcule a et b par la méthode des moindres carrés. On retrouve : 𝑎 = −0.0337 𝑒𝑡 𝑏 = 4.4242.
d’où 𝑦 = −0.0337𝑥 + 4.4242.
𝜎𝑦 𝜎
On a : 𝑎 = 𝑟 𝜎 𝑐 à 𝑑 𝑞𝑢𝑒 ∶ 𝑟 = 𝑎 𝜎𝑥 𝑑 ′ 𝑜ù 𝑟 = −0.9485; 𝑟 < 0 donc x et y varient en sens contraire (quand x
𝑥 𝑦
augmente, y diminue).
Prévision : pour x=140 , 𝑦 = −0.0337 × 140 + 4.4242 = −0.29 ∈.
La prévision est négative ce qui laisse supposer que l’ajustement n’est pas excellent.
2) y=a lnx+b : en posant : u = lnx, on obtient 𝑎 = −1.7221 𝑒𝑡 𝑏 = 8.9472 d’où 𝑦 = −1.7221𝑢 + 8.9472
𝑟 = −0.999 . Prévision : pour x=140 , 𝑦 = −1.7221 × 𝑙𝑛140 + 8.9472 = 0.44 ∈
3) le coefficient de corrélation 𝑟 = |−0.999| est plus proche de 1 que 𝑟 = |−0.9485|, ce qui laisse penser que
l’ajustement par la fonction logarithmique 𝑦 = −1.7221 × 𝑙𝑛𝑥 + 8.9472 semble plus judicieux que
l’ajustement linéaire 𝑦 = −0.0337𝑥 + 4.4242.
Exo10 : Nous nous intéressons à l’existence d’une relation entre le QI d’une personne et la taille de sa tête.
Pour cela, nous avons calculé le QI de 5 individus et nous avons mesuré leurs crânes. Voici les rangs associés à
ces mesures :
Personne A B C D E
Rang pour le QI 1 2 3 4 5
Rang pour la taille de la tête 3 5 2 1 4
Calculer le coefficient de corrélation ρ de Spearman. Conclure.
Exo11 : Deux psychologues d’une clinique ont classé dix patients par ordre d’agressivité. Leur opinion sont-
elles corrélées ? (utilisez le coefficient de Spearman)

Patient A B C D E F G H I J

Psychologue 1 4 10 2 1 6 3 8 5 7 9

Psychologue 2 5 3 4 6 2 7 9 1 10 8

NB : Le patient le plus agressif est noté par 1 et le patient le moins agressif est noté par 10.
Solution : hyps : H0 : pas de fidélité inter-juge ; H1 : fidélité inter-juge

Patient A B C D E F G H I J

Psychologue 1 4 10 2 1 6 3 8 5 7 9

Psychologue 2 5 3 4 6 2 7 9 1 10 8

𝒅𝒊 -1 7 -2 -5 4 -4 -1 4 -3 1

𝒅𝟐𝒊 1 49 4 25 16 16 1 16 9 1
5
6 ∑ 𝑑𝑖2 6 × 138
𝜌=1− 2
= 1− = 1 − 0.8364 = 0.1636
𝑛(𝑛 − 1) 10(100 − 1)
Si on lit dans la table du coeffcient de Spearman on constate que :
pour α = 0.05 le coefficient de Spearman ρthéorique = 0.6483 > ρcalculté = 0.1636
conclusion : Il n’y a pas de fidélité entre le jugement des deux psychologues avec un seuil de confiance égal à
95%.
Exo12 : Un neuropsychologue a testé 9 enfants autistes par deux épreuves. Nous souhaitons savoir si l’épreuve
de lecture est corrélée à l’épreuve de reconnaissance en employant le coefficient de rang de Spearman. Voici les
données :

A B C D E F G H I
Epreuve de lecture 18 29 32 25 16 21 22 28 24
Epreuve de reconnaissance 5 13 13 13 3 7 10 9 9

Solution : hyps : H0 : pas de fidélité inter-épreuve ; H1 : fidélité inter-épreuve


Attribution des rangs et calcul des di :
A B C D E F G H I
Epreuve de lecture 18 29 32 25 16 21 22 28 24
Epreuve de reconnaissance 5 13 13 13 3 7 10 9 9
Rang de lecture 2 8 9 6 1 3 4 7 5
Rang de reconnaissance 2 8 8 8 1 3 6 4.5 4.5
di 0 0 1 -2 0 0 -2 2.5 0.5
𝒅𝟐𝒊 0 0 1 4 0 0 4 6.25 0.25

6 ∑ 𝑑𝑖2 6 × 15.5
𝜌=1− 2
= 1− = 1 − 0.11625 = 0.88375
𝑛(𝑛 − 1) 9(81 − 1)

Si on lit dans la table du coeffcient de Spearman on constate que :


pour α = 0.01 le coefficient de Spearman ρthéorique = 0.8332 < ρcalculté = 0.88375
Conclusion : On rejette H0 et on conclue qu’il y a fidélité entre les deux épreuves.

Exo13 : On voudrait savoir s’il existe une relation entre la durée de formation exprimée en mois et le
rendement au travail. On a effectué le test pour un groupe de 20 travailleurs dont voici les résultats :
Durée de 6 8 6 5 10 12 14 15 12 20 6 8 10 16 10 18 16 18 16 16
formations
Rendement 36 23 21 20 25 26 28 29 27 24 21 23 23 25 21 29 30 32 31 30
1. Calculer le coefficient de corrélation de Pearson et celui de Spearman. Comparer les valeurs des deux
coefficients et commenter s’il y a une différence.
2. On veut prévoir le rendement d’un travailleur dont la durée de formation est estimée à 30 mois. Comment
faire ?

6
Exercices supplémentaires :
Exo14 : (sans correction)
Nous souhaitons établir une relation entre l’âge a d’un individu et sa taille t. Pour cela, nous avons mesuré les
membres d’une population et nous avons regroupé les résultats par tranches d’âge identifiées par leurs
moyennes. Cela donne les observations uniformément pondérées suivantes :

K 1 2 3 4 5
ak 18 20 22 24 26
tk 176.1 178.1 178.8 179.9 181.2

1. Calculer Var(a), Var(t) et Cov(a,t).


2. Comment s’interprète le signe de Cov(a,t)?
3. Donner l’équation de la droite de régression de t en fonction de a.
4. Prédire la taille d’un individu de 30 ans et celle d’un individu de 75 ans. Commenter.
Exo15 : (sans correction)
Le responsable d’une chaîne de magasins de bricolage pense qu’il y a une relation entre le nombre de personnes
qui s’installent dans la région et le chiffre d’affaire des magasins. Il a noté, pour chacune des 10 dernières
années, la valeur nk du nombre de personnes ayant déménagé pour s’installer dans la région pendant l’année et
ck le le chiffre d’affaire cumulé de l’ensemble des magasins de la chaîne lors de l’année. Le tableau suivant
reproduit ces valeurs :

2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
nk 5.2 4.6 7.3 8.2 6.4 7.8 3.6 4.9 2.6 3.7
ck 25.85 28.30 31.68 36.98 31.89 34.59 24.14 23.11 18.60 24.72
1. Représenter le nuage de points associé à ces observations.
2. Vu le graphique, vous semble-t-il y avoir une relation entre les deux variables? De quelle nature? Justifier
votre réponse en calculant une certaine quantité et en la commentant.
3. Déterminer la droite de régression linéaire et tracer la sur le graphique. Est-ce que le modèle linéaire vous
semble correct?
4. En 2011, la région prévoit une valeur de n égale à 4.9.A quelle valeur de c le responsable peut-il s’attendre ?
Comparer votre réponse avec le chiffre d’affaire obtenu en 2008 et commenter la différence.
Exo16 : (sans correction)
On veut étudier l’influence d’un antibiotique sur une culture bactérienne.
Partie A: On répartit dans 10 tubes des volumes égaux de culture additionnée d’une quantité X d’antibiotique,
et on mesure, après incubation, la densité optique D. La densité optique permet de déterminer la concentration
en bactérie du milieu de culture.
Antibiotique X 0.2 0.2 0.4 0.4 0.6 06 0.8 0.8 1 1
Densité optique D 19 21 35 38 64 66 115 130 200 210
a/ Construire le nuage des points M de coordonnées (Xi ;Di) représentant la densité optique en fonction de la
concentration d’antibiotique.
b/ Un ajustement linéaire semble-t-il justifié ?
Partie B: On reprend l’analyse en posant Z=ln D.
a/ Reprendre les questions a et b de la partie A.
b/ En déduire une expression de D en fonction de X. Justifier le modèle utilisé.
c/ Vérifier l’hypothèse d’indépendance du modèle.
Exo17 : Le tableau ci-dessous donne la pression artérielle systolique (Y), l’indice de Quetelet (X) ,

7
𝑷𝒐𝒊𝒅𝒔
𝑿 = 𝟏𝟎𝟎 (𝑻𝒂𝒊𝒍𝒍𝒆𝟐 ) qui est un indice de corpulence, l’âge (Z) et la consommation de tabac (T=0 si non-fumeur,
T=1 si fumeur) pour un échantillon de 32 hommes de plus de 40 ans, ainsi que les résultats de certains calculs
sur les variables X, Y, Z et T.

On peut obtenir, à partir du tableau précédent :

1. a) Donnez les estimations des paramètres a et b de la droite de régression de la pression artérielle (Y) en
fonction de l’indice de corpulence (X).
b) Représenter la série par un nuage de points, puis tracez la droite de régression sur le même graphique.
c) Pensez-vous que l’augmentation de l’indice de corpulence provoque une augmentation de la pression
artérielle ?
2. Peut-on calculer la régression de X en fonction de Y ? Quelle est son interprétation ?
3. On s’intéresse maintenant à la régression de la pression artérielle (Y) en fonction de l’âge (Z).
a) Donnez l’équation de la droite de régression.
b) Quelle est la valeur attendue de la moyenne de la pression artérielle pour des sujets de 54 ans ?
4. On s’intéresse à l’association entre la consommation de tabac (T) et la pression artérielle (Y).

8
a) Donnez les estimations a et b de la droite de régression de la pression artérielle sur la consommation de
tabac.
b) Comparez la valeur de a avec la moyenne de la pression artérielle chez les non-fumeurs. Comparez la valeur
de a+b avec la moyenne de la pression artérielle chez les fumeurs. Expliquez les résultats de ces comparaisons.

Solution :
1. a) La droite de régression a pour équation 𝑦̂ = a + b x avec :

̂ = 70,58 + 21,49 x
La droite de régression estimée est donc : 𝒚

b) Pour tracer la droite de régression, il suffit de déterminer deux de ses points (que l’on joint ensuite par une
droite). En prenant successivement x = 2 et x = 4,4, on obtient : 𝑦̂= 113,56 et 𝑦̂= 165,14 (ces points sont
indiqués par un carré sur le graphique).

Remarque : les deux points qui ont été choisis n’ont pour fonction que de permettre de tracer la droite, ils
n’indiquent pas les limites de validité de cette dernière. Dans cet exemple, ils sont ainsi assez nettement en
dehors de la zone des valeurs observées.
c) La pression artérielle augmente en fonction de l’indice de corpulence. On ne peut cependant pas en déduire
de lien de cause à effet, car on ne peut pas exclure qu’une autre caractéristique des sujets varie, elle aussi, avec
l’indice de corpulence et soit cause de l’augmentation de pression artérielle.
2. On peut bien sûr calculer l’équation de « l’autre droite » en permutant X et Y dans les formules précédentes.
L’équation de la droite de régression estimée est alors : 𝑥̂= a’ + b’y. On trouve :

9
Cette droite donne la valeur moyenne de X (c’est-à-dire de l’indice de corpulence) en fonction de la pression
artérielle Y. Cela n’a pas grand intérêt pratique contrairement à la droite précédente qui donnait la valeur
moyenne de pression artérielle en fonction de l’indice de corpulence.
3. a) En procédant de façon analogue à la question précédente, on trouve que les coefficients estimés de la
droite de régression sont :

La droite de régression estimée est donc : 𝒚 ̂= 59,07 + 1,605 z


b) Si la régression est linéaire, on peut obtenir la valeur attendue de la moyenne de la pression artérielle en
remplaçant dans l’équation de la droite de régression z par 54. On trouve : ŷ = 59,07 + 1,605×54 = 145,74.
c) Pour un sujet de 30 ans, le calcul devrait, en principe, être le même. Cet âge est cependant nettement
extérieur à l’intervalle d’âge observé dans l’échantillon (de 41 à 65 ans). Il n’est donc pas possible d’extrapoler
la droite de régression jusqu’à cet âge.
4. a) Le calcul de la régression de Y en fonction de T garde un sens bien que T soit une variable qualitative. Il
revient en effet à calculer la valeur moyenne de Y à T fixé (et Y est bien une variable quantitative). Le
problème de la linéarité reste à discuter pour savoir si on peut représenter cette régression par une droite. Dans
le cas, comme ici, où la variable T est dichotomique, ce problème ne se pose pas en pratique. En effet, T ne
prend que 2 valeurs et il y a toujours une droite qui passe par 2 points.
L’estimation des coefficients de la droite de régression se fait comme dans les questions précédentes. On
obtient :

̂= 140,80 + 7,02 t
La droite de régression estimée est donc : 𝒚
b) Les moyennes m1 et m0 de la pression artérielle chez les fumeurs et chez les non-fumeurs peuvent être
calculées à partir du tableau. On trouve : m0 = 140,8 (moyenne chez les non-fumeurs) m1 = 147,82 (moyenne
chez les fumeurs) On constate que mo = a et m1 = a+b. L’explication est la suivante : le modèle de régression
linéaire s’écrit ŷ = a+bt où 𝒚
̂ est la moyenne de y pour t fixé. Donc : pour t = 0 (non-fumeur), on a ŷ = a et
pour t = 1 (fumeur), on a ŷ = a+b

10

Vous aimerez peut-être aussi