Vous êtes sur la page 1sur 48

R GRESSION LINAIRE

Benchikh Tawfik

Facult de Mdecine, UDL, SBA


1re anne Mdecine

20 Octobre 2015

B ENCHIKH TAWFIK B IOSTATISTIQUE


P LAN DU COURS

1 I NTRODUCTION

2 O BJECTIF

3 R GRESSION

4 R GRESSION LINAIRE

5 R GRESSION NON LINAIRE

6 E XERCICE

B ENCHIKH TAWFIK B IOSTATISTIQUE


I NTRODUCTION

Exemple 1:
Afin dtudier la relation qui pourrait exister entre lge et la pression
sanguine, un mdecin mesure sur 12 femmes dges (X) diffrents la
pression sanguine systolique (Y).

x (ans) 56 42 72 36 63 47
y (mm Hg) 147 125 160 118 149 128
x (ans) 55 49 38 42 68 60
y (mm Hg) 150 145 115 140 152 155
Ces observations sont reprsentes sur un diagramme de dispersion
(nuage de points) dans lequel un point i a pour coordonnes:

xi = ge
yi = pression sanguine systolique
N UAGE DE POINTS

Reprsentation de la pression sanguine systolique en fonction


de lge:

Nuage de points
160


150
pression sanguine systolique





140


130


120

35 40 45 50 55 60 65 70

ge
N UAGE DE POINTS : DROITE DE REGRESSION

Nuage de points
160


150
pression sanguine systolique





140


130


120

35 40 45 50 55 60 65 70

ge
N UAGE DE POINTS

La figure montre quil semble y avoir une relation entre lge de


lindividu et sa pression sanguine systolique et que cette relation
semble tre "linaire".
O BJECTIF DE LA RGRESSION

1 Lien entre la pression sanguine et lge ?


2 Quand lge , la pression sanguine ?
3 Connaissant lge, peut-on prdire la pression sanguine?
4 But medical: detecter la maladie !!!.
O BJECTIF

Regression de Y en X:

Y = pression sanguine (mm Hg)


X = ge (ans)

Comment la pression sanguine volue en fonction de lge ?

Y = Pression sanguine = f (ge) = f (X) +


Comment volue la pression sanguine?
= Quelle valeur de la pression sanguine?
Pour chaque Age.
Sachant lge

Fonction f () cest une droite:

IE( pression sanguine systolique / Age) = + ge

Pour chaque sujet:


IE(pression sanguine systolique/ Age) = + ge + ,
o est erreur individuelle.
R GRESSION : DFINITION

Il sagit ici dtudier le lien entre 2 variables quantitatives.

La variable que lon veut modliser est appele variable a


expliquer ou variable dpendante, rponse, diagnostique
(mdecine).

La ou les variables qui sont utilises pour modliser la variable a


expliquer sont appeles variables explicatives ou variables
indpendantes (ce terme est viter), impose ou
symptmes (en mdecine).
R GRESSION

Lorsque les valeurs prices par une variable explicative sont


choisies pas lexprimentateur, on dit que la variable explicative
est contrle (on parle encore de facteur contrl). Lorsque
les valeurs ne sont pas choisies, mais simplement mesures, on
parle de variables non contrles.

Les paramtres qui interviennent dans les formules de


modlisation sappellent cffcients du modles.

La partie non explique dsigne dans les formules par est


appele "reste" ou "rsidu" ou "erreur" du modle.
D MARCHE POUR LA RGRESSION

La rgression comporte 4 tapes:


1 Choix dun modle Y = f (X);
2 Dtermination de la valeur numrique des paramtres du
modle;
3 Dtermination de la signification statistique des paramtres du
modle.
4 Validation du modle.
R GRESSION : OBJECTIF

La rgression est une forme de modlisation. Elle peut avoir


plusieurs objectifs:
Description: trouver le meilleur modle fonctionnel liant la
variable dpendante y la (aux) variable(s) indpendante(s) x.
Estimer la valeur la plus probable des paramtres du modle,
ainsi que leur intervalle de confiance.
Infrence: tester des hypothses prcises se rapportant aux
paramtres du modle dans la population statistique: ordonne
lorigine, pente(s).
Prdiction: prvoir ou prdire les valeurs de la variable
dpendante pour de nouvelles valeurs de la (des) variable(s)
indpendante(s).
R GRESSION LINAIRE

Regression linaire: modle le plus simple:

Y = f (X) + = + X +
Interprtation
Estimations des paramtres
Prdiction.
R GRESSION LINAIRE

reprsente lordonne lorigine et reprsente la pente de la


droite.

On utilise des lettres grecques pour reprsenter lordonne


lorigine et la pente pour bien insister sur le fait que ce sont des
paramtres inconnus.

Leur valeur respective serait connue si on avait accs toute la


population, ce qui nest jamais le cas en pratique. Il nous faudra
donc les estimer.
Droite de regression:
- Rsume le mieux le nuage de point
La plus proche de tous les points
Erreurs petits + + +
P RINCIPE DE L ESTIMATION

Estimer et tel que petits +++

i : cart entre la droite et le point i

yi = + xi + i

IE(Y/X) = + X

i = yi IE(Y/X)
P RINCIPE DE L ESTIMATION

Somme des Carrs des carts


n
X
SCE = (i )2
i=1

Estimer et tel que:

SCE minimum
E STIMATION DE LA PENTE
La pente est donne par la formule suivante:

Cov(X,Y)
b= Var(X)

La variance de X est estim par (dans le cas dun chantillon):


n
X n
X
(xi X)2 (xi )2 n(X)2
i=1 i=1
S2 (X) = = .
n1 n1

La covaiance de X et Y est estim par:


n n n
X 1 X X
(xi yi ) ( xi )( yi )
n
\Y) = i=1 i=1 i=1
cov(X, .
n1
E STIMATION DE :

La droite passe par mY et mX :

mY = a + bmX
P P
yi xi
o mY = Y = n et mX = X = n

Do:

a = mY bmX
E XEMPLE
Covariance de la pression sanguine et de lge:

cov(pressionsanguinesystolique, Age) = Cov(X, Y) = 160.4242

Variance de lge: var(Age) = S2 (X) = 140.9697


Estimation de
Cov(X, Y)
b = cov(pression, Age)/var(Age) = = 1.138005
Var(X)

Estimation de :

a = Mpressionsanguinesystolique b MAge = mY bmX = 80.77773


Lquation scrit donc:

Pression sanguine systolique = 80.778 + 1.138 ge +

IE(Pression sanguine systolique / ge) = 80.778 + 1.138 ge

R EMARQUE
Une fois les paramtres a et b calculs, on en dduit les valeurs
ajustes yi = a + bxi puis les rsidus estims i = yi yi .
I NTERPRTATION

1 = 0: pas de lien, volutions indpendantes.


2 < 0: volutions en sens contraire.
3 > 0: volutions dans le mme sens
4 Ordonne a lorigine:

IE(Y/X = 0) =
P RDICTION

Pour un ge (X) fix, prdiction de la pression sanguine


systolique (Y)

Yp = a + b X

pression sanguine systolique = 80.778 + 1.138 ge


C FFICIENT DE CORRLATION
Le modle est-il un bon rsum des observations ?
Estimation du cfficient de corrlation entre X et Y:
cov(X, Y)
r = cor(X, Y) = p p
Var(X) Var(Y)

|r| 1 et |r| = 1 ssi yi = a + bxi pour certain i = 1, . . . , n.


r = 1 et r = 1 dnotent une corrlation parfaite entre X et Y.
r > 0 ssi la droite de rgression est de pente positive (relation
croissante: X et Y varient dans le mme sens).
r < 0 ssi la droite de rgression est de pente ngative (relation
dcroissante: X et Y varient dans le sens contraire).
r = 0 ssi la droite de rgression est horizontale: aucune tendance
ne peut tre dtermine .
A DQUATION

Pourcentage de variance explique: pour interprter les valeurs


intermdiaires de r, nous avons lgalit suivante:

Part de variance explique par la rgression


R2 =
Variance
X totale
2
ecart(mY/X mY ) (m Y/XmY )
= ecart(ymY ) =
X
(yi mY )2

Donc r2 est la proportion de la dispersion des Y qui est explique


par la dispersion des X.
Remarque: R: estimation du coefficient de corrlation entre X et
Y.
Exemple:

Cfficient de corrlation entre X et Y

r = cor(pressionsanguinesystolique, Age)
cov(X,Y)
= = 0.8961394
Var(X) Var(Y)

Estimation de R2 :
r r = 0.8030658

ce qui indique que la relation entre lge et la pression sanguine


systolique est trs forte .
R EMARQUES : LES FAUSSES CORRLATIONS

Quest-ce quune corrlation ? Cest une relation positive ou


ngative entre deux phnomnes, mais elle nest pas absolue.
Exemple: il y a une corrlation positive entre la taille et le poids
des hommes : ceux qui mesurent un mtre quatre-vingt psent en
gnral plus lourd que ceux dont la taille ne dpasse pas un
mtre soixante. Mais il y a des petits gros et des grands maigres.
R EMARQUES : LES FAUSSES CORRLATIONS

Souvent, une corrlation est le signe dune relation de cause


effet. Le plus souvent, on sait ce qui est la cause et ce qui est
leffet :
cest la consommation de tabac qui provoque le cancer du
poumon et non la prdisposition ce cancer qui donne envie de
fumer. Mais dans certains cas, les choses sont beaucoup moins
videntes. Et il peut arriver aussi que chacun des deux
phnomnes soit la fois cause et effet.
R EMARQUES : LES FAUSSES CORRLATIONS
En outre, il y a beaucoup de corrlations statistiques qui ne
rsultent aucunement dune relation de cause effet et qui sont
de ce fait trompeuses.
Cest notamment le cas pour les sries statistiques qui voluent
paralllement dans le temps, avec le progrs conomique et
scientifique. Certes, si lesprance de vie augmente, en mme
temps que diminue la frquentation des cinmas (corrlation
ngative), personne nira soutenir que lon vit plus vieux parce
que lon va moins souvent au cinma.
Mais dans bien des cas, surtout si lon veut prouver quelque
chose, on nhsitera pas voir une relation de cause effet l o
il ny a rien dautre que lvolution parallle de deux sries
statistiques.
E XEMPLE 2

On a mesur la quantit dnergie mtabolise en 10 heures


(calories) par un moineau soumis diffrentes tempratures
( C) ; Les rsultats sont les suivants:

x = temprature: 0 4 10 18 26 32
y = calories: 25 23 24 19 15 14
N UAGE DE POINTS

Reprsentation de la quantit dnergie mtabolise en 10


heures (calories) en fonction de la tempratures:

Nuage de points Nuage de points


24

24


22

22
calories

calories
20

20

18

18
16

16
14

14

0 5 10 15 20 25 30 0 5 10 15 20 25 30

temprature temprature

r = cor(temprature, calories) = 0.9682108.


B UT O BJECTIF R GRESSION R GRESSION LINAIRE R GRESSION NON LINAIRE E XERCICE

R GRESSION NON LINAIRE

Exemple 3:
En labsence de mortalit, on souhaite dcrire lvolution dans le
temps de la croissance dune population de bactries. Des
numrations faites tous les jours partir du 2ime donne les rsultats
suivants:

B ENCHIKH TAWFIK B IOSTATISTIQUE


jours bactries
2 55
3 90
4 135
5 245
6 403
7 665
8 1100
9 1810
10 3300
11 4450
12 7350
N UAGE DE POINTS

Reprsentation de la croissance de la population de bactries en


fonction des jours:

Nuage de points


6000

6000

bactries

bactries
4000

4000

2000

2000

2 4 6 8 10 12 2 4 6 8 10 12

jours jours
M ODLE NON LINAIRE

Daprs le graphique le nombre de bactries croit de manire


rapide (exponentiel).

On peut donc dduire que le coefficient de corrlation linaire


entre le nombre de bactries N et la variable temps t est positif;
en effet on trouve

r = cor(jours, bactries) = 0.86474

(!!!) (attention le modle est non linaire).


T RANSFORMATION

Pour expliquer N en fonction de t, nous allons faire une


transformation logarithmique seulement de la variable N (car
cest la variable qui a des valeurs trs grandes).

En effet en posant y = log(N) et x = t, le graphique suivant


montre quil y a une relation linaire en y et x.

logbactries<-log(bactries)
N UAGE DE POINTS ET LA DROITE DE RGRESSION

7
logbactries

2 4 6 8 10 12

jours
9


7
logbactries

2 4 6 8 10 12
B UT O BJECTIF R GRESSION R GRESSION LINAIRE R GRESSION NON LINAIRE E XERCICE

E STIMATION DES PARAMTRES DU MODLE

Le coefficient de corrlation linaire est:


r = cor(jours, logbactries) = 0.9996615

ajustement linaire de Y = log(N) en X est bien justifi.

B ENCHIKH TAWFIK B IOSTATISTIQUE


D ROITE DE RGRESSION : E STIMATION DES
PARAMTRES DU MODLE

z4<-lm(logbactries jours)

z4
Call: lm(formula = logbactries jours)
Coefficients: (Intercept) jours 3.0142 0.4944
Coefficients:

Estimate Std. Error t value Pr(>|t|)


(Intercept) 3.014162 0.032947 91.49 1.13e-14 ***
jours 0.494419 0.004289 115.27 1.41e-15 ***

Residual standard error: 0.04499 on 9 degrees of freedom

Multiple R-squared: 0.9993, Adjusted R-squared: 0.9992


E STIMATION DES PARAMTRES DU MODLE
On trouve a = 3.014 et b = 0.494.
La droite des moindres carrs est donne par

Y = 0.494X + 3.014

La somme des carrs des rsidus SSR = 0.04499 est trs faible.
Le coefficient R2 = 0.9993 est trs proche de 1, on peut donc
affirmer que lajustement est de trs bonne qualit.
En rsum, on dduit que lvolution du nombre de bactries en
fonction des jours suit lquation:

N(t) = e0.494t+3.014 = 20.36871e0.494t .


B UT O BJECTIF R GRESSION R GRESSION LINAIRE R GRESSION NON LINAIRE E XERCICE

E XERCICE 1

Lune des mesures qui sont faites lors de linvestigation des affections
respiratoires est celle du volume expiratoire moyen par seconde,
appel Vems. Sur 8 sujets tirs au sort parmi la population saine
dge compris entre 30 et 35 ans, on a mesur la taille T (en mtres)
et le Vems V (en litres par seconde), et obtenu les rsultats suivants :

Sujet 1 2 3 4 5 6 7 8
T 1, 85 1, 72 1, 51 1, 62 1, 60 1, 80 1, 75 1, 68
V 4, 5 3, 6 2, 7 3, 1 3, 6 4, 4 4, 3 3, 8

B ENCHIKH TAWFIK B IOSTATISTIQUE


E XERCICE 1

1 Dessiner et commenter le nuage des points de ces observations


(T en abscisse et V en ordonne) .
2 Calculer le coefficient de corrlation linaire de T et Vems .
3 Sur le mme repre, tracer la droite de rgression observe de
V par rapport T.
4 Un neuvime sujet survient qui mesure 1,70 m. Quel Vems peut
on prvoir pour lui ? En faite, son Vems est de 4 litres. Quelle
erreur a-t-on commise ?
P P 2 P P 2
NB: ti = 13.53; ti = 22.9703; vi = 30; vi = 115.36;
P
ti vi = 51.205.
S OLUTION
1. Nuage des Points: on remarque que les points sont parfaitement
aligns, donc on peut dduire quil existe une relation de type
linaire entre la taille T et Vems:

V = b T + a.

Nuage de points
4.5




4.0


3.5


3.0

1.50 1.55 1.60 1.65 1.70 1.75 1.80 1.85

T
S OLUTION

Cov(T,V)
2. On a n = 8. corr(T, V) = ST SV .
1 1
ti2 n (T)2 ] = 0.0125 et
P P
T= n ti = 1.6913, Var(T) = n1 [

ST = T = 0.112.
V = 1n 1
[ v2i n (V)2 ] = 0.409 et
P P
vi = 3.75, Var(V) = n1

SV = V = 0.639.
1
P
Cov(T, V) = n1 [ ti vi n T V] = 0.0668.
Cov(T,V)
Donc: corr(T, V) = ST SV = 0.9335332 ' 0.93.
S OLUTION
3. La droite de rgression de V par rapport T est donne par:

V = a T b,

Cov(T,V)
o b = Var(T) et a = V a T.
On trouve: b = 5.33 et a = 5.267.
Do lquation de la droite de rgression est:

V = 5.33 T 5.267.

4. Si T = 1.7, alors, suivant la droite de rgression,


V = 5.33 1.7 5.267 = 3.794.

5. Lerreur = valeur observ - valeur estim = 4 3.794 = 0.206.

Vous aimerez peut-être aussi