Vous êtes sur la page 1sur 58

UE4 : Biostatistiques

Chapitre 8
Corrlation et rgression
linaire simple
Jos LABARERE
Anne universitaire 2011/2012
Universit Joseph Fourier de Grenoble - Tous droits rservs.
Plan

I.Corrlation et rgression linaire

II. Coefficient de corrlation

III.Rgression linaire simple

Annexes
Plan

I.Corrlation et rgression linaire


1. Nature des variables
2. Corrlation versus rgression : exemples
3. Conditions dapplication

II. Coefficient de corrlation


III.Rgression linaire simple
Annexes
I.1. Nature des variables

Le terme de corrlation est utilis dans le langage courant


pour dsigner la liaison (relation / association) entre 2
variables quelconques.

En statistique, le terme de corrlation est rserv pour


dsigner la liaison entre 2 variables QUANTITATIVES (le
plus souvent continues).

Corrlation / rgression : liaison entre 2 variables


quantitatives
Plan

I.Corrlation et rgression linaire


1. Nature des variables
2. Corrlation versus rgression : exemples
3. Conditions dapplication

II. Coefficient de corrlation


III.Rgression linaire simple
Annexes
I.2. Corrlation versus rgression

Corrlation :
Liaison entre 2 variables quantitatives X et Y
Rle symtrique (on peut permuter X et Y)
Rle asymtrique

Rgression :
Liaison entre 2 variables quantitatives X et Y
Rle asymtrique uniquement :
X = variable explicative / Y = variable explique
X = variable indpendante / Y = variable
dpendante
(on ne peut pas permuter X et Y)
I.2. Corrlation versus rgression

1. Exemple : corrlation (positive)


X = ventes de paires de lunettes de soleil en t
Y = ventes de crmes glaces en t
Il existe une liaison entre X et Y :
Quand X augmente, Y augmente (mto estivale)
Quand X diminue, Y diminue (mto pluvieuse)
La liaison est symtrique :
X est lie Y, et Y est lie X
mais X ne dpend pas de Y et Y ne dpend pas de X
on peut permuter X et Y en abscisses et en ordonnes
Y ne peut pas tre prdite par X
ventes lunettes

ventes glaces
ventes glaces ventes lunettes
I.2. Corrlation versus rgression

2. Exemple : corrlation (ngative)


X = ventes de paires de lunettes de soleil en t
Y = ventes de parapluies en t
Il existe une liaison entre X et Y :
Quand X augmente, Y diminue (mto estivale)
Quand X diminue, Y augmente (mto pluvieuse)
La liaison est symtrique :
X est lie Y, et Y est lie X
mais X ne dpend pas de Y et Y ne dpend pas de X
on peut permuter X et Y en abscisses et en ordonnes
Y ne peut pas tre prdite par X
ventes parapluies

ventes lunettes

ventes lunettes ventes parapluies


I.2. Corrlation versus rgression

3. Exemple : rgression
X = ge (de 0 15 ans)
Y = taille (cm)
Il existe une liaison entre X et Y :
Quand lge augmente, la taille augmente
Quand lge diminue, la taille diminue
La liaison est asymtrique :
la taille dpend de lge mais lge ne dpend pas de la taille
on ne peut pas permuter X et Y en abscisses et en ordonnes
On peut prdire la taille par lge laide dune quation de droite ou
de courbe de rgression (cf carnet de sant)
I.2. Corrlation versus rgression

Corrlation Rgression
Variables X = quantitative X = quantitative
Y = quantitative Y = quantitative

Symtrie de la Oui / Non Non


liaison Y lie X Y dpend de X
X lie -
Y
Exemples Y = conso. cannabis Y= taille
X = temprature moyenne X = ge
annuelle
Prdiction Non Oui
(quation)
Plan

I.Corrlation et rgression linaire


1. Nature des variables
2. Corrlation versus rgression : exemples
3. Conditions dapplication

II. Coefficient de corrlation


III.Rgression linaire simple
Annexes
I.3. Conditions dapplication de la corrlation et de la
rgression linaire simple

Indpendance des observations


Liaison linaire entre X et Y
Distribution conditionnelle normale et de
variance constante
I.3. Conditions dapplication de la corrlation et de la
rgression linaire simple

1. Indpendance des observations


Ne pas confondre :
- Indpendance des observations (condition
dapplication du test statistique)
- Indpendance des variables (hypothse
tester)
Observations indpendantes (et variables corrles)

Enfant 1 Enfant 2 Enfant 3 Enfant 4 Enfant 5 Enfant n

3 mois 3 mois 9 mois 8 mois 24 mois 6 mois


60cm 58cm 70cm 70cm 85cm 65cm

Observations corrles (et variables corrles)

1er juin 2 juin 3 juin 4 juin 5 juin 1er octobre

1010hpa 1013hpa 1014hpa 1010hpa 1009hpa 1002hpa


30.5C 29.5C 30.5C 31C 29C 18C
I.3. Conditions dapplication de la corrlation
et de la rgression linaire simple

2. Liaison linaire entre X et Y


Avant dappliquer le test du coefficient de corrlation
ou destimer la droite de rgression, il faut vrifier -
empiriquement (graphiquement) - que la liaison entre les 2
variables est de nature linaire.
A dfaut, linterprtation du test du coefficient de
corrlation ou du test de la pente de la droite de
rgression peut tre errone.
Coefficient de corrlation nul
Pente de la droite de rgression nulle

Cas 1

La nature de la liaison est linaire (le nuage de points est rsum au


mieux par une droite horizontale dquation y = a)
La condition dapplication est vrifie
Il est possible dutiliser le coefficient de corrlation et la rgression
linaire simple pour quantifier la liaison entre les 2 variables
(conclusion : X et Y sont indpendants [Y constant quelle que soit la
valeur de X])
Coefficient de corrlation nul
Pente de la droite de rgression nulle

Cas 2

Il existe une liaison entre X et Y mais cette liaison nest pas linaire
: Y varie avec les valeurs de X.
Le nuage de points nest pas rsum au mieux par une droite mais
plutt par une fonction quadratique.
La condition dapplication nest pas vrifie
Il ne faut pas utiliser le coefficient de corrlation ni la rgression
linaire simple pour quantifier la liaison entre les 2 variables
Coefficient de corrlation non nul
Pente de la droite de rgression non nulle

Cas 3

La nature de la liaison est linaire (le nuage de points est rsum au


mieux par une droite dquation y = a+bx)
La condition dapplication est vrifie
Il est possible dutiliser le coefficient de corrlation et la rgression
linaire simple pour quantifier la liaison entre les 2 variables
(conclusion : il existe une liaison linaire entre X et Y)
Coefficient de corrlation non nul
Pente de la droite de rgression non nulle

Cas 4

La nature de la liaison nest pas linaire (le nuage de points nest pas
rsum au mieux par une droite mais plutt par une fonction
exponentielle)
La condition dapplication nest pas vrifie
Il ne faut pas utiliser le coefficient de corrlation ni la rgression
linaire simple pour quantifier la liaison entre les 2 variables
I.3. Conditions dapplication de la corrlation et de la
rgression linaire simple

3. Distribution conditionnelle normale et de


variance constante
Distribution de Y normale et de variance constante pour chaque
valeur de X
(difficilement vrifiable en pratique)
La distribution de Y nest pas
La variance de Y nest pas
normale pour X = x4
constante pour les diffrentes
valeurs de X

La condition dapplication nest pas vrifie


Plan

I.Corrlation et rgression linaire


II. Coefficient de corrlation
1. Covariance
2. Coefficient de corrlation et interprtation
3. Estimation du coefficient de corrlation
4. Test du coefficient de corrlation

III.Rgression linaire simple


Annexes
1. Covariance

Variance conjointe de 2 variables X et Y


N

covX, Y X Y
i1 i X i Y

N
Cas particulier : X = Y cov(X,Y) = cov(X,X) = var(X)

N N

X X
i X i X X
i X

covX, X i1
i1
2 varX
N N
II.1. Covariance

X et Y indpendantes
cas particulier Y constant quelle que soit la valeur de X

cov X, Y X
i1 i X Yi Y
0
N

0 car Yi = constante =Y
II.1. Covariance

Equivalent de la formule de Huyghens pour la covariance


n n

xi y
n i
xi y i 1 n i 1
covX, Y i i1

2
n

n
xi
x 2 i 1 n
Rappel : varX
n
i i1
Plan

I.Corrlation et rgression linaire


II. Coefficient de corrlation
1. Covariance
2. Coefficient de corrlation et interprtation
3. Estimation du coefficient de corrlation
4. Test du coefficient de corrlation

III.Rgression linaire simple


Annexes
II.2. Coefficient de corrlation

Le coefficient de corrlation entre 2 variables quantitatives X et Y est


gal au rapport de la covariance de X et Y divis par le produit des
cart-types de X et Y.

Le coefficient de corrlation est not dans la population.

covX,

YX
var
varY
-1+
1
II.2. Interprtation du coefficient de corrlation

1. X et Y indpendantes : = 0

=0

Y = fluctue autour dune constante quelle que soit la valeur de


X
Nuage de points horizontal
cov(X, Y) = 0
covX,

YX
var 0
varY
II.2. Interprtation du coefficient de corrlation

2. X et Y corrles : > 0

>0
Liaison linaire croissante entre X et Y

cov(X, Y) > 0

covX,

YX
var 0
varY
NB : si Y = X cov(X,Y) = var(X) et var(Y) = var(X) =1
II.2. Interprtation du coefficient de corrlation

2. X et Y corrles : < 0

<0
Liaison linaire dcroissante entre X et Y
cov(X, Y) <0

covX,

YX
var 0
varY
NB : si Y = - X cov(X,Y) = - var(X) et var(Y) = var(X) =-1
Plan

I.Corrlation et rgression linaire


II. Coefficient de corrlation
1. Covariance
2. Coefficient de corrlation et interprtation
3. Estimation du coefficient de corrlation
4. Test du coefficient de corrlation

III.Rgression linaire simple


Annexes
II.3. Estimation du coefficient de corrlation

population

chantillon
r

Le coefficient de corrlation estim sur un chantillon issu dune


population est not r.
Il sinterprte comme le coefficient de corrlation mesur sur la
population.
Il est calcul partir des estimations de la covariance et des
variances de X et de Y sur lchantillon.
n
x mx yi m
n
xi mx 2 n
y m 2


y y
covX, Y
n i1
s 2x s 2y i1 i

i i1 n
-1 -1 n -1
II.3. Estimation du coefficient de corrlation

Par simplification des (n-1) au dnominateur de la covariance et de


la variance de X et de la variance de Y, on obtient lexpression de
lestimateur du coefficient de corrlation r partir dun chantillon.

x m y m
i x i y
r i1


n n

x m
my
i x
2
i y
2


i1
i1
II.3. Estimation du coefficient de corrlation

Par simplification des (n-1) au dnominateur de la formule de


Huyghens de la covariance et de la variance de X et de Y, on obtient
une autre expression de lestimateur du coefficient de corrlation r
partir dun chantillon.

n
n

n

i1 x i i1y i
x y
i i
n
r i1

n

2
n 2

i

n
i 1 x i
n
y


i
x 2

n
i
y 2 i 1

n

i1 i1


Plan

I.Corrlation et rgression linaire


II. Coefficient de corrlation
1. Covariance
2. Coefficient de corrlation et interprtation
3. Estimation du coefficient de corrlation
4. Test du coefficient de corrlation

III.Rgression linaire simple


Annexes
II.4. Test du coefficient de corrlation

Aprs le calcul du coefficient de corrlation r estim sur un chantillon,


il faut dterminer si le coefficient de corrlation est significativement
diffrent de 0.

population

chantillon
r
r

H0 : = 0 (absence de liaison [linaire] entre X et Y)


H1 bilatrale : 0 (existence dune liaison entre X et Y)
II.4. Test du coefficient de corrlation

Sous lhypothse nulle (H0) :


Le rapport de lestimateur du coefficient de corrlation r sur son cart-
type suit une loi de Student (n-2) degrs de libert.
n est leffectif de lchantillon.

r
t (n-2)ddl
sr
1
Lestimateur de lcart-type du coefficient de sr
corrlation est gal : r
n
2
II.4. Test du coefficient de corrlation

Le test du coefficient de corrlation consiste calculer la grandeur to


et la comparer la valeur seuil t sur la table de la loi de Student
(n-2) degrs de liberts.

to r n
1
2 r

Conditions dapplication
indpendance des observations
liaison linaire entre X et Y
distribution conditionnelle normale et de variance constante
1
(non-rejet de H0)

/2 /2
(rejet de H0 = acceptation de H1) (rejet de H0 = acceptation de H1)

n
r
t 2 r
1

-t t
0
|to| > t |to| |to| > t
t

Abscisses : valeurs possibles de t sous H0 ( = 0)

to : valeur observe/calcule de t sur


lchantillon
Dtermination du degr de signification associ to (P-value)

Exemple :
to = 2.12
n = 20

0.02 < P <0.05


P < rejet de H0
(n-2) = 18 ddl X

Rappel : P-value = probabilit


dobserver une valeur plus grande que
to sous lhypothse nulle H0
Plan

I. Corrlation et rgression linaire


II. Coefficient de corrlation
III. Rgression linaire simple
1. Rgression linaire simple
2. Estimation par la mthode des moindres carrs
3. Test de la pente de la droite de rgression

Annexes
III.1. Rgression linaire simple

La rgression sadresse un type de problme o les 2 variables


quantitatives continues X et Y ont un rle asymtrique : la variable Y
dpend de la variable X.

La liaison entre la variable Y dpendante et la variable X indpendante


peut tre modlise par une fonction de type Y = + X, reprsente
graphiquement par une droite.

Y = + X
Y
Y : variable dpendante (explique)
X : variable indpendante (explicative)
: ordonne lorigine (valeur de Y pour
x = 0)
: pente (variation moyenne de la valeur
de Y pour une augmentation dune unit
X de X)
Plan

I. Corrlation et rgression linaire


II. Coefficient de corrlation
III. Rgression linaire simple
1. Rgression linaire simple
2. Estimation par la mthode des moindres carrs
3. Test de la pente de la droite de rgression

Annexes
III.2. Estimation par la mthode des moindres carrs

(xi, yi)
Y

Chaque individu i est caractris par un couple de coordonnes (xi,


yi) et est reprsent par un point sur le graphique.
Lensemble des individus forme un nuage de points.
III.2. Estimation par la mthode des moindres carrs

(xi, yi)
Y

^)
(xi, yi
Y = + X
^
yi = + xi

X
La droite de rgression Y = + X est la droite qui rsume le mieux le
nuage de points. Intuitivement, il sagit de la droite dont les points
du nuage sont en moyenne les plus proches (cest--dire la droite
qui passe la plus faible distance de chaque point du nuage, en
moyenne).
III.2. Estimation par la mthode des moindres carrs
^ yi - yi
(xi, yi)
Y

^)
(xi, yi
Y = + X
^
yi = + xi

La distance dun point la droite est la distance verticale entre lordonne


du point observ (xi, yi) et lordonne du point correspondant sur la
droite (xi, ^yi) .
Cette distance dun point la droite (yi - ^yi) peut tre positive ou
ngative et la somme des distances la droite sannule.
III.2. Estimation par la mthode des moindres carrs
yi - y^i
(xi, yi)
Y

^)
(xi, yi
Y = + X
^
yi = + xi

SCE = i (yi ^yi)


Pour saffranchir du signe, on calcule la somme des carrs des
distances de chaque point la droite. La droite de rgression est la
droite qui minimise la somme des carrs des carts. Elle est aussi
appele droite des moindres carrs.
III.2. Estimation par la mthode des moindres carrs

Y Y = + X

my

mx
X

Une particularit de la droite de rgression est de passer par le point


moyen thorique de coordonne (mx, my).
III.2. Estimation par la mthode des moindres carrs

Y Y = + X
a et b sont les estimations de
lordonne lorigine et de la
my
pente de la droite de
rgression.

Lestimation de la pente de la
droite de rgression b est gale
mx
au rapport de la covariance de X X
et Y sur la variance de X.
n

cov X, x m y m
b b
i x i y


n
Y var
2


i1

i x
x m
X
i1


III.2. Estimation par la mthode des moindres carrs

Y Y = + X

my

mx
X

Lestimateur de lordonne lorigine a est dduit de la pente b


et des coordonnes du point moyen (mx, my) :
a = m y b mx
Plan

I. Corrlation et rgression linaire


II. Coefficient de corrlation
III. Rgression linaire simple
1. Rgression linaire simple
2. Estimation par la mthode des moindres carrs
3. Test de la pente de la droite de rgression

Annexes
III.3. Test de la pente de la droite de rgression

population
b
chantillon
b

La droite de rgression dquation Y = + X comporte 2


paramtres ( et ).
Lhypothse nulle est que la pente de la droite de rgression
de Y en X est gale 0 (soit Y est gal , cest--dire que la
droite de rgression est horizontale et quil ny a pas de liaison
entre X et Y).

H0 : = 0 (droite de rgression horizontale : Y = )


H1: 0
III.3. Test de la pente de la droite de rgression

Sous lhypothse nulle (H0) :


Le rapport de lestimateur de la pente b sur son cart-type
suit une loi de Student (n-2) degrs de libert.
n est leffectif de lchantillon.

b
t (n-2)ddl
sb
s 2y b 2
2
sx
Lestimateur de lcart-type de la pente est gal : sb
n
2
III.3. Test de la pente de la droite de rgression

Le test de la pente consiste calculer la grandeur to et la


comparer la valeur seuil t sur la table de la loi de Student
(n-2) degrs de liberts b
to
s 2y b 2
s 2x
n2

Conditions dapplication
indpendance des observations
liaison linaire entre X et Y
distribution conditionnelle normale et de variance constante
Corrlation et rgression

Corrlation Rgression

Variables Quantitatives Quantitatives


symtriques/asymtriques
asymtriques
Test Coefficient de corrlation Pente de la droite de
-1 r 1 rgression

Prdiction non oui

Conditions Indpendance des observations


Liaison linaire
Distribution conditionnelle normale et de variance
constante
Annexe : variance et covariance

Variance
var(X) = E(X) [E(X)]

2
1 1
varx x x 2

n n

2
n

n
xi
x i
2
i 1
n

varx i1

n
Annexe : variance et covariance

Covariance
cov(X,Y) = E(XY) [E(X) x E(Y)]

1
covx, y 1 1
n xy
n
x n y


n
n

n
x y i i
x y i i 1
n i 1
covX, Y i i1

n
Mentions lgales
L'ensemble de cette uvre relve des lgislations franaise et internationale sur le droit d'auteur
et la proprit intellectuelle, littraire et artistique ou toute autre loi applicable.
Tous les droits de reproduction, adaptation, transformation, transcription ou traduction de tout ou
partie sont rservs pour les textes ainsi que pour l'ensemble des documents iconographiques,
photographiques, vidos et sonores.
Cette uvre est interdite la vente ou la location. Sa diffusion, duplication, mise disposition du
public (sous quelque forme ou support que ce soit), mise en rseau, partielles ou totales, sont
strictement rserves luniversit Joseph Fourier (UJF) Grenoble 1 et ses affilis.
Lutilisation de ce document est strictement rserve lusage priv des tudiants inscrits
lUniversit Joseph Fourier (UJF) Grenoble 1, et non destine une utilisation collective, gratuite
ou payante.

Ce document a t ralis par la Cellule TICE de la Facult de Mdecine de Grenoble (Universit Joseph Fourier Grenoble 1)
en collaboration avec lEquipe Audiovisuel et Production Multimdia (EAEPM) de lUniversit Stendhal de Grenoble.