Vous êtes sur la page 1sur 24

21/12/2023

Régression linéaire
Objectifs
Comprendre :
• A utiliser l’analyse de régression pour prévoir la valeur
d’une variable dépendante en fonction de celle d’une
variable indépendante
• A analyser les coefficients de la régression
•A évaluer les hypothèses de l’analyse de régression et
savoir quoi faire si elles sont violées
•A estimer une pente et le coefficient de corrélation
• A estimer des valeurs moyennes et prévoir des valeurs
individuelles

Régression linéaire
Corrélation - régression

 On utilise un nuage de points pour illustrer la relation


existant entre deux variables quantitatives

 L’analyse de corrélation sert à mesurer la force de


l’association (relation linéaire) entre deux variables:

• La corrélation concerne uniquement la force de la


relation
• Aucune causalité n’est induite par la corrélation

1
21/12/2023

Régression linéaire
Analyse de Régression

L’analyse de Régression est utilisée pour :


 Prédire la valeur de la variable dépendante en fonction de
celle, au moins, d’une variable indépendante

 Expliquer l’impact des variations d’une variable


indépendante sur la variable dépendante

Variable dépendante : la variable à expliquer


Variable indépendante : la variable explicative

• Régression linéaire

Méthode et but
• 2 variables numériques (quantitatives)
• Identifier la nature des variables : indépendante x et dépendante y.
• Décrire la relation entre les variables
 graphiquement
 en utilisant une équation
• Utiliser l’équation pour prévoir une valeur yi à partir d’une valeur xi.
• Etablir le degré de fiabilité de l’estimation (relation probabiliste seulement)

La relation entre deux variables peut être :


• déterministe (Ceci ne nous concerne pas ici)
• probabiliste (C’est ce dont on va parler)

4
Signaux aléatoires: régression linéaire

2
21/12/2023

• Régression linéaire

Relation déterministe: La valeur de la variable y peut être précisement


prédite à partir de la valeur de la variable x.

Exemples:
 Prix d’une maison et taxe due.
 Vitesse d’un corps en chute libre et temps.

V=V0+gt
V

V0 t

5
Signaux aléatoires: régression linéaire

Régression linéaire
Relation probabiliste: La valeur d’une variable y ne peut pas être
précisement prédite à partir de la valeur de la variable x - à cause d’autres
facteurs.

Exemples:
1. Consommation en eau et une population
x = nombre d’habitants
y = eau consommée
2. Nombre d’heures passées à réviser un examen et la note obtenue.
x = heures passées à réviser
y = note obtenue

Regression possible avec une relation probabiliste.

6
Signaux aléatoires: régression linéaire

3
21/12/2023

Régression linéaire
a) Approche géométrique
Le coefficient de corrélation r est une mesure du degré de corrélation linéaire. En
pratique on essaye d’obtenir une estimation (r) à partir d’un échantillon représentatif de
la population.
Approche géométrique:

x Q1 Q2 Q3 Q4
y (xi  x) + - - +

Q2 Q1 ( yi  y) + + - -

(xi  x)(yi  y) + - + -

Q3
Q4

7
Signaux aléatoires: régression linéaire

Régression linéaire
a) Approche géométrique
n

 x  x  y
i 1
i i  y est un paramètre intéressant

Évidemment cette somme dépend de n.

 ( x  x )( y
i i  y)
Cov( x, y )  i 1
aussi appelée C xy
n
Cov(x,y) est la covariance. Elle est utilisée dans de nombreuses
méthodes multivariées.

Il y a encore un problème… La covariance


dépend fortement des unités de x et de y.
Alors que faire...?

8
Signaux aléatoires: régression linéaire

4
21/12/2023

Régression linéaire
b) Coefficient de corrélation de Bravais-Pearson
Pour éviter ce problème on va diviser la covariance par l’écart type
de x et l’écart type de y. Attention : les données doivent être normalement distribuée.

C Coefficient de
Cov( x, y )
r  xy corrélation de
sx s y  x y Bravais-Pearson

 x  x  y
i i  y
r i 1

 x  x    y
i
2
i  y
2

Un exemple...

9
Signaux aléatoires: régression linéaire

Régression linéaire
b) Coefficient de corrélation de Bravais-Pearson

Numéro de Masse mi Long. li  xi  x xi  x2  yi  y  yi  y2 (xi  x)(yi  y)


l'essai i xi yi

1 2 42.0 -4.0 16.0 -9.3 86.9 37.28


2 4 48.4 -2.0 4.0 -2.9 8.5 5.84
3 6 51.3 0.0 0.0 0.0 0.0 0
4 8 56.3 2.0 4.0 5.0 24.8 9.96
5 10 58.6 4.0 16.0 7.3 53.0 29.12

n=5 X 6 Y  51.32  0.0  40  0.0  173.2  82.2

 x i  x  y i  y 
82 , 2
r i 1
  0 ,987
 x  x  y  y 173 , 2  40
2 2
i i

10
Signaux aléatoires: régression linéaire

5
21/12/2023

Régression linéaire
c) Exemple de coefficient de corrélation de Bravais-Pearson

Balance à ressort

65.0

60.0

55.0
Longueur (cm)

50.0

45.0 r = 0,987
40.0

35.0

30.0
0 2 4 6 8 10 12
Masse (kg)

11
Signaux aléatoires: régression linéaire

Régression linéaire
d) Inégalité de Schwarz
Allons un peu plus loin...

C xy   x y Inégalité de Schwarz:

Donc... r  1 ou  1  r  1

r = -1

r=1 r = 0.7 r0

Liaisons absolues Liaison Pas de liaison


(déterministe) stochastique
(probabiliste)
12
Signaux aléatoires: régression linéaire

6
21/12/2023

Régression linéaire
e) Non linéarité et coefficient de corrélation

Attention, ce coefficient de corrélation doit être manié avec


grande précaution

r=0

r = 0.93

• r donne le degré de liaison linéaire.


• Dépendance curvilinéaire forte et r faible dans le 2eme cas.
• Le diagramme xy doit donc toujours être examiné en même temps que la valeur de
r.

13
Signaux aléatoires: régression linéaire

Régression linéaire
f) Coefficient de corrélation et points isolés

Le coefficient de corrélation peut produire de hautes valeurs si des points isolés sont présents.

r = -0.13 r = 0.19

r = 0.53 r = 0.92

14
Signaux aléatoires: régression linéaire

7
21/12/2023

Régression linéaire
Quoiqu’il en soit gare aux corrélations entre rapports de
variables!

Quand la même variable apparaît dans chacun des


rapports…

Quand son coefficient de variation est important face aux


autres variables…

Quand les données sont loin d’être normalement


distribuées… A B C A/C B/C
12 50 2 6 25
10 49 6 1,67 8,2
9 46 3 3 15
7 65 20 0,35 3,3
5 37 54 0,09 0,7
11 69 3 3,67 23
9 58 5 1,8 12
8 48 28 0,29 1,7
9 37 55 0,16 0,7
10 51 32 0,31 1,6
12 43 40 0,3 1,1
13 43 2 6,5 22
6 56 17 0,35 3,3
7 76 8 0,88 9,5
8 48 12 0,67 4
13 67 54 0,24 1,2
Moyenne 9,31 52,7 21
ET 2,44 11,5 20
CV 26,2 21,9 94
15
Signaux aléatoires: régression linéaire

Régression linéaire

Au fait, à partir de quelle valeur de r peut-on considérer


qu’on a vraisemblablement une corrélation??

0.9 ?
0.6 ?
0.4 ?

16
Signaux aléatoires: régression linéaire

8
21/12/2023

Régression linéaire

Tests d’hypothèses

Population normale conjointe, hypothèse concernant la valeur de r

H 0 : r  0 contre H1 : r  0
Calcul de :
r n2
tc 
1 r2

On rejette H 0 si tc  t / 2,n 2  ou si tc  t / 2,n 2 

Remarque: un coefficient de corrélation r = 0.4 peut être significatif


si n = 100 mais pas si n = 10.

17
Signaux aléatoires: régression linéaire

Régression linéaire

Exemple:
Les données Pb(ppm) vs. Zn (ppm) mesurées dans les sols d’une région
(n=44) permettent de calculer un coefficient de corrélation r = 0,765.
Y-a-t ’il une corrélation significative entre Pb et Zn?

H 0 : r  0 contre H 1 : r  0
Test :
r n2 0.765  44  2
tc    7.7
1 r 2
1  0.7652
Pour   0.05, t critique  2
tc calculé  t critique, donc H 0 est rejeté
Conclusion : Il y a une corrélation significative entre Pb et Zn

18
Signaux aléatoires: régression linéaire

9
21/12/2023

Régression linéaire
Comparaison de deux coefficients de corrélation expérimentaux:
Deux valeurs de r obtenues sur deux différents groupes sont-elles
différentes?

H 0 : r1  r 2 Z est la transformée de r par


transformation de Fisher
H1 : r1  r 2
1 1 r
Quand n1 & n2 sont assez grands (>20): Z ln( )
2 1 r
Z1  Z 2
On calcule Z d  Zd est censé suivre une loi
1 1 normale N(0,1)

n1  3 n2  3
Si –Z<Zd < Z on accepte H0

19
Signaux aléatoires: régression linéaire

Régression linéaire

Attention: ces tests sont valides seulement si les


données sont prises sans biais dans une population
normalement distribuée.

20
Signaux aléatoires: régression linéaire

10
21/12/2023

Régression linéaire
2. Analyse de regression
Méthode de calcul de la régression linéaire

yi  axi  b   i
Une technique statistique pour analyser les relations qui existent parmi
les variables.

Modèle de régression linéaire simple.

Equation linéaire décrivant la relation entre une simple


variable independante x et une variable dépendante y

21
Signaux aléatoires: régression linéaire

Régression linéaire
2. Analyse de regression

Estimer l’équation linéaire qui décrit le mieux la relation entre une variable
dépendante (y) et une variable indépendante (x).
Exemple
 Un échantillon aléatoire de 15 appartements vendus à Casa.
 Variables (pour chaque appartement):
 prix de vente (kDhs) et taille (m2).

Taille (m2) Prix(kDhs)


20,0 225,2
70,4 725,9
20,5 296,0
etc etc

22
Signaux aléatoires: régression linéaire

11
21/12/2023

Régression linéaire
2. Analyse de regression
• La relation linéaire apparaît positive mais elle n’est pas parfaite (non déterministe). Il y a
un élément du au hasard.
• Modèle probabiliste, avec un terme d’erreur aléatoire qui va compter pour toutes les
variables qui ne sont pas dans le modèle. (emplacement, présence de jardins...)

160

120
Prix (keuros)

80

40

Taille m2
0
0 50 100 150 200 250 300

23
Signaux aléatoires: régression linéaire

Régression linéaire
2. Analyse de regression: relation linéaire
• La droite qui s’ajuste le mieux aux données (best fit) est trouvée par la
méthode aux moindres carrés. La méthode minimise la somme des carrés
des distances verticales | entre les points et la droite.

yi
ŷi

Droite de régression de y en x

24
Signaux aléatoires: régression linéaire

12
21/12/2023

Régression linéaire
2. Analyse de regression: relation linéaire

yi  axi  b   i
yi : variable dépendante
xi : variable independante
Ce sont des paramètres qui
b : intercept s’appliquent à l’équation
a : pente s’ajustant le mieux
à la population (x,y).
 i : erreur aléatoire

a et b sont les coefficients de la régression

25
Signaux aléatoires: régression linéaire

Régression linéaire
2. Analyse de regression: relation linéaire
Il faut minimiser i
 i  yi  b  axi
Plusieurs possibilités :
1. min a,b i  i
2. min a,b i  i2
Le critère 2 correspond à la méthode aux moindres carrés.
Si l' on a n observations : (x1,y1 ), (x2 ,y2 ),..., (xn ,yn )
et l' équation suivante liant les yi aux xi : yi  b  axi   i , i  1,...., n
la somme des carrés des écarts à la droite est :
n n
D    i2   ( yi  b  axi ) 2
i 1 i 1

D doit être le plus petit possible... alors...?


26
Signaux aléatoires: régression linéaire

13
21/12/2023

2. Analyse de regression – relation linéaire

... dérivées partielles et on les pose égales à zéro.


n
D   ( yi  b  axi ) 2
i 1

D n
 2 ( yi  b  axi )
b i 1

D n
 2 xi ( yi  b  axi )
a i 1

Les valeurs estimées de a et de b sont données par :


n

 y
i 1
i  b  axi   0
n

 x y
i 1
i i  b  axi   0

ou bien...
27
Signaux aléatoires: régression linéaire

2. Analyse de regression – relation linéaire

n n

 yi  nb  a x i  0
i 1 i 1
n n n

x y
i 1
i i  b xi  a  xi2  0
i 1 i 1

C' est - à - dire...


n n

 yi  nb  a xi
i 1 i 1
n n n

 xi yi  b xi  a  xi2
i 1 i 1 i 1

D' autre part :


x1  ...  xn n
x y1  ...  yn n
y
x  i et y  i
n i 1 n n i 1 n

28
Signaux aléatoires: régression linéaire

14
21/12/2023

2. Analyse de regression – relation linéaire

 x  y 
n
xi yi xi  x  yi  y  sxy
i i

a 
 xi 
2
 xi  x2 sx2
 xi  n
2

b
 yi  a xi  y  ax
n n

La droite de régression passe par ( x; y)

29
Signaux aléatoires: régression linéaire

2. Analyse de regression – relation linéaire


Exemple : ressort subissant un allongement sous l’effet d’un poids

Numéro de l'essai ‘X’ Masse ‘Y’ Longueur mi2 mili


i mi li

1 2 42.0 4.0 84.0


2 4 48.4 16.0 193.6
3 6 51.3 36.0 307.8
4 8 56.3 64.0 450.4
5 10 58.6 100.0 586.0

n=5
m i  30 l i  256,5 m 2
i  220 m l
i i  1622
Balance à ressort

65.0

60.0

 m  l 
m l   
y = 2.055x + 38.99
i i 30  256,5 55.0
1622 
Longueur (cm)

i i
a n  5  2,055
50.0

 m
 m  n
2
900
2 i 220  45.0

i 5 40.0

b
 l  a  m  256,5  2,055  30  38,99
i i
35.0

30.0
n n 5 5 0 2 4 6 8 10 12
Masse (kg)

30
Signaux aléatoires: régression linéaire

15
21/12/2023

2. Analyse de regression – relation linéaire

L’écart type de la pente a, estimé à partir de l’échantillon est noté (a):

 ( y i  ŷ i ) 2 C’est l’ordonnée
estimée à partir du
(a )  n2 modèle linéaire:

 (x i  x)2 yˆ i  axi  b

On peut alors déterminer l’intervalle de confiance de la pente

[a  t (  / 2, n  2)  ( b); a  t (  / 2, n  2)  ( b)]
Si 0 apparaît dans cet intervalle, alors la pente ne peut être considérée comme
significativement différente de 0. On peut conclure qu’il n’existe pas de corrélation
significative entre les deux variables.

31
Signaux aléatoires: régression linéaire

2. Analyse de regression – relation linéaire

Ceci correspond à la procédure habituelle d’un test d’hypothèses:

H0 : a  0
H1 : a  0 Autre méthode pour finalement
tester l’existence d’une corrélation

a
tc 
( a )

Comparaison de t c avec t (  / 2, n  2)
Si t c  t (  / 2, n  2) alors on rejète H 0

32
Signaux aléatoires: régression linéaire

16
21/12/2023

2. Analyse de regression – relation linéaire

3 méthodes possibles pour déterminer l’existence d’une corrélation entre 2 variables:

1. Calcul de r et test sur r

2. Calcul de l’intervalle de confiance de la pente. 0 appartient-il à cet intervalle?

3. Calcul de la pente et de son écart type, test sur la pente.

Heureusement les trois méthodes aboutissent rigoureusement à la même conclusion!!

33
Signaux aléatoires: régression linéaire

2. Analyse de regression – relation linéaire

L' écart type estimé de b, noté (b), est :

( b) 
 x i2   ( yi  ŷi ) 2
n (x i  x )2 n2
On peut alors déterminer l’intervalle de confiance de l’ordonnée à l’origine (cf cours L1)

[ b  t (  / 2, n  2)  ( b); b  t (  / 2, n  2)  ( b)]
La valeur de t c pour le test de student est :

b H0 : b  0
tc 
( b)
H1 : b  0
Test sur la table de Student
34
Signaux aléatoires: régression linéaire

17
21/12/2023

2. Analyse de regression – relation linéaire

On accepte l’hypothèse nulle H0: b=0

yi  axi   i
 i  yi  axi
D    i   ( yi  axi ) 2
2

En dérivant par rapport à a :


D
 2 xi ( yi  axi )
a i

 x (y
i
i i  axi )  0

x y  a  xi  0
2
i i
i i

La valeur de a qui satisfait l' équation est :


x y i i a: pente de la droite,
a i
pas d’ordonnée à l’origine
x
2
i
i

35
Signaux aléatoires: régression linéaire

2. Analyse de regression – relation polynomiale

Y s’exprime comme polynôme d’une seconde variable X

y  a  bx  cx 2  ...  Hx n
Exemple : la hauteur h de chute d' un corps est une fonction quadratique du temps t :
1
h  h0  v0t  gt 2
2
On tire comme précédement :
n n n

y i  na  b xi  c xi2
i 1
n n
i 1
n
i 1
n a , b, c
 xi yi  a xi  b xi2  c xi3
i 1 i 1 i 1 i 1
n n n n

x
i 1
i
2
yi  a  xi2  b xi3  c xi4
i 1 i 1 i 1

Ajustement polynômial par moindres carrés

36
Signaux aléatoires: régression linéaire

18
21/12/2023

2. Analyse de regression – relation polynomiale

Ou sous forme matricielle...

 n  x2  x 3  a    y 
2

  x  x  x  b     xy 
 4  
  x  x  x  c    x 2 y 
2 3

 
et pour un polynôme de degré n...
 n 1
  x0 x
1
... x  a    x 0 y 
    
  x1 x
2
... x
n
 b    x1 y 
     
 ... ... ... ...  ...  ... 
2  n 1  
 x n 1 h    x ( n 1) y 
 x ...  x
n


Même principe pour les sommes de fonctions trigonométriques

y  a sin x  b cos x
37
Signaux aléatoires: régression linéaire

2. Analyse de regression – relation exponentielle

La fonction exponentielle est très courante en sciences

y  ae bx
Par exemple la décroissance d’un élément radioactif...

210
Pb(t )  210Pb0  e  t

Si les constantes a et b sont inconnues, on espère pouvoir les


estimer à partir de x et y. Malheureusement l’approche directe fournit des
équations insolubles.

Alors… comment faire????

38
Signaux aléatoires: régression linéaire

19
21/12/2023

2. Analyse de regression – relation exponentielle

Très facile! On transforme l’équation non linéaire en une équation


linéaire. Linéarisation en prenant le logarithme:

ln y  ln a  bx

ln y devient linéaire en x

Plus simple encore!! On utilise un papier « semi-log » puisque


l’espacement logarithmique des graduations évite le calcul de
lny.

39
Signaux aléatoires: régression linéaire

2. Analyse de regression – Les autres grands modèles

40
Signaux aléatoires: régression linéaire

20
21/12/2023

2. Analyse de regression – Et les résidus…?

Attention
• Les points isolés ont un effet indésirables sur la régression
Leur influence doit être testée en les éliminant et en
répétant la régression.

• La différence en y entre un point et la droite de


régression est connue sous le nom de résidu.
La validité de la régression statistique dépend de la
distribution des résidus:

1. Les résidus doivent être normalement distribués


2. Il ne doit pas y avoir de tendance dans la distribution de
variance le long de x.

41
Signaux aléatoires: régression linéaire

2. Analyse de regression – Et les résidus…?

Bande incurvée: Relation curvilinéaire. Ajouter des termes polynomiaux!

i

42
Signaux aléatoires: régression linéaire

21
21/12/2023

2. Analyse de regression – Et les résidus…?

Le fuseau: La variance des résidus n’est pas indépendante des valeurs de x. Des
corrections doivent être apportées (courbe log.)

i

43
Signaux aléatoires: régression linéaire

2. Analyse de regression – Et les résidus…?

i

Bande oblique: Relation entre les résidus et la variable x. Si x n’est pas


dans le modèle, il faudrait l’introduire, ou erreur importante.

44
Signaux aléatoires: régression linéaire

22
21/12/2023

2. Analyse de regression – Et les résidus…?

i

Bande horizontale: les conditions d’application sont suffisamment respectées

45
Signaux aléatoires: régression linéaire

2. Analyse de regression – Le coefficient de détermination

yi
Variation
y inexpliquée
ŷi Variation
totale
Variation
expliquée

R2 = Variation expliquée / variation totale

46
Signaux aléatoires: régression linéaire

23
21/12/2023

2. Analyse de regression – Le coefficient de détermination

 y  y  y  yˆ i    ( yˆ
2 2
i  i i  y)2

Somme des carrés Somme des carrés Somme des carrés


totale (SCtot) des résidus (SCres) de la régression (SCreg)

Variation totale = variation inexpliquée + variation expliquée

R2 = Variation expliquée / variation totale

R2 est le coefficient de détermination, proportion de la variation


de y qui s’explique par la présence de x.
Plus R2 est grand, plus SCres est petit.

47
Signaux aléatoires: régression linéaire

24

Vous aimerez peut-être aussi