Académique Documents
Professionnel Documents
Culture Documents
Régression linéaire
Objectifs
Comprendre :
• A utiliser l’analyse de régression pour prévoir la valeur
d’une variable dépendante en fonction de celle d’une
variable indépendante
• A analyser les coefficients de la régression
•A évaluer les hypothèses de l’analyse de régression et
savoir quoi faire si elles sont violées
•A estimer une pente et le coefficient de corrélation
• A estimer des valeurs moyennes et prévoir des valeurs
individuelles
Régression linéaire
Corrélation - régression
1
21/12/2023
Régression linéaire
Analyse de Régression
• Régression linéaire
Méthode et but
• 2 variables numériques (quantitatives)
• Identifier la nature des variables : indépendante x et dépendante y.
• Décrire la relation entre les variables
graphiquement
en utilisant une équation
• Utiliser l’équation pour prévoir une valeur yi à partir d’une valeur xi.
• Etablir le degré de fiabilité de l’estimation (relation probabiliste seulement)
4
Signaux aléatoires: régression linéaire
2
21/12/2023
• Régression linéaire
Exemples:
Prix d’une maison et taxe due.
Vitesse d’un corps en chute libre et temps.
V=V0+gt
V
V0 t
5
Signaux aléatoires: régression linéaire
Régression linéaire
Relation probabiliste: La valeur d’une variable y ne peut pas être
précisement prédite à partir de la valeur de la variable x - à cause d’autres
facteurs.
Exemples:
1. Consommation en eau et une population
x = nombre d’habitants
y = eau consommée
2. Nombre d’heures passées à réviser un examen et la note obtenue.
x = heures passées à réviser
y = note obtenue
6
Signaux aléatoires: régression linéaire
3
21/12/2023
Régression linéaire
a) Approche géométrique
Le coefficient de corrélation r est une mesure du degré de corrélation linéaire. En
pratique on essaye d’obtenir une estimation (r) à partir d’un échantillon représentatif de
la population.
Approche géométrique:
x Q1 Q2 Q3 Q4
y (xi x) + - - +
Q2 Q1 ( yi y) + + - -
(xi x)(yi y) + - + -
Q3
Q4
7
Signaux aléatoires: régression linéaire
Régression linéaire
a) Approche géométrique
n
x x y
i 1
i i y est un paramètre intéressant
( x x )( y
i i y)
Cov( x, y ) i 1
aussi appelée C xy
n
Cov(x,y) est la covariance. Elle est utilisée dans de nombreuses
méthodes multivariées.
8
Signaux aléatoires: régression linéaire
4
21/12/2023
Régression linéaire
b) Coefficient de corrélation de Bravais-Pearson
Pour éviter ce problème on va diviser la covariance par l’écart type
de x et l’écart type de y. Attention : les données doivent être normalement distribuée.
C Coefficient de
Cov( x, y )
r xy corrélation de
sx s y x y Bravais-Pearson
x x y
i i y
r i 1
x x y
i
2
i y
2
Un exemple...
9
Signaux aléatoires: régression linéaire
Régression linéaire
b) Coefficient de corrélation de Bravais-Pearson
x i x y i y
82 , 2
r i 1
0 ,987
x x y y 173 , 2 40
2 2
i i
10
Signaux aléatoires: régression linéaire
5
21/12/2023
Régression linéaire
c) Exemple de coefficient de corrélation de Bravais-Pearson
Balance à ressort
65.0
60.0
55.0
Longueur (cm)
50.0
45.0 r = 0,987
40.0
35.0
30.0
0 2 4 6 8 10 12
Masse (kg)
11
Signaux aléatoires: régression linéaire
Régression linéaire
d) Inégalité de Schwarz
Allons un peu plus loin...
C xy x y Inégalité de Schwarz:
Donc... r 1 ou 1 r 1
r = -1
6
21/12/2023
Régression linéaire
e) Non linéarité et coefficient de corrélation
r=0
r = 0.93
13
Signaux aléatoires: régression linéaire
Régression linéaire
f) Coefficient de corrélation et points isolés
Le coefficient de corrélation peut produire de hautes valeurs si des points isolés sont présents.
r = -0.13 r = 0.19
r = 0.53 r = 0.92
14
Signaux aléatoires: régression linéaire
7
21/12/2023
Régression linéaire
Quoiqu’il en soit gare aux corrélations entre rapports de
variables!
Régression linéaire
0.9 ?
0.6 ?
0.4 ?
16
Signaux aléatoires: régression linéaire
8
21/12/2023
Régression linéaire
Tests d’hypothèses
H 0 : r 0 contre H1 : r 0
Calcul de :
r n2
tc
1 r2
17
Signaux aléatoires: régression linéaire
Régression linéaire
Exemple:
Les données Pb(ppm) vs. Zn (ppm) mesurées dans les sols d’une région
(n=44) permettent de calculer un coefficient de corrélation r = 0,765.
Y-a-t ’il une corrélation significative entre Pb et Zn?
H 0 : r 0 contre H 1 : r 0
Test :
r n2 0.765 44 2
tc 7.7
1 r 2
1 0.7652
Pour 0.05, t critique 2
tc calculé t critique, donc H 0 est rejeté
Conclusion : Il y a une corrélation significative entre Pb et Zn
18
Signaux aléatoires: régression linéaire
9
21/12/2023
Régression linéaire
Comparaison de deux coefficients de corrélation expérimentaux:
Deux valeurs de r obtenues sur deux différents groupes sont-elles
différentes?
19
Signaux aléatoires: régression linéaire
Régression linéaire
20
Signaux aléatoires: régression linéaire
10
21/12/2023
Régression linéaire
2. Analyse de regression
Méthode de calcul de la régression linéaire
yi axi b i
Une technique statistique pour analyser les relations qui existent parmi
les variables.
21
Signaux aléatoires: régression linéaire
Régression linéaire
2. Analyse de regression
Estimer l’équation linéaire qui décrit le mieux la relation entre une variable
dépendante (y) et une variable indépendante (x).
Exemple
Un échantillon aléatoire de 15 appartements vendus à Casa.
Variables (pour chaque appartement):
prix de vente (kDhs) et taille (m2).
22
Signaux aléatoires: régression linéaire
11
21/12/2023
Régression linéaire
2. Analyse de regression
• La relation linéaire apparaît positive mais elle n’est pas parfaite (non déterministe). Il y a
un élément du au hasard.
• Modèle probabiliste, avec un terme d’erreur aléatoire qui va compter pour toutes les
variables qui ne sont pas dans le modèle. (emplacement, présence de jardins...)
160
120
Prix (keuros)
80
40
Taille m2
0
0 50 100 150 200 250 300
23
Signaux aléatoires: régression linéaire
Régression linéaire
2. Analyse de regression: relation linéaire
• La droite qui s’ajuste le mieux aux données (best fit) est trouvée par la
méthode aux moindres carrés. La méthode minimise la somme des carrés
des distances verticales | entre les points et la droite.
yi
ŷi
Droite de régression de y en x
24
Signaux aléatoires: régression linéaire
12
21/12/2023
Régression linéaire
2. Analyse de regression: relation linéaire
yi axi b i
yi : variable dépendante
xi : variable independante
Ce sont des paramètres qui
b : intercept s’appliquent à l’équation
a : pente s’ajustant le mieux
à la population (x,y).
i : erreur aléatoire
25
Signaux aléatoires: régression linéaire
Régression linéaire
2. Analyse de regression: relation linéaire
Il faut minimiser i
i yi b axi
Plusieurs possibilités :
1. min a,b i i
2. min a,b i i2
Le critère 2 correspond à la méthode aux moindres carrés.
Si l' on a n observations : (x1,y1 ), (x2 ,y2 ),..., (xn ,yn )
et l' équation suivante liant les yi aux xi : yi b axi i , i 1,...., n
la somme des carrés des écarts à la droite est :
n n
D i2 ( yi b axi ) 2
i 1 i 1
13
21/12/2023
D n
2 ( yi b axi )
b i 1
D n
2 xi ( yi b axi )
a i 1
y
i 1
i b axi 0
n
x y
i 1
i i b axi 0
ou bien...
27
Signaux aléatoires: régression linéaire
n n
yi nb a x i 0
i 1 i 1
n n n
x y
i 1
i i b xi a xi2 0
i 1 i 1
yi nb a xi
i 1 i 1
n n n
xi yi b xi a xi2
i 1 i 1 i 1
28
Signaux aléatoires: régression linéaire
14
21/12/2023
x y
n
xi yi xi x yi y sxy
i i
a
xi
2
xi x2 sx2
xi n
2
b
yi a xi y ax
n n
29
Signaux aléatoires: régression linéaire
n=5
m i 30 l i 256,5 m 2
i 220 m l
i i 1622
Balance à ressort
65.0
60.0
m l
m l
y = 2.055x + 38.99
i i 30 256,5 55.0
1622
Longueur (cm)
i i
a n 5 2,055
50.0
m
m n
2
900
2 i 220 45.0
i 5 40.0
b
l a m 256,5 2,055 30 38,99
i i
35.0
30.0
n n 5 5 0 2 4 6 8 10 12
Masse (kg)
30
Signaux aléatoires: régression linéaire
15
21/12/2023
( y i ŷ i ) 2 C’est l’ordonnée
estimée à partir du
(a ) n2 modèle linéaire:
(x i x)2 yˆ i axi b
[a t ( / 2, n 2) ( b); a t ( / 2, n 2) ( b)]
Si 0 apparaît dans cet intervalle, alors la pente ne peut être considérée comme
significativement différente de 0. On peut conclure qu’il n’existe pas de corrélation
significative entre les deux variables.
31
Signaux aléatoires: régression linéaire
H0 : a 0
H1 : a 0 Autre méthode pour finalement
tester l’existence d’une corrélation
a
tc
( a )
Comparaison de t c avec t ( / 2, n 2)
Si t c t ( / 2, n 2) alors on rejète H 0
32
Signaux aléatoires: régression linéaire
16
21/12/2023
33
Signaux aléatoires: régression linéaire
( b)
x i2 ( yi ŷi ) 2
n (x i x )2 n2
On peut alors déterminer l’intervalle de confiance de l’ordonnée à l’origine (cf cours L1)
[ b t ( / 2, n 2) ( b); b t ( / 2, n 2) ( b)]
La valeur de t c pour le test de student est :
b H0 : b 0
tc
( b)
H1 : b 0
Test sur la table de Student
34
Signaux aléatoires: régression linéaire
17
21/12/2023
yi axi i
i yi axi
D i ( yi axi ) 2
2
x (y
i
i i axi ) 0
x y a xi 0
2
i i
i i
35
Signaux aléatoires: régression linéaire
y a bx cx 2 ... Hx n
Exemple : la hauteur h de chute d' un corps est une fonction quadratique du temps t :
1
h h0 v0t gt 2
2
On tire comme précédement :
n n n
y i na b xi c xi2
i 1
n n
i 1
n
i 1
n a , b, c
xi yi a xi b xi2 c xi3
i 1 i 1 i 1 i 1
n n n n
x
i 1
i
2
yi a xi2 b xi3 c xi4
i 1 i 1 i 1
36
Signaux aléatoires: régression linéaire
18
21/12/2023
n x2 x 3 a y
2
x x x b xy
4
x x x c x 2 y
2 3
et pour un polynôme de degré n...
n 1
x0 x
1
... x a x 0 y
x1 x
2
... x
n
b x1 y
... ... ... ... ... ...
2 n 1
x n 1 h x ( n 1) y
x ... x
n
y a sin x b cos x
37
Signaux aléatoires: régression linéaire
y ae bx
Par exemple la décroissance d’un élément radioactif...
210
Pb(t ) 210Pb0 e t
38
Signaux aléatoires: régression linéaire
19
21/12/2023
ln y ln a bx
ln y devient linéaire en x
39
Signaux aléatoires: régression linéaire
40
Signaux aléatoires: régression linéaire
20
21/12/2023
Attention
• Les points isolés ont un effet indésirables sur la régression
Leur influence doit être testée en les éliminant et en
répétant la régression.
41
Signaux aléatoires: régression linéaire
i
42
Signaux aléatoires: régression linéaire
21
21/12/2023
Le fuseau: La variance des résidus n’est pas indépendante des valeurs de x. Des
corrections doivent être apportées (courbe log.)
i
43
Signaux aléatoires: régression linéaire
i
44
Signaux aléatoires: régression linéaire
22
21/12/2023
i
45
Signaux aléatoires: régression linéaire
yi
Variation
y inexpliquée
ŷi Variation
totale
Variation
expliquée
46
Signaux aléatoires: régression linéaire
23
21/12/2023
y y y yˆ i ( yˆ
2 2
i i i y)2
47
Signaux aléatoires: régression linéaire
24