Vous êtes sur la page 1sur 35

Université Chouaib Doukkali

Faculté des Sciences - El Jadida

Régression linéaire

Pr. Jilali EL HAJRI

Année Universitaire 2020-2021 jelhajri@yahoo.fr


Quelle est la teneur Étalonnage d’un CPG
en éthanol ?

Réponse :
Surface

Chromatographe
Mais à quelle concentration correspond
quelle surface ??? 2

J. EL Hajri - Faculté des sciences d'EL Jadida


Mise en contexte

Dans ce genre de problèmes, les principales questions auxquelles


nous voudrons répondre sont les suivantes :

1. Existe-il une relation ou une dépendance entre les variables ?

2. Cette relation, si elle existe, est-elle linéaire ou non ?


3. Si une dépendance existe, de quelle façon peut-on la traduire par
une équation mathématique ?
4. La relation, si elle existe, est-elle grande ou faible ?
5. Si l’équation mathématique de la relation entre les variables existe,
comment prévoir les valeurs d’une variable à partir de la
connaissance de valeurs de l’autre variable ou des autres variables ?

3
J. EL Hajri - Faculté des sciences d'EL Jadida
Mise en contexte

Pour répondre à toutes ces questions, nous ferons appel à une


théorie statistique que nous appelons

L’analyse de la régression
4

J. EL Hajri - Faculté des sciences d'EL Jadida


Mise en contexte

1. Établir une droite de calibration

S4
S3
C1 C2 C3 C4
S2
S1

C1 C2 C3 C4

2. Utiliser la droite de calibration

Surface

?
C 5

J. EL Hajri - Faculté des sciences d'EL Jadida


Modélisation

Modéliser : utiliser des données expérimentales pour prévoir une


information quantitative inconnue Y à partir de mesures de X via une
certaine « fonction mathématique » :

Le modèle mathématique
postulé peut être :

6
J. EL Hajri - Faculté des sciences d'EL Jadida
Définition

Dans le cas les plus simple il existe une


relation linéaire entre :

la grandeur à quantifier X
et une seule grandeur physique Y
(ici la teneur de l’échantillon en éthanol)
généralement donnée par un appareil .
(ici la surface du pic)

16

14

12

10
SURFACE

0
0.0 0.4 0.8 1.2 1.6 2.0
ETHANOL
7

J. EL Hajri - Faculté des sciences d'EL Jadida


Modèle linéaire

Avec une seule variable X le modèle s ’écrit : Y = b0 + b1 X + e


Y Y5

Y4

Y2
Y3

Y1

X1 X2 X3 X4 X5 X
8

J. EL Hajri - Faculté des sciences d'EL Jadida


Objectif d’une analyse de régression simple

Ces données sont toujours en nombre limité, elles ne représentent


donc qu’un échantillon de la population de toutes les mesures de la
teneur en analyte de l’étalon que l’on pourrait effectuer.

X représente une teneur Y représente le résultat


connue en analyte observé,

la relation linéaire postulée


devient : Y = b0 + b1X

Avec uniquement une « estimation » des


coefficients a et b du modèle postulé.
Y = ß1 X + ß0

J. EL Hajri - Faculté des sciences d'EL Jadida


Les données

Ethanol Surface
g/l cm2 16
1 0,2 2,88
14
2 0,2 1,72
12
3 0,6 4,70 10
4 0,6 5,28

SURFACE
8

5 1,0 10,92 6

6 1,0 7,70 4

7 1,4 12,35 2

8 1,4 11,40 0
0.0 0.4 0.8 1.2 1.6 2.0
9 1,8 13,47 ETHANOL

10 1,8 12,52

10

J. EL Hajri - Faculté des sciences d'EL Jadida


Ajustement linéaire

Avec une seule variable X le modèle s ’écrit : Y = b0 + b1 X +e

Y Y5 d5

Y4 d4

On mesure la somme des


Y2 d2
carrés des écarts di (écarts
d3 appelés "résidus") entre la
Y3 valeur vraie et la valeur
^1
Y estimée ŷn sur la courbe.
d1
Y1

Faire un ajustement c'est minimiser


la "distance" S =  [Yi -f( Xi)]2 = di2

X1 X2 X3 X4 X5 X
11

J. EL Hajri - Faculté des sciences d'EL Jadida


Droite des moindres carrés d’un ajustement

La somme S des carrés des écarts entre les valeurs


expérimentales et les valeurs calculées par le modèle s’écrit :

S = Σ [yi - (b0 + b1xi )]2 est une fonction de b0 et b1.

Pour minimiser S, il suffit d'annuler les dérivées partielles de S par rapport à


b0 et à b1

12

J. EL Hajri - Faculté des sciences d'EL Jadida


Estimation des coefficients

Dans ce système les bi sont les inconnues que nous devons estimer :
(bi est l ’estimation calculée de bi ).

1. Au sens des moindres carrés (résolution algébrique) :

2. Au sens des moindres carrés (résolution matricielle) :

3. Au sens des moindres carrés (avec excel) :


a. Fonction graphique : courbe de tendance
b. Fonctions algébriques (pente, ordonnee.origine)
c. Fonction matricielle : Droitereg

Y = 1,225 + 7.069X 13

j. EL Hajri - Faculté des sciences d'EL Jadida


Analyse de la régression

Les variations observées pour Y sont-elles dues globalement, aux


variations de X ou bien ne sont-elles que du bruit expérimental ?

Quelle confiance peut-on avoir :

d’une part globalement pour la régression,


• Analyse de variance / coefficients
• Examen des résidus
• Manque d’ajustement (Lack of fit)

d’autre part individuellement pour les estimateurs ?


• Simplification du modèle
• Pertinence quadratique (global)

14

J. EL Hajri - Faculté des sciences d'EL Jadida


Analyse globale : analyse de la variance

SCET = SCEL + SCER


Variation totale Variation due à la liaison Variation résiduelle
(yi - y)2
(y^i - y)2 (yi - ^
yi)2

e5
e4
-
Y
e2 e3

e1

15

J. EL Hajri - Faculté des sciences d'EL Jadida


Base de l’analyse de variance

Toute dispersion d’une série de données étant exprimée par


la somme des carrés des écarts à la moyenne, on démontre la
relation suivante sur laquelle est basée l’analyse de variance :

SCET = SCEL + SCER

16

J. EL Hajri - Faculté des sciences d'EL Jadida


Analyse de la variance

Source de Somme des carrées Carrées


ddl
variation des écarts moyens

Régression 2 - 1 = 1 SCEL = 159.895 159.895

Résidus 10 -2 = 8 SCER = 12.632 1.579

Total 8 + 1 =9 SCET = 172.527

17

J. EL Hajri - Faculté des sciences d'EL Jadida


Test de comparaison des variances

Pour savoir si les variances des deux échantillons sont identiques


ou différentes, il faut effectuer un test de comparaison de
variances.

Loi de Fisher

Si deux échantillons de tailles n1 et n2 proviennent de lois normales


de même variance, le rapport F des variances estimées suit une loi de
Fisher avec ν1 = n1 – 1 et ν2 = n2 – 1 qui sont les degrés de liberté
pour chacun des échantillons

18

J. EL Hajri - Faculté des sciences d'EL Jadida


Analyse de la variance

Source de Somme des carrées Carrées


ddl
variation des écarts moyens

Régression 2 - 1 = 1 SCEL = 159.895 159.895

Résidus 10 -2 = 8 SCER = 12.632 1.579

Total 8 + 1 = 9 SCET = 172.527

Valeur
Fcalculé F1,8,0.05
critique de F
101.264 5.318 8.099.10-6

19

J. EL Hajri - Faculté des sciences d'EL Jadida


Coefficient de régression

La mesure de l'efficacité de l'ajustement peut être exprimée par


un coefficient appelé “coefficient de détermination” ou “coefficient
de régression multiple”.
Si le modèle expliquait “idéalement” les résultats expérimentaux,
nous aurions SCET = SCEL

SCET = SCEL + SCER


Pour un modèle parfait : SCER = 0
(il n'y a pas de différence entre valeurs expérimentales et valeurs calculées).

ou sous une autre forme : SCEL/SCET = 1


20

j. EL Hajri - Faculté des sciences d'EL Jadida


Coefficient de détermination R2

R2 = SCEL / SCET SCET = SCEL + SCER

R2 = (SCET – SCER)/ SCET

R2 est la part de la dispersion expliquée par le modèle.

Pour un modèle parfait, R2 = 1 car SCER = 0


(il n'y a pas de différence entre valeurs expérimentales et valeurs
calculées).

21

j. EL Hajri - Faculté des sciences d'EL Jadida


Coefficient de détermination ajusté Ra2

Le rapport R2 n’est pas une garantie de la qualité d’un modèle


(dépendance du nombre d’essais et du modèle choisi)

Exemple :
• Avec deux points, droite; R2 = 1
• Avec trois points , droite; R2 < 1 mais 2ème degré R2 = 1

Pour tenir compte du nombre d'essais, c'est à dire du nombre de


degrés de liberté, il existe un coefficient de régression "ajusté"
symbolisé par R2a et défini par :

j. EL Hajri - Faculté des sciences d'EL Jadida


Coefficient de régression

Source de Somme des


ddl
variation carrées des écarts

Régression 2-1=1 SCEL = 159.895

Résidus 10 -2 = 8 SCER = 12.632

Total 8+1=9 SCET = 172.527

SCER
R2 =1- R2 = 1 - (12.632 / 159.893) = 0.9268
SCET

SCER /(n-p)
R2a = 1- SCE /(n-1) Ra2 = 1–[(12.632/8)/(159.893/9)]= 0.9176
T

23

j. EL Hajri - Faculté des sciences d'EL Jadida


Analyse des résidus

Les résidus devraient suivre une loi normale centrée sur 0.


Un examen visuel permet généralement de déceler un problème de
modèle (homoscédasiticité, courbure, ordre supérieur, etc.).

24

j. EL Hajri - Faculté des sciences d'EL Jadida


Analyse des résidus

Un même X pour 4 réponses Y...

X Y1 Y2 Y3 Y4 Pour chaque échantillon, les résultats


1 7 6.980 1.717 8.836 5.486 de l’ajustement sont identiques :
2 8 11.360 5.340 9.975 6.548
3 9 5.708 8.962 9.897 9.070
4 10 10.089 10.315 11.038 10.131 Y = 0.812 X + 2.232
R² = 0.597 Se = 3.285
5 11 12.155 12.751 12.099 13.715
6 12 16.525 14.374 12.022 10.388
7
8
13
14
15.333
10.873
15.726
17.996
11.945
13.161
11.448
17.298
S(b0) = 2.71 S(b1) = 0.178
9
10
15
16
8.559
15.085
17.080
18.651
13.084
14.146
15.434
20.480
Y = 14 S(Y) = 5
11 17 19.465 17.735 15.286 18.615
12 18 12.691 19.088 13.992 13.507 25

13 19 22.703 15.684 16.425 21.394


14 20 17.071 17.037 15.131 15.417 20

15 21 20.339 16.121 16.251 21.404


15
16 22 19.063 15.422 30.713 13.665
Y 10

0
0 5 10 15 20 25
X

25

j. EL Hajri - Faculté des sciences d'EL Jadida


Analyse des résidus

4 modèles identiques mais 4 jeux de données bien différents ...

Graphes X-Y
30 30 30
30

25 25 25
25

20 20 20
20

Y4
Y1

Y3
Y2
15 15 15 15

10 10 10 10

5 5 5 5

0 0 0 0
4 8 12 16 20 24 4 8 12 16 20 24 4 8 12 16 20 24 4 8 12 16 20 24

X X X X

Graphes des résidus (en désordre...)


12 12 12 12

8 8 8 8

4 4 4 4
Residus

Residus

Residus

Residus
0 0 0 0

-4 -4 -4 -4

-8 -8 -8 -8

-12 -12 -12 -12


4 8 12 16 20 24 4 8 12 16 20 24 4 8 12 16 20 24 4 8 12 16 20 24
X X X X

Une analyse du graphe des résidus peux aider à détecter des problèmes

j. EL Hajri - Faculté des sciences d'EL Jadida


Analyse de la régression

Les variations observées pour Y sont-elles dues globalement, aux


variations de X ou bien ne sont-elles que du bruit expérimental ?

Quelle confiance peut-on avoir : Ŷi = b1Xi + b0

d’une part globalement pour la régression,


• Analyse de variance / coefficients
• Examen des résidus
• Manque d’ajustement (Lack of fit)

d’autre part individuellement pour les estimateurs ?


• Simplification du modèle
• Pertinence quadratique (global)

27

j. EL Hajri - Faculté des sciences d'EL Jadida


Significativité des coefficients

b1 estimation de β1 de moyenne β1 et de variance var(b1)


b0 estimation de β0 de moyenne β0 et de variance var(b0)

Comme la variable Y qui intervient dans ces calculs


est une variable aléatoire de variance σ2exp.

cette dispersion va se répercuter


sur les variances de b0 et b1.

28

j. EL Hajri - Faculté des sciences d'EL Jadida


Estimation de la variance expérimentale

La variance expérimentale peut être obtenue par


1. la répétition des essais ou
2. « estimée » à partir des résidus, selon la relation suivante :

On appelle cette estimation variance de


la régression ou variance résiduelle
29

j. EL Hajri - Faculté des sciences d'EL Jadida


Significativité des coefficients

Calcul de la variance des estimateurs (coefficients)


(en utilisant la variance résiduelle comme estimation de σ2exp. )

var(b1) = S2(b1) = se2 * (1/3,200) = 1,579 * 0.313 = 0,493


var(b0) = S2(b0) = se2 * (1/0,413) = 1,579 * 0,413 = 0,651

Coefficient Ecart-type
b0 1,225 0,807
b1 7.069 0,702
30

j. EL Hajri - Faculté des sciences d'EL Jadida


Quel plan choisir ?

Plan 1 Plan 2

.2 .6 1 1.4 1.8 Ethanol .2 .6 1 1.4 1.8 Ethanol

Plan 3 Plan 4

.2 .6 1 1.4 1.8 Ethanol .2 .6 1 1.4 1.8 Ethanol

Plan 5 Plan 6

.2 .6 1 1.4 1.8 Ethanol .2 .6 1 1.4 1.8 Ethanol


31

j. EL Hajri - Faculté des sciences d'EL Jadida


Significativité des coefficients

Le coefficient bi est distribué selon une distribution de Student de


moyenne bi, d'écart-type S(bi) et (n-2) degrés de liberté.

Moyenne = bi
pour
n = n-2

-tc tc

Intervalle de confiance pour bi : bi  tcrit .S(bi)

32

j. EL Hajri - Faculté des sciences d'EL Jadida


Significativité des coefficients

Intervalles de confiance des bi :

b0 ± tcrit S(b0) b1 ± tcrit S(b1)

Il s’agit ici du tcrit avec ν = 8


Pour le risque choisi (a = 0,05) → tcrit = 2,31)

1.225 ± 2,31*0,807 7.069 ± 2.31*0.702


-0,64<b0<3,09 5,45 <b1< 8,69

Si l’intervalle inclus le zéro, le coefficient n’est pas significatif


(au risque a choisi)
33

j. EL Hajri - Faculté des sciences d'EL Jadida


Significativité des coefficients

D’où le test suivant :la différence bi - βi0


suit une statistique de Student à ν = (n-2)
degrés de liberté avec :

La significativité va être déterminée en prenant βi0 = 0 d’où :

coefficients Écart-type tcalculé P-value


b0 1.225 0.807 1.518 0.17 (NS)
b1 7.069 0.702 10.07  0.001 (***)

34

J. EL Hajri - Faculté des sciences d'EL Jadida


Précision des réponses calculées

Comment diminuer l’incertitude sur la réponses calculée ?

L’incertitude sur la réponse calculée dépend de :


➢ la variance expérimentale
➢ Le modèle postulé
➢ la position des points dans le domaine d’étude
➢ L’ensemble des point qui ont été utilisées pour établir
les coefficients du modèle

35

j. EL Hajri - Faculté des sciences d'EL Jadida

Vous aimerez peut-être aussi