Vous êtes sur la page 1sur 31

Corrlation & Rgression

Regression Plot

Customer

440

390

Y = 182.807 + 0.476288X
R-Squared = 0.695
340

350

400

450

Supplier

Jan-16

Fethi Derbeli

Terminologie
Correlation: La corrlation est une mesure de la force
dassociation entre deux variables quantitatives (ex: pression et
rendement). Et mesure le degr de linarit entre deux variables
supposes compltement indpendantes lune de lautre.
Le coefficient de corrlation, r, est toujours compris entre -1 et
+1.
Regression Equation: Lquation appropri, pas ncessairement
linaire qui permet de prdire les outputs en connaissant linputs
Coefficient de Determination: r2, represente ladquation du
modle de la regression ou la quantit de variation gnre par
lquation de regression.
Quelle est la diffrence entre la correlation et la regression?
Jan-16

Fethi Derbeli

Corrlation

La formule de correlation :

(x x)(y y)
(x x) (y y)
i

Covariance

rxy

1
n -1

( s
i=1

xi x
x

)( ) =
yi y

sy

rx
y

n -1

i=1

(x i x (yi y
s) sy )
x

Minitab Utiliser la procdure Stat>Basic Statistics>Correlation


Jan-16

Fethi Derbeli

Coefficient de Correlation
Forte

Modre

Output

Input

r = 0.646

Weak Negative Correlation

Output

Output

Output

Jan-16

r = 0.196

Moderate Negative Correlation

Strong Negative Correlation

r = - 0.963

Input

Input

r = 0.963

Input

Weak Positive Correlation

Moderate Postive Correlation

Output

Output

Strong Positive Correlation

faible

Input

r = - 0.646
Fethi Derbeli

Input

r = - 0.196

Attention dclarer la causalit


Si nous tablissons une causalit entre Y et x1, cela ne veut pas forcment dire que
la variation de x1 a provoqu la variation de y.
Une troisime variable peut rder dans les parages et faire varier la fois x1 et y.
Exemple extrait de BHH concernant une forte corrlation entre la pression (x1) et le
rendement dun racteur. Une forte corrlation ngative entre la pression et le
rendement a t tablie. Toutefois:
Il existe une impuret (x2) qui nest pas mesure et varie dun lot lautre
Limpuret provoque de lcume, ce qui rduit le rendement
On augmente la pression pour rduire lcume
La pression est une raction lcume et na rien voir avec le rendement.
Y-a-t-il une corrlation entre la hauteur de lherbe et la longueur des cheveux ?
Devons-nous arroser les deux ?

Jan-16

Fethi Derbeli

Exemple Corrlation
Filename: Pizza.mtw
Toujours grapher les data en premier lieu
Graph > Plot

Effectuer la corrlation
Stat > Basic Statistics > Correlation
42
41

Pizza Sales

40
39

Correlations: Income, Pizza Sales

38
37

Pearson correlation of Income and Pizza


Sales = 0.834

36
35
34

P-Value = 0.000

33
32
35

40

45

Income
Jan-16

Fethi Derbeli

Rsum
La corrlation est un outil trs utile dans les
industries de transformation
La corrlation est une mesure de la relation
linaire entre deux variables quantitatives
Attention ne pas toujours assumer la causalit
La corrlation prpare aux techniques de
rgression

Jan-16

Fethi Derbeli

Rgression simple
Tandis que la corrlation nous dit quelle association linaire il y a entre deux
variables, la rgression dfinit plus prcisment cette association.
La rgression rsulte en une quation qui utilise une ou plusieurs variable(s) pour
expliquer la variation dune autre variable.
Exemples de prediction de lquations:
Y = a + bx
Y = a + bx + cx2
Y = a + bx + cx2 + dx3

(Modle linaire)
(quadratique)
(cubique)

Stat>Regression>Regression
peut effectuer une rgression simple ou multiple
peut enregistrer plusieurs calculs

Stat>Regression>Fitted line plot


graphique de dispersion, courbe ajuste, quation et R au carr

Stat>Regression>Residuals plots
ncessite que les valeurs rsiduelles soient enregistres partir dun
graphique de rgression ou dune courbe ajuste.
vrifie des suppositions implicites
sur les donnes
Fethi Derbeli
Jan-16

Exemples de Modle

Quadratique

Cubique

Y = b0 + b1x + b2x2

Y = b0 + b1x + b2x2 + b3x3

Jan-16

Fethi Derbeli

Cofficient de Determination R
La valeur R-carre est simplement le carre du
coefficient de correlation. Cest aussi la fraction de la
variation des variables de sortie (response) et la variable
gnr par lquation.
Quel est la valeur adquate? a dpend. un chemiste peut
exiger un R2 de 0.99. Aussi , le fait davoir 65% de
variation pour dautre produit peut tre une bonne
valeur. a dpend de lindustrie.

Jan-16

Fethi Derbeli

10

Exemple du Pizza
Fn: Pizza.mtw
Step 1: Reprsentation graphique des data
Graph > Plot
Step 2: Effectuer lanalyse de la corrlation
Stat > Basic Statistics > Correlation
Step 3: Gnrer lquation de prdiction
Stat > Regression > Fitted Line Plot
Storage: Residuals, Fits
Options: Display confidence bands, Display prediction
bands
Step 4: Analyse du modle
Est ce quon a besoin dun modle a haut niveau?
Vrifier la graphe du rsidus
Jan-16

Fethi Derbeli

11

Minitab Menus for Fitted Line Plot

Jan-16

Fethi Derbeli

12

Exemple Pizza
Regression Analysis: Pizza Sales versus Income

The Model

The regression equation is:


Pizza Sales = 18.2807 + 0.476288 Income
S = 1.35571
R-Sq = 69.5 %
R-Sq(adj) = 67.9 %
Analysis of Variance
Source
Regression
Error
Total

DF
1
19
20

SS
MS
79.559 79.5591
34.921 1.8379
114.480

F
43.2871

P
0.000

Quel est la diffrence entre r2 et r2 ajuste?


Que rvle le tableau ANOVA ?
Jan-16

Fethi Derbeli

13

Exemple Pizza
Regression Plot
Pizza Sales = 18.2807 + 0.476288 Income
S = 1.35571
R-Sq = 69.5 %
R-Sq(adj) = 67.9 %
44

quation de prdiction
avec la ligne de formet. Est
ce que R-Sq and R-Sq(adj)
sont trs diffrentes?

42

Pizza Sales

40

Toutr valeur individuelle de


la population, est entre les
lignes bleu de prdiction
bandes de confiance 95% .

38

36

34

Regression
95% CI

32

95% PI

30
35

40

45

Income

Jan-16

Fethi Derbeli

La moyenne de tout
echantillon de la
population entre la ligne
rouge bande de confiance
95.

14

Analyse des Rsidus


Step 4: Analyse du modle
Le niveau du modle
Vrifier la graphe des rsidus.
Stat > Regression > Residual Plots

Courbe? Rsidus?

Jan-16

Fethi Derbeli

15

Analyse Rsiduelle Graphical Output


Residual Model Diagnostics
Normal Plot of Residuals

I Chart of Residuals

Residual

Residual

0
-1

UCL=5.052

Mean=-1.0E-14

-2
-5

-3
-2

-1

10

20

Normal Score

Observation Number

Histogram of Residuals

Residuals vs. Fits

Residual

Frequency

LCL=-5.052

1
0
-1
-2

-3
-2.5-2.0-1.5-1.0-0.5-0.00.5 1.0 1.5 2.0 2.5

34

Residual

35

36

37

38

39

40

41

Fit

Regression Equation: Pizza Sales = 18.3 + 0.476 Income

Class Exercise: Using the regression equation and your data, calculate the
residual by hand for the first data point.
Jan-16

Fethi Derbeli

16

A vrifier
I Chart: Ya t-il
une tendance ou
des outliers?

Residual Model Diagnostics


Normal Plot of Residuals
2
1

Residual

Residual

Nrmalit des
residus?

I Chart of Residuals

0
-1

UCL=5.052

Mean=-1.0E-14

-2
-5

-3
-2

-1

20

Observation Number

Histogram of Residuals

Residuals vs. Fits

La prsentation doit
tre alatoire

Residual

Frequency

10

Normal Score

Histogram
Forme du courbe
(cloche)?

LCL=-5.052

Le graphe prsente
comment le rsidus se
comporte le long de
lexperience.

Le graphe reprsente la
position des valeurs
relles par rapport aux
valeurs de lquation

0
-1
-2

-3
-2.5-2.0-1.5-1.0-0.5-0.00.5 1.0 1.5 2.0 2.5

34

35

Residual

36

37

38

39

40

41

Fit

Dispersionn alatoire et
pas de tendance?

Jan-16

Fethi Derbeli

17

Variables d'entre multiples


u
u
u

Pour dcrire la variation de la rponse, nous sommes parfois intresss


non plus par une seule mais par plusieurs variables d'entre.
La droite d'ajustement ne permet de considrer qu'une seule variable.
Maintenant, nous ne devons plus seulement considrer la valeur
R-carr :

u
u

R-carr(ajust) permet de prendre en compte le nombre d'entres que nous avons


inclues afin de pouvoir prdire la rponse avec prcision.
Il ajuste en raison de la complexit.

Pour slectionner les entres optimisant R-carr et R-carr(ajust),


utilisez Stat > Rgression >Best subset (Meilleurs sous-ensembles).
Une fois que les meilleures entres sont dtermines, utilisez la
procdure suivante pour inclure plus d'une variable dans le modle :

Stat > Rgression > Rgression


Nom du fichier : Skid.mtw (la sortie est la distance de rupture)

Jan-16

Fethi Derbeli

18

Rgression - Meilleurs sous-ensembles


FN: Skid.mtw

Stat > Regression > Best Subset


Prdicteurs (variables indpendantes) : Minitab slectionnera les
variables utiliser en incluant ou liminant toutes les variables dans
cette bote.
Prdicteurs dans tous les modles : Les variables spcifies ici ne
seront pas supprimes d'aucun des modles.

Jan-16

Fethi Derbeli

19

Best Subsets - Output


Best Subsets Regression: Brkleng versus Speed, Tirecond, ...
Response is Brkleng

Vars

R-Sq

R-Sq(adj)

C-p

1
1
2
2
3
3
4

71.5
20.3
80.8
75.5
86.8
86.3
95.6

70.4
17.5
79.3
73.7
85.3
84.7
94.9

134.8
422.8
84.4
113.9
52.4
55.4
5.0

3.0752
5.1376
2.5713
2.9003
2.1706
2.2148
1.2833

Jan-16

Fethi Derbeli

S
p
e
e
d

T
i
r
e
c
o
n
d

R
e
a
c
t
i
m
e

S
t
r
t
c
o
n
d

Comparer le
modle 01
variable avec le
modle 04
variables.

X
X
X
X
X X
X X X
X
X X
X X X X

20

Best Subsets Model Comparison

Stat > Regression > Regression


1.
2.

Response: Brkleng; Predictors: Speed


Response: Brkleng, Predictors: Speed, Tirecond, Reactime, Strtcond

The regression equation is


Brkleng = - 19.8 + 0.995 Speed
Predictor
Constant
Speed
S = 3.075

Coef
-19.798
0.9954

SE Coef
5.994
0.1189

R-Sq = 71.5%

T
-3.30
8.37

P
0.003
0.000

One Variable

R-Sq(adj) = 70.4%

The regression equation is


Brkleng = 4.60 + 0.696 Speed - 2.75 Tirecond + 4.91 Reactime - 1.14 Strtcond
Predictor
Constant
Speed
Tirecond
Reactime
Strtcond
S = 1.283

Jan-16

Coef
4.601
0.69629
-2.7492
4.9066
-1.1398

SE Coef
3.691
0.05702
0.3796
0.5200
0.1622

R-Sq = 95.6%

T
1.25
12.21
-7.24
9.43
-7.03

P
0.224
0.000
0.000
0.000
0.000

Four Variables

R-Sq(adj) = 94.9%

Fethi Derbeli

21

Rsum

Jan-16

La corrlation est un outil trs utile pour les industries de


transformation.
La corrlation est la mesure de la relation entre deux
variables quantitatives.
Soyez prudent lorsque vous prsumez une causalit.
L'analyse de la rgression recherche une relation entre les
variables sous la forme d'une quation de prdiction qui
peut tre ou non linaire.
Dans la rgression, l'quation peut tre soit la rponse
souhaite soit le moyen de prdiction dsir.

Fethi Derbeli

22

Tolrancement raliste

Jan-16

Fethi Derbeli

23

Tolrancement raliste
Une mthode graphique simple pour tablir les
niveaux optimum et les tolrances appropries des
ENTRES.
Ds que l'on a dtermin qu'une sortie continue
dpend linairement d'une entre continue, la
spcification des sorties est utilise pour crer la
spcification des entres.
Les nuages de points et les droites d'ajustement
dmontrent la relation entre les entres et les
sorties, mais pas ncessairement les causes et
effets.
Jan-16

Fethi Derbeli

24

Tolrancement raliste - la mthode


tape 1 : Identifiez une variable de rponse intressante et notez ses spcifications.
Choisissez une variable d'entre.
tape 2 : Slectionnez la variable d'entre intressante. Dfinissez une tendue de
valeurs pour la variable d'entre qui pourrait optimiser la variable de rponse.
tape 3 : Lancez 30 chantillons suprieurs l'tendue de la variable d'entre et
enregistrez les valeurs de sortie.
tape 4 : Reportez les rsultats dans un diagramme avec la variable d'entre sur l'axe
x et la sortie sur l'axe y.
u Si le diagramme a une pente avec un lger nuage de points vertical, il
existe une relation. Passez l'tape 5.
u S'il n'y a pas de pente, il n'existe aucune relation entre la variable d'entre
et la variable de rponse.
.

Jan-16

Fethi Derbeli

25

Tolrancement raliste - la mthode


tape 5 : Dterminez la valeur cible et la tolrance de la variable d'entre.
u Tracez la meilleure droite d'ajustement travers les donnes.
u liminez les points de donnes les plus loigns de la meilleure droite
d'ajustement.
u Dessinez une droite parallle passant par les points les plus loigns suivants.
u Tracez une seconde droite parallle quidistante la meilleure droite d'ajustement
sur le ct oppos.
La distance verticale entre ces deux droites parallles reprsente 95 % de l'effet
total de tous les autres facteurs sur la sortie autres que la variable d'entre tudie
ici.
u S'il existe une spcification de la variable de rponse, tracez les droites de ces
valeurs sur l'axe y pour qu'elles croisent les droites de confiance suprieure et
infrieure.
u Faites descendre deux droites vers l'axe x partir de ces points d'intersection. La
distance entre les points o ces deux droites croisent l'axe x reprsente la tolrance
maximum admissible pour la variable d'entre.
tape 6 : Comparez ces valeurs avec les niveaux de fonctionnement existants et implmentez
les modifications ncessaires de la procdure standard d'exploitation. Documentez ces
modifications avec la FMEA et le plan de contrle.
Jan-16

Fethi Derbeli

26

Exemple - Tolrancement raliste


tape 1 : Slectionnez la variable de rponse et sa valeur
cible. Ici, la rponse est Sortie et sa spcification est
30.5 +/- 1.0.
Dfinissez une tendue de variable d'entre qui pourrait
optimiser la variable de rponse. Nous avons appris des
tudes prcdentes que, pour l'entre 1, l'tendue optimale se
situe entre 40 et 50. De plus, une nouvelle variable d'entre
intressante (entre n2) a t identifie (tendue intressante
qui pourrait optimiser la rponse = 45 60).

31

Output

tape 2 : Slectionnez une variable d'entre intressante.

30

29
40

l'entre et la sortie observe.

34

tape 4 : Reportez les rsultats dans un diagramme avec la

33

Fethi Derbeli

Output

35

Jan-16

45

50

Input

tape 3 : Lancez 30 chantillons et mesurez le niveau de

variable d'entre sur l'axe x et la sortie sur l'axe y. Si le


diagramme a une pente avec un lger nuage de points
vertical, il existe une relation. Passez l'tape 5. S'il n'y a pas
de pente, il n'existe aucune relation entre la variable d'entre
et la variable de rponse. Minitab : Stat > Rgression > Droite
d'ajustement

Entre n1

32

Entre n2

32
31
30
29
28
27
45

50

55

60

Input
27

Exemple - Tolrancement raliste


tape 5 :
a) Tracez la meilleure droite d'ajustement travers les donnes.
b) liminez les points de donnes les plus loigns de la meilleure droite d'ajustement.
c) Dessinez une droite parallle passant par les prochains points les plus loigns de la
meilleure droite d'ajustement.
d) Tracez une seconde droite parallle quidistante la meilleure droite d'ajustement de l'autre
ct. La distance verticale entre ces deux droites parallles reprsente 95 % de l'effet total de
tous les autres facteurs sur la sortie autres que la variable d'entre tudie ici.
32

95 % de l'effet total
des facteurs autres que
cette variable d'entre

Output

31

30

29
40

45

50

Input
Jan-16

Fethi Derbeli

28

Exemple - Tolrancement raliste


tape 5 (suite) :

32

31

Output

e) S'il existe des spcifications


pour la variable de rponse, tracez
les droites de ces valeurs sur l'axe
y pour qu'elles croisent les droites
de confiance suprieure et
infrieure.

30

29
40

f) Faites descendre deux droites


vers l'axe x partir de ces points
d'intersection. La distance entre
les points o ces droites croisent
l'axe x reprsente la tolrance
maximum admissible de la
variable d'entre.
Jan-16

45

50

Input

Tolrance de la variable d'entre


Inf. = 45
Fethi Derbeli

et Sup. = 48.5
29

Exemple - Tolrancement raliste


Analyse Minitab :
Stat > Regression > Fitted Line Plot
Options : Prediction Bands
Regression Plot
32

Output

31

Y = 18.4182 + 0.256929X

30

R-Sq = 0.933
29

Regression
95% PI
28
40

45

50

Input

tape 6 : Comparez ces valeurs avec les niveaux de fonctionnement existants et


implmentez les modifications ncessaires de la procdure standard d'exploitation.
Documentez les modifications par la FMEA et le plan de contrle.
Jan-16

Fethi Derbeli

30

Questions?

Jan-16

Fethi Derbeli

31