Vous êtes sur la page 1sur 75

Ps-Graduao em Agronomia - CPGA-Solos

Anlise Multivariada Aplicada as Cincias Agrrias

Regresso linear mltipla


Carlos Alberto Alves Varella
Graduao

em Engenharia Agronmica UFRRJ, 1983.


Mestrado em Fitotecnia UFRRJ, 1999.
Doutorado em Engenharia Agrcola UFV, 2004.
Professor Adjunto, UFRRJ-IT-DE.
reas de atuao: Mecanizao agrcola, Agricultura de preciso, Projeto de
mquinas e Estatstica multivariada.

Objetivo da disciplina
Ensinar

modelagem estatstica de
fenmenos naturais aos alunos de psgraduao utilizando tcnicas da
estatstica multivariada.

Ementa da disciplina

Regresso linear mltipla


Regresso linear mltipla para dados repetidos
Validao da predio
Correlao mltipla
Anlise de componentes principais
Anlise discriminante de Fisher
Anlise de varincia multivariada - MANOVA
Anlise de variveis cannicas

Avaliaes
Uma

Prova
Trabalhos semanais
Trabalho final: Cada aluno dever
apresentar um seminrio e um
trabalho escrito sobre aplicaes de
tcnicas da estatstica multivariada em
sua tese.

Recursos computacionais
SAS:

recomendado para anlises


estatsticas multivariadas por Revistas
de nvel internacional.

Local para baixar arquivos da


disciplina pela Internet
http://www.ufrrj.br/institutos/it/deng/varella/

multivariada.htm

Modelos Lineares
(reviso)

Universidade Federal Rural do Rio de Janeiro CPGA-CS

Modelos lineares
Seja Y a

varivel que queremos


predizer a partir de um conjunto de
variveis preditoras X1, X2, ..., Xp.
Ento podemos escrever:

Y f X 1 , X 2 , , X p ,

Y representa

a resposta;
X1,X2,..., Xp so as variveis estudadas;
representa outro conjunto de variveis no
consideradas no estudo;

Requisitos da funo
Deve

prestar-se ao tratamento
matemtico;
Deve ser adequada para o conjunto
de dados em estudo;
Deve ser simples ou pelo menos mais
simples dentre as concorrentes.

Condio para que um modelo seja linear


Um

modelo para as observaes Y ser


linear se:

( Y )

Vamos

estudar o caso em que os erros so


normalmente distribudos, independentes e
homocedsticos.

Y , ~ N ,
Este

modelo definido como Modelo Linear de


Gauss-Markov-Normal.

A superfcie de resposta

a superfcie gerada pelos valores da


varivel de resposta. O modelo linear para
uma nica varivel de resposta Y com p
variveis preditoras :

Yi 0 1 X 1i 2 X 2 i p X pi ei
i 1,2 , , n.
Yi = superfcie de resposta
n = nmero de observaes;
p = nmero de variveis preditoras.
O modelo linear a chave do negcio, isto , tem
inmeras aplicaes na estatstica multivariada.

Conseqncias da estimao

Duas situaes so
encontradas na modelagem
1.

2.

A matriz XX de variveis preditoras


X de posto coluna completo. Neste
caso o modelo chamado de posto
completo ou modelo de regresso.
o modelo que estamos estudando;
A matriz XX de variveis preditoras
X de posto coluna incompleto.
Neste caso o modelo chamado de
posto incompleto o modelo da
ANOVA (ANalysis Of VAriance)

Conseqncias da estimao

Posto ou Rank de matrizes


Nmero

de linhas ou colunas linearmente


independentes de uma matriz.

Em

nosso caso, o posto o nmero de


colunas linearmente independentes da matriz
XX, sendo X a matriz dos valores das
variveis preditoras ou independentes

No

programa computacional MATLAB o


comando rank faz uma estimativa do
posto de matrizes.

Conseqncias da estimao

Condies para que a matriz XX


seja de posto coluna completo
O

posto ou rank da matriz XX deve ser


igual a p+1, ou seja:

posto X ' X p 1
p

o nmero de variveis preditoras


estudas no modelo.

Conseqncias da estimao

Condies para que a matriz


XX tenha inversa (XX)-1
As

matrizes que possuem inversa so


chamadas NO SINGULARES.
Somente matrizes quadradas podem
ser no singulares. Contudo, nem
toda matriz quadrada no singular;

Conseqncias da estimao

Quando uma matriz quadrada


singular?
Seu

determinante nulo; det(XX)


Ao menos uma de suas razes
caractersticas nula. As razes
caractersticas so os autovalores da
matriz; eig(XX)
Seu posto menor que p; rank(XX)
No definida positiva ou negativa.

Conseqncias da estimao

Matriz definida positiva (negativa)


Quando

todos os autovalores so
positivos (negativos).

Regresso Linear Mltipla

Introduo

uma tcnica da estatstica multivariada


utilizada para a predio de valores de
uma ou mais variveis de resposta
(dependentes) a partir de diversas
variveis preditoras ou independentes.
JOHNSON, R. A.; WICHERN, D. W.
Applied multivariate statistical
analysis. 5th ed. Upper Saddle River,
New Jersey: Prentice-Hall, 2002, 767 p.

Introduo (Cont.)
Pode

tambm ser utilizada para estudar o


efeito dos preditores sobre as variveis de
resposta.
Primeiro trabalho sobre o assunto:
Regression Towards Mediocrity in Heredity
Stature. Journal of the Anthropological
Institute, 15 (1885). 246-263.
Mediocridade em funo da estatura
hereditria
Estatstica UNIVARIADA. Segundo
JOHNSON & WICHERN (2002) nesse
artigo o autor no percebeu a importncia
da tcnica para anlises multivariadas.

Modelagem da Regresso
Linear

Pressuposies da modelagem
O

modelo utilizado o de Gauss-Markov-Normal


Pressupe que a resposta apresenta uma mdia.
Pressupe ainda que essa mdia contem erros
provenientes de medies aleatrias e de outras
fontes no explicitadas pelo modelo.
O erro, e conseqentemente a resposta, so
tratados como variveis aleatrias, que o
comportamento caracterizado assumindo-se
uma distribuio NORMAL para os dados
experimentais.

Estimadores dos parmetros pelo


mtodo dos mnimos quadrados
Este

mtodo consiste em se determinar o


estimador que minimiza a soma do
quadrado das diferenas entre valores
observados e valores preditos pelo modelo.

Y X o modelo linear

Queremos determinar o estimador de

Estimadores dos parmetros pelo mtodo dos mnimos quadrados

O erro da modelagem
O

erro do modelo na forma matricial :

Y X

e1
e
2



en

,Y

Y1
Y
2



Yn

1 X 11 X 21 X p 1

0

1

1 X 12 X 22 X p 2

,X
,

1 X 1n X 2 n X pn
p

problema consiste em se ajustar um


modelo de regresso.

Estimadores dos parmetros pelo mtodo dos mnimos quadrados

Modelo de regresso
Yi 0 1 X 1i 2 X 2 i p X pi , i 1,2 , , n.
O

estimador de beta chamado de beta


chapu e pode ser determinado por outros
mtodos de minimizao do erro, como por
exemplo o mtodo da mxima
verossimilhana.
0

1

p

Estimadores dos parmetros pelo mtodo dos mnimos quadrados

O mtodo dos mnimos quadrados


Sabendo

que o erro do modelo :

Y X
Ento

o somatrio ao quadrado das


diferenas dos erros pode ser
representado na forma matricial por:

Z Y X
De

acordo com o mtodo temos que


minimizar Z

Estimadores dos parmetros pelo mtodo dos mnimos quadrados

Minimizao da funo Z
Z Y X

Z Y X Y X
'

Z Y ' ' X ' Y X


Z Y ' Y Y ' X ' X ' Y ' X ' X
As

matrizes YX e XY uma a
transposta da outra e so de dimenso
1x1, ento as matrizes so iguais.

Estimadores dos parmetros pelo mtodo dos mnimos quadrados

Diferenciando a funo Z
Z Y ' Y 2 ' X ' Y ' X ' X
dZ 2 d ' X ' Y d ' X ' X ' X ' X d
As

matrizes (d)XX e XX(d) uma a


transposta da outra e so de dimenso 1x1,
ento as matrizes so iguais.

dZ 2 d ' X ' Y 2 d ' X ' X


dZ 2 d ' X ' X X ' Y

Estimadores dos parmetros pelo mtodo dos mnimos quadrados

Fazendo com que a diferencial


de Z seja igual a zero
dZ 0
Para

que a diferencial de Z seja zero

2 d ' X ' X X ' Y 0


Para

que dZ seja zero, (XX-XY)


deve ser igual a zero.

X ' X X ' Y 0

Estimadores dos parmetros pelo mtodo dos mnimos quadrados

O beta chapu
Assim

chamado o vetor estimador


dos parmetros de beta.
O vetor beta chapu determinado
resolvendo-se o sistema de equaes
normais:

X ' X X ' Y

Estimadores dos parmetros pelo mtodo dos mnimos quadrados

Soluo do sistema de equaes normais


X ' X X ' Y

Multiplicando-se ambos os membros do sistema de


equaes por
1

X' X

Temos:

X' X

X ' X X ' X X ' Y

X' X X' Y

O modelo de regresso pressupe um beta chapu


nico no tendencioso (blue). Mas isso precisa de
ser testado.

Regresso Linear Mltipla

Conseqncias da estimao
O

modelo que estamos estudando o


Linear de Gauss-Markov-Normal.

Y X , ~ N ,

Y X este o erro do modelo

Conseqncias da estimao

A mdia do modelo linear


Y X a esperana matemtica
da populao, tambm conhecido como
mdia ' '.
Quando

trabalhos com dados


experimentais assumimos que o estimador
da mdia x barra pode representar a
mdia da populao. Mas depois
precisamos testar se isso verdadeiro.

Conseqncias da estimao

Os valores preditos pelo modelo


Y X so os valores preditos pelo
modelo, isto , valores obtidos para Y
em funo de uma combinao linear
de valores de variveis preditoras X e do
estimador de , o .
Quando

trabalhos com dados experimentais


determinamos o beta chapu a partir de
amostras da populao. Por isso que
precisamos testar se esse beta mesmo
estimador no tendencioso.

Conseqncias da estimao

O erro do modelo de regresso


Y Y Y X o erro do modelo
ajustado, tambm chamado de resduo
ou desvio.
Este

o erro que calculamos quando


trabalhamos com dados experimentais.
um vetor que descreve a distribuio
dos dados experimentais. Muitas
inferncias sobre nossos dados podem
ser feitas analisando-se esse vetor.

Conseqncias da estimao

O que queremos modelar


Y Y
Y : o fenmeno que queremos modelar;
Y : a modelagem do fenmeno estudado;
: o erro na modelagem do fenmeno.
Quando

trabalhos com dados


experimentais assumimos que nossas
observaes so capazes de modelar
o fenmeno, e depois testamos.

Prtica 1

Na tabela abaixo apresentamos os valores de uma


amostra de 6 observaes das variveis Yi, X1i e X2i.

Yi

X1i

X2i

1,5
6,5
10,0
11,0
11,5
16,5

0
1
1
2
2
3

0
2
4
2
4
6

Fonte: Apostila de INF 664 Modelos Lineares. Adair Jos Regazzi,UFV,


Viosa, 2002.

Prtica 1

Montar do sistema de equaes normais

Quando a regresso com intercepto adicionados


uma coluna de uns na matriz de dados.

X com intercepto

1 0 0
1 1 2

1 1 4
X

1 2 2
1 2 4

1 3 6

X sem intercepto

0 0
1 2

1 4

Resposta Y

1,5
6 ,5

10 ,0

2 2
2 4
3 6

11,0
11,5
16 ,5

Prtica 1

Obteno da matriz XX
Esta

matriz obtida multiplicando-se a


transposta da matriz X por ela mesma.

1 1 1 1 1 1
X ' X 0 1 1 2 2 3
0 2 4 2 4 6

1 0 0
1 1 2

1 1 4

6 9 18
9 19 36

1
2
2

18 36 76

1 2 4

1 3 6

Prtica 1

Obteno da matriz XY
Esta

matriz obtida multiplicando-se a


transposta da matriz X pelo vetor Y.

1 1 1 1 1 1
X ' Y 0 1 1 2 2 3
0 2 4 2 4 6

1,5
6 ,5

10 ,0

57
111

11
,
0

220

11,5

16 ,5

Prtica 1

Sistema de equaes normais


Estimativa

quadrados

de beta pelos mtodo dos mnimos

B0 6 9 18

9
19
36
1

18 36 76

B2

57
11


220

3
1

0 : o intercepto da equao de regresso;


1 e 2 : so os regressore s.
Yi 2 3X 1i 1 X 2i : a equao de regresso

Programa na linguagem MATLAB

Exemplos de comandos do Programa


computacional MATLAB

Vetor de parmetros

Resultados obtidos no Programa


computacional MATLAB
Posto da matriz

Determinante da matriz

Autovalores da matriz

Anlise de Varincia da
Regresso Linear

Anlise de varincia da
regresso linear
A anlise

de varincia da regresso a
estatstica utilizada para testar os
regressores. A hiptese nula que todos os
regressores so iguais e zero. Caso isso no
ocorra o resultado da anlise significativo,
isto , rejeita-se a hiptese nula.
A anlise de varincia no testa o intercepto.

H 0 : 1 2 p 0

Algumas Pressuposies do
Modelo
Beta

chapu um estimador no
tendencioso:

A esperana

do erro do modelo zero e a


esperana da varincia dos erros
constante:

e V I 2

Varincias e Covarincias do Vetor


Estimador dos Parmetros
O

vetor estimador dos parmetros beta


chapu:

A covarincia

deste vetor :

'
1 2

Cov ( ) [( ) ( ) ] (X' X)
1 2

Cov ( ) ( X ' X )

s2

1 2

Cov ( ) ( X ' X ) s

o Quadrado mdio do resduo.

Soma de Quadrado do Resduo


Soma

dos quadrados dos desvios entre


os valores observados e os estimados
pela equao de regresso.
n

SQ Re s Yi Yi
i 1

Escrito

na forma matricial :

SQ Re s Y ' Y ' X ' Y

Soma de Quadrado Total

SQTotal Yi
i 1

Matricialmente

Y
i 1

podemos escrever:

SQTotal Y ' Y c
u

1
c Y ' u u' Y
n

um vetor de 1s de dimenso n x 1.

Soma de Quadrado da Regresso


n

SQ Re g Yi Y
i 1

Na

forma matricial escrevemos:

SQ Re g ' X ' Y Y ' u u' Y


n

Esquema da anlise de varincia


da regresso
Causa de
variao
Regresso
Resduo
Total
n

GL

SQ

QM

' X ' Y c

SQReg/p

QM Re g
QM Re s

n-p-1
n-1

Y ' Y ' X ' Y SQRes/n-p-1

Y' Y c

=nmero de observaes;
p =nmero de variveis
Anlise para dados no repetidos

Teste F dos parmetros


F

utilizado para testar a hiptese:


H 0 : 1 2 p 0

o mesmo que testar se:

1 2 p 0
Se

os erros ei tm distribuio normal e se o


quociente

QM Re g
F
QM Re s
tem distribuio F (central) com p e n-p-1
graus de liberdade.

Quando o teste F significativo?


Quando

F maior que o tabelado;


Quando rejeitamos a hiptese nula;
Contudo no possvel concluir quais
parmetros so significativos;
Exceto para o caso particular de p=1.

Teste t dos parmetros


Utilizado para testar hiptese a respeito dos

parmetros da regresso .
A estatstica utilizada :

i i
t
, associado a (n - p - 1) gl.
s( i )
O teste significativo quando t maior que o

valor tabelado.

Hipteses a Respeito dos Parmetros


no Modelo Linear
A hiptese

de nulidade pode ser construda a


partir de m combinaes lineares independentes

H 0 : c'
c

uma matriz com m linhas e p+1 colunas

c' [c 0 c1 c 2 c p ]

um vetor m-dimensional de
constantes conhecidas.

1

2


m

Estatstica F usada para testar a


hiptese H0:c=
Estatstica

de Wald
Para teste F simultneo dos parmetros

1
1

(C' )' [C' (X ' X ) C] (C' )


F(H 0 )
2
m

Sendo

verdadeira a hiptese de nulidade a


estatstica F(H0) tem distribuio F com m
e n-posto[X]=n-p-1 graus de liberdade.

Exemplo: testar a hiptese


H0:1=2=0
H 0 : c'
Posto

0
0 1 0
0

0 0 1 1 0

H 0 : 1 0 e 2 0

[c]=m=2

2
0 1 0 3

c'
3

0 0 1 1 1

3 0 3

c'
1 0 1

Exemplo: testar a hiptese


H0:1=2=0
1 132 54
c' ( x ' x ) c
240 54 33
1

c' ( x ' x ) c
1

33

3 1

54

33

54

54

6
132
6

54

6
132
6

3
1 125,50

Exemplo: testar a hiptese


H0:1=2=0
y' y ' x ' y
3,00
s QMR

1,00
n p 1
6 2 1
2

125,50
**
F(H 0 )
62,75 F1% (2 ; 3) 30,82
2 (1,00)
Rejeita-se

a hiptese H0: 1= 2=0

Estatstica t usada para testar a


hiptese H0:c=
Podemos

usar t para testar hipteses a


respeito de combinaes lineares dos
parmetros

c' c'
t
, associado a (n - p - 1) gl.
V (c' )

n p 1 n posto (X) GLR

Testa

Teste Simultneo dos


Parmetros

uma nica hiptese;


Testa um vetor de betas;
No o mesmo que testar os betas
separadamente.
Isto , testar
H 0 : 1 0 e H1 : 2 0
No

o mesmo que testar


1 0
H 0 : 1 2 0 ou H 0 :
2 0

Programa SAS (reg_cap1.sas)


proc reg data=sas.ind_v9;
/*ndvi rnir gnir arvi savi gndvi*/
model N = gndvi;
output out=p p=yhat r=resid;
print p;
run;
quit;
proc reg;
model yhat=N;
test N=1, intercept=0;
run;
plot yhat*N;
run;
quit;

Output do SAS Anlise de varincia do


modelo de regresso
The SAS System

23:15 Thursday, October 7, 2009 5

The REG Procedure


Model: MODEL1
Dependent Variable: N N
Analysis of Variance
Sum of
Mean
DF
Squares
Square

Source
Model
Error
Corrected Total

6
8
14

Root MSE
Dependent Mean
Coeff Var

20710
6290.41589
27000

28.04108
60.00000
46.73513

3451.59735
786.30199

R-Square
Adj R-Sq

F Value

Pr > F

4.39

0.0293

0.7670
0.5923

Teste t dos beta-chapu do modelo de


regresso
Parameter Estimates

Variable

Label

Intercept
NDVI
RNIR
GNIR
ARVI
SAVI
GNDVI

Intercept
NDVI
RNIR
GNIR
ARVI
SAVI
GNDVI

Parameter
Standard
DF
Estimate
Error
1 1835.59747
1 -15182
1 -1698.66240
1 -413.90081
1
546.46984
1
8350.10834
1
594.04446

1483.61562
19298
3814.27214
2665.47402
283.26026
13196
2908.94995

t Value
1.24
-0.79
-0.45
-0.16
1.93
0.63
0.20

Pr > |t|
0.2511
0.4541
0.6679
0.8804
0.0898
0.5445
0.8433

Nveis de N preditos pelo modelo


Dependent
Obs Variable
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Predicted
Value Residual

0
-16.4019
0
-3.4152
0
19.8021
30.0000
30.9970
30.0000
68.5033
30.0000
47.8805
60.0000
67.1267
60.0000
99.6748
60.0000
61.1820
90.0000
68.4044
90.0000
65.1605
90.0000
78.0660
120.0000
97.4010
120.0000 116.5953
120.0000
99.0235

16.4019
3.4152
-19.8021
-0.9970
-38.5033
-17.8805
-7.1267
-39.6748
-1.1820
21.5956
24.8395
11.9340
22.5990
3.4047
20.9765

Sum of Residuals
-3.6067E-11
Sum of Squared Residuals
6290.41589
Predicted Residual SS (PRESS)
28335

Grfico: Predito x Observado

Concluso
O

modelo de regresso multivariado


proposto no pode ser utilizado para
predizer nveis de N aplicados no solo.

Exemplo de regresso linear mltipla


com duas vaiveis independentes
Y

X1

X2

1,5

6,5

10

11

11,5

16,5

Programa SAS

Resumo do Stepwise

Valores preditos

Regresso entre predito e


observado

Validao da predio

Vous aimerez peut-être aussi