Vous êtes sur la page 1sur 27
R R E E G G R R E E S S S S Ã
R R E E G G R R E E S S S S Ã

RREEGGRREESSSSÃÃOO LLIINNEEAARR MMÚÚLLTTIIPPLLAA eexxeemmpplloo uussaannddoo oo SSPPSSSS

Um fabricante de produtos eletrônicos está interessado em saber que variáveis

estão associadas com o grau de conhecimento dos consumidores sobre um tipo de

processador que a companhia lançou recentemente no mercado. Uma amostra de

46 clientes foi selecionada fornecendo dados sobre os gerentes de compras em

relação às variáveis:

Y = grau de conhecimento do processador (escala de 0 a 100)

X1 = Nível de escolaridade (anos de estudo) X2 = Idade (anos) X3 = grau de conhecimento sobre os recentes avanços na área (escala de 0 a 100) X4 = distância entre o escritório e a loja mais próxima (Km) X5 = salário mensal (número de salários mínimos)

1. Encontre a melhor regressão utilizando o método Forward e compare com a

melhor regressão utilizando o método Backward . A solução encontrada foi a

mesma? Deveria ser?

2. Como você avaliaria o modelo cujas variáveis independentes são idade, escolaridade e salário? Interprete o modelo. Formule e teste a significância de cada um dos coeficientes angulares. Alguma evidência de outlier nesse modelo?

3. Considerando o modelo do item 2, calcule a correlação entre idade e grau de

conhecimento do processador, corrigida pelo expurgo das variáveis escolaridade e

salário.

4. Considerando o modelo do item 2, investigue a possível violação das premissas

do modelo linear. Qual a importância da premissa de distribuição dos erros (normalidade)?

5. Analise os resíduos e comente sobre alguma anomalia encontrada no modelo do item 2.

6. Faça uma previsão para o grau de conhecimento esperado de uma pessoa de 45

anos, com 15 anos de estudo e renda de 30 salários mínimos.

COMO RODAR A REGRESSÃO LINEAR MÚLTIPLA NO SPSS 1º Abrir o SPSS INICIAR SPSS FOR
COMO RODAR A REGRESSÃO LINEAR MÚLTIPLA NO SPSS 1º Abrir o SPSS INICIAR SPSS FOR

COMO RODAR A REGRESSÃO LINEAR MÚLTIPLA NO SPSS

1º Abrir o SPSS INICIAR

SPSS FOR WINDOWS

2º Abrir o arquivo com os dados numéricos

FILE

OPEN

DATA

2º Abrir o arquivo com os dados numéricos FILE OPEN DATA 3º Para rodar a regressão

3º Para rodar a regressão linear, fazer:

numéricos FILE OPEN DATA 3º Para rodar a regressão linear, fazer: www.alphaquant.com.br contato@alphaquant.com.br 2
4º Selecionar a variável dependente (Y) e as independentes (X) e também, o método que
4º Selecionar a variável dependente (Y) e as independentes (X) e também, o método que

4º Selecionar a variável dependente (Y) e as independentes (X) e também, o método que será utilizado (Enter, Forward ou Backward):

o método que será utilizado (Enter, Forward ou Backward) : Após isto, clicar em CONTINUE .

Após isto, clicar em CONTINUE.

OBS.: no caso da regressão linear simples (quando só existe uma variável independente - X), o método será o Enter.

5º No botão STATISTICS, selecionar:

método será o Enter. 5º No botão STATISTICS, selecionar: OBS: Selecione o R square change .

OBS: Selecione o R square change.

Após isto, clicar em CONTINUE.

6º No botão PLOTS, selecionar: Se quiser os gráficos de Y com todos os Xs,
6º No botão PLOTS, selecionar: Se quiser os gráficos de Y com todos os Xs,

6º No botão PLOTS, selecionar:

6º No botão PLOTS, selecionar: Se quiser os gráficos de Y com todos os Xs, selecione

Se quiser os gráficos de Y com todos os Xs, selecione Produce all partial plots Após isto clicar em CONTINUE.

7º No botão SAVE, selecionar:

isto clicar em CONTINUE . 7º No botão SAVE, selecionar: Após isto clicar em CONTINUE .

Após isto clicar em CONTINUE.

8º Clicar em OK.

O SPSS irá rodara regressão linear múltipla.

Resolução do Exercício – Análise do OUTPUT Resposta da QUESTÃO 1 Faremos primeiro o método
Resolução do Exercício – Análise do OUTPUT Resposta da QUESTÃO 1 Faremos primeiro o método

Resolução do Exercício Análise do OUTPUT

Resposta da QUESTÃO 1

Faremos primeiro o método Forward. Para isso, selecionaremos Method: Forward.

Os demais passos estão relacionados no PASSO A PASSO acima.

Os demais passos estão relacionados no PASSO A PASSO acima. O output do SPSS, para esta

O output do SPSS, para esta regressão linear múltipla, está apresentado a seguir.

Após cada quadro é mencionada a utilidade dele. E, em itálico e azul, é feita a análise estatística.

OBS.: No output, os quadros Excluded Variablese Collinearity Diagnosticforam excluídos.

Método Forward Regression Descriptive Statistics Mean Std. Deviation N Conhecimento Escolaridade Idade
Método Forward Regression Descriptive Statistics Mean Std. Deviation N Conhecimento Escolaridade Idade

Método Forward

Regression

Descriptive Statistics

Mean

Std. Deviation

N

Conhecimento

Escolaridade

Idade

Av anços

Distância

Salário

46

71,17 10,92 10,83 2,23 37,65 9,95 69,02 11,72 10,57 5,05 30,33 7,94
71,17
10,92
10,83
2,23
37,65
9,95
69,02
11,72
10,57
5,05
30,33
7,94

46

46

46

46

46

Devemos calcular o CV (coeficiente de variação). O CV é calculado dividindo-se o desvio padrão (Std. Deviation) pela média (Mean).

Análise

Como os coeficientes de variação de todas as variáveis são menores do que 50%, considera-se que as variáveis não possuem alta dispersão. Por isso, não é necessária nenhuma transformação nos dados.

Variables Entered/Removed a

Model Variables Entered 1 Escolaridade 2 Idade 3 Avanços 4 Distância 5 Salário Variables Remov
Model Variables Entered 1 Escolaridade 2 Idade 3 Avanços 4 Distância 5 Salário Variables Remov
Model Variables Entered 1 Escolaridade 2 Idade 3 Avanços 4 Distância 5 Salário
Model
Variables Entered
1
Escolaridade
2
Idade
3
Avanços
4
Distância
5
Salário

Variables

Remov ed

Method

,

Forward (Criterion: Probability-of -F-to-enter <= ,050)

,

Forward (Criterion: Probability-of -F-to-enter <= ,050)

,

Forward (Criterion: Probability-of -F-to-enter <= ,050)

,

Forward (Criterion: Probability-of -F-to-enter <= ,050)

,

Forward (Criterion: Probability-of -F-to-enter <= ,050)

a. Dependent Variable: Conhecimento

Esse quadro apresenta a ordem de entrada das variáveis no modelo.

Não faremos análises estatísticas sobre ele.

Model Summary f Model a 1 ,716 b 2 ,903 c 3 ,982 d 4
Model Summary f Model a 1 ,716 b 2 ,903 c 3 ,982 d 4

Model Summary f

Model

a 1 ,716 b 2 ,903 c 3 ,982 d 4 ,989 e 5 ,995
a
1
,716
b
2
,903
c
3
,982
d
4
,989
e
5
,995

R R Square

,512

,816

,964

,978

,990

e 5 ,995 R R Square ,512 ,816 ,964 ,978 ,990 Adjusted Std. Error of R
e 5 ,995 R R Square ,512 ,816 ,964 ,978 ,990 Adjusted Std. Error of R

Adjusted

Std. Error of

R Square

the Estimate

,501

7,71

,808

4,79

,961

2,15

,975

1,71

,989

1,16

a. Predictors: (Constant), Escolaridade

b. Predictors: (Constant), Escolaridade, Idade

c. Predictors: (Constant), Escolaridade, Idade, Av anços

d. Predictors: (Constant), Escolaridade, Idade, Av anços,

Distância

e. Predictors: (Constant), Escolaridade, Idade, Av anços,

f .

Distância, Salário

Dependent Variable: Conhecimento

O modelo escolhido pelo método Forward é o último (o quinto). Então, analisaremos apenas as estatísticas dele.

Podemos observar que, a cada entrada de uma nova variável no modelo, o R² ajustado e o Desvio Padrão do modelo melhoravam. Ou seja, o R² ajustado aumentava e o desvio padrão da estimativa diminuía o que é muito bom.

Não olhamos para o R², mas sim para o R² ajustado, pois se trata de uma regressão múltipla. Para compararmos diversos modelos com diferentes números de variáveis independentes, usamos o R² ajustado, e não o R². O R² ajustado pondera o R2 de acordo com o número de variáveis independentes no modelo, e o número de observações.

Análise:

R² ajustado: 98,9% da variação total é explicada pela relação entre as variáveis independentes e Y (variável dependente), quando levados em consideração o número de variáveis independentes no modelo. Essa estatística sofre penalização pela entrada de variáveis no modelo

Std Error of the Estimate: o desvio padrão do modelo é igual a 1,16.

ANOVA f Sum of Model Squares 1 Regression 2746,285 Residual 2616,324 Total 5362,609 2
ANOVA f Sum of Model Squares 1 Regression 2746,285 Residual 2616,324 Total 5362,609 2

ANOVA f

Sum of Model Squares 1 Regression 2746,285 Residual 2616,324 Total 5362,609 2
Sum of Model Squares 1 Regression 2746,285 Residual 2616,324 Total 5362,609 2 Regression

Sum of

Model

Squares

1

Regression

2746,285

Residual

2616,324

Total

5362,609

2

Regression

4376,383

Residual

986,226

Total

5362,609

4376,383 Residual 986,226 Total 5362,609 3 Regression 5168,536 Residual 194,073 Total 5362,609
3 Regression 5168,536 Residual 194,073 Total 5362,609 4 Regression 5242,282 Residual 120,326 Total 5362,609 5
3 Regression
5168,536
Residual
194,073
Total
5362,609
4 Regression
5242,282
Residual
120,326
Total
5362,609
5 Regression
5308,707
Residual
53,901
Total
5362,609
4 Regression 5242,282 Residual 120,326 Total 5362,609 5 Regression 5308,707 Residual 53,901 Total 5362,609
4 Regression 5242,282 Residual 120,326 Total 5362,609 5 Regression 5308,707 Residual 53,901 Total 5362,609
5 Regression 5308,707 Residual 53,901 Total 5362,609 3 1722,845 372,847 ,000 c 42 4,621 45 4
3 1722,845 372,847 ,000 c 42 4,621 45 4 1310,571 446,564 ,000 d 41 2,935
3 1722,845 372,847 ,000 c 42 4,621 45 4 1310,571 446,564 ,000 d 41 2,935
3
1722,845
372,847
,000 c
42
4,621
45
4
1310,571
446,564
,000 d
41
2,935
45
5
1061,741
787,917
,000 e
40
1,348
45

df

Mean Square

F

Sig.

 

1

2746,285

46,186

,000 a

44

59,462

45

2

2188,191

95,406

,000 b

43

22,935

45

1 2746,285 46,186 ,000 a 44 59,462 45 2 2188,191 95,406 ,000 b 43 22,935 45
1 2746,285 46,186 ,000 a 44 59,462 45 2 2188,191 95,406 ,000 b 43 22,935 45

a. Predictors: (Constant), Escolaridade

b. Predictors: (Constant), Escolaridade, Idade

c. Predictors: (Constant), Escolaridade, Idade, Avanços

d. Predictors: (Constant), Escolaridade, Idade, Avanços, Distância

e. Predictors: (Constant), Escolaridade, Idade, Avanços, Distância, Salário

f .

Dependent Variable: Conhecimento

O SPSS apresenta o resultado das regressões realizadas até se chegar no melhor modelo. Como o melhor modelo é o último (o 5º apresentado por ele), faremos o teste F apenas desse modelo.

Análise:

Teste F teste do modelo

H 0 : 1 = 2 = 3 = 4 = 5 = 0

H 1 : algum é diferente de zero

Alpha = 5%

Como Sig (0,000) é menor do que alfa (0,05) rejeitamos H 0 e concluímos que

Como Sig (0,000) é menor do que alfa (0,05) rejeitamos H 0 e concluímos que pelo

menos um beta é diferente de zero, logo, existe relação linear entre Y e pelo menos um

X.

Coefficients a

Model 1 (Constant) Escolaridade 2 (Constant) Escolaridade Idade 3 (Constant)

Model

1

(Constant)

Escolaridade

2

(Constant)

Escolaridade

Idade

3

(Constant)

Escolaridade

Idade

Av anços

Unstandardized

Coeff icients

B

Std. Error

33,318

5,685

3,497

,515

50,738

4,091

4,033

,326

-,617

,073

36,426

2,137

2,704

,178

-,673

,033

,446

,034

4 (Constant)

Escolaridade

Idade

Av anços

Distância

5 (Constant)

Escolaridade

Idade

Av anços

Distância

Salário

39,889

1,838

21,704

,000

36,178

43,601

2,727

,142

,558

19,211

,000

2,440

3,013

-,639

,027

-,582

-23,463

,000

-,694

-,584

,415

,028

,446

14,890

,000

,359

,471

-,267

,053

-,124

-5,013

,000

-,374

-,159

43,433

1,344

32,322

,000

40,717

46,148

3,047

,106

,624

28,627

,000

2,831

3,262

-,679

,019

-,618

-35,171

,000

-,718

-,640

,421

,019

,452

22,278

,000

,383

,459

-,299

,036

-,138

-8,224

,000

-,373

-,226

-,185

,026

-,135

-7,021

,000

-,238

-,132

Standardi

 

zed

Coeff icien

ts

 

95% Confidence Interval for B

 

Correlations

Collinearity Statistics

Beta

t

Sig.

Lower Bound

Upper Bound

Zero-order

Partial

Part

Tolerance

VIF

5,861

,000

21,861

44,776

,716

6,796

,000

2,460

4,534

,716

,716

,716

1,000

1,000

12,402

,000

42,488

58,989

,825

12,377

,000

3,376

4,690

,716

,884

,809

,962

1,040

-,562

-8,430

,000

-,764

-,469

-,401

-,789

-,551

,962

1,040

17,046

,000

32,113

40,739

,553

15,190

,000

2,345

3,063

,716

,920

,446

,649

1,540

-,613

-20,317

,000

-,740

-,606

-,401

-,953

-,596

,946

1,057

,479

13,093

,000

,378

,515

,672

,896

,384

,643

1,555

,716

,949

,449

,649

1,542

-,401

-,965

-,549

,888

1,126

,672

,919

,348

,611

1,637

-,367

-,616

-,117

,901

1,110

,716 -,401 ,672 ,976 -,984 ,454 -,558 ,530 1,888

,716

-,401

,672

,976

-,984

,454

-,558

,530

1,888

,716 -,401 ,672 ,976 -,984 ,454 -,558 ,530 1,888
,716 -,401 ,672 ,976 -,984 ,454 -,558 ,530 1,888
,813 1,230 ,962 ,353 ,610 1,641 -,367 -,793 -,130 ,886 1,128 ,437 -,743 -,111 ,684
,813
1,230
,962
,353
,610
1,641
-,367
-,793
-,130
,886
1,128
,437
-,743
-,111
,684
1,462

a. Dependent Variable: Conhecimento

Essa tabela apresenta os coeficientes angulares (os betas) das variáveis. Apresenta os intervalos de confiança de cada coeficiente, a correlação parcial e o VIF.

Novamente só olharemos para o modelo 5 (que foi escolhido como o melhor).

Testes para i´s

i indica a mudança que ocorre na resposta média E(Y), por unidade de mudança (com incremento unitário) na variável independente X i , quando as demais variáveis são mantidas constantes.

O parâmetro 0 é o intercepto do plano de regressão (coeficiente linear). 1 , 2 , 5 são coeficientes de regressão (coef angulares).

Para testar se cada variável explicativa, separadamente, é significativa para o modelo, procedemos ao teste t.

Análise : Teste t - teste dos coeficientes  1 é o coeficiente da variável
Análise : Teste t - teste dos coeficientes  1 é o coeficiente da variável

Análise:

Teste t - teste dos coeficientes

1 é o coeficiente da variável “nível de escolaridade”, e b 1 é o estimador de 1 , expresso em escala/anos de estudo.

Teste t para 1

H 0 : 1 = 0 H 1 : 1 0

= 0,05

Como Sig (0,000) é menor do que alfa, rejeitamos H 0 ao nível de 5% de Ou seja, concluímos que 1 0.

significância.

2 é o coeficiente da variável “idade” escala/anos.

,

e

b 2

é o estimador de 2 , expresso em

Teste t para 2

 

H 0 : 2 = 0 H 1 : 2 0

= 0,05

Como Sig (0,000) é menor do que alfa, rejeitamos H 0 ao nível de 5% de Ou seja, concluímos que 2 0.

significância.

3 é o coeficiente da variável “avanços” , e b 3 é o estimador de 3 .

 

Teste t para 3

 

H 0 : 3 = 0 H 1 : 3 0

= 0,05

Como Sig (0,000) é menor do que alfa, rejeitamos H 0 ao nível de 5% de Ou seja, concluímos que 3 0.

significância.

 4 é o coeficiente da variável “distância” , e b 4 é o estimador
 4 é o coeficiente da variável “distância” , e b 4 é o estimador

4 é o coeficiente da variável “distância” , e b 4 é o estimador de 4 , expresso em escala/Km.

Teste t para 4

H 0 : 4 = 0 H 1 : 4 0

= 0,05

Como Sig (0,000) é menor do que alfa, rejeitamos H 0 ao nível de 5% de Ou seja, concluímos que 4 0.

significância.

5 é o coeficiente da variável “salário” , e b 5 é o estimador de 5 , expresso em escala/no. de s.m

Teste t para 5

H 0 : 5 = 0 H 1 : 5 0

= 0,05

Como Sig (0,000) é menor do que alfa, rejeitamos H 0 ao nível de 5% de Ou seja, concluímos que 5 0.

significância.

Intervalos de Confiança com 95% de confiança:

O

intervalo de confiança para 1 é: [2,8 ; 3,2]

O

intervalo de confiança para 2 é: [-0,7; -0,6]

O

intervalo de confiança para 3 é: [0,38; 0,459]

O

intervalo de confiança para 4 é: [-0,37 ; -0,22]

O

intervalo de confiança para 5 é: [-0,23 ; -0,13]

VIFs Como os VIFs das cinco variáveis independentes são menores do que 5, não existe
VIFs Como os VIFs das cinco variáveis independentes são menores do que 5, não existe

VIFs

Como os VIFs das cinco variáveis independentes são menores do que 5, não existe o problema da multicolinearidade

Modelo Linear:

43,43 + 3,04 (escolaridade) - 0,67 (idade) + 0,42 (avanço) - 0,29 (distância) - 0,18 (salário)

=

De acordo com o modelo selecionado, a cada ano a mais de escolaridade (X1), o grau de conhecimento do processador (Y) aumenta 3,04 unidades, mantendo as demais variáveis constantes.

A cada ano a mais de idade (X2), o grau de conhecimento do processador (Y) diminui 0,67 unidades, mantendo as demais variáveis constantes.

A cada incremento unitário no avanço (X3), o grau de conhecimento do processador (Y) aumenta 0,42 unidades, mantendo as demais variáveis constantes.

A cada quilômetro a mais de distância (X4), o grau de conhecimento do processador (Y) diminui 0,29 unidades, mantendo as demais variáveis constantes.

A cada salário mínimo ganho a mais (X5), o grau de conhecimento do processador (Y) diminui 0,18 unidades, mantendo as demais variáveis constantes.

O coeficiente linear é igual a 43,43. Ou seja, se todas as variáveis independentes forem iguais a zero, o grau de conhecimento do processador é igual a 43,43.

Residuals Statistics a Minimum Maximum Predicted Value 44,69 93,24 Std. Predicted Value -2,439 2,031 Standard
Residuals Statistics a Minimum Maximum Predicted Value 44,69 93,24 Std. Predicted Value -2,439 2,031 Standard

Residuals Statistics a

Minimum Maximum Predicted Value 44,69 93,24 Std. Predicted Value -2,439 2,031 Standard Error of ,21
Minimum Maximum Predicted Value 44,69 93,24 Std. Predicted Value -2,439 2,031 Standard Error of ,21
Minimum
Maximum
Predicted Value
44,69
93,24
Std. Predicted Value
-2,439
2,031
Standard Error of
,21
,58
Predicted Value
Adjusted Predicted Value
45,24
93,08
Residual
-2,45
2,34
Std. Residual
-2,110
2,019
Stud. Residual
-2,293
2,118
Deleted Residual
-2,89
2,58
Stud. Deleted Residual
-2,429
2,219
Mahal. Distance
,465
10,145
Cook's Distance
,000
,158
Centered Leverage Value
,010
,225
Distance ,000 ,158 Centered Leverage Value ,010 ,225 Mean Std. Dev iation N 71,17 10,86 46
Mean Std. Dev iation N 71,17 10,86 46 ,000 1,000 46 ,41 9,69E-02 46 71,18
Mean Std. Dev iation N 71,17 10,86 46 ,000 1,000 46 ,41 9,69E-02 46 71,18

Mean

Std. Dev iation

N

71,17

10,86

46

,000

1,000

46

,41

9,69E-02

46

71,18

10,86

46

-1,50E-14

1,09

46

,000

,943

46

-,002

1,007

46

-4,83E-03

1,25

46

-,006

1,032

46

4,891

2,597

46

,024

,037

46

,109

,058

46

a. Dependent Variable: Conhecimento

Olharemos para o Std. Residual para verificarmos se existem candidatos a outlier ou valor influente.

Olharemos também para Cook’s Distance para ver se existe valor influente. Caso o Maximun esteja maior de 1, a observação é valor influente.

Análise da tabela:

O Std Residual está dentro do intervalo de 3 desvios, logo não existem candidatos a

outlier e nem valor influente.

A distância de Cook máxima é muito inferior a 1, o que reforça a afirmativa acima, de que não existem valores influentes.

Charts Normal P-P Plot of Regression Sta Dependent Variable: Conheciment 1,00 ,75 ,50 ,25 0,00
Charts Normal P-P Plot of Regression Sta Dependent Variable: Conheciment 1,00 ,75 ,50 ,25 0,00

Charts

Normal P-P Plot of Regression Sta Dependent Variable: Conheciment 1,00 ,75 ,50 ,25 0,00 0,00
Normal P-P Plot of Regression Sta
Dependent Variable: Conheciment
1,00
,75
,50
,25
0,00
0,00
,25
,50
,75
1,00
Observed Cum Prob
Scatterplot Dependent Variable: Conhecimento 3 2 1 0 -1 -2 -3 -3 -2 -1 0
Scatterplot
Dependent Variable: Conhecimento
3
2
1
0
-1
-2
-3
-3
-2
-1
0
1
2
3
Regression Standardized Predicted Value
As premissas básicas são:

1. Linearidade

2. i ~ Normal Normalidade

3. E(i ) = 0

4. 2 (i ) constante homocedasticidade

5. cov(i, j ) = 0 independência (autocorrelação dos erros igual a zero)

Como podemos observar pelo P-P Plot, a premissa de normalidade não é violada, assim como se olharmos o gráfico dos resíduos padronizados versus os valores preditos padronizados, podemos observar que as demais premissas são satisfeitas, pois os resíduos se distribuem de maneira aleatória (sem formas definidas, sem padrões).

O segundo passo será rodar a regressão novamente realizando o método Backward. Para isso, selecionaremos
O segundo passo será rodar a regressão novamente realizando o método Backward. Para isso, selecionaremos

O segundo passo será rodar a regressão novamente realizando o método Backward.

Para isso, selecionaremos Method: Backward.

Os demais passos estão descritos acima, no PASSO A PASSO.

. Os demais passos estão descritos acima, no PASSO A PASSO. O output do SPSS, para

O output do SPSS, para esta regressão linear múltipla, está apresentado a seguir.

O quadro Collinearity Diagnosticfoi excluído.

Método Forward Regression Descriptive Statistics Mean Std. Deviation N Conhecimento Escolaridade Idade
Método Forward Regression Descriptive Statistics Mean Std. Deviation N Conhecimento Escolaridade Idade

Método Forward

Regression

Descriptive Statistics

Mean

Std. Deviation

N

Conhecimento

Escolaridade

Idade

Av anços

Distância

46

Salário

30,33

7,94

46

71,17 10,92 10,83 2,23 37,65 9,95 69,02 11,72 10,57 5,05
71,17
10,92
10,83
2,23
37,65
9,95
69,02
11,72
10,57
5,05

46

46

46

46

Este quadro é o mesmo apresentado pelo Forward

Variables Entered/Removed b

Variables Model Entered 1 Salário, Idade, Distância, Av anços, Escolarida a de Variables Removed
Variables Model Entered 1 Salário, Idade, Distância, Av anços, Escolarida a de Variables Removed
Variables Model Entered 1 Salário, Idade, Distância, Av anços, Escolarida a de
Variables
Model
Entered
1
Salário,
Idade,
Distância,
Av anços,
Escolarida
a
de

Variables

Removed

 

,

Method

Enter

a. All requested v ariables entered.

b. Dependent Variable: Conhecimento

Este quadro mostra que nenhuma variável foi excluída do modelo, já que o “Variables Removed” está vazio. As cinco variáveis independentes entraram no modelo.

ATENÇÃO!!!

O modelo selecionado pelo método Backward foi o mesmo selecionado pelo Forward.

É o modelo que possui as 5 variáveis explicativas. Dessa forma a análise do output será

a mesma apresentada para o método Backward, uma vez que o modelo é o mesmo.

Não necessariamente a solução seria a mesma, pois a ordem de entrada (e saída) das variáveis, no modelo, geram diferentes correlações parciais, o que poderia resultar em diferentes modelos.

RESOLUÇÃO DAS QUESTÕES 2 A 6: Para isso teremos que rodar uma nova regressão, na
RESOLUÇÃO DAS QUESTÕES 2 A 6: Para isso teremos que rodar uma nova regressão, na

RESOLUÇÃO DAS QUESTÕES 2 A 6:

Para isso teremos que rodar uma nova regressão, na qual as variáveis independentes serão: Escolaridade, Idade e Salário.

1º. Com o SPSS ainda aberto, no mesmo arquivo de dados, retornamos ao

ANALYSE

REGRESSION

LINEAR

2º. No quadro das variáveis independentes, ficam apenas as variáveis: Escolaridade, Idade e Salário.

3º. Deixa o método Enter, pois está sendo pedido um modelo com essas 3 variáveis. Se usarmos os métodos Backward ou Forward, pode ser que alguma destas variáveis não fiquem no modelo;

pode ser que alguma destas variáveis não fiquem no modelo; www.alphaquant.com.br contato@alphaquant.com.br 17
4º. Selecione OK . Obs.: as demais marcações (STATISCITCS, PLOTS e SAVE) não se alteram.
4º. Selecione OK . Obs.: as demais marcações (STATISCITCS, PLOTS e SAVE) não se alteram.

4º. Selecione OK.

Obs.: as demais marcações (STATISCITCS, PLOTS e SAVE) não se alteram. Caso você tenha fechado o SPSS, terá que repetir aquelas telas de STATISTICS, PLOTS e SAVE, apresentadas nas páginas anteriores.

OUTPUT DA REGRESSÃO:

Resposta da QUESTÃO 2

Item: Como você avaliaria o modelo cujas variáveis independentes são idade, escolaridade e salário?

Regression

Descriptive Statistics

Mean Std. Deviation N Conhecimento 71,17 10,92 46 Escolaridade 10,83 2,23 46 Idade 37,65

Mean

Std. Deviation

N

Conhecimento

71,17

10,92

46

Escolaridade

10,83

2,23

46

Idade

37,65

9,95

46

Salário

30,33

7,94

46

Análise:

Ao calcular o coeficiente de variação (CV) das quatro variáveis, obtivemos os seguintes resultados:

Variável

CV

Conhecimento

0,15

Escolaridade

0,20

Idade

0,26

Salário

0,26

Como todas as variáveis apresentam CV menores do que 50%, elas não possuem dispersão alta. Com isso, não sugerimos nenhuma transformação nos dados.

Variables Entered/Removed b   Variables Model Variables Entered Removed Method 1 Salário,
Variables Entered/Removed b   Variables Model Variables Entered Removed Method 1 Salário,

Variables Entered/Removed b

 

Variables

Model

Variables Entered

Removed

Method

1 Salário, Idade,

a

Escolaridade

. Enter

a. All requested v ariables entered.

b. Dependent Variable: Conhecimento

Análise:

Model Summary b

Model

R

R Square

1

,906 a

,820

Model R R Square 1 ,906 a ,820
Model R R Square 1 ,906 a ,820
Model R R Square 1 ,906 a ,820 Adjusted Std. Error of R Square the Estimate
Model R R Square 1 ,906 a ,820 Adjusted Std. Error of R Square the Estimate

Adjusted

Std. Error of

R Square

the Estimate

,808

4,788

a. Predictors: (Constant), Salário, Idade, Escolaridade

b. Dependent Variable: Conhecimento

O modelo possui como variáveis independentes: Salário, Idade e Escolaridade.

Análise:

80,8% da variação total é explicada pela relação entre as variáveis independentes e Y (variável dependente). O R² ajustado é o R² que leva em consideração o número de variáveis explicativas presentes no modelo.

Std Error of the Estimate: o desvio padrão do modelo é igual a 4,79.

ANOVA b

  Sum of Model Squares df 1 Regression 4399,761 3 Residual 962,848 42 Total
 

Sum of

Model

Squares

df

1

Regression

4399,761

3

Residual

962,848

42

Total

5362,609

45

3 Residual 962,848 42 Total 5362,609 45 Mean Square F Sig. 1466,587 63,973 ,000 a
Mean Square F Sig. 1466,587 63,973 ,000 a 22,925
Mean Square F Sig. 1466,587 63,973 ,000 a 22,925

Mean Square

F

Sig.

1466,587

63,973

,000 a

22,925

a. Predictors: (Constant), Salário, Idade, Escolaridade

b. Dependent Variable: Conhecimento

Análise: Teste F – teste do modelo H 0 :  1 =  2
Análise: Teste F – teste do modelo H 0 :  1 =  2

Análise:

Teste F teste do modelo

H 0 : 1 = 2 = 3 = 0

H 1 : algum é diferente de zero

Nível de significância (alfa) = 0,05

Como Sig (0,000) é menor do que alfa (0,05) rejeitamos H 0 e concluímos que existe pelo menos um beta é diferente de zero, logo, pelo menos uma variável X possui relação linear significativa com Y.

Coefficients a

Model

Unstandardized

Standardized

Coeff icients

Coeff icients

B Std. Error

Beta

t

Coeff icients Coeff icients B Std. Error Beta t 1 (Constant) 52,760 4,554 11,586
Coeff icients Coeff icients B Std. Error Beta t 1 (Constant) 52,760 4,554 11,586

1

(Constant)

52,760

4,554

11,586

Escolaridade

4,236

,383

,867

11,059

Idade

-,642

,077

-,585

-8,315

Salário

-,109

,107

-,079

-1,010

Sig. Zero-order Correlations Partial Collinearity Statistics Part Tolerance VIF ,000 ,000 ,716
Sig. Zero-order Correlations Partial Collinearity Statistics Part Tolerance VIF ,000 ,000 ,716
Sig. Zero-order Correlations Partial Collinearity Statistics Part Tolerance VIF ,000 ,000 ,716
Sig. Zero-order Correlations Partial Collinearity Statistics Part Tolerance VIF ,000 ,000 ,716

Sig.

Zero-order

Correlations

Partial

Collinearity Statistics

Part

Tolerance

VIF

,000

,000

,716

,863

,723

,696

1,438

,000

-,401

-,789

-,544

,864

1,157

,318

,437

-,154

-,066

,699

1,431

a. Dependent Variable: Conhecimento

Resposta da QUESTÃO 2

Item: Interprete o modelo à luz de seus coeficientes.

Modelo Linear:

= 52,76 + 4,23 (escolaridade) - 0,64 (idade) - 0,10 (salário)

De acordo com o modelo selecionado, a cada ano a mais de escolaridade (X1), o grau de conhecimento do processador (Y) aumenta em 4,23 unidades, mantendo as demais variáveis constantes.

A cada ano a mais de idade (X2), o grau de conhecimento do processador (Y) diminui 0,64 unidades, mantendo as demais variáveis constantes.

 A cada salário mínimo ganho a mais (X3), o grau de conhecimento do processador

A cada salário mínimo ganho a mais (X3), o grau de conhecimento do processador (Y) diminui 0,10 unidades, mantendo as demais variáveis constantes.

O coeficiente linear é igual a 52,76. (não possui sentido prático neste exemplo)

Resposta da QUESTÃO 2

Item: Formule e teste a significância de cada um dos coeficientes angulares e diga em que unidade cada um deles está expresso.

Teste t - teste dos coeficientes

1 é o coeficiente da variável “nível de escolaridade”, e b 1 é o estimador de 1 , expresso em escala/anos de estudo.

Teste t para 1

H 0 : 1 = 0

H 1 : 1 0

Nível de significância () = 0,05

Como Sig (0,000) é menor do que alfa, rejeitamos H 0 ao nível de 5% de significância. Ou seja, concluímos que 1 0. Em outras palavras, existe relação linear entre o nível de escolaridade (X1) e o grau de conhecimento (Y).

2 é o coeficiente da variável “idade” escala/anos.

,

e

b 2

é o estimador de 2 , expresso em

Teste t para 2

H 0 :  2 = 0 H 1 :  2  0 

H 0 : 2 = 0 H 1 : 2 0

= 0,05

Como Sig (0,000) é menor do que alfa, rejeitamos H 0 ao nível de 5% de significância. Ou seja, concluímos que 2 é significativamente diferente de zero. Com isso, existe relação linear entre as variáveis idade (X2) e grau de conhecimento (Y).

3 é o coeficiente da variável “salário” , e b 3 é o estimador de 3 , expresso em escala/no. de salários mínimos.

Teste t para 3

H 0 : 3 = 0

H 1 : 3 0

= 0,05

Como Sig (0,318) é MAIOR do que alfa (0,05), NÃO rejeitamos H 0 ao nível de 5% de significância. Ou seja, concluímos que 3 NÃO é significativamente diferente de zero, e com isso, NÃO existe relação linear entre X3 (salário) e Y (grau de conhecimento). Essa variável não é significativa para o modelo, logo, ela deveria ser retirada.

Intervalos de Confiança com 95% de confiança:

O

intervalo de confiança para 1 é: [3,4 ;5]

O

intervalo de confiança para 2 é: [-0,79 ; -0,4]

O

intervalo de confiança para 3 é: [-0,325 ; 0,108]

Como observamos, o Intervalo de Confiança de beta 3 (relacionado à variável Salário) contempla o

Como observamos, o Intervalo de Confiança de beta 3 (relacionado à variável Salário) contempla o valor zero. E, se o zero está dentro do intervalo de confiança, o coeficiente não é significativamente diferente de zero. Portanto, a variável X3 deve ser retirada do modelo.

VaFs

Como os VIFs das três variáveis independentes são menores do que 5, não existe o problema da multicolinearidade.

Resposta da QUESTÃO 3

Calcule a correlação entre idade e grau de conhecimento, corrigida pelo expurgo das variáveis escolaridade e salário.

Coeficiente de Correlação Parcial (na tabela está no quadrinho Correlations Partial)

O coeficiente de correlação parcial entre as variáveis Idade (X2) e Grau de Conhecimento (Y), corrigido pelo expurgo das variáveis Escolaridade (X1) e Salário (X3), é igual a -0,789. Esse coeficiente de correlação parcial é alto (quase |0,8|) e mostra que a variável Idade explica bastante do modelo.

O coeficiente de correlação parcial entre as variáveis Escolaridade (X1) e Grau de

Conhecimento (Y), corrigido pelo expurgo das variáveis Idade (X2) e Salário (X3), é igual

a 0,863. Esse coeficiente de correlação parcial também é alto (maior do que 0,8) mostra que a variável Escolaridade explica bastante do modelo.

O coeficiente de correlação parcial entre as variáveis Salário (X3) e Grau de

Conhecimento (Y), corrigido pelo expurgo das variáveis Escolaridade (X1) e Idade (X2),

é igual a -0,154. Esse coef. de correlação parcial é muito baixo (0,154 é menor do que

0,5), mostrando que a variável Salário explica pouquíssimo do modelo. Isso reforça o que foi apresentado anteriormente: a variável Salário (X3) não é significativa para o modelo e deveria ser retirada.

Resposta da QUESTÃO 2 Item: Há alguma evidência de outlier neste modelo? Residuals Statistics a
Resposta da QUESTÃO 2 Item: Há alguma evidência de outlier neste modelo? Residuals Statistics a

Resposta da QUESTÃO 2

Item: Há alguma evidência de outlier neste modelo?

Residuals Statistics a

  Minimum Maximum Predicted Value Std. Predicted Value Standard Error of Predicted Value
 

Minimum

Maximum

Predicted Value

Std. Predicted Value

Standard Error of

Predicted Value

Adjusted Predicted Value

Residual

Std. Residual

Stud. Residual

Deleted Residual

Stud. Deleted Residual

Mahal. Distance

,083

9,241

Cook's Distance

,000

,114

Centered Leverage Value

,002

,205

47,98

91,01

-2,345

2,006

,735

2,282

47,98

90,62

-12,426

11,984

-2,595

2,503

-2,640

2,557

-12,859

12,504

-2,856

2,749

Mean

2,935

,017

,065

-2,856 2,749 Mean 2,935 ,017 ,065 Std. Dev iation N 1,038 46 2,144 46
Std. Dev iation N 1,038 46 2,144 46 ,026 46 ,048 46

Std. Dev iation

N

1,038

46

2,144

46

,026

46

,048

46

Std. Dev iation N 1,038 46 2,144 46 ,026 46 ,048 46

71,17

9,888

46

,000

1,000

46

1,359

,387

46

71,16

9,893

46

,000

4,626

46

,000

,966

46

,001

,998

46

,011

4,945

46

-,003

a. Dependent Variable: Conhecimento Scatterplot Dependent Variable: Conhecimento 3 2 1 0 -1 -2 -3
a. Dependent Variable: Conhecimento
Scatterplot
Dependent Variable: Conhecimento
3
2
1
0
-1
-2
-3
-3
-2
-1
0
1
2
3
Regression Standardized Predicted Value
Normal P-P Plot of Regression Stan Dependent Variable: Conheciment 1,00 ,75 ,50 ,25 0,00 0,00
Normal P-P Plot of Regression Stan
Dependent Variable: Conheciment
1,00
,75
,50
,25
0,00
0,00
,25
,50
,75
1,00
Observed Cum Prob

Olharemos para o Std. Residual para verificarmos se existem candidatos a outlier ou valor influente.

Olharemos também para Cook’s Distance para ver se existe valor influente. Caso o Maximun esteja maior de 0,9, a observação é valor influente.

Análise:

O Std Residual (resíduo padronizado) está dentro do intervalo de 3 desvios, logo não existem

O Std Residual (resíduo padronizado) está dentro do intervalo de 3 desvios, logo não

existem candidatos a outlier e nem valor influente.

A distância de Cook máxima (0,114) é muito inferior a 1, o que reforça a afirmativa acima, de que não existem valores influentes.

Resposta da QUESTÃO 4 e QUESTÃO 5

Investigue a possível violação das premissas do modelo linear. Qual a importância da premissa de distribuição dos erros (normalidade).

As premissas básicas são:

1. Linearidade

2. i ~ Normal Normalidade

3. E(i ) = 0

4. 2 (i ) constante homocedasticidade = variância constante dos erros

5. cov(i, j ) = 0 independência (autocorrelação dos erros igual a zero)

Como podemos observar pelo P-P Plot, a premissa de normalidade não é violada, assim como se olharmos o gráfico (Scatterplot) dos resíduos padronizados X os valores preditos padronizados, podemos observar que as demais premissas são satisfeitas, pois os resíduos se distribuem de maneira aleatória (sem formas definidas, sem padrões).

Normalidade: Essa premissa é fundamental, pois toda inferência é feita com base nas distribuições (t, F) que vêm da Normal. Se a Normal for violada, os testes que serão feitos não irão servir pra nada. Se não tiver normalidade, não pode-se testar os parâmetros, realizar o modelo.

Resposta da QUESTÃO 6 Faça uma previsão para o grau de conhecimento esperado de uma

Resposta da QUESTÃO 6

Faça uma previsão para o grau de conhecimento esperado de uma pessoa de 45 anos, com 15 anos de estudo e renda de 30 salários mínimos.

Modelo Linear:

= 52,76 + 4,23 (escolaridade) - 0,64 (idade) - 0,10 (salário)

= 52,76 + 4,23 (15) - 0,64 (45) - 0,10 (30) =

= 84,41.

Base de dados Gerente Conhecimento Escolaridade Idade Avanços Distância Salário ID y x1
Base de dados Gerente Conhecimento Escolaridade Idade Avanços Distância Salário ID y x1

Base de dados

Gerente

Conhecimento

Escolaridade

Idade

Avanços

Distância

Salário

ID

y

x1

x2

x3

x4

x5

1

76

12

33

65

11

19

2

65

10

51

74

6

21

3

73

15

59

86

15

40

4

76

11

33

67

15

21

5

68

10

35

65

19

28

6

69

8

23

55

16

12

7

56

7

34

59

12

33

8

70

11

43

73

11

27

9

60

12

43

50

17

33

10

73

11

33

76

16

40

11

60

10

53

68

15

24

12

64

8

26

56

12

30

13

80

14

56

91

4

31

14

88

13

22

69

6

40

15

61

9

43

68

9

30

16

80

12

33

73

12

28

17

69

11

39

72

13

32

18

75

13

41

68

11

33

19

48

6

43

55

16

24

20

79

10

25

80

13

44

21

62

10

43

53

5

21

22

80

15

46

82

21

31

23

69

10

37

66

8

26

24

67

10

43

68

1

35

25

70

9

23

53

4

36

26

81

11

26

74

9

40

27

43

7

44

39

8

23

28

88

11

14

64

1

36

29

60

7

37

64

15

17

30

72

11

32

64

14

36

31

64

9

45

72

10

22

32

92

12

31

97

3

34

33

85

12

36

94

6

32

34

67

10

45

74

9

23

35

65

11

48

73

10

42

36

94

15

33

81

2

38

37

77

14

54

83

9

27

38

83

13

40

82

13

31

39

70

8

33

68

5

19

40

78

11

24

64

5

42

41

68

11

36

65

19

28

42

60

12

44

50

17

33

43

88

13

23

69

7

41

44

76

14

42

68

11

33

45

60

8

37

64

15

17

46

65

11

48

74

10

42