Académique Documents
Professionnel Documents
Culture Documents
Introduo ao SPSS
Ficha Tcnica
Autor:
-----------Resumo biogrfico:
-----------Ttulo do manual:
Manual de Amostragem e de Introduo ao SPSS
Ms e Ano de elaborao:
Novembro de 2008
ndice
Pg.
Estruturao dos captulos
Introduo
Captulo 1 Amostragem
Objectivos
Palavras-chave
Contedo temtico
1.1. Noes de amostragem
10
11
12
Avaliao
15
Bibliografia
15
16
Objectivos
16
Palavras-chave
16
Contedo temtico
2.1. Editor de dados do SPSS
17
18
19
22
22
23
28
29
30
31
Avaliao
35
Referncias
36
Pg.
Captulo 3 Estatstica aplicada com SPSS
37
Objectivos
37
Palavras-chave
37
Contedo temtico
3.1. Anlise de dados univariada
38
3.1.1. Frequncias
38
41
44
3.1.3.1. (Qui-quadrado)
44
3.1.3.2. Kolmogorov-Smirnov
45
46
47
47
50
50
52
54
54
55
56
59
61
61
63
66
66
71
72
76
76
Avaliao
79
Bibliografia
79
80
83
Objectivos
Palavras
Contedo
Avaliao
Referncias
Introduo
O Manual de Amostragem e Introduo ao SPSS tem como objectivo principal orientar os alunos
na utilizao do SPSS, constituindo-se simultaneamente como um guio da matria leccionada e
de uma ficha tcnica para realizao dos exerccios propostos no mbito do da cadeira de
Informtica Aplicada.
Pretende-se, deste modo, disponibilizar aos alunos um guio que lhes permita acompanhar a
sequncia dos pontos do programa e as respectivas aulas. Nesse sentido, este manual no
dispensa a necessidade de se tirar apontamentos nas aulas, nem a leitura e consulta de outra
bibliografia, que permitir o aprofundamento dos temas, na medida em que aqui se situam
apenas os principais tpicos e as balizas das matrias abordadas.
Procurou-se por isso apresentar o contedo dos vrios pontos de uma forma clara, simples e
sinttica, de maneira a que o essencial seja captado neste manual, podendo ser aprofundado a
partir das referncias indicadas.
De acordo com o programa, este manual divide-se em trs captulos, que esto obviamente
relacionados intimamente:
-
O primeiro pretende fornecer aos alunos elementos que lhes permitam construir uma
amostra representativa e proceder seleco aleatria das unidades amostrais.
Captulo
Captulo 1 Amostragem
Objectivos
Palavras
Amostra
Erro amostral
Unidades amostrais
Contedo
Amostra (estatstica) . In Infopdia [Em linha]. Porto: Porto Editora, 2003-2008. [Consult. 2008-01-15]. Disponvel na www:
<URL: http://www.infopedia.pt/$amostra-(estatistica)>.
Questes pr
prvias ao processo de amostragem
de natureza quantitativa
1. Definio clara dos
objectivos do estudo
Dimenso da amostra
4. Como sero
seleccionados
*Designa-se por populao alvo a totalidade dos elementos sobre os quais se deseja obter determinado tipo
de informao
7
Representa
Representao de uma Amostra*
Universo Hipottico
(praticamente infinito)
Universo ou Populao, N
(finito)
Amostra, n
(unidades de observao)
* in: Bravo, Sierra: Tcnicas de Investigacin Social, Madrid, Editorial Paraninfo, 1989
Processo amostral
Dimenso da amostra
Mtodo de recolha
de dados
Amostra final
* in: Reis, Melo, Andrade e Calapez: Estatstica aplicada, vol. 2, Lisboa, Slabo, 1999
Mtodos de selec
seleco da amostra*
Mtodos probabilsticos
(amostragem casual)
Mtodos no
probabilsticos
(amostragem dirigida)
* in: Reis, Melo, Andrade e Calapez: Estatstica aplicada, vol. 2, Lisboa, Slabo, 1999
10
10
Mtodos de selec
cont)*
seleco da amostra (cont)
Mtodos probabilsticos - amostragem aleatria
Aleatria simples
Casual
sistemtica
Estratificada
Clusters
Multi-etapas
Multi-fsica
* in: Reis, Melo, Andrade e Calapez: Estatstica aplicada, vol. 2, Lisboa, Slabo, 1999
Amostra estratificada*
Universo
rea
Centro
Sul
Outros
(Braga e
Porto)
Norte
(Coimbra,
Aveiro e
Leiria)
(Lisboa,
Setbal e
Santarm)
(Restantes
distritos)
Total
Produto A
180
160
310
200
850
Produto B
150
70
230
50
500
Produto C
1260
550
700
190
2700
Sector
Produto D
1070
610
600
170
2450
Total
2 660
1390
1840
610
6500
(Braga e
Porto)
Norte
(Coimbra,
Aveiro e
Leiria)
(Lisboa,
Setbal e
Santarm)
(Restantes
distritos)
Total
18
16
31
20
85
rea
Sector
Produto A
Centro
Sul
Outros
Produto B
15
23
50
Produto C
126
55
70
19
270
Produto D
107
61
60
17
245
Total
266
139
184
61
650
* Adaptado de: Reis, Melo, Andrade e Calapez: Estatstica aplicada, vol. 2, Lisboa, Slabo, 1999
12
11
Mtodos de selec
cont)*
seleco da amostra (cont)
Mtodos no probabilsticos - amostragem dirigida
Amostragem por A amostra seleccionada em funo da disponibilidade e
acessibilidade dos elementos que constituem a populao alvo
convenincia
Amostragem
intencional
Amostragem
snowball
Amostragem
sequencial
Amostragem por
quotas
* in: Reis, Melo, Andrade e Calapez: Estatstica aplicada, vol. 2, Lisboa, Slabo, 1999
13
in: Bravo, Sierra: Tcnicas de Investigacin Social, Madrid, Editorial Paraninfo, 1989
14
12
in: Bravo, Sierra: Tcnicas de Investigacin Social, Madrid, Editorial Paraninfo, 1989
15
16
in: Bravo, Sierra: Tcnicas de Investigacin Social, Madrid, Editorial Paraninfo, 1989
13
Avaliao
Exerccio de avaliao:
1) Depois de se identificar os dados que devero ser recolhidos e o instrumento (questionrio
estruturado, por exemplo) a utilizar para essa recolha, o passo seguinte consiste em definir um
processo de amostragem adequado ao tipo de dados e ao instrumento de anlise2
Diga, sucintamente em que consistem os seguintes mtodos de mostragem:
- Amostra aleatria simples;
- Amostra Estratificada;
- Amostra por quotas.
2) O problema da Inferncia Indutiva , do ponto de vista da Estatstica, encarado da seguinte
forma: a finalidade da investigao descobrir algo sobre determinada populao ou universo.3
Comente a frase e diga quais os procedimentos para seleccionar as unidades amostrais (sujeitos)
numa amostra estratificada.
L
Referncias
2
3
Reis, E., P. Melo; R. Andrade e T. Calapez (1999) Estatstica Aplicada volume 2, Lisboa, Slabo, 3 edio revista.
Idem.
14
Captulo
Objectivos
Janelas e menus;
Criao e manipulao de bases de dados;
Tratamento preliminar dos dados.
Varivel
Nvel de medida
Palavras
15
Contedo
16
17
File
Edit
Configurao/parametrizao do SPSS
(Options), inserir novas variveis e novos casos.
18
View
Data
Transform
19
Analyse
Graphs
Criar grficos.
Utilities
Window
Help
Ajuda em linha;
Tutorial.
20
A introduo dos dados processa-se na janela Variable View aps ter sido criada a estrutura da
base.
21
A varivel idade acrescentou-se base de dados. Vamos agora proceder sua recodificao,
criando uma nova varivel idade2 com 4 escales5:
A varivel idade2 acrescentar-se- base e dever ser completada com a alterao do nvel de
medida (scale para ordinal) e a definio dos respectivos value labels.
O resultado ser o seguinte:
Idade
Valid
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total
Frequency
341
505
315
350
1511
Percent
22.6
33.4
20.8
23.2
100.0
Valid Percent
22.6
33.4
20.8
23.2
100.0
Cumulative
Percent
22.6
56.0
76.8
100.0
Nota: na recodificao de variveis recomendvel manter as variveis originais e criar novas variveis recodificadas,
escolhendo para o efeito a opo Into diferent variable.
22
A varivel escol acrescentar-se- base e dever ser completada com a alterao do nvel de
medida (scale para ordinal) e a definio dos respectivos value labels.
O resultado ser o seguinte:
Escolaridade
Valid
At 9 anos
10 - 12 anos
> 12 anos
NR
Total
Frequency
1046
251
212
2
1511
Percent
Valid Percent
69.2
69.2
16.6
16.6
14.0
14.0
.1
.1
100.0
100.0
Cumulative
Percent
69.2
85.8
99.9
100.0
23
A varivel b28r acrescentar-se- base e dever ser completada com a alterao do nvel de
medida (scale para ordinal) e a definio dos respectivos value labels.
O resultado ser o seguinte:
Autoposicionamento poltico
Valid
Missing
Total
Esquerda
Centro
Direita
Total
System
Frequency
296
620
294
1211
304
1515
Percent
Valid Percent
19.6
24.5
41.0
51.2
19.4
24.3
79.9
100.0
20.1
100.0
Cumulative
Percent
24.5
75.7
100.0
24
Os resultados so os seguintes:
Descriptive Statistics
ndice sinttico de Confiana social
ndice sinttico de Confiana institucional
Valid N (listwise)
N
1480
1338
1319
Minimum
.0
.0
Maximum
10.0
9.3
Mean
Std. Deviation
4.316
1.7469
4.097
1.7603
25
Nota: repetir o comando para as restantes categorias, cujas expresses numricas so as seguintes:
Categoria 2: f2 = 1 & idade2 > 2
Categoria 3: f2 = 2 & idade2 = 3
Categoria 4: f2 = 2 & idade2 > 4
A varivel sexid acrescentar-se- base e dever ser completada com a alterao do nvel de
medida (scale para ordinal) e a definio dos respectivos label e value labels.
O resultado o seguinte:
Sexo e Idade
Valid
Homens at 30 anos
Homens com mais de 30 anos
Mulheres at 30 anos
Mulheres com mais de 30 anos
Total
Frequency
158
472
183
698
1511
Percent
Valid Percent
10.5
10.5
31.2
31.2
12.1
12.1
46.2
46.2
100.0
100.0
Cumulative
Percent
10.5
41.7
53.8
100.0
26
O resultado o seguinte:
b1
Qual o seu interesse pela poltica
Valid
Missing
Muito interesse
Algum interesse
Pouco interesse
Nenhum interesse
Total
Recusa
No sabe
Total
Total
Frequency
117
456
441
489
1503
6
2
8
1511
Percent
7.7
30.2
29.2
32.4
99.5
.4
.1
.5
100.0
Valid Percent
7.8
30.3
29.3
32.5
100.0
Cumulative
Percent
7.8
38.1
67.5
100.0
ib1
Qual o seu interesse pela poltica
Valid
Missing
Total
Nenhum interesse
Pouco interesse
Algum interesse
Muito interesse
Total
No sabe
Recusa
Total
Frequency
489
441
456
117
1503
2
6
8
1511
Percent
32.4
29.2
30.2
7.7
99.5
.1
.4
.5
100.0
Valid Percent
32.5
29.3
30.3
7.8
100.0
Cumulative
Percent
32.5
61.9
92.2
100.0
27
Valid
0
1
2
3
4
5
6
7
9
10
Total
Frequency
1174
145
85
39
30
16
9
11
1
1
1511
Percent
Valid Percent
77.7
77.7
9.6
9.6
5.6
5.6
2.6
2.6
2.0
2.0
1.1
1.1
.6
.6
.7
.7
.1
.1
.1
.1
100.0
100.0
Cumulative
Percent
77.7
87.3
92.9
95.5
97.5
98.5
99.1
99.9
99.9
100.0
28
29
Mulheres at 30
anos
N
156
147
145
456
440
430
182
168
Minimum
1.0
.0
Maximum
9.0
8.5
Mean
4.859
4.248
Std. Deviation
1.4670
1.7428
.0
.0
10.0
9.3
4.259
4.066
1.8100
1.8441
.0
.0
9.3
8.0
4.604
4.116
1.6277
1.6234
.0
.0
10.0
9.3
4.153
4.075
1.7629
1.7401
167
686
583
577
30
No segundo caso seriam produzidas 4 tabelas, uma por cada categoria da varivel colocada em
split:
Descriptive Statisticsa
N
ndice sinttico de
Confiana social
ndice sinttico de
Confiana institucional
Valid N (listwise)
Minimum
Maximum
Mean
Std. Deviation
156
1.0
9.0
4.859
1.4670
147
.0
8.5
4.248
1.7428
145
Descriptive Statisticsa
N
ndice sinttico de
Confiana social
ndice sinttico de
Confiana institucional
Valid N (listwise)
Minimum
Maximum
Mean
Std. Deviation
456
.0
10.0
4.259
1.8100
440
.0
9.3
4.066
1.8441
430
Minimum
Maximum
Mean
Std. Deviation
182
.0
9.3
4.604
1.6277
168
.0
8.0
4.116
1.6234
167
Minimum
Maximum
Mean
Std. Deviation
686
.0
10.0
4.153
1.7629
583
.0
9.3
4.075
1.7401
577
31
Avaliao deste mdulo consiste em criar uma base de dados para o excerto do
seguinte questionrio:
Avaliao
32
Captulo
Objectivos
Palavras
Contedo
Frequncias
Cruzamentos
Testes de hipteses
Inferncia estatstica
Margem de erro
Intervalo de confiana
Significncia estatstica
Nota: as tabelas geradas pelo procedimento Frequencies so em formato rascunho destinando-se apenas ao
controlo e validao da base de dados, com o objectivo de eliminar erros de introduo de dados.
33
Os resultados so os seguintes:
Sexo
Valid
Masculino
Feminino
Total
Frequency
630
881
1511
Percent
41.7
58.3
100.0
Valid Percent
41.7
58.3
100.0
Cumulative
Percent
41.7
100.0
Idade
Valid
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total
Frequency
341
505
315
350
1511
Percent
22.6
33.4
20.8
23.2
100.0
Valid Percent
22.6
33.4
20.8
23.2
100.0
Cumulative
Percent
22.6
56.0
76.8
100.0
Valid
Missing
Total
At 9 anos
10 - 12 anos
> 12 anos
Total
NR
Frequency
1046
251
212
1509
2
1511
Percent
69.2
16.6
14.0
99.9
.1
100.0
Valid Percent
69.3
16.6
14.0
100.0
Cumulative
Percent
69.3
86.0
100.0
34
Os resultados so os seguintes8:
N
Sexo
Idade
Anos de
escolaridade
concludos
Masculino
Feminino
Total
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total
At 9 anos
10 - 12 anos
> 12 anos
NR
Total
630
881
1511
341
505
315
350
1511
1046
251
212
2
1511
%
41.7
58.3
100.0
22.6
33.4
20.8
23.2
100.0
69.2
16.6
14.0
.1
100.0
Nota: o quadro foi modificado no respectivo editor, a que se acede clicando duas vezes sobre o mesmo.
35
O resultado o seguinte:
Nem
concorda
Concorda
totalmente
Concorda
11.7
41.3
15.1
25.4
6.5
100.0
14.1
46.1
19.4
16.2
4.3
100.0
13.7
53.7
16.7
12.3
3.6
100.0
14.3
42.3
22.1
16.2
5.2
100.0
25.9
54.0
12.5
6.0
1.6
100.0
43.3
40.1
9.3
6.2
1.0
100.0
26.6
38.5
19.0
13.2
2.7
100.0
Discorda
Discorda
totalmente
Total
36
Os resultados so os seguintes:
Descriptive Statistics
Ter qualificaes profissionais de que o pas precisa
Querer adaptar-se ao mesmo modo de vida do pas
Ser rico
Ter familiares prximos a viver c
Ter boas qualificaes acadmicas
Saber falar a lngua oficial do pas
Ter formao crist
Ser branco
Valid N (listwise)
N
1448
1449
1447
1454
1416
1466
1440
1451
1330
Minimum
0
0
0
0
0
0
0
0
Maximum
10
10
10
10
10
10
10
10
Mean
Std. Deviation
7.46
2.241
7.11
2.442
6.81
2.807
6.48
2.425
6.06
2.536
6.05
2.633
3.79
2.971
2.85
2.874
Nota: as tabelas geradas pelo procedimento Descriptives so em formato rascunho destinando-se apenas ao
controlo e validao da base de dados, com o objectivo de eliminar erros de introduo de dados.
37
Os resultados so os seguintes:
Mdia
Ter boas qualificaes acadmicas
Ter familiares prximos a viver c
Saber falar a lngua oficial do pas
Ter formao crist
Ser branco
Ser rico
Ter qualificaes profissionais de que o pas precisa
Querer adaptar-se ao mesmo modo de vida do pas
6.1
6.5
6.1
3.8
2.8
6.8
7.5
7.1
Desvio-padro
2.5
2.4
2.6
3.0
2.9
2.8
2.2
2.4
38
c)
Grfico de perfil10:
7.1
Querer adaptar-se ao mesmo modo de vida do pas
7.5
Ter qualificaes profissionais de que o pas precisa
6.8
Ser rico
2.8
Ser branco
3.8
Ter formao crist
6.1
Saber falar a lngua oficial do pas
6.5
Ter familiares prximos a viver c
6.1
Ter boas qualificaes acadmicas
0.0
1.0
Nenhuma importncia
10
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
Muita importncia
39
O resultado o seguinte:
Classes sociais (ACM) prprio
Observed N Expected N
Empresrios, dirigentes
e profissionais liberais
Profissionais tcnicos e
de enquadramento
Trabalhadores
independentes
Empregados executantes
Operrios
Total
Residual
175
256.6
-81.6
191
256.6
-65.6
81
256.6
-175.6
413
423
1283
256.6
256.6
156.4
166.4
Test Statistics
Chi-Squarea
df
Asymp. Sig.
Classes
sociais (ACM)
prprio
366.123
4
.000
11
40
3.1.3.2. Kolmogorov-Smirnov
Exemplo: Pretende-se testar se o interesse pela poltica (ib1) segue uma distribuio normal ou
uniforme no universo.
Como a varivel ordinal, o procedimento consiste em realizar o teste de aderncia
de Kolmogorov-Smirnov para as duas distribuies:
O resultado o seguinte:
One-Sample Kolmogorov-Smirnov Test
N
Normal Parameters a,b
Most Extreme
Differences
Mean
Std. Deviation
Absolute
Positive
Negative
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
a. Test distribution is Normal.
b. Calculated from data.
Qual o seu
interesse
pela poltica
1503
2.13
.961
.206
.206
-.198
8.001
.000
N
Uniform Parameters a,b
Most Extreme
Differences
Minimum
Maximum
Absolute
Positive
Negative
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
Qual o seu
interesse
pela poltica
1503
1
4
.325
.325
-.078
12.613
.000
41
O resultado o seguinte:
One-Sample Statistics
N
ndice sinttico de
Confiana social
Mean
1480
Std. Deviation
Std. Error
Mean
1.7469
.0454
4.316
One-Sample Test
Test Value = 5
t
ndice sinttico de
Confiana social
-15.073
df
1479
Sig. (2-tailed)
Mean
Difference
.000
-.684
95% Confidence
Interval of the Difference
Lower
Upper
-.774
-.595
12
A escala de medida dos indicadores de confiana social varia entre 0=nenhuma e 10=toda.
42
O resultado o seguinte:
Sexo * Comprou produtos por razes de ordem poltica,
tica ou ambiental Crosstabulation
% within Sexo
Sexo
Masculino
Feminino
Total
Total
100.0%
100.0%
100.0%
Chi-Square Tests
Pearson Chi-Square
Continuity Correction
Likelihood Ratio
Fisher's Exact Test
Linear-by-Linear
Association
N of Valid Cases
Value
.121b
.062
.122
1
1
1
Asymp. Sig.
(2-sided)
.728
.804
.727
.728
df
Exact Sig.
(2-sided)
.766
.121
Exact Sig.
(1-sided)
.404
1495
43
O resultado o seguinte:
Sexo
Masculino
Feminino
Total
Sexo
Chi-square
df
Sig.
Comprou
produtos por
razes de
ordem
poltica, tica
ou ambiental
.121
1
.728
44
O resultado o seguinte:
Test Statisticsa
Ranks
Qual o seu interesse
pela poltica
Sexo
Masculino
Feminino
Total
N
628
875
1503
Mean Rank
815.82
706.19
Sum of Ranks
512336.00
617920.00
Qual o seu
interesse
pela poltica
Mann-Whitney U
234670.000
Wilcoxon W
617920.000
Z
-5.058
Asymp. Sig. (2-tailed)
.000
a. Grouping Variable: Sexo
Interpretao: a mdia das ordenaes (Mean Rank) superior nos homens. Ou seja, os homens
referem que tm mais interesse pela poltica do que as mulheres. As diferenas so
estatisticamente significativas (M-W=234670; p=0,000).
13
Consultar o Anexo 1.
45
Exemplo 2: Pretende-se testar se h relao entre o sexo (f2) e o grau de escolaridade (escol).
O procedimento consiste na em fazer o cruzamento entre as 2 variveis e realizar do
teste no paramtrico para duas amostras independentes (Kolmogorov-Smirnov)14.
14
Consultar o Anexo 1.
46
O resultado o seguinte:
Anos de escolaridade concludos
10 - 12
At 9 anos
> 12 anos
Total
Masculino
67.9
18.9
13.2
100.0
Feminino
70.3
15.0
14.7
100.0
Total
69.3
16.6
14.0
100.0
Sexo
Test Statisticsa
Most Extreme
Differences
Absolute
Positive
Negative
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
Escolaridade
.025
.025
-.014
.476
.977
O resultado o seguinte:
15
Consultar o Anexo 1.
47
Idade
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total
Nenhum
interesse
27.4
28.0
30.7
45.8
32.5
Total
100.0
100.0
100.0
100.0
100.0
Test Statisticsa,b
Ranks
Qual o seu interesse
pela poltica
Idade
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total
N
339
504
313
347
1503
Mean Rank
777.35
803.46
768.74
637.38
Qual o seu
interesse
pela poltica
Chi-Square
36.088
df
3
Asymp. Sig.
.000
a. Kruskal Wallis Test
b. Grouping Variable: Idade
Interpretao: A mdia das ordenaes (Mean Rank) mais elevada nos que tm entre 31 e 50 anos,
sendo este escalo, por conseguinte, que refere ter mais interesse pela poltica, enquanto os mais
velhos so os que revelam menos interesse. As diferenas so estatisticamente significativas (K-W
(3)=36,088; p=0,000).
48
O resultado o seguinte:
Paired Samples Statistics
Mean
Pair 1
ndice sinttico de
Confiana social
ndice sinttico de
Confiana institucional
Std. Error
Mean
Std. Deviation
4.313
1319
1.7165
.0473
4.087
1319
1.7606
.0485
ndice sinttico de
Confiana social &
ndice sinttico de
Confiana institucional
Correlation
1319
Sig.
.310
.000
Mean
Pair 1
ndice sinttico de
Confiana social ndice sinttico de
Confiana institucional
.225
Std. Deviation
Std. Error
Mean
2.0428
.0562
95%
Confidence
Interval of the
Difference
Lower
Upper
.115
.336
t
4.009
df
1318
Sig. (2-tailed)
.000
16
Consultar o Anexo 1.
49
O resultado o seguinte:
Group Statistics
ndice sinttico de
Confiana social
Sexo
Masculino
Feminino
N
612
868
Mean
Std. Deviation
4.412
1.7476
4.248
1.7442
Std. Error
Mean
.0706
.0592
ndice sinttico de
Confiana social
F
.182
Sig.
.669
t
1.781
1.780
df
Sig. (2-tailed)
1478
.075
1313.926
.075
Mean
Difference
.164
Std. Error
Difference
.0921
.164
.0922
95%
Confidence
Interval of the
Difference
Lower Upper
-.0167 .3448
-.0167
.3449
Interpretao: Os homens (4,412) revelam mais confiana social que as mulheres (4,248) 18 ,
embora a diferena no seja estatisticamente significativa, (t (1480)=1,808; p> 0,05).
17
18
Consultar o Anexo 1.
O ndice de confiana social varia entre 0=nenhuma confiana e 10=toda a confiana.
50
Exemplo: Pretende-se testar se h relao entre a idade (idade2) e a confiana social (confsoc).
O procedimento consiste na realizao da Anlise de Varincia Simples Paramtrica
(One-way Anova)19.
O resultado o seguinte:
Descriptives
ndice sinttico de Confiana social
N
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total
338
497
312
333
1480
Mean
Std. Deviation
4.722
1.5585
4.058
1.6747
4.068
1.8340
4.519
1.8500
4.316
1.7469
Std. Error
.0848
.0751
.1038
.1014
.0454
Minimum
.0
.0
.0
.0
.0
Maximum
9.3
9.3
10.0
10.0
10.0
df1
3
df2
1476
Sig.
.007
ANOVA
ndice sinttico de Confiana social
Between Groups
Within Groups
Total
19
Sum of
Squares
121.466
4391.954
4513.420
df
3
1476
1479
Mean Square
40.489
2.976
F
13.607
Sig.
.000
Consultar o Anexo 1.
51
Interpretao: So os mais novos (4,722), seguidos dos mais velhos (4,519) que mais confiam.
Os escales intermdios 31-50 anos (4,058) e 51-65 anos ( (4,068) confiam um pouco menos. As
diferenas so estatisticamente significativas (F (3)=13,787; p=0,000).
Nota: sendo as diferenas estatisticamente significativas, importa saber quais os grupos que
diferem uns dos outros. Para o efeito realiza-se um teste posteriori (Post Hoc). O SPSS
disponibiliza vrios testes para este fim, sendo os mais utilizados, o teste de Scheffe20, no caso de
as varincias serem iguais, e o teste Games-Howell no caso de serem diferentes.
Neste caso, uma vez que se rejeita a hiptese de as varincias serem iguais (p=0,007), vamos
solicitar o teste Games-Howell:
O resultado o seguinte:
Multiple Comparisons
Dependent Variable: ndice sinttico de Confiana social
Games-Howell
(I) Idade
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
(J) Idade
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Mean
Difference (I-J)
Std. Error
Sig.
.664*
.654*
.203
-.664*
.1133
.1340
.1321
.1133
.000
.000
.415
.000
.372
.308
-.137
-.955
.955
.999
.544
-.372
-.010
-.460*
-.654*
.010
.1282
.1262
.1340
.1282
1.000
.002
.000
1.000
-.340
-.785
-.999
-.320
.320
-.135
-.308
.340
-.450*
-.203
.460*
.450*
.1451
.1321
.1262
.1451
.011
.415
.002
.011
-.824
-.544
.135
.076
-.076
.137
.785
.824
20
52
31-50 anos
X
51-65 anos
X
X
X
> 65 anos
X
X
21
O sinal significa uma correlao negativa e a ausncia de sinal uma correlao positiva.
53
O resultado o seguinte:
Correlations
Satisfao
com a vida
em geral
Satisfao com a
vida em geral
Economia
Governo
Democracia
Educao
Servios de Sade
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
.339**
.000
1441
.280**
.000
1413
.348**
.000
1371
.205**
.000
1429
.195**
.000
1489
Economia
.578**
.000
1392
.403**
.000
1353
.361**
.000
1389
.396**
.000
1440
Governo
.507**
.000
1339
.289**
.000
1367
.340**
.000
1412
Democracia
.300**
.000
1338
.294**
.000
1370
Educao
Servios
de Sade
.537**
.000
1433
54
22
55
O resultado o seguinte:
Model Summary
Model
1
R
.310a
R Square
.096
Adjusted
R Square
.095
Std. Error of
the Estimate
1.6746
Regression
Residual
Total
Sum of
Squares
392.354
3693.263
4085.617
df
1
1317
1318
Mean Square
392.354
2.804
F
139.912
Sig.
.000a
Coefficients a
Model
1
(Constant)
ndice sinttico de
Confiana social
Unstandardized
Coefficients
B
Std. Error
2.716
.125
.318
Standardized
Coefficients
Beta
.027
.310
t
21.778
Sig.
.000
11.828
.000
23
O coeficiente de determinao quantifica a percentagem de variao da varivel dependentes que explicada pela
variao da varivel independente.
24
A equao simplificada da recta da regresso a seguinte: Yi = 0 + 1 Xi, em que Yi a varivel dependente, 0 a
ordenada na origem, 1 o coeficiente de regresso e Xi a varivel independente.
56
Mtodo: Stepwise
(Neste mtodo entram no modelo
apenas as variveis independentes
com significncia estatstica, por
ordem de importncia.)
Nota: habitual usar-se o mtodo
ENTER quando se pretende
testar um modelo e o mtodo
Stepwise
em
contextos
exploratrios, como o caso.
Procedimentos seleccionados:
Resultado:
25
26
57
Variables Entered/Removed
Model
1
2
Variables
Entered
Variables
Removed
Democracia
Economia
Method
Stepwise (Criteria: Probability-of-F-to-enter
<= .050, Probability-of-F-to-remove >= .100).
Stepwise (Criteria: Probability-of-F-to-enter
<= .050, Probability-of-F-to-remove >= .100).
Variveis que
entraram nos
modelos
Regression
Residual
Total
Regression
Residual
Total
Sum of
Squares
760.940
5610.899
6371.839
1051.123
5320.716
6371.839
df
1
1289
1290
2
1288
1290
Mean Square
760.940
4.353
F
174.812
Sig.
.000a
525.562
4.131
127.224
.000b
O objectivo do teste F
verificar se a varivel
independente influencia a
varivel dependente no
universo. O que equivale a
detectar se o modelo
ajustado ou no
significativo.
Permite inferir sobre a
adequabilidade do modelo
linear para explicar a relao
entre as duas variveis.
Model Summary
Change Statistics
Model
1
2
R
.346a
.406b
R Square
.119
.165
Adjusted
R Square
.119
.164
Std. Error of
the Estimate
2.086
2.032
R Square
Change
.119
.046
F Change
174.812
70.245
df1
1
1
df2
1289
1288
Sig. F Change
.000
.000
Coeficiente de correlao
mltipla em mdulo
% de variao da satisfao
com a vida em geral explicada
pelas variveis independentes
que entraram no modelo
Nota: Em modelos com mas do que 1
varivel independente deve interprtarse o R2 ajustado
Teste F e
respectiva
significncia
estatstica
Coefficientsa
Model
1
(Constant)
Democracia
Economia
(Constant)
Democracia
Economia
Unstandardized
Coefficients
B
Std. Error
4.221
.133
.350
.026
3.841
.254
.276
.137
.028
.033
Standardized
Coefficients
Beta
.346
t
31.764
13.222
Sig.
.000
.000
.251
.234
28.013
9.002
8.381
.000
.000
.000
4.110
.309
.341
Collinearity
Statistics
Tolerance
VIF
1.000
1.000
.835
.835
1.197
1.197
58
27
28
Seleco das
variveis;
Kaiser-Meyer-Olkin: quantifica
o nvel de intercorrelaes entre
as variveis;
Testa a hiptese de a matriz de
correlaes na populao ser a
matriz identidade.
Moroco, J. Anlise Estatstica com utilizao do SPSS, Lisboa, Slabo, 2003: 231.
Reis, E., Anlise factorial das componentes principais: um mtodo de reduzir sem perder informao, Lisboa
Giesta/Iscte, 1990.
59
Critrio de Kaiser de
extraco das componentes
que o SPSS usa por defeito.
So
extradas
as
componentes com valores
prprias superiores a 1.
Cada componente deve
contribuir para a varincia,
como se de uma varivel de
input se tratasse.
Adequabilidade da ACP:
Approx. Chi-Square
df
Sig.
KMO
1 0,9
Qualidade da ACP
Muito boa
0,8 0,9
Boa
.812
0,7 0,8
Mdia
3474.721
28
.000
0,6 0,7
Razovel
0,5 0,6
>0,5
Inaceitvel
60
Component
1
2
3
4
5
6
7
8
Total
3.518
1.283
.978
.539
.493
.419
.391
.377
Initial Eigenvalues
% of Variance Cumulative %
43.975
43.975
16.043
60.018
12.230
72.248
6.739
78.987
6.165
85.153
5.244
90.396
4.885
95.282
4.718
100.000
Como podemos observar, por defeito foram extradas duas componentes, que explicam cerca de
60% da varincia total.
Verificando-se que a terceira componente tem uma valor prprio prximo de 1 (0,984) e que
aumenta a varincia explicada em 12,3%, vamos forar a sua extraco e gravar as trs
componentes extradas como novas variveis:
Os resultados so os seguintes:
Descriptive Statistics
Mean
Ter boas qualificaes acadmicas
6.11
Ter familiares prximos a viver c
6.44
Saber falar a lngua oficial do pas
6.01
Ter formao crist
3.77
Ser branco
2.82
Ser rico
6.77
Ter qualificaes profissionais de que o pas precisa 7.45
Querer adaptar-se ao mesmo modo de vida do pas
7.07
Std.
Analysis
Deviation
N
2.527
1330
2.407
1330
2.615
1330
2.906
1330
2.825
1330
2.812
1330
2.247
1330
2.448
1330
Approx. Chi-Square
df
Sig.
.812
3474.721
28
.000
61
Communalities
Ter boas qualificaes acadmicas
Ter familiares prximos a viver c
Saber falar a lngua oficial do pas
Ter formao crist
Ser branco
Ser rico
Ter qualificaes profissionais de que o pas precisa
Querer adaptar-se ao mesmo modo de vida do pas
Initial Extraction
1.000
.590
1.000
.788
1.000
.719
1.000
.756
1.000
.786
1.000
.722
1.000
.749
1.000
.669
As Comunalidades representam a
proporo de varincia da varivel
explicada pelas componentes.
Variveis com comunalidades
reduzidas (0,3 ou inferior) so
pouco explicadas pelas
componentes e contribuem pouco
para a sua definio.
Component
1
2
3
4
5
6
7
8
Initial Eigenvalues
Total % of Variance Cumulative %
3.518
43.975
43.975
1.283
16.043
60.018
.978
12.230
72.248
.539
6.739
78.987
.493
6.165
85.153
.419
5.244
90.396
.391
4.885
95.282
.377
4.718
100.000
Component
1
2
.361
.785
.244
.775
-.014
.771
.110
.880
.260
.741
.487
.587
.124
.011
.094
.305
3
-.053
.089
.358
.047
.319
.090
.878
.809
29
O SPSS utiliza vrias formas de rotao, sendo a mais usada a rotao Varimax, de modo a permitir uma mais fcil
interpretao dos factores, pois torna os loadings elevados ainda mais elevados e os loadings baixos ainda mais
baixos. Para a interpretao das componentes consideram-se os loadings mais correlacionados com as mesmas.
Em geral, consideram-se bons os loadings maiores ou iguais a 0,5, por serem pelo menos responsveis por 25% da
varincia. (cfr. Pestana e Gageiro, Anlise de Dados para as Cincias Sociais A complementaridade do SPSS,
Lisboa, Slabo, 3 edio, 2003: 504.
62
0,05
0,00
mdia
mdia
0,20
0,00
-0,05
-0,20
0,10
0,00
mdia
mdia
0,10
-0,10
0,00
-0,20
-0,30
-0,10
-0,40
Autoposicionamento poltico
Esquerda
Centro
Direita
Anlise de Clusters
De acordo com Moroco, 30 a anlise de Clusters uma tcnica multivariada que no possui
slidos fundamentos tericos e que procura agrupar objectos mais ou menos homogneos segundo
critrios mais ou menos heursticos.
A classificao dos sujeitos em cada um dos clusters , regra geral, mais rigorosa nos mtodos
no-hierrquicos do que nos hierrquicos, podendo a validade das solues obtidas com os
mtodos hierrquicos segundo Elizabeth Reis tornar-se bastante limitada. Alguns autores
propem, por isso, a utilizao de mtodos no-hierrquicos de optimizao que permitam a
partio dos indivduos num nmero pr definido de grupos.
A questo de determinao do nmero de grupos pr definido , no entanto, um dos principais
problemas a resolver numa anlise de clusters. Uma forma simples a anlise do Dendrograma
30
Cfr. Reis, Elizabeth, A Anlise de Clusters e as Aplicaes s Cncias Empresariais: Uma Viso Crtica da Teoria
dos Grupos Estratgicos, in Elizabeth Reis e Manuel Alberto M. Ferreira (eds.) Temas em Mtodos Quantitativos
1, Lisboa, Slabo, 2000: 206-238 e Moroco, Joo, Anlise Estatstica com utilizao do SPSS, Lisboa, Slabo,
2003
63
que, no entanto, s est disponvel no mtodo hierrquico, resumindo-se a sua utilidade apenas em
amostras de pequena dimenso. Quando no esse o caso, ou se se pretende usar um mtodo nohierrquico, poder-se- utilizar primeiro um mtodo hierrquico aglomerativo para determinao
do nmero de grupos e depois utilizar um mtodo no-hierrquico para optimizar a soluo
encontrada.
Uma forma de obviar limitao do dendrograma na determinao do nmero de grupos,
proceder representao grfica dos coeficientes de aglomerao mais elevados31, que denotam,
por conseguinte, maiores distncias, onde a escolha ptima do nmero de grupos coincidir com
uma marcada horizontalidade da curva32.
3.4.2.1. Anlise hierrquica de Clusters (Hierarquical Cluster)
Exemplo: pretende-se seleccionar e criar clusters com base nos 8 indicadores relativos s atitudes
face imigrao (d10 + d11 + d12 + d13 + d14 + d15 + d16 + d17)
Escolha do Mtodo
Betwen-groups linkage (Distncia mdia entre grupos): a
distncia do 1 cluster aos restantes objectos a mdia das
distncias de cada um dos elementos que constituem o
cluster a cada um dos restantes objectos.
Melhor performance com dados com grande disperso;
Influenciado por outliers;
Tendncia para produzir clusters com varincias
homogneas.
Within-groups linkage: Este mtodo semelhante
Distncia mdia entre grupos mas os clusters so unidos
de modo a que a variabilidade dentro dos grupos seja
mnima.
Nearest Neighbor (Vizinho mais prximo): a distncia do
1 cluster aos restantes objectos, a menor das distncias
de cada um dos elementos que constituem o cluster a cada
um dos restantes objectos.
Tendncia para formar clusters alongados;
Menos influenciado por outliers;
Furthest Neighbor (Vizinho mais distante): a distncia do
1 cluster aos restantes objectos, a maior das distncias
de cada um dos elementos que constituem o cluster a cada
um dos restantes objectos.
Menos influenciado por outliers;
31
Estes coeficientes so o valor numrico para o qual vrios indivduos ou grupos se unem para formarem um novo
grupo e so disponibilizados pelo SPSS no mtodo hierrquico (Aglomeration Schedule).
32
Reis, op.cit.
64
65
A varivel CLU4-1 (primeira soluo com 4 clusters) acrescentou-se base de dados, tendo sido
completada com os respectivos label.
Valid
Missing
Total
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Total
System
Frequency
498
299
423
110
1330
181
1511
Percent
Valid Percent
33.0
37.4
19.8
22.5
28.0
31.8
7.3
8.3
88.0
100.0
12.0
100.0
Cumulative
Percent
37.4
59.9
91.7
100.0
33
Pois so os que apresentam maior distncia entre si. No entanto, seria sempre possvel ensaiar solues com mais
clusters. No essencial, mais clusters significam mais homogeneidade entre os seus elementos e menos clusters
menos homogeneidade.
34
Uma vez que j no necessitamos dos coeficientes de aglomerao.
66
Exemplo: pretende-se seleccionar e criar clusters com base nos 8 indicadores relativos s atitudes
face imigrao (d10 + d11 + d12 + d13 + d14 + d15 + d16 + d17)
1. Seleco das
variveis;
2. Indicao do n de
Clusters
pretendidos (vamos
indicar 4, de acordo
com o processo
anterior)
3. Criao de uma
nova varivel que
regista a pertena
de cada observao
ao cluster
respectivo
A varivel QCL_1 (primeira soluo com 4 clusters) acrescentou-se base de dados, tendo sido
completada com os respectivos label.
O resultado o seguinte:
QCL_1 Clusters d10 a d17 (K-Means)
Valid
Missing
Total
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Total
System
Frequency
334
459
324
213
1330
181
1511
Percent
Valid Percent
22.1
25.1
30.4
34.5
21.4
24.4
14.1
16.0
88.0
100.0
12.0
100.0
Cumulative
Percent
25.1
59.6
84.0
100.0
67
Acrescentou-se base de dados uma nova varivel com 3 categorias, que designmos de Cluster 1,
Cluster 2 e Cluster 3, que agrupa os indivduos com valores semelhantes nas trs Componentes36
35
36
68
Valid
Missing
Total
Cluster 1
Cluster 2
Cluster 3
Total
System
Frequency
480
624
226
1330
181
1511
Percent
Valid Percent
31.8
36.1
41.3
46.9
15.0
17.0
88.0
100.0
12.0
100.0
Cumulative
Percent
36.1
83.0
100.0
1.00
(Mdias)
0.50
0.00
-0.50
-1.00
Cluster 1
Cluster 2
Cluster 3
-1.50
Interpretao:
Cluster 1: d importncia abaixo da mdia aos recursos profissionais e econmicos e s
caractersticas raciais e religiosas e acima da mdia s facilidades de integrao;
Cluster 2: d importncia acima da mdia aos recursos profissionais e econmicos e s
caractersticas raciais e religiosas e mdia s facilidades de integrao;
Cluster 3: d importncia mdia aos recursos profissionais e econmicos e abaixo da
mdia s facilidades de integrao e s caractersticas raciais e religiosas.
69
Masculino
Feminino
Total
At 30 anos
31 - 50 anos
51 - 65 anos
Idade
> 65 anos
Total
At 9 anos
Anos de
10 - 12 anos
escolaridade
> 12 anos
concludos
Total
Esquerda
Autoposicionamento Centro
poltico
Direita
Total
Sexo
Cluster 1
N
%
211
44.0
269
56.0
480 100.0
148
30.8
179
37.3
88
18.3
65
13.5
480 100.0
272
56.7
100
20.8
108
22.5
480 100.0
111
27.3
211
52.0
84
20.7
406 100.0
Cluster 2
N
%
252
40.4
372
59.6
624 100.0
117
18.8
197
31.6
147
23.6
163
26.1
624 100.0
470
75.4
102
16.4
51
8.2
623 100.0
117
22.5
265
50.9
139
26.7
521 100.0
Cluster 3
N
%
106
46.9
120
53.1
226 100.0
51
22.6
93
41.2
44
19.5
38
16.8
226 100.0
150
66.4
39
17.3
37
16.4
226 100.0
47
27.6
89
52.4
34
20.0
170 100.0
Total
N
%
569
42.8
761
57.2
1330 100.0
316
23.8
469
35.3
279
21.0
266
20.0
1330 100.0
892
67.1
241
18.1
196
14.7
1329 100.0
275
25.1
565
51.5
257
23.4
1097 100.0
Masculino
Feminino
Total
At 30 anos
31 - 50 anos
51 - 65 anos
Idade
> 65 anos
Total
At 9 anos
Anos de
10 - 12 anos
escolaridade
> 12 anos
concludos
Total
Esquerda
Autoposicionamento Centro
poltico
Direita
Total
Sexo
Cluster 1
N
%
211
37.1
269
35.3
480
36.1
148
46.8
179
38.2
88
31.5
65
24.4
480
36.1
272
30.5
100
41.5
108
55.1
480
36.1
111
40.4
211
37.3
84
32.7
406
37.0
Cluster 2
N
%
252
44.3
372
48.9
624
46.9
117
37.0
197
42.0
147
52.7
163
61.3
624
46.9
470
52.7
102
42.3
51
26.0
623
46.9
117
42.5
265
46.9
139
54.1
521
47.5
Cluster 3
N
%
106
18.6
120
15.8
226
17.0
51
16.1
93
19.8
44
15.8
38
14.3
226
17.0
150
16.8
39
16.2
37
18.9
226
17.0
47
17.1
89
15.8
34
13.2
170
15.5
Total
N
%
569 100.0
761 100.0
1330 100.0
316 100.0
469 100.0
279 100.0
266 100.0
1330 100.0
892 100.0
241 100.0
196 100.0
1329 100.0
275 100.0
565 100.0
257 100.0
1097 100.0
70
Avaliao
71
ANEXO 1
72
74
ANEXO 2
Questionrio adaptado
http://www.europeansocialsurvey.org/
76
77
78
79