Manual Amostragem Introdução SPSS

Manual de Amostragem e de
Introduo ao SPSS
Manual Amostragem e de Introduo ao SPSS
Ficha Tcnica
Autor:
-----------Resumo biogrfico:
-----------Ttulo do manual:
Manual de Amostragem e de Introduo ao SPSS
Ms e Ano de elaborao:
Novembro de 2008
ndice
Pg.
Estruturao dos captulos
Introduo
Captulo 1 Amostragem
Objectivos
Palavras-chave
Contedo temtico
1.1. Noes de amostragem
1.2. Mtodos de amostragem
10
1.3. Seleco das unidades amostrais
11
1.4. Margens de erro e intervalos de confiana
12
Avaliao
15
Bibliografia
15
Captulo 2 Introduo ao SPSS
16
Objectivos
16
Palavras-chave
16
Contedo temtico
2.1. Editor de dados do SPSS
17
2.2. Output do SPSS
18
2.3. Menus SPSS
19
2.4. Criao de bases de dados
22
2.5. Tratamento Preliminar de dados
22
2.5.1. Transformao algbrica de variveis
23
2.5.2. Transformao lgica de variveis
28
2.5.3. Inverso da escala de uma varivel
29
2.5.4. Variveis de contagem de ocorrncias
30
2.6. Seleco de casos
31
Avaliao
35
Referncias
36
Pg.
Captulo 3 Estatstica aplicada com SPSS
37
Objectivos
37
Palavras-chave
37
Contedo temtico
3.1. Anlise de dados univariada
38
3.1.1. Frequncias
38
3.1.2. Estatsticas descritivas e grficos de perfil
41
3.1.3. Testes de aderncia (para 1 amostra)
44
3.1.3.1. (Qui-quadrado)
44
3.1.3.2. Kolmogorov-Smirnov
45
3.1.3.3 Teste t de Student
46
3.2. Anlise de dados bivariada
47
3.2.1. Cruzamentos e teste de independncia (Qui-quadrado)
47
3.2.2. Testes no paramtricos procedimento Non Parametric Tests
50
3.2.2.1. Duas amostras independentes (Mann-Whitney e Kolmogorov-Smirnov)
50
3.2.2.2. K amostras independentes (Kruskal-Wallis)
52
3.2.3. Testes no paramtricos procedimento Compare Means
54
3.2.3.1. Duas amostras emparelhadas (t de Student amostras emparelhadas)
54
3.2.3.2. Duas amostras independentes (t de Student de independncia)
55
3.2.3.3. k amostras independentes (Anlise de Varincia Simples Paramtrica ANOVA)
56
3.2.4. Correlao linear simples

3.3. Modelos de previso
59
61
3.3.1. Anlise de Regresso Simples
61
3.3.2. Anlise de Regresso Mltipla
63
3.4. Anlise de dados multivariada
66
3.4.1. Anlise das Componentes Principais
66
3.4.2. Anlise de Clusters
71
3.4.2.1. Anlise hierrquica de Clusters
72
3.4.2.2. Anlise no hierrquica de Clusters mtodo de optimizao (K-Means)
76
3.4.3. Articulao entre a Anlise das Componentes Principais r a Anlise de

Clusters
76
Avaliao
79
Bibliografia
79
Anexo 1: Testes de inferncia estatstica mais utilizados em Anlise bivariada
80
Anexo 2: European Social Survey (round 1 - 2002) - Questionrio adaptado
83
Estruturao dos captulos

Em cada captulo ou contedo temtico, o(a) aluno(a) visualizar uma estrutura que apresentar
as seguintes subdivises, a saber:
Objectivo(s) especfico(s), no qual cada participante conhecer a proposta
de aprendizagem a ser alcanada no final dessa mesma (sub)temtica e que
servir de referncia para a auto-avaliao;
Objectivos
Palavras-chave, que pela sua relevncia para a temtica e como realce da

ateno do(a) aluno(a) para determinada designao ou conceito, que ter a
sua definio e explicitao, no final do captulo, no espao reservado em
Glossrio.
Palavras
Contedo programtico, onde se procurar desenvolver, de modo claro,

objectivo e com rigor tcnico, a (sub)temtica em apreo, referenciando-se
os elementos de substncia, julgados mais significativos e de interesse para
a aprendizagem do(a) aluno(a).
Contedo
Avaliao. Neste espao ser indicada a forma de avaliao do captulo e

includa a respectiva ficha de exerccio.
Avaliao
Referncias. Nesta subdiviso poder-se- encontrar uma lista de elementos

bibliogrficos referentes: s citaes efectuadas ao longo do texto; s obras
consultadas pelo autor, i. , livros, artigos, monografias, trabalhos
acadmicos, endereos electrnicos, etc., que podero ajudar no trabalho
de pesquisa ou de aprofundamento de saberes de cada aluno(a).
Referncias
Introduo
O Manual de Amostragem e Introduo ao SPSS tem como objectivo principal orientar os alunos
na utilizao do SPSS, constituindo-se simultaneamente como um guio da matria leccionada e
de uma ficha tcnica para realizao dos exerccios propostos no mbito do da cadeira de
Informtica Aplicada.
Pretende-se, deste modo, disponibilizar aos alunos um guio que lhes permita acompanhar a
sequncia dos pontos do programa e as respectivas aulas. Nesse sentido, este manual no
dispensa a necessidade de se tirar apontamentos nas aulas, nem a leitura e consulta de outra
bibliografia, que permitir o aprofundamento dos temas, na medida em que aqui se situam
apenas os principais tpicos e as balizas das matrias abordadas.
Procurou-se por isso apresentar o contedo dos vrios pontos de uma forma clara, simples e
sinttica, de maneira a que o essencial seja captado neste manual, podendo ser aprofundado a
partir das referncias indicadas.
De acordo com o programa, este manual divide-se em trs captulos, que esto obviamente
relacionados intimamente:
-
O primeiro pretende fornecer aos alunos elementos que lhes permitam construir uma
amostra representativa e proceder seleco aleatria das unidades amostrais.
O segundo tem como objectivo familiarizar os formandos com o SPSS, permitindo-lhes

criar, importar e manipular bases de dados, bem como proceder ao tratamento preliminar
dos dados, recodificar variveis e construir novas variveis a partir das variveis
originais.
O terceiro tem como objectivo dotar os formandos de competncias tcnicas e estatsticas

que lhes permitam proceder anlise de dados univariada, bivariada e multrivariada,
com SPSS.
Captulo
Captulo 1 Amostragem
No final deste captulo os alunos devero ser capazes de:

1. seleccionar os tipos de amostra mais adequados a cada contexto;
2. calcular a dimenso da amostra e a margem de erro;
3. seleccionar as unidades amostrais.
Objectivos
Palavras
Amostra
Erro amostral
Unidades amostrais
1.1. Noes de amostragem

Contedo
Em Estatstica1, amostra o conjunto de elementos extrados de um conjunto

maior, chamado Populao. um conjunto constitudo de indivduos (famlias ou outras
organizaes), acontecimentos ou outros objectos de estudo que o investigador pretende descrever
ou para os quais pretende generalizar as suas concluses ou resultados.
Principais razes para se trabalhar com uma amostra:
-
A populao infinita, ou considerada como tal, no podendo portanto ser analisada

na ntegra;
Custo excessivo do processo de recolha e tratamento dos dados, como resultado da
grande dimenso da populao ou da complexidade do processo de caracterizao de
todos os elementos da populao;
Tempo excessivo do processo de recolha e tratamento dos dados, conduzindo
obteno de informao desactualizada;
As populaes so dinmicas, de onde resulta que os elementos ou objectos da
populao esto em constante renovao, de onde resulta a impossibilidade de
analisar todos os elementos desta populao;
Se a constituio da amostra obedecer a determinadas condies, a anlise das caractersticas da

amostra pode servir para se fazerem inferncias sobre a populao.
Nota: A dimenso da amostra significativamente inferior dimenso da populao, de forma a
justificar a constituio da amostra. A amostragem , por sua vez, um conjunto de
procedimentos atravs dos quais se selecciona uma amostra de uma populao. Pode-se
dividir as tcnicas de amostragem em vrio tipos:
-
Amostragem probabilstica - procedimento em que todos os elementos da populao

tm uma probabilidade conhecida e superior a zero de integrar a amostra;
Amostragem no probabilstica:
Amostragem intencional - amostragem no probabilstica subordinada a objectivos
especficos do investigador;
Amostragem no intencional - amostragem no probabilstica regida por critrios de
convenincia e/ou de disponibilidade dos inquiridos.
Amostra (estatstica) . In Infopdia [Em linha]. Porto: Porto Editora, 2003-2008. [Consult. 2008-01-15]. Disponvel na www:
<URL: http://www.infopedia.pt/$amostra-(estatistica)>.
Questes pr
prvias ao processo de amostragem
de natureza quantitativa
1. Definio clara dos
objectivos do estudo
O que se pretende saber/conhecer

melhor/compreender
2. Quem dever ser

entrevistado
Populao alvo* e populao a

inquirir
3. Quantos devero ser

entrevistados
Dimenso da amostra
4. Como sero
seleccionados
Mtodo de seleco da amostra

(escolha das unidades amostrais)
*Designa-se por populao alvo a totalidade dos elementos sobre os quais se deseja obter determinado tipo
de informao
7
Representa
Representao de uma Amostra*
Universo Hipottico
(praticamente infinito)
Universo ou Populao, N
(finito)
Amostra, n
(unidades de observao)
Unidades que poderiam ser

observadas
Conjunto de unidades existentes s

quais se aplica a teoria
* in: Bravo, Sierra: Tcnicas de Investigacin Social, Madrid, Editorial Paraninfo, 1989
Desenvolvimento de um plano amostral*

Populao alvo
Populao a inquirir
Processo amostral
Dimenso da amostra
Mtodo de recolha
de dados
Amostra final
* in: Reis, Melo, Andrade e Calapez: Estatstica aplicada, vol. 2, Lisboa, Slabo, 1999
1.2. Mtodos amostrais
Mtodos de selec
seleco da amostra*
Mtodos probabilsticos
(amostragem casual)
Mtodos no
probabilsticos
(amostragem dirigida)
Amostragem aleatria simples

Amostragem sistemtica
Amostragem estratificada
Amostragem por clusters
Amostragem multi-etapas
Amostragem multifsica
Amostragem por convenincia
Amostragem intencional
Amostragem snowball
Amostragem sequencial
Amostragem por quotas
10
10
1.3. Seleco das unidades amostrais
Mtodos de selec
cont)*
seleco da amostra (cont)
Mtodos probabilsticos - amostragem aleatria
Aleatria simples
Cada elemento da populao tem a mesma probabilidade de ser

seleccionado
Casual
sistemtica
Clculo do rcio K=N/n; seleco aleatria do primeiro elemento

da populao e sequencial dos restantes
Estratificada
Clusters
Separao dos elementos da populao em estratos e seleco

aleatria dos elementos dentro de cada estrato
A populao encontra-se dividida em clusters que so
seleccionados aleatoriamente, constituindo as unidades amostrais
Multi-etapas
Idntico ao anterior mas em que as unidades amostrais so

seleccionadas aleatoriamente dentro de cada cluster
Multi-fsica
Numa 1 fase recolhem-se dados sobre determinadas

caractersticas dos respondentes (comportamentos e frequncia de
consumos, variveis demogrficas, etc.) e da sua disponibilidade
para responder novamente a um inqurito. ento retirada desta
fase uma sub-amostra que ser inquirida na 2 fase.
11
Amostra estratificada*
Amostra (10% da populao)
Universo
rea
Centro
Sul
Outros
(Braga e
Porto)
Norte
(Coimbra,
Aveiro e
Leiria)
(Lisboa,
Setbal e
Santarm)
(Restantes
distritos)
Total
Produto A
180
160
310
200
850
Produto B
150
70
230
50
500
Produto C
1260
550
700
190
2700
Sector
Produto D
1070
610
600
170
2450
Total
2 660
1390
1840
610
6500
(Braga e
Porto)
Norte
(Coimbra,
Aveiro e
Leiria)
(Lisboa,
Setbal e
Santarm)
(Restantes
distritos)
Total
18
16
31
20
85
rea
Sector
Produto A
Centro
Sul
Outros
Produto B
15
23
50
Produto C
126
55
70
19
270
Produto D
107
61
60
17
245
Total
266
139
184
61
650
* Adaptado de: Reis, Melo, Andrade e Calapez: Estatstica aplicada, vol. 2, Lisboa, Slabo, 1999
12
11
Mtodos de selec
cont)*
seleco da amostra (cont)
Mtodos no probabilsticos - amostragem dirigida
Amostragem por A amostra seleccionada em funo da disponibilidade e
acessibilidade dos elementos que constituem a populao alvo
convenincia
Amostragem
intencional
A escolha dos elementos a incluir na amostra baseia-se na opinio

de uma ou mais pessoas que conhecem muito bem as
caractersticas especficas da populao em estudo, que se
pretende analisar
Amostragem
snowball
Numa 1 fase os inquiridos so escolhidos aleatoriamente, sendo,

numa segunda fase, os inquiridos adicionais escolhidos com base
na informao dos primeiros
Amostragem
sequencial
Semelhante ao mtodo multi-fsico. A realizao da fase seguinte

s decidida depois de analisados os resultados da fase anterior.
Amostragem por
quotas
Equivalente amostragem aleatria estratificada. As propores

dos vrios sub-grupos reflectem a sua distribuio dentro da
populao. Cada entrevistador dispe das caractersticas que os
entrevistados devero satisfazer, terminando as entrevistas
quando as quotas estiverem preenchidas.
13
1.4. Erro amostral

Determina
Determinao da margem de erro em fun
funo do n
n de elementos*
in: Bravo, Sierra: Tcnicas de Investigacin Social, Madrid, Editorial Paraninfo, 1989
14
12
Determinao n de elementos em funo da margem de erro *
15
Determinao n de elementos em funo da margem de erro e da

dimenso da populao *
16
13
A avaliao deste captulo consiste num exerccio escrito, de resposta s

seguintes questes
Avaliao
Exerccio de avaliao:
1) Depois de se identificar os dados que devero ser recolhidos e o instrumento (questionrio
estruturado, por exemplo) a utilizar para essa recolha, o passo seguinte consiste em definir um
processo de amostragem adequado ao tipo de dados e ao instrumento de anlise2
Diga, sucintamente em que consistem os seguintes mtodos de mostragem:
- Amostra aleatria simples;
- Amostra Estratificada;
- Amostra por quotas.
2) O problema da Inferncia Indutiva , do ponto de vista da Estatstica, encarado da seguinte
forma: a finalidade da investigao descobrir algo sobre determinada populao ou universo.3
Comente a frase e diga quais os procedimentos para seleccionar as unidades amostrais (sujeitos)
numa amostra estratificada.
L
Referncias
2
3
Bravo, R. S. (1988), Tcnicas de investigacin social, 5 ed.

corregida e ampliada, Madrid, Paraninfo (Seco 1).
Reis, E., P. Melo; R. Andrade e T. Calapez (1999) Estatstica
Aplicada volume 2, Lisboa, Slabo, 3 edio revista.
Vicente, P.; E. Reis; F. Ferro (2002), Sondagens-A amostragem
como factor decisivo de qualidade, Lisboa, Edies Slabo.
Reis, E., P. Melo; R. Andrade e T. Calapez (1999) Estatstica Aplicada volume 2, Lisboa, Slabo, 3 edio revista.
Idem.
14
Captulo
Captulo 2 Introduo ao SPSS
O objectivo geral deste captulo o de familiarizar os alunos com o SPSS,

nomeadamente no que se refere:
Objectivos
Janelas e menus;
Criao e manipulao de bases de dados;
Tratamento preliminar dos dados.
Varivel
Nvel de medida
Palavras
15
2.1. Editor de dados do SPSS
O package estatstico SPSS para Windows um poderoso sistema de anlises

estatsticas e manuseamento de dados, em que a utilizao mais frequente, para a
maioria das anlises a efectuar, se resume seleco das respectivas opes em
menus e caixas de dilogo
Contedo
O editor de dados do SPSS (Data Editor) composto por duas janelas

sobrepostas: Data View e Variable View. A funo da primeira Data View a de introduzir os
dados e da segunda - Variable View criar a estrutura da base de dados.
Muda-se de uma para outra clicando no respectivo separador.
O Data Editor do SPSS um programa do tipo de folha de clculo que permite facilmente criar ou
editar ficheiros de dados. Abre automaticamente quando se entra no SPSS.
O seu aspecto o seguinte:
Janela Data View:
16
Janela Variable View:
2.2. Output do SPSS (Output Viewer)

nesta janela que so apresentados todos os resultados estatsticos. Abre automaticamente sempre
que um determinado procedimento gera resultados. possvel editar as tabelas e grficos
produzidos, clicando duas vezes com a tecla esquerda do rato e modificar a sua aparncia.
Janela Output Viewer:
17
2.3. Menus do SPSS

Os menus das janelas principais Data Editor e Outpur Viewer - so idnticos e tm o seguinte
aspecto visual:
Principais funcionalidades dos menus
File
Criar, abrir, ler, exportar, gravar e imprimir

ficheiros.
Edit
Configurao/parametrizao do SPSS
(Options), inserir novas variveis e novos casos.
18
View
Activar/desactivar barras de comandos, fontes,

grelha, barra de status e mostrar etiquetas
(labels) definidas.
Data
Alterao global dos dados;

Ordenar a base;
Juntar ficheiros (Merge Files);
Dividir a anlise por grupos (Split File);
Criar subconjuntos de casos para anlise (Select
Cases);
Activar ponderadores (Weight Cases).
Transform
Criar novas variveis com base nas variveis

originais;
Recodificar variveis.
19
Analyse
Procedimentos de anlise estatstica.
Graphs
Criar grficos.
Utilities
Informao sobre as variveis.
Window
Comuta entre janelas;

Minimizar janelas
Help
Ajuda em linha;
Tutorial.
20
2.4. Criao de bases de dados

As bases de dados so criadas na janela Variable View, devendo a estrutura das variveis obedecer
s seguintes regras:
- Mximo 64 caracteres (verses anteriores 13, apenas 8);

- Deve comear por uma letra; os restantes caracteres podem ser letras
(maisculas ou minsculas so iguais), algarismos, ou os smbolos @, #, _, $.
- No se podem usar espaos em branco, nem os seguintes caracteres: !, ?, , , *,
Name
+, -, %, vrgula, ponto e vrgula, \, /, >, <
- Evitar terminar o nome com o caracter _ (underscore);
- Evitar usar caracteres acentuados ou com til.
Por defeito numrico, pode alterar-se para outro tipo, por exemplo carcter
Type
(string), data, etc
N de caracteres do campo. Por defeito, 8. Pode ser aumentado no caso das
Width
variveis string, at 255.
Decimals Define o nmero da casas decimais.
Etiquetas dos nomes (name) das variveis. Admite o mximo de 128 caraecteres.
Label
Etiquetas dos valores (cdigos) das variveis nominais ou ordinais.
Values
Define os cdigos das respostas no vlidas (no sabe, no responde, no tem que
Missing
responder) que sero excludas da anlise.
Columns Largura da coluna de introduo de dados. Por defeito, 8.
Permite alinhar os dados esquerda, centro ou direita.
Align
Measures Define o nvel de medida das variveis: nominal, ordinal ou scale.
A introduo dos dados processa-se na janela Variable View aps ter sido criada a estrutura da
base.
2.5. Tratamento Preliminar de dados

Nota: A base de dados que vamos utilizar um extracto da base de dados do European Social
Survey (round 1)4 com os resultados da aplicao do questionrio em Portugal (ficheiro
ESS-Portugal 2002 (base1).sav).
2.5.1. Transformao algbrica de variveis
Exemplo 1: Recodificao de variveis

Pretende-se criar duas novas variveis: a varivel idade a partir da varivel f3 (data de
nascimento) e recodific-la, criando uma nova varivel - idade2 - com 4 escales: at 30 anos; 31
50 anos; 50 65 anos e > 65 anos.
a) Criao da varivel idade:
A base de dados original est disponvel em http://www.europeansocialsurvey.org/.
21
A varivel idade acrescentou-se base de dados. Vamos agora proceder sua recodificao,
criando uma nova varivel idade2 com 4 escales5:
A varivel idade2 acrescentar-se- base e dever ser completada com a alterao do nvel de
medida (scale para ordinal) e a definio dos respectivos value labels.
O resultado ser o seguinte:
Idade
Valid
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total
Frequency
341
505
315
350
1511
Percent
22.6
33.4
20.8
23.2
100.0
Valid Percent
22.6
33.4
20.8
23.2
100.0
Cumulative
Percent
22.6
56.0
76.8
100.0
Nota: na recodificao de variveis recomendvel manter as variveis originais e criar novas variveis recodificadas,
escolhendo para o efeito a opo Into diferent variable.
22
b) Recodificao da varivel escolaridade:

Pretende-se recodificar a varivel escolaridade (f7) criando uma nova varivel (escol) com 3
escales: at 9 anos; 10 12 anos e > 12 anos.
A varivel escol acrescentar-se- base e dever ser completada com a alterao do nvel de
Escolaridade
Valid
At 9 anos
10 - 12 anos
> 12 anos
NR
Total
Frequency
1046
251
212
2
1511
Percent
Valid Percent
69.2
69.2
16.6
16.6
14.0
14.0
.1
.1
100.0
100.0
Cumulative
Percent
69.2
85.8
99.9
100.0
23
c) Recodificao da varivel autoposicionamento poltico:

Pretende-se recodificar a varivel autoposicionamento poltico (b28) criando uma nova varivel
(b28r) com 3 escales: esquerda; centro e direita.
A varivel b28r acrescentar-se- base e dever ser completada com a alterao do nvel de
Autoposicionamento poltico
Valid
Missing
Total
Esquerda
Centro
Direita
Total
System
Frequency
296
620
294
1211
304
1515
Percent
Valid Percent
19.6
24.5
41.0
51.2
19.4
24.3
79.9
100.0
20.1
100.0
Cumulative
Percent
24.5
75.7
100.0
24
Exemplo 2: criao de ndices sintticos

Pretende-se criar dois ndices sintticos: Confiana social (variveis a8, a9 e a10) e Confiana
institucional (variveis b7, b8, b9 e b10).
As 2 variveis acrescentaram-se base6:
Os resultados so os seguintes:
Descriptive Statistics
ndice sinttico de Confiana social
ndice sinttico de Confiana institucional
Valid N (listwise)
N
1480
1338
1319
Minimum
.0
.0
Maximum
10.0
9.3
Mean
Std. Deviation
4.316
1.7469
4.097
1.7603
Nota: tratando-se de variveis rcio, devero ter casas decimais (1 ou 2).
25
2.5.2. Transformao lgica de variveis

Exemplo: pretende-se criar uma varivel - sexid - atravs da transformao lgica das variveis f2
e idade2, com 4 categorias: homens at 30 anos, homens com mais de 30 anos,
mulheres at 30 anos e mulheres com mais de 30 anos.
Nota: repetir o comando para as restantes categorias, cujas expresses numricas so as seguintes:
Categoria 2: f2 = 1 & idade2 > 2
Categoria 3: f2 = 2 & idade2 = 3
Categoria 4: f2 = 2 & idade2 > 4
A varivel sexid acrescentar-se- base e dever ser completada com a alterao do nvel de
medida (scale para ordinal) e a definio dos respectivos label e value labels.
O resultado o seguinte:
Sexo e Idade
Valid
Homens at 30 anos
Homens com mais de 30 anos
Mulheres at 30 anos
Mulheres com mais de 30 anos
Total
Frequency
158
472
183
698
1511
Percent
Valid Percent
10.5
10.5
31.2
31.2
12.1
12.1
46.2
46.2
100.0
100.0
Cumulative
Percent
10.5
41.7
53.8
100.0
26
2.5.3. Inverso da escala de uma varivel

Exemplo: pretende-se criar uma nova varivel (ib1) com a inverso da escala da varivel interesse
pela poltica (b1) de modo a que 1 corresponda a nenhum interesse e 4 a muito
interesse:
b1
Qual o seu interesse pela poltica
Valid
Missing
Muito interesse
Algum interesse
Pouco interesse
Nenhum interesse
Total
Recusa
No sabe
Total
Total
Frequency
117
456
441
489
1503
6
2
8
1511
Percent
7.7
30.2
29.2
32.4
99.5
.4
.1
.5
100.0
Valid Percent
7.8
30.3
29.3
32.5
100.0
Cumulative
Percent
7.8
38.1
67.5
100.0
ib1
Valid
Missing
Total
Nenhum interesse
Pouco interesse
Algum interesse
Muito interesse
Total
No sabe
Recusa
Total
Frequency
489
441
456
117
1503
2
6
8
1511
Percent
32.4
29.2
30.2
7.7
99.5
.1
.4
.5
100.0
Valid Percent
32.5
29.3
30.3
7.8
100.0
Cumulative
Percent
32.5
61.9
92.2
100.0
27
2.5.4. Variveis de contagem de ocorrncias

Exemplo: pretende-se criar uma varivel partciv que traduza o ndice de participao cvica,
que integre (conte) apenas os inquiridos que responderam sim (1) s questes b15 a
b24.
A varivel partciv acrescentar-se- base.

ndice sinttico de Participao cvica
Valid
0
1
2
3
4
5
6
7
9
10
Total
Frequency
1174
145
85
39
30
16
9
11
1
1
1511
Percent
Valid Percent
77.7
77.7
9.6
9.6
5.6
5.6
2.6
2.6
2.0
2.0
1.1
1.1
.6
.6
.7
.7
.1
.1
.1
.1
100.0
100.0
Cumulative
Percent
77.7
87.3
92.9
95.5
97.5
98.5
99.1
99.9
99.9
100.0
A interpretao a seguinte: 77,7% (1174) inquiridos no assinalaram nenhum indicador, 9,6%

(145) assinalaram apenas 1, 5,6% (85) assinalaram 2, etc.
28
2.6. Seleco de casos

Exemplo 1: seleco de uma sub-amostra
Pretende-se seleccionar (filtrar) apenas os inquiridos da regio de Lisboa e Vale do Tejo
(regiao=3).
Na base de dados (Data View) os registos no seleccionados (filtrados) aparecem tracejados,

mantendo-se assim at que se anule a seleco (filtro). A barra de status informa que a base est
filtrada:
Nota muito importante: no esquecer de desactivar o filtro quando no for necessrio:
29
Exemplo 2: Seleco de uma amostra aleatria simples

Pretende-se seleccionar uma amostra de 5% dos casos, aproximadamente:
Na base de dados (Data View) os registos no seleccionados (filtrados) aparecem tracejados,

mantendo-se assim at que se anule a seleco (filtro). A barra de status informa que a base est
filtrada:
Nota muito importante: no esquecer de desactivar o filtro quando no for necessrio:
Exemplo 3: Separar a anlise por grupos
Pretende-se separar a anlise pelas 4 categorias (sub-amostras) da varivel sexid (sexo e idade).
possvel obter os resultados na mesma tabela, seleccionando a opo Compare groups ou em
tabelas diferentes, com a opo Output by groups:
No primeiro caso, os resultados so os seguintes:

Sexo e Idade
Homens at 30 anos
Homens com mais

de 30 anos
Mulheres at 30
anos
Mulheres com mais

de 30 anos

Valid N (listwise)
Valid N (listwise)
Valid N (listwise)
Valid N (listwise)
N
156
147
145
456
440
430
182
168
Minimum
1.0
.0
Maximum
9.0
8.5
Mean
4.859
4.248
Std. Deviation
1.4670
1.7428
.0
.0
10.0
9.3
4.259
4.066
1.8100
1.8441
.0
.0
9.3
8.0
4.604
4.116
1.6277
1.6234
.0
.0
10.0
9.3
4.153
4.075
1.7629
1.7401
167
686
583
577
30
No segundo caso seriam produzidas 4 tabelas, uma por cada categoria da varivel colocada em
split:
Descriptive Statisticsa
N
ndice sinttico de
Confiana social
ndice sinttico de
Confiana institucional
Valid N (listwise)
Minimum
Maximum
Mean
Std. Deviation
156
1.0
9.0
4.859
1.4670
147
.0
8.5
4.248
1.7428
145
a. Sexo e Idade = Homens at 30 anos
N
ndice sinttico de
Confiana social
ndice sinttico de
Valid N (listwise)
Minimum
Maximum
Mean
Std. Deviation
456
.0
10.0
4.259
1.8100
440
.0
9.3
4.066
1.8441
430
a. Sexo e Idade = Homens com mais de 30 anos

N
ndice sinttico de
Confiana social
ndice sinttico de
Valid N (listwise)
Minimum
Maximum
Mean
Std. Deviation
182
.0
9.3
4.604
1.6277
168
.0
8.0
4.116
1.6234
167
a. Sexo e Idade = Mulheres at 30 anos

N
ndice sinttico de
Confiana social
ndice sinttico de
Valid N (listwise)
Minimum
Maximum
Mean
Std. Deviation
686
.0
10.0
4.153
1.7629
583
.0
9.3
4.075
1.7401
577
a. Sexo e Idade = Mulheres com mais de 30 anos
31
Avaliao deste mdulo consiste em criar uma base de dados para o excerto do
seguinte questionrio:
Avaliao
Pereira, A. (1999), SPSS-Guia Prtico de Utilizao, Anlise de

Dados para Cincias Sociais e Psicologia, Lisboa, Edies Slabo, 6
Referncias
edio revista e corrigida.
- Vinacua, B. V. (2002), Anlisis Estadstico con SPSS para Windows. Volumen I.
Estadstica bsica, Madrid, McGraw-Hill, 2 edicin.
32
Captulo
Captulo 3 Estatstica aplicada com SPSS
O objectivo geral deste captulo o de proceder anlise estatstica de dados, nomeadamente:

o Anlise univariada frequncias e distribuies;
o Anlise bivariada Cruzamentos, testes de hipteses e inferncia
estatstica;
o Anlise multivariada:
Previso - Regresso linear simples e mltipla;
Detectar dimenses latentes - Anlise das componentes
principais;
Segmentao: Anlise de Clusters
Objectivos
Palavras

Contedo
Frequncias
Cruzamentos
Testes de hipteses
Inferncia estatstica
Margem de erro
Intervalo de confiana
Significncia estatstica
3.1. Anlise de dados univariada

3.1. 1. Frequncias
a) Utilizando o comando Frequencies7
Variveis de caracterizao social:
Nota: as tabelas geradas pelo procedimento Frequencies so em formato rascunho destinando-se apenas ao
controlo e validao da base de dados, com o objectivo de eliminar erros de introduo de dados.
33
Sexo
Valid
Masculino
Feminino
Total
Frequency
630
881
1511
Percent
41.7
58.3
100.0
Valid Percent
41.7
58.3
100.0
Cumulative
Percent
41.7
100.0
Idade
Valid
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total
Frequency
341
505
315
350
1511
Percent
22.6
33.4
20.8
23.2
100.0
Valid Percent
22.6
33.4
20.8
23.2
100.0
Cumulative
Percent
22.6
56.0
76.8
100.0
Anos de escolaridade concludos
Valid
Missing
Total
At 9 anos
10 - 12 anos
> 12 anos
Total
NR
Frequency
1046
251
212
1509
2
1511
Percent
69.2
16.6
14.0
99.9
.1
100.0
Valid Percent
69.3
16.6
14.0
100.0
Cumulative
Percent
69.3
86.0
100.0
b) Utilizando o comando Tables
34
Os resultados so os seguintes8:
N
Sexo
Idade
Anos de
escolaridade
concludos
Masculino
Feminino
Total
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total
At 9 anos
10 - 12 anos
> 12 anos
NR
Total
630
881
1511
341
505
315
350
1511
1046
251
212
2
1511
%
41.7
58.3
100.0
22.6
33.4
20.8
23.2
100.0
69.2
16.6
14.0
.1
100.0
c) Quadro de frequncias (%) dos indicadores das questes d18 a d24
Nota: o quadro foi modificado no respectivo editor, a que se acede clicando duas vezes sobre o mesmo.
35
As pessoas que vm viver e trabalhar para c fazem

com que os salrios baixem
As pessoas que vm viver e trabalhar para c, em
regra, prejudicam mais as expectativas econmicas
dos pobres do que dos ricos
As pessoas que vm viver e trabalhar para c
ajudam a preencher lugares em que h falta de
trabalhadores
Se as pessoas que vieram viver e trabalhar para c
estiverem desempregadas por muito tempo deviam
ser obrigadas a ir embora
As pessoas que vieram viver para c devem ter os
mesmos direitos do que todas as outras pessoas
As pessoas que vieram viver para c cometerem um
crime grave, devem ser obrigadas a ir embora
As pessoas que vieram viver para c cometerem
qualquer crime, devem ser obrigadas a ir embora
Nem
concorda
Concorda
totalmente
Concorda
11.7
41.3
15.1
25.4
6.5
100.0
14.1
46.1
19.4
16.2
4.3
100.0
13.7
53.7
16.7
12.3
3.6
100.0
14.3
42.3
22.1
16.2
5.2
100.0
25.9
54.0
12.5
6.0
1.6
100.0
43.3
40.1
9.3
6.2
1.0
100.0
26.6
38.5
19.0
13.2
2.7
100.0
Discorda
Discorda
totalmente
Total
36
3.1. 2. Estatsticas descritivas e grfico de perfil

Nota muito importante: A anlise estatstica, excepto nos quadros de frequncias,
deve incidir apenas nas respostas vlidas. Assim, antes de efectuar qualquer anlise
estatstica, torna-se necessrio definir e activar os respectivos missing values (no
responde/no sabe/no se aplica) na coluna missing da base de dados.
a) Utilizando o comando Descriptives9
Indicadores das questes d10 a d17:
Ter qualificaes profissionais de que o pas precisa
Querer adaptar-se ao mesmo modo de vida do pas
Ser rico
Ter familiares prximos a viver c
Ter boas qualificaes acadmicas
Saber falar a lngua oficial do pas
Ter formao crist
Ser branco
Valid N (listwise)
N
1448
1449
1447
1454
1416
1466
1440
1451
1330
Minimum
0
0
0
0
0
0
0
0
Maximum
10
10
10
10
10
10
10
10
Mean
Std. Deviation
7.46
2.241
7.11
2.442
6.81
2.807
6.48
2.425
6.06
2.536
6.05
2.633
3.79
2.971
2.85
2.874
Nota: as tabelas geradas pelo procedimento Descriptives so em formato rascunho destinando-se apenas ao
controlo e validao da base de dados, com o objectivo de eliminar erros de introduo de dados.
37
Mdia
Ter formao crist
Ser branco
Ser rico
6.1
6.5
6.1
3.8
2.8
6.8
7.5
7.1
Desvio-padro
2.5
2.4
2.6
3.0
2.9
2.8
2.2
2.4
38
c)
Grfico de perfil10:
7.1
7.5
6.8
Ser rico
2.8
Ser branco
3.8
Ter formao crist
6.1
6.5
6.1
0.0
1.0
Nenhuma importncia
10
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
Muita importncia
Para obter um grfico interactivo de linhas, o procedimento o seguinte: Graph/Interactive/Line, seleccionam-se

todas as variveis em simultneo pressionando a tecla Ctrl e arrastam-se para horizontal.
O grfico do exemplo foi editado e transformado, tendo-se alterado a escala para o formato real e a cor da linha e
acrescentado as etiquetas (valores e mnimo e mximo), a grelha e a linha de referncia.
39
3.1.3. Testes de aderncia (para 1 amostra)

3.1.3.1. 2 (Qui-quadrado)
Exemplo 1: Pretende-se testar se a classe social (classe2) tem uma distribuio uniforme11 no
universo.
Como a varivel nominal, o procedimento consiste em realizar o teste de aderncia
do 2 (All categories equal):
Classes sociais (ACM) prprio
Observed N Expected N
Empresrios, dirigentes
e profissionais liberais
Profissionais tcnicos e
de enquadramento
Trabalhadores
independentes
Empregados executantes
Operrios
Total
Residual
175
256.6
-81.6
191
256.6
-65.6
81
256.6
-175.6
413
423
1283
256.6
256.6
156.4
166.4
Test Statistics
Chi-Squarea
df
Asymp. Sig.
Classes
sociais (ACM)
prprio
366.123
4
.000
a. 0 cells (.0%) have expected frequencies less than

5. The minimum expected cell frequency is 256.6.
Interpretao: A varivel classe social no segue uma distribuio uniforme no universo

(2(4)=366,123; p=0,000).
11
Testando se as frequncias observadas so iguais s frequncias esperadas.
40
3.1.3.2. Kolmogorov-Smirnov
Exemplo: Pretende-se testar se o interesse pela poltica (ib1) segue uma distribuio normal ou
uniforme no universo.
Como a varivel ordinal, o procedimento consiste em realizar o teste de aderncia
de Kolmogorov-Smirnov para as duas distribuies:
One-Sample Kolmogorov-Smirnov Test
N
Normal Parameters a,b
Most Extreme
Differences
Mean
Std. Deviation
Absolute
Positive
Negative
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
a. Test distribution is Normal.
b. Calculated from data.
Qual o seu
interesse
pela poltica
1503
2.13
.961
.206
.206
-.198
8.001
.000
One-Sample Kolmogorov-Smirnov Test 2
N
Uniform Parameters a,b
Most Extreme
Differences
Minimum
Maximum
Absolute
Positive
Negative
Qual o seu
interesse
pela poltica
1503
1
4
.325
.325
-.078
12.613
.000
a. Test distribution is Uniform.

b. Calculated from data.
Interpretao: A varivel interesse pela poltica no segue uma distribuio normal

(K-S=8,001; p=0,000) nem uniforme (K-S=12,613; p=0,000) no universo.
41
3.1.3.3 Teste t de Student

Exemplo: Pretende-se testar se a confiana social adere mdia que corresponde ao centro da
escala (5)12 dos indicadores que compem a varivel (confsoc).
Como a varivel quantitativa, o procedimento consiste em realizar o teste t de
aderncia (One-Sample T-Test), comparando se a mdia observada difere
significativamente de 5:
One-Sample Statistics
N
ndice sinttico de
Confiana social
Mean
1480
Std. Deviation
Std. Error
Mean
1.7469
.0454
4.316
One-Sample Test
Test Value = 5
t
ndice sinttico de
Confiana social
-15.073
df
1479
Sig. (2-tailed)
Mean
Difference
.000
-.684
95% Confidence
Interval of the Difference
Lower
Upper
-.774
-.595
Interpretao: A mdia observada 4,3, diferindo significativamente da mdia de referncia

(t(1479)= -15,073; p=0,000).
12
A escala de medida dos indicadores de confiana social varia entre 0=nenhuma e 10=toda.
42
3.2. Anlise de dados bivariada
3.2.1. Cruzamentos e teste de independncia 2 (Qui-quadrado)

Exemplo 1: Pretende-se saber se h relao entre o sexo e o facto de ter comprado produtos por
razes de ordem poltica, tica ou ambiental.
O procedimento consiste em cruzar as variveis sexo (f2) e (b22) e solicitar o teste
de independncia do 2*.
a) Utilizando o comando Crosstabs
Sexo * Comprou produtos por razes de ordem poltica,
tica ou ambiental Crosstabulation
% within Sexo
Sexo
Comprou produtos por

razes de ordem
poltica, tica ou
ambiental
Sim
No
7.2%
92.8%
7.7%
92.3%
7.5%
92.5%
Masculino
Feminino
Total
Total
100.0%
100.0%
100.0%
Chi-Square Tests
Pearson Chi-Square
Continuity Correction
Likelihood Ratio
Fisher's Exact Test
Linear-by-Linear
Association
N of Valid Cases
Value
.121b
.062
.122
1
1
1
Asymp. Sig.
(2-sided)
.728
.804
.727
.728
df
Exact Sig.
(2-sided)
.766
.121
Exact Sig.
(1-sided)
.404
1495
a. Computed only for a 2x2 table

b. 0 cells (.0%) have expected count less than 5. The minimum expected count is
46.75.
Interpretao: As mulheres compram ligeiramente mais que os homens mas as diferenas no

so estatisticamente significativas (2 (1)=0,121; p>0,05).
*
Para a seleco dos testes estatsticos, ver o Anexo 1.
43
Sexo
Masculino
Feminino
Total
Comprou produtos por razes de

ordem poltica, tica ou ambiental
Sim
No
Total
7.2
92.8
100.0
7.7
92.3
100.0
7.5
92.5
100.0
Pearson Chi-Square Tests
Sexo
Chi-square
df
Sig.
Comprou
produtos por
razes de
ordem
poltica, tica
ou ambiental
.121
1
.728
Results are based on nonempty rows and

columns in each innermost subtable.
44
3.2.2. Testes no paramtricos (procedimento Non Parametric Tests)

3.2.2.1. Duas amostras independentes
(Mann-Whitney e Kolmogorov-Smirnov)
Exemplo 1: Pretende-se testar se h relao entre o sexo (f2) e o interesse pela poltica (ib1).
O procedimento consiste na realizao do teste no paramtrico para 2 amostras
independentes (Mann-Whitney)13.
Test Statisticsa
Ranks
Qual o seu interesse
pela poltica
Sexo
Masculino
Feminino
Total
N
628
875
1503
Mean Rank
815.82
706.19
Sum of Ranks
512336.00
617920.00
Qual o seu
interesse
pela poltica
Mann-Whitney U
234670.000
Wilcoxon W
617920.000
Z
-5.058
.000
a. Grouping Variable: Sexo
Interpretao: a mdia das ordenaes (Mean Rank) superior nos homens. Ou seja, os homens
referem que tm mais interesse pela poltica do que as mulheres. As diferenas so
estatisticamente significativas (M-W=234670; p=0,000).
13
Consultar o Anexo 1.
45
Exemplo 2: Pretende-se testar se h relao entre o sexo (f2) e o grau de escolaridade (escol).
O procedimento consiste na em fazer o cruzamento entre as 2 variveis e realizar do
teste no paramtrico para duas amostras independentes (Kolmogorov-Smirnov)14.
14
46
Anos de escolaridade concludos
10 - 12
At 9 anos
> 12 anos
Total
Masculino
67.9
18.9
13.2
100.0
Feminino
70.3
15.0
14.7
100.0
Total
69.3
16.6
14.0
100.0
Sexo
Test Statisticsa
Most Extreme
Differences
Absolute
Positive
Negative
Escolaridade
.025
.025
-.014
.476
.977
a. Grouping Variable: Sexo
Interpretao: Tanto no grau de escolaridade intermdio como no superior, verifica-se que h

mais homens do que mulheres, observando-se o inverso no grau de escolaridade mais baixo. No
entanto, as diferenas no so estatisticamente significativas (K-S=0,476; p>0,05).
3.2.2.2. K amostras independentes (Kruskal-Wallis)
Exemplo: Pretende-se testar se h relao entre a idade (idade2) e o interesse pela poltica (ib1).
O procedimento consiste na realizao do teste no paramtrico para k amostras
independentes (Kruskal-Wallis)15.
15
47
Idade
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total
Nenhum
interesse
27.4
28.0
30.7
45.8
32.5

Pouco
Algum
Muito
interesse
interesse
interesse
33.6
31.9
7.1
28.8
32.9
10.3
30.4
29.7
9.3
25.1
25.6
3.5
29.3
30.3
7.8
Total
100.0
100.0
100.0
100.0
100.0
Test Statisticsa,b
Ranks
Qual o seu interesse
pela poltica
Idade
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total
N
339
504
313
347
1503
Mean Rank
777.35
803.46
768.74
637.38
Qual o seu
interesse
pela poltica
Chi-Square
36.088
df
3
Asymp. Sig.
.000
a. Kruskal Wallis Test
b. Grouping Variable: Idade
Interpretao: A mdia das ordenaes (Mean Rank) mais elevada nos que tm entre 31 e 50 anos,
sendo este escalo, por conseguinte, que refere ter mais interesse pela poltica, enquanto os mais
velhos so os que revelam menos interesse. As diferenas so estatisticamente significativas (K-W
(3)=36,088; p=0,000).
48
3.2.3. Testes paramtricos (procedimento Compare Means)

3.2.3.1. Duas amostras emparelhadas (t de Student para amostras
emparelhadas)
Exemplo: Pretende-se testar se a mdia da confiana social (confsoc) idntica, ou no, mdia
da confiana institucional (confinst).
O procedimento consiste na realizao do teste paramtrico para duas amostras
emparelhadas (Paired-Samples T-Test)16.
Paired Samples Statistics
Mean
Pair 1
ndice sinttico de
Confiana social
ndice sinttico de
Std. Error
Mean
Std. Deviation
4.313
1319
1.7165
.0473
4.087
1319
1.7606
.0485
Paired Samples Correlations

N
Pair 1
ndice sinttico de
Confiana social &
ndice sinttico de
Correlation
1319
Sig.
.310
.000
Paired Samples Test

Paired Differences
Mean
Pair 1
ndice sinttico de
Confiana social ndice sinttico de
.225
Std. Deviation
Std. Error
Mean
2.0428
.0562
95%
Confidence
Interval of the
Difference
Lower
Upper
.115
.336
t
4.009
df
1318
Sig. (2-tailed)
.000
Interpretao: A mdia da confiana social (4,313) ligeiramente superior mdia da confiana

institucional (4,087). A correlao entre as duas variveis mdia fraca (0,310) e estatisticamente
significativa (p=0,000), sendo igualmente estatisticamente significativa a diferena entre as duas
mdias (t (1318)=4,009; p=0,000).
16
49
3.2.3.2. Duas amostras independentes

(t de Student de independncia)
Exemplo: Pretende-se testar se h relao entre o sexo (f2) e a confiana social (confsoc).
O procedimento consiste na realizao do teste paramtrico para duas amostras
independentes (Independent-Samples T-Test)17.
Group Statistics
ndice sinttico de
Confiana social
Sexo
Masculino
Feminino
N
612
868
Mean
Std. Deviation
4.412
1.7476
4.248
1.7442
Std. Error
Mean
.0706
.0592
Independent Samples Test

Levene's Test
for Equality of
Variances
ndice sinttico de
Confiana social
Equal variances assumed

Equal variances not
assumed
F
.182
Sig.
.669
t-test for Equality of Means
t
1.781
1.780
df
Sig. (2-tailed)
1478
.075
1313.926
.075
Mean
Difference
.164
Std. Error
Difference
.0921
.164
.0922
95%
Confidence
Interval of the
Difference
Lower Upper
-.0167 .3448
-.0167
.3449
Interpretao: Os homens (4,412) revelam mais confiana social que as mulheres (4,248) 18 ,
embora a diferena no seja estatisticamente significativa, (t (1480)=1,808; p> 0,05).
17
18
O ndice de confiana social varia entre 0=nenhuma confiana e 10=toda a confiana.
50
3.2.3.3. k amostras independentes (Anlise de Varincia Simples Paramtrica ANOVA)
Exemplo: Pretende-se testar se h relao entre a idade (idade2) e a confiana social (confsoc).
O procedimento consiste na realizao da Anlise de Varincia Simples Paramtrica
(One-way Anova)19.
Descriptives
N
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total
338
497
312
333
1480
Mean
Std. Deviation
4.722
1.5585
4.058
1.6747
4.068
1.8340
4.519
1.8500
4.316
1.7469
Std. Error
.0848
.0751
.1038
.1014
.0454
95% Confidence Interval for

Mean
Lower Bound Upper Bound
4.555
4.889
3.911
4.206
3.864
4.273
4.319
4.718
4.226
4.405
Minimum
.0
.0
.0
.0
.0
Maximum
9.3
9.3
10.0
10.0
10.0
Test of Homogeneity of Variances

Levene
Statistic
4.050
df1
3
df2
1476
Sig.
.007
ANOVA
Between Groups
Within Groups
Total
19
Sum of
Squares
121.466
4391.954
4513.420
df
3
1476
1479
Mean Square
40.489
2.976
F
13.607
Sig.
.000
51
Interpretao: So os mais novos (4,722), seguidos dos mais velhos (4,519) que mais confiam.
Os escales intermdios 31-50 anos (4,058) e 51-65 anos ( (4,068) confiam um pouco menos. As
diferenas so estatisticamente significativas (F (3)=13,787; p=0,000).
Nota: sendo as diferenas estatisticamente significativas, importa saber quais os grupos que
diferem uns dos outros. Para o efeito realiza-se um teste posteriori (Post Hoc). O SPSS
disponibiliza vrios testes para este fim, sendo os mais utilizados, o teste de Scheffe20, no caso de
as varincias serem iguais, e o teste Games-Howell no caso de serem diferentes.
Neste caso, uma vez que se rejeita a hiptese de as varincias serem iguais (p=0,007), vamos
solicitar o teste Games-Howell:
Multiple Comparisons
Dependent Variable: ndice sinttico de Confiana social
Games-Howell
(I) Idade
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
(J) Idade
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Mean
Difference (I-J)
Std. Error
Sig.
95% Confidence Interval

.664*
.654*
.203
-.664*
.1133
.1340
.1321
.1133
.000
.000
.415
.000
.372
.308
-.137
-.955
.955
.999
.544
-.372
-.010
-.460*
-.654*
.010
.1282
.1262
.1340
.1282
1.000
.002
.000
1.000
-.340
-.785
-.999
-.320
.320
-.135
-.308
.340
-.450*
-.203
.460*
.450*
.1451
.1321
.1262
.1451
.011
.415
.002
.011
-.824
-.544
.135
.076
-.076
.137
.785
.824
*. The mean difference is significant at the .05 level.
20
Que tambm o mais conservador,
52
Interpretao: os grupos que diferem estatisticamente entre si esto assinalados com um *. O

quadro seguinte sintetiza as diferenas significativas entre os quatro escales etrios
At 30 anos
At 30 anos
31-50 anos
51-65 anos
> 65 anos
31-50 anos
X
51-65 anos
X
X
X
> 65 anos
X
X
3.2.4. Correlao linear simples

A correlao linear simples permite obter uma medida (coeficiente de correlao r de Pearson)
atravs da qual se determina a fora ou intensidade de uma associao linear entre duas ou mais
variveis quantitativas ou tratadas como tal (escalas tipo Likert).
O coeficiente de correlao varia entre 1 e 121 e deve ser interpretado da seguinte forma:
0: ausncia de correlao;
+/- ]0 0,25]: correlao muito fraca;
+/- ]0,25 0,40] correlao fraca;
+/- ]0,40 0,60] correlao mdia;
+/- ]0,60 0,75] correlao mdia forte;
+/- ]0,75 0,90] correlao forte;
+/- ]0,90 1[
correlao muito forte;
+/- 1
correlao perfeita
Exemplo: Correlao entre as variveis satisfao com a vida (b29), com a economia (b30), com o
Governo (b31), com a democracia (b32), com a educao (b33) e com os servios de
sade (b34):
21
O sinal significa uma correlao negativa e a ausncia de sinal uma correlao positiva.
53
Correlations
Satisfao
com a vida
em geral
Satisfao com a
vida em geral
Economia
Governo
Democracia
Educao
Servios de Sade
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
.339**
.000
1441
.280**
.000
1413
.348**
.000
1371
.205**
.000
1429
.195**
.000
1489
Economia
.578**
.000
1392
.403**
.000
1353
.361**
.000
1389
.396**
.000
1440
Governo
.507**
.000
1339
.289**
.000
1367
.340**
.000
1412
Democracia
.300**
.000
1338
.294**
.000
1370
Educao
Servios
de Sade
.537**
.000
1433
**. Correlation is significant at the 0.01 level (2-tailed).
Interpretao: as correlaes so positivas e significativas entre todas as variveis ; (p=0,000),

sendo a menor entre a satisfao com a vida e com a educao (0,209e a maior entre a satisfao
com o Governo e com a economia (0,577
54
3.3. Modelos de previso

3.3.1. Anlise de Regresso Simples
A regresso linear, como referem Bryman e Cramer, um poderoso instrumento para resumir a
natureza da associao entre variveis e para fazer previses acerca dos valores da varivel
dependente.22
Na regresso linear simples, o objectivo sintetizar a associao entre duas variveis
(independente e dependente), produzindo uma linha (recta de regresso) que se aproxime dos
dados recolhidos. Ou seja, prever Y (varivel dependente) a partir de X (varivel independente).
Exemplo: pretende-se saber em que medida que a confiana social (confsoc) varivel
independente explica a confiana institucional (confinst) varivel dependente.
O procedimento consiste na realizao da Anlise de regresso linear simples entre as
duas variveis:
22
Alan Bryman e Duncan Cramer, op.cit.: 212
55
Model Summary
Model
1
R
.310a
R Square
.096
Adjusted
R Square
.095
Std. Error of
the Estimate
1.6746
a. Predictors: (Constant), ndice sinttico de Confiana

social
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
392.354
3693.263
4085.617
df
1
1317
1318
Mean Square
392.354
2.804
F
139.912
Sig.
.000a
a. Predictors: (Constant), ndice sinttico de Confiana social

b. Dependent Variable: ndice sinttico de Confiana institucional
Coefficients a
Model
1
(Constant)
ndice sinttico de
Confiana social
Unstandardized
Coefficients
B
Std. Error
2.716
.125
.318
Standardized
Coefficients
Beta
.027
.310
t
21.778
Sig.
.000
11.828
.000
a. Dependent Variable: ndice sinttico de Confiana institucional
Interpretao: A correlao entre as variveis fraca (R=0,310) e o coeficiente de determinao

muito fraco (R2=0,096)23. Ou seja, apenas 9,6% da variao da confiana institucional varivel
dependente explicada pela variao da confiana social varivel independente.
O teste F (quadro Anova) d-nos informao sobre a adequabilidade do modelo, testando a
hiptese do coeficiente de determinao R2 ser 0 na populao. Neste caso (F (1)=141,178;
p=0,000), rejeita-se a hiptese de isso acontecer.
Os testes t (no quadro dos Coefficients), testam a nulidade dos coeficientes. No primeiro caso
(t=115,605; p=0,000) testa a probabilidade de a constante (recta de regresso na origem) ser 0, e
no segundo caso testa a probabilidade do coeficiente de regresso ser 0.
A recta da regresso24, neste caso, a seguinte: Confiana institucional = 2,716 + 0,318 confiana
social.
23
O coeficiente de determinao quantifica a percentagem de variao da varivel dependentes que explicada pela
variao da varivel independente.
24
A equao simplificada da recta da regresso a seguinte: Yi = 0 + 1 Xi, em que Yi a varivel dependente, 0 a
ordenada na origem, 1 o coeficiente de regresso e Xi a varivel independente.
56
3.3.2. Anlise de Regresso Mltipla

A regresso, como referem Bryman e Cramer, um poderoso instrumento para resumir a
natureza da associao entre variveis e para fazer previses acerca dos valores da varivel
dependente.25
No nosso exemplo vamos usar a anlise de regresso mltipla em concreto a linear para
modelar a relao entre as variveis independentes e a varivel dependente26.
Exemplo: com base nos dados do ESS, pretende-se saber se os nveis de satisfao com o estado
da Economia portuguesa (b30), com a forma como o Governo tem governado (b31),
com a qualidade da Democracia (b32), com o estado da Educao (b33) e com os
Servios de Sade (b33) so, ou no, predictores da satisfao com a vida em geral
(b29):
Varivel dependente
Variveis independentes
(b30, b31, b32, b33 e b34)
Mtodo: Stepwise
(Neste mtodo entram no modelo
apenas as variveis independentes
com significncia estatstica, por
ordem de importncia.)
Nota: habitual usar-se o mtodo
ENTER quando se pretende
testar um modelo e o mtodo
Stepwise
em
contextos
exploratrios, como o caso.
Procedimentos seleccionados:
Informao sobre a significncia

estatstica da mudana de R2;
Informao sobre
multicolinearidade;
Intervalo de confiana para cada
um dos coeficientes de regresso
Resultado:
25
26
Bryman, A. e D. Cramer, Anlise de Dados em Ciencias Sociais, Oeiras, Celta, 2003.

Quando se associa s variveis o estatuto de independentes e dependente pretende-se analisar mais do que a
associao entre elas (entenda-se variao conjunta), descrever e explicar uma relao de dependencia que dever
ser tericamente fundamentada.
57
Variables Entered/Removed
Model
1
2
Variables
Entered
Variables
Removed
Democracia
Economia
Method
Stepwise (Criteria: Probability-of-F-to-enter
<= .050, Probability-of-F-to-remove >= .100).
Stepwise (Criteria: Probability-of-F-to-enter
<= .050, Probability-of-F-to-remove >= .100).
Variveis que
entraram nos
modelos
a. Dependent Variable: Satisfao com a vida em geral

ANOVAc
Model
1
Regression
Residual
Total
Regression
Residual
Total
Sum of
Squares
760.940
5610.899
6371.839
1051.123
5320.716
6371.839
df
1
1289
1290
2
1288
1290
Mean Square
760.940
4.353
F
174.812
Sig.
.000a
525.562
4.131
127.224
.000b
a. Predictors: (Constant), Democracia

b. Predictors: (Constant), Democracia, Economia
c. Dependent Variable: Satisfao com a vida em geral
O objectivo do teste F
verificar se a varivel
independente influencia a
varivel dependente no
universo. O que equivale a
detectar se o modelo
ajustado ou no
significativo.
Permite inferir sobre a
adequabilidade do modelo
linear para explicar a relao
entre as duas variveis.
Model Summary
Change Statistics
Model
1
2
R
.346a
.406b
R Square
.119
.165
Adjusted
R Square
.119
.164
Std. Error of
the Estimate
2.086
2.032
R Square
Change
.119
.046
F Change
174.812
70.245
df1
1
1
df2
1289
1288
Sig. F Change
.000
.000
a. Predictors: (Constant), Democracia

b. Predictors: (Constant), Democracia, Economia
Coeficiente de correlao
mltipla em mdulo
% de variao da satisfao
com a vida em geral explicada
pelas variveis independentes
que entraram no modelo
Nota: Em modelos com mas do que 1
varivel independente deve interprtarse o R2 ajustado
Contributo das variveis

independentes para a
mudana verificada no R2;
Teste F e
respectiva
significncia
estatstica
Coefficientsa
Model
1
(Constant)
Democracia
Economia
(Constant)
Democracia
Economia
Unstandardized
Coefficients
B
Std. Error
4.221
.133
.350
.026
3.841
.254
.276
.137
.028
.033
Standardized
Coefficients
Beta
.346
t
31.764
13.222
Sig.
.000
.000
.251
.234
28.013
9.002
8.381
.000
.000
.000
95% Confidence Interval for

B
3.960
4.481
.298
.402
3.572
.199
.212
4.110
.309
.341
Collinearity
Statistics
Tolerance
VIF
1.000
1.000
.835
.835
1.197
1.197
a. Dependent Variable: Satisfao com a vida em geral
Coeficientes de regresso standardizados e no

standardizados que permitem escrever a equao da
recta:
Satisfao com a vida = 3,841 + 0,254 satisfao com a
democracia + 0,276 satisfao com a economia.
Quando a tolerncia baixa, a correlao

mltipla elevada e existe a possibilidade de
multicolinearidade. Com estes valores, a
probabilidade de isso acontecer baixa.
Varia entre [0, 1] e quanto mais perto de 0 maior
ser a multicolinearidade entre certa varivel
independente e as outras variveis independentes.
58
3.4. Anlise de dados multivariada

3.4.1. Anlise das Componentes Principais
A Anlise das Componentes Principais um dos mtodos de reduo de dados mais comum no
marketing e em pesquisas de mercado. uma tcnica de anlise exploratria multivariada que
transforma um conjunto de variveis correlacionadas entre si num conjunto menor de variveis
independentes, combinaes lineares das variveis originais, designadas por componentes
principais27. No essencial, o seu objectivo identificar novas variveis, em nmero menor que o
conjunto inicial, mas sem perda significativa da informao contida neste conjunto28.
No nosso exemplo, pretendemos identificar as componentes principais latentes nos 8
indicadores relativos s atitudes face imigrao (d10 + d11 + d12 + d13 + d14 + d15 + d16 +
d17).
Vamos comear por solicitar uma ACP com a extraco das componentes por defeito (critrio de
Kaiser: valor prprio das componentes a 1).
27
28
Seleco das
variveis;
Kaiser-Meyer-Olkin: quantifica
o nvel de intercorrelaes entre
as variveis;
Testa a hiptese de a matriz de
correlaes na populao ser a
matriz identidade.
Moroco, J. Anlise Estatstica com utilizao do SPSS, Lisboa, Slabo, 2003: 231.
Reis, E., Anlise factorial das componentes principais: um mtodo de reduzir sem perder informao, Lisboa
Giesta/Iscte, 1990.
59
Critrio de Kaiser de
extraco das componentes
que o SPSS usa por defeito.
So
extradas
as
componentes com valores
prprias superiores a 1.
Cada componente deve
contribuir para a varincia,
como se de uma varivel de
input se tratasse.
Rotao das componentes e

respectiva matriz.
Nota: tem o objectivo de ajudar a
interpretar as componentes
Ordena a matriz rodada por ordem

decrescente da contribuio de
cada varivel para a componente;
Adequabilidade da ACP:
KMO and Bartlett's Test

Kaiser-Meyer-Olkin Measure of Sampling
Adequacy.
Bartlett's Test of
Sphericity
Approx. Chi-Square
df
Sig.
KMO
1 0,9
Qualidade da ACP
Muito boa
0,8 0,9
Boa
.812
0,7 0,8
Mdia
3474.721
28
.000
0,6 0,7
Razovel
0,5 0,6
>0,5
Inaceitvel
De acordo com os resultados da estatstica KMO (0,812) e do teste de esfericidade de Bartlett

(p=0,000), a adequabilidade da ACP boa.
60
Total Variance Explained
Component
1
2
3
4
5
6
7
8
Total
3.518
1.283
.978
.539
.493
.419
.391
.377
Initial Eigenvalues
% of Variance Cumulative %
43.975
43.975
16.043
60.018
12.230
72.248
6.739
78.987
6.165
85.153
5.244
90.396
4.885
95.282
4.718
100.000
Extraction Sums of Squared Loadings

Total % of Variance Cumulative %
3.518
43.975
43.975
1.283
16.043
60.018
Rotation Sums of Squared Loadings

3.007
37.587
37.587
1.795
22.432
60.018
Extraction Method: Principal Component Analysis.
Como podemos observar, por defeito foram extradas duas componentes, que explicam cerca de
60% da varincia total.
Verificando-se que a terceira componente tem uma valor prprio prximo de 1 (0,984) e que
aumenta a varincia explicada em 12,3%, vamos forar a sua extraco e gravar as trs
componentes extradas como novas variveis:
Cria novas variveis compostas pelos

scores factoriais das componentes
extradas.
Mean
6.11
6.44
6.01
Ter formao crist
3.77
Ser branco
2.82
Ser rico
6.77
Ter qualificaes profissionais de que o pas precisa 7.45
7.07
Std.
Analysis
Deviation
N
2.527
1330
2.407
1330
2.615
1330
2.906
1330
2.825
1330
2.812
1330
2.247
1330
2.448
1330
KMO and Bartlett's Test

Kaiser-Meyer-Olkin Measure of Sampling
Adequacy.
Bartlett's Test of
Sphericity
Approx. Chi-Square
df
Sig.
.812
3474.721
28
.000
61
Communalities
Ter formao crist
Ser branco
Ser rico
Initial Extraction
1.000
.590
1.000
.788
1.000
.719
1.000
.756
1.000
.786
1.000
.722
1.000
.749
1.000
.669
As Comunalidades representam a
proporo de varincia da varivel
explicada pelas componentes.
Variveis com comunalidades
reduzidas (0,3 ou inferior) so
pouco explicadas pelas
componentes e contribuem pouco
para a sua definio.
Total Variance Explained
Component
1
2
3
4
5
6
7
8
Initial Eigenvalues
3.518
43.975
43.975
1.283
16.043
60.018
.978
12.230
72.248
.539
6.739
78.987
.493
6.165
85.153
.419
5.244
90.396
.391
4.885
95.282
.377
4.718
100.000
Extraction Sums of Squared Loadings

3.518
43.975
43.975
1.283
16.043
60.018
.978
12.230
72.248
Rotation Sums of Squared Loadings

2.152
26.898
26.898
1.951
24.389
51.287
1.677
20.961
72.248
Rotated Component Matrixa

Ser rico
Ser branco
Ter formao crist
Component
1
2
.361
.785
.244
.775
-.014
.771
.110
.880
.260
.741
.487
.587
.124
.011
.094
.305
3
-.053
.089
.358
.047
.319
.090
.878
.809

Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 4 iterations.
Foram extradas 3 componentes (factores), que explicam 72,25% da varincia total.

A matriz rodada29 ajuda-nos a identificar e a designar as componentes:
Componente 1: recursos profissionais e econmicos;
Componente 2: facilidades de integrao;
Componente 3: caractersticas raciais e religiosas.
Caracterizao social das trs Componentes Principais
29
O SPSS utiliza vrias formas de rotao, sendo a mais usada a rotao Varimax, de modo a permitir uma mais fcil
interpretao dos factores, pois torna os loadings elevados ainda mais elevados e os loadings baixos ainda mais
baixos. Para a interpretao das componentes consideram-se os loadings mais correlacionados com as mesmas.
Em geral, consideram-se bons os loadings maiores ou iguais a 0,5, por serem pelo menos responsveis por 25% da
varincia. (cfr. Pestana e Gageiro, Anlise de Dados para as Cincias Sociais A complementaridade do SPSS,
Lisboa, Slabo, 3 edio, 2003: 504.
62
0,05
0,00
mdia
mdia
0,20
0,00
-0,05
-0,20
Recursos profissionais e econmicos

Facilidades de integrao
Caractersticas raciais e religiosas
Sexo
Masculino
Feminino

Idade
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
0,10
0,00
mdia
mdia
0,10
-0,10
0,00
-0,20
-0,30
-0,10
-0,40

Escolaridade
At 9 anos
10 - 12 anos
> 12 anos

Autoposicionamento poltico
Esquerda
Centro
Direita
Anlise de Clusters
De acordo com Moroco, 30 a anlise de Clusters uma tcnica multivariada que no possui
slidos fundamentos tericos e que procura agrupar objectos mais ou menos homogneos segundo
critrios mais ou menos heursticos.
A classificao dos sujeitos em cada um dos clusters , regra geral, mais rigorosa nos mtodos
no-hierrquicos do que nos hierrquicos, podendo a validade das solues obtidas com os
mtodos hierrquicos segundo Elizabeth Reis tornar-se bastante limitada. Alguns autores
propem, por isso, a utilizao de mtodos no-hierrquicos de optimizao que permitam a
partio dos indivduos num nmero pr definido de grupos.
A questo de determinao do nmero de grupos pr definido , no entanto, um dos principais
problemas a resolver numa anlise de clusters. Uma forma simples a anlise do Dendrograma
30
Cfr. Reis, Elizabeth, A Anlise de Clusters e as Aplicaes s Cncias Empresariais: Uma Viso Crtica da Teoria
dos Grupos Estratgicos, in Elizabeth Reis e Manuel Alberto M. Ferreira (eds.) Temas em Mtodos Quantitativos
1, Lisboa, Slabo, 2000: 206-238 e Moroco, Joo, Anlise Estatstica com utilizao do SPSS, Lisboa, Slabo,
2003
63
que, no entanto, s est disponvel no mtodo hierrquico, resumindo-se a sua utilidade apenas em
amostras de pequena dimenso. Quando no esse o caso, ou se se pretende usar um mtodo nohierrquico, poder-se- utilizar primeiro um mtodo hierrquico aglomerativo para determinao
do nmero de grupos e depois utilizar um mtodo no-hierrquico para optimizar a soluo
encontrada.
Uma forma de obviar limitao do dendrograma na determinao do nmero de grupos,
proceder representao grfica dos coeficientes de aglomerao mais elevados31, que denotam,
por conseguinte, maiores distncias, onde a escolha ptima do nmero de grupos coincidir com
uma marcada horizontalidade da curva32.
3.4.2.1. Anlise hierrquica de Clusters (Hierarquical Cluster)
Exemplo: pretende-se seleccionar e criar clusters com base nos 8 indicadores relativos s atitudes
face imigrao (d10 + d11 + d12 + d13 + d14 + d15 + d16 + d17)
Seleco das variveis;

Para obter os coeficientes de
aglomerao
Desactivar Plots, pois o
Dendrograma seria demasiado
extenso para poder ser
interpretado.
Escolha do Mtodo
Betwen-groups linkage (Distncia mdia entre grupos): a
distncia do 1 cluster aos restantes objectos a mdia das
distncias de cada um dos elementos que constituem o
cluster a cada um dos restantes objectos.
Melhor performance com dados com grande disperso;
Influenciado por outliers;
Tendncia para produzir clusters com varincias
homogneas.
Within-groups linkage: Este mtodo semelhante
Distncia mdia entre grupos mas os clusters so unidos
de modo a que a variabilidade dentro dos grupos seja
mnima.
Nearest Neighbor (Vizinho mais prximo): a distncia do
1 cluster aos restantes objectos, a menor das distncias
de cada um dos elementos que constituem o cluster a cada
um dos restantes objectos.
Tendncia para formar clusters alongados;
Menos influenciado por outliers;
Furthest Neighbor (Vizinho mais distante): a distncia do
1 cluster aos restantes objectos, a maior das distncias
de cada um dos elementos que constituem o cluster a cada
um dos restantes objectos.
31
Estes coeficientes so o valor numrico para o qual vrios indivduos ou grupos se unem para formarem um novo
grupo e so disponibilizados pelo SPSS no mtodo hierrquico (Aglomeration Schedule).
32
Reis, op.cit.
64
Centroid clustering: a distncia entre dois grupos a

diferena entre as suas mdias para todas as variveis.
Pior performance com dados com grande disperso
Median clustering (Distncia mediana): A distncia entre
dois objectos a mediana das distncias de cada um dos
elementos que constituem o cluster a cada um dos restantes
objectos.
Wards method: optimiza a varincia mnima dentro dos

grupos, agrupando os objectos que provoquem um
aumento mnimo da soma dos quadrados dos erros.
Boa performance com dados com grande disperso;
Influenciado por outliers
Tendncia para produzir clusters com dimenso
semelhante.
Escolhemos o Wards method, pois, sendo um

dos mtodos mais usado, tem tendncia para
constituir grupos com dimenses idnticas.
Para a identificao do n de clusters, vamos representar graficamente (em Excel) as diferenas
entre os 30 coeficientes de aglomerao com valor mais elevado, produzidos pelo SPSS
(Agglomeration schedule).
65
Optamos por uma soluo de 4 clusters.33

Deveremos agora repetir os procedimentos anteriores no SPSS, desactivar Statistics34 e solicitar a
opo Save, assinalando o n de clusters que pretendemos:
A varivel CLU4-1 (primeira soluo com 4 clusters) acrescentou-se base de dados, tendo sido
completada com os respectivos label.
O n de elementos em cada cluster o seguinte:

CLU4_1 Clusters d10 a d17 (Ward Method)
Valid
Missing
Total
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Total
System
Frequency
498
299
423
110
1330
181
1511
Percent
Valid Percent
33.0
37.4
19.8
22.5
28.0
31.8
7.3
8.3
88.0
100.0
12.0
100.0
Cumulative
Percent
37.4
59.9
91.7
100.0
33
Pois so os que apresentam maior distncia entre si. No entanto, seria sempre possvel ensaiar solues com mais
clusters. No essencial, mais clusters significam mais homogeneidade entre os seus elementos e menos clusters
menos homogeneidade.
34
Uma vez que j no necessitamos dos coeficientes de aglomerao.
66
3.4.2.2. Anlise no-hierrquica de Clusters - Mtodo de optimizao

(K-Means Cluster)
Exemplo: pretende-se seleccionar e criar clusters com base nos 8 indicadores relativos s atitudes
face imigrao (d10 + d11 + d12 + d13 + d14 + d15 + d16 + d17)
1. Seleco das
variveis;
2. Indicao do n de
Clusters
pretendidos (vamos
indicar 4, de acordo
com o processo
anterior)
3. Criao de uma
nova varivel que
regista a pertena
de cada observao
ao cluster
respectivo
A varivel QCL_1 (primeira soluo com 4 clusters) acrescentou-se base de dados, tendo sido
completada com os respectivos label.
QCL_1 Clusters d10 a d17 (K-Means)
Valid
Missing
Total
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Total
System
Frequency
334
459
324
213
1330
181
1511
Percent
Valid Percent
22.1
25.1
30.4
34.5
21.4
24.4
14.1
16.0
88.0
100.0
12.0
100.0
Cumulative
Percent
25.1
59.6
84.0
100.0
67
3.4.3. Articulao entre a Anlise das Componentes Principais e a

Anlise de Clusters
Para este exemplo interessa saber, no entanto, que a anlise de clusters uma tcnica
multivariada que no possui slidos fundamentos tericos e que procura agrupar objectos mais ou
menos homogneos segundo critrios mais ou menos heursticos 35.
Exemplo: Pretende-se criar trs clusters (grupos homogneos) com base nas trs componentes
principais obtidas no exerccio anterior.
Trata-se de um mtodo de classificao (classifica indivduos), cujo procedimento, que vai ser
descrito detalhadamente no captulo 5, o seguinte:
a) Criao dos clusters
Acrescentou-se base de dados uma nova varivel com 3 categorias, que designmos de Cluster 1,
Cluster 2 e Cluster 3, que agrupa os indivduos com valores semelhantes nas trs Componentes36
35
36
Moroco, J. Anlise Estatstica com utilizao do SPSS, Lisboa, Slabo, 2003.

Nota: como se torna evidente, os valores so mais ou menos semelhantes quantos mais ou menos clusters criarmos.
Ou seja, mais clusters significa mais homogeneidade entre os clusters.
68
O n de elementos em cada cluster o seguinte:

Clusters Fac1_1+Fac1_2+Fac1_3 (Ward Method)
Valid
Missing
Total
Cluster 1
Cluster 2
Cluster 3
Total
System
Frequency
480
624
226
1330
181
1511
Percent
Valid Percent
31.8
36.1
41.3
46.9
15.0
17.0
88.0
100.0
12.0
100.0
Cumulative
Percent
36.1
83.0
100.0
b) Caracterizao dos clusters segundo as variveis de input
1.00
(Mdias)
0.50
0.00
-0.50
-1.00
Cluster 1
Cluster 2
Cluster 3
-1.50

Interpretao:
Cluster 1: d importncia abaixo da mdia aos recursos profissionais e econmicos e s
caractersticas raciais e religiosas e acima da mdia s facilidades de integrao;
Cluster 2: d importncia acima da mdia aos recursos profissionais e econmicos e s
caractersticas raciais e religiosas e mdia s facilidades de integrao;
Cluster 3: d importncia mdia aos recursos profissionais e econmicos e abaixo da
mdia s facilidades de integrao e s caractersticas raciais e religiosas.
69
c) Caracterizao social dos clusters
Masculino
Feminino
Total
At 30 anos
31 - 50 anos
51 - 65 anos
Idade
> 65 anos
Total
At 9 anos
Anos de
10 - 12 anos
escolaridade
> 12 anos
concludos
Total
Esquerda
Autoposicionamento Centro
poltico
Direita
Total
Sexo
Cluster 1
N
%
211
44.0
269
56.0
480 100.0
148
30.8
179
37.3
88
18.3
65
13.5
480 100.0
272
56.7
100
20.8
108
22.5
480 100.0
111
27.3
211
52.0
84
20.7
406 100.0
Cluster 2
N
%
252
40.4
372
59.6
624 100.0
117
18.8
197
31.6
147
23.6
163
26.1
624 100.0
470
75.4
102
16.4
51
8.2
623 100.0
117
22.5
265
50.9
139
26.7
521 100.0
Cluster 3
N
%
106
46.9
120
53.1
226 100.0
51
22.6
93
41.2
44
19.5
38
16.8
226 100.0
150
66.4
39
17.3
37
16.4
226 100.0
47
27.6
89
52.4
34
20.0
170 100.0
Total
N
%
569
42.8
761
57.2
1330 100.0
316
23.8
469
35.3
279
21.0
266
20.0
1330 100.0
892
67.1
241
18.1
196
14.7
1329 100.0
275
25.1
565
51.5
257
23.4
1097 100.0
d) Distribuio dos indivduos pelos clusters, segundo caractersticas sciodemogrficas
Masculino
Feminino
Total
At 30 anos
31 - 50 anos
51 - 65 anos
Idade
> 65 anos
Total
At 9 anos
Anos de
10 - 12 anos
escolaridade
> 12 anos
concludos
Total
Esquerda
Autoposicionamento Centro
poltico
Direita
Total
Sexo
Cluster 1
N
%
211
37.1
269
35.3
480
36.1
148
46.8
179
38.2
88
31.5
65
24.4
480
36.1
272
30.5
100
41.5
108
55.1
480
36.1
111
40.4
211
37.3
84
32.7
406
37.0
Cluster 2
N
%
252
44.3
372
48.9
624
46.9
117
37.0
197
42.0
147
52.7
163
61.3
624
46.9
470
52.7
102
42.3
51
26.0
623
46.9
117
42.5
265
46.9
139
54.1
521
47.5
Cluster 3
N
%
106
18.6
120
15.8
226
17.0
51
16.1
93
19.8
44
15.8
38
14.3
226
17.0
150
16.8
39
16.2
37
18.9
226
17.0
47
17.1
89
15.8
34
13.2
170
15.5
Total
N
%
569 100.0
761 100.0
1330 100.0
316 100.0
469 100.0
279 100.0
266 100.0
1330 100.0
892 100.0
241 100.0
196 100.0
1329 100.0
275 100.0
565 100.0
257 100.0
1097 100.0
70
A avaliao deste captulo consiste na avaliao da participao

nas aulas e da realizao dos exerccios que compem o seu
contedo.
Avaliao
Aranaz, M. F. (2001), SPSS para Windows. Anlise Estadstico,

Madrid, McGraw-Hill.
Bryman, A. e D. Cramer (2003), Anlise de Dados em Cincias
Sociais Introduo s Tcnicas Utilizando o SPSS para
Windows, Lisboa, Celta (3 edio).
Referncias
Moroco, J. (2003) Anlise Estatstica com utilizao do SPSS,
Lisboa, Edies Slabo, 3 edio.
Pereira, A. (1999), SPSS-Guia Prtico de Utilizao, Anlise de Dados para Cincias
Sociais e Psicologia, Lisboa, Edies Slabo, 6 edio revista e corrigida.
Pestana, M. H. e J. N. Gageiro (2000), Anlise de Dados para as Cincias Sociais A
Complementaridade do SPSS, Lisboa, Slabo, 2 edio revista e aumentada.
Rada, Vidal Daz (2002), Tcnicas de Anlise Multivariante para Investigacin Social
e Comercial, Madrid, RA-MA.
Reis, E., Anlise factorial das componentes principais: um mtodo de reduzir sem
perder informao, Lisboa Giesta/Iscte, 1990.
Vaus, D (2004), Analysing Social Science Data, London, Sage Publications.
Vinacua, B. V. (2002), Anlisis Estadstico con SPSS para Windows. Volumen I.
Estadstica bsica, Madrid, McGraw-Hill, 2 edicin.
Vinacua, B. V. e J. C. M Canas (2002), Anlisis Estadstico con SPSS para Windows.
Volumen II. Estadstica multivariante, Madrid, McGraw-Hill, 2 edicin.
71
ANEXO 1
Testes de inferncia estatstica mais utilizados

em
Anlise de dados bivariada
72
74
ANEXO 2
European Social Survey

(round 1 - 2002)
Questionrio adaptado
http://www.europeansocialsurvey.org/
76
77
78
79

Manual Amostragem Introdução SPSS

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Manual Amostragem Introdução SPSS

Transféré par

Droits d'auteur :

Formats disponibles

Manual de Amostragem e de

Manual Amostragem e de Introduo ao SPSS

1.2. Mtodos de amostragem

1.3. Seleco das unidades amostrais

1.4. Margens de erro e intervalos de confiana

Captulo 2 Introduo ao SPSS

2.2. Output do SPSS

2.3. Menus SPSS

2.4. Criao de bases de dados

2.5. Tratamento Preliminar de dados

2.5.1. Transformao algbrica de variveis

2.5.2. Transformao lgica de variveis

2.5.3. Inverso da escala de uma varivel

2.5.4. Variveis de contagem de ocorrncias

2.6. Seleco de casos

3.1.2. Estatsticas descritivas e grficos de perfil

3.1.3. Testes de aderncia (para 1 amostra)

3.1.3.3 Teste t de Student

3.2. Anlise de dados bivariada

3.2.1. Cruzamentos e teste de independncia (Qui-quadrado)

3.2.2. Testes no paramtricos procedimento Non Parametric Tests

3.2.2.1. Duas amostras independentes (Mann-Whitney e Kolmogorov-Smirnov)

3.2.2.2. K amostras independentes (Kruskal-Wallis)

3.2.3. Testes no paramtricos procedimento Compare Means

3.2.3.1. Duas amostras emparelhadas (t de Student amostras emparelhadas)

3.2.3.2. Duas amostras independentes (t de Student de independncia)

3.2.3.3. k amostras independentes (Anlise de Varincia Simples Paramtrica ANOVA)

3.2.4. Correlao linear simples

3.3.1. Anlise de Regresso Simples

3.3.2. Anlise de Regresso Mltipla

3.4. Anlise de dados multivariada

3.4.1. Anlise das Componentes Principais

3.4.2. Anlise de Clusters

3.4.2.1. Anlise hierrquica de Clusters

3.4.2.2. Anlise no hierrquica de Clusters mtodo de optimizao (K-Means)

3.4.3. Articulao entre a Anlise das Componentes Principais r a Anlise de

Anexo 1: Testes de inferncia estatstica mais utilizados em Anlise bivariada

Anexo 2: European Social Survey (round 1 - 2002) - Questionrio adaptado

Estruturao dos captulos

Palavras-chave, que pela sua relevncia para a temtica e como realce da

Contedo programtico, onde se procurar desenvolver, de modo claro,

Avaliao. Neste espao ser indicada a forma de avaliao do captulo e

Referncias. Nesta subdiviso poder-se- encontrar uma lista de elementos

O segundo tem como objectivo familiarizar os formandos com o SPSS, permitindo-lhes

O terceiro tem como objectivo dotar os formandos de competncias tcnicas e estatsticas

No final deste captulo os alunos devero ser capazes de:

1.1. Noes de amostragem

Em Estatstica1, amostra o conjunto de elementos extrados de um conjunto

A populao infinita, ou considerada como tal, no podendo portanto ser analisada

Se a constituio da amostra obedecer a determinadas condies, a anlise das caractersticas da

Amostragem probabilstica - procedimento em que todos os elementos da populao

O que se pretende saber/conhecer

2. Quem dever ser

Populao alvo* e populao a

3. Quantos devero ser

Mtodo de seleco da amostra

Unidades que poderiam ser

Conjunto de unidades existentes s

Desenvolvimento de um plano amostral*

1.2. Mtodos amostrais

Amostragem aleatria simples

1.3. Seleco das unidades amostrais

Cada elemento da populao tem a mesma probabilidade de ser

Clculo do rcio K=N/n; seleco aleatria do primeiro elemento