Vous êtes sur la page 1sur 67

Direitos de Autor

Estes contedos, que incluem reprodues parciais de obra(s) alheia(s), destinam-se


exclusivamente aos alunos da disciplina de Mtodos de Investigao II, 2 ano da
Licenciatura em Cincias da Comunicao da Universidade do Minho, para uso pessoal e
fins de ensino electrnico distncia, e no revestem qualquer finalidade lucrativa ou
comercial.
Art. 75 al e) do Cdigo de Direitos de Autor
Directiva n 2001/29/CE de 22/5/2001 (Direitos de Autor na Sociedade da Informao).
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 2
1 Introduo


1.0 Consideraes gerais

Na apresentao da Licenciatura em Cincias da Comunicao da Universidade do
Minho, aparece, como um dos objectivos do curso, o formar licenciados com preparao
cientfica e tcnica que lhes permita (...) uma compreenso aprofundada das estruturas e dos
comportamentos sociais ... Pretende-se que o estudante desenvolva competncia (...) que lhe
permita a compreenso e interpretao crticas da sociedade e mundo actuais. para este
objectivo que o programa curricular faz apelo s Cincias Sociais e Humanas, designadamente
metodologia da investigao cientfica ...
As Unidades Curriculares de Mtodos de Investigao (I e II) inserem-se neste desgnio.
Procura-se com elas que o aluno seja introduzido nas rotinas e problemtica da metodologia, ao
mesmo tempo que aprende a manusear as principais tcnicas de investigao. O licenciado em
Cincias da Comunicao dever estar habilitado a usar as tcnicas mais simples e a compreender
as potencialidades e limitaes de outras tcnicas mais complicadas. Esta base de conhecimentos,
juntamente com a formao mais terica de outras disciplinas, permitir-lhe- desenvolver a
capacidade crtica de leitura da realidade social e cumprir, com objectividade e correco, o seu
papel de intrprete e divulgador de trabalhos cientficos, sobretudo na rea das Cincias Sociais.
A metodologia diz respeito racionalidade do percurso, garante-nos que o caminho
1

percorrido no nos leva a iluses, mas certeza do conhecimento adquirido. As tcnicas so os
instrumentos ou procedimentos concretos que, sujeitos constante viso crtica do mtodo, nos
permitem executar as tarefas necessrias investigao com correco e eficcia. Assim,
precisamos de nos preocupar com a construo destes instrumentos (garantia de qualidade), com
as suas potencialidades (para que servem) e com as suas limitaes (onde, quando e como que
so apropriados).
Na UC de Mtodos de Investigao II, estudaremos sobretudo algumas das tcnicas
matemticas conhecidas pelo nome genrico de Estatstica
2
. Distinguiremos entre Estatstica
Descritiva, que agrupa as tcnicas destinadas a sintetizar e a descrever sumariamente os dados, e
Estatstica Indutiva, cuja principal funo especificar as condies e nveis de confiana que
nos permitem generalizar, a toda a populao, os resultados obtidos na amostra.


1
Mtodo palavra de origem grega que significa, etimologicamente, caminho para.
2
Mais abaixo usaremos este termo com outro significado e no, como aqui, num sentido de ramo das matemticas
aplicadas.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 3
1.1 Medir em Cincias Sociais.

1.1.1 - O problema da medio.
Medir um objecto, em sentido geral, atribuir-lhe, em funo das suas caractersticas,
uma determinada posio numa escala de referncia (que o critrio de mensurao).
Normalmente, a posio do objecto indicada por um smbolo.
Esta definio aplica-se quer ao caso de uma caracterstica como o rendimento de uma
pessoa (em que existe uma escala com unidade de medida, o euro), quer ao caso da caracterstica
ser, por exemplo, a opo poltica. Nesta ltima situao, a escala no s no tem unidade de
medida, como at constituda por valores (os diferentes tipos de opo poltica) cuja ordenao
puramente arbitrria.
Isto mostra como, em Cincias Sociais, a questo da medio assume aspectos muito
particulares, dado que lidamos, muitas vezes, com variveis inquantificveis. Muito do esforo na
construo de modelos de medida vai no sentido de obter escalas que permitam uma medio
correcta e precisa. Mas as dificuldades so aqui maiores do que em outras cincias precisamente
porque, muitas vezes, as teorias no so suficientemente slidas para especificar todas as foras
relevantes, os instrumentos de medida encontram-se menos estandardizados e a repetio da
medio (para confirmao de resultados) quase sempre impossvel.

1.1.2 - Qualidades de um bom instrumento de medida.
Validade a qualidade do instrumento que mede, de facto, aquilo que se pretende
medir. Refere-se, pois, ao grau de exactido com que um instrumento mede a realidade.
Fiabilidade a propriedade de um instrumento de medida que mede sempre o mesmo aspecto
da realidade. Se o instrumento fivel, as diferenas encontradas entre os objectos no so
devidas a inconsistncias do instrumento, mas sim a diferenas reais entre os indivduos. Deste
modo, um instrumento vlido fivel, mas o inverso pode no ser verdadeiro.

1.1.3 - Noo de varivel.
Varivel uma caracterstica (dimenso, atributo), referente a um conjunto de elementos
(geralmente pessoas, em Cincias Sociais), que assume valores diferenciados para cada um desses
elementos. Trata-se de uma noo abstracta, porque o que existe so os indivduos com
determinadas caractersticas especficas, assumindo a varivel, em cada um deles, um e um s
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 4
valor determinado
3
. Nesse sentido, a varivel pode ser concebida como o conjunto dos valores
que pode assumir.
Podemos distinguir vrias tipologias ou classificaes de variveis:
A Quanto contiguidade dos valores (para variveis numricas): varivel contnua a
que assume valores contguos; caracteriza-se pela ausncia de intervalos entre os valores que,
teoricamente, pode assumir. Na varivel discreta os valores so separados uns dos outros.
B Quanto aglutinao dos valores (tambm para variveis numricas): chama-se
varivel desagregada (ou com valores desagregados) aquela cujos valores so os directamente
recolhidos dos indivduos. Pelo contrrio, na varivel categorizada ou classificada, os valores
j foram tratados, de modo a aparecerem aglutinados em intervalos regulares (classes ou
categorias
4
), sejam ou no de igual amplitude. Normalmente, tomam-se como valores da varivel
categorizada os pontos mdios dos intervalos, considerando a agrupados todos os elementos
pertencentes ao respectivo intervalo.
C Quanto perfeio de medio (ou nvel de medio), devemos distinguir entre
variveis nominais, ordinais, de intervalo e de razo (ou de proporo). Devido sua importncia,
vamos tratar estes quatro nveis em pargrafo independente.

1.1.4 Nveis de medio. Os nveis de medio so estabelecidos em funo do grau
de quantificao dos valores da escala de referncia e do tipo de operaes que estes valores
permitem.

1 - Varivel Nominal aquela que corresponde mera classificao dos objectos, ou seja,
colocao dos objectos segundo os diferentes valores de uma escala qualitativa. Os diferentes
valores da escala so simbolicamente diferenciados atravs do nome respectivo (da a designao
nominal). Mas nenhum valor mais ou menos do que outro, pois neste caso no faz sentido
falar em quantidade associada aos valores. A ordem pela qual os valores so apresentados
arbitrria, no quantitativa.
Grande parte das variveis em Cincias Sociais so desta natureza: gnero, opo
poltica, filiao religiosa, so exemplos de variveis nominais.


3
Notar bem a diferena entre valor da varivel e nmero de elementos (pessoas ou coisas) a que corresponde
esse valor. Em variveis cujos valores so numricos frequente haver confuso.
4
Tambm se costumam chamar categorias aos valores das variveis nominais e ordinais, embora sejam de outra
natureza, como se explica a seguir.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 5
2 - Varivel Ordinal aquela cujos valores so ordenveis segundo a grandeza (crescente ou
decrescente) da caracterstica, embora sem possibilidade de determinar exactamente a
quantidade de cada valor. Neste caso, j temos alguma referncia quantitativa: sabe-se que o valor
(ou categoria) V1 tem mais ou menos quantidade da caracterstica em causa do que o valor V2,
mas, por falta de unidade de medida, no possvel estabelecer a quanto corresponde a diferena
entre os dois.
Aqui, j possvel ordenar as categorias (valores da varivel) segundo um critrio
intrnseco: a quantidade da caracterstica a que corresponde a varivel. Mas no faz sentido
comparar intervalos ou diferenas entre valores (a no ser que os dois termos de um dos
intervalos se encontrem includos no outro).
Como exemplos de variveis deste nvel temos o prestgio social e qualquer atitude ou
opinio, desde que mensurada em referncia a escala de intensidade progressiva.

3 - Varivel de intervalo (ou cardinal) a varivel para a qual existe unidade de medida, o que
permite a quantificao exacta de qualquer dos seus valores e a consequente possibilidade de
comparar quer os valores entre si (em termos de quantidade), quer os respectivos intervalos
entre valores. No entanto, na varivel de intervalo propriamente dita, no existe um zero absoluto
( s convencional), o que impede estabelecer comparaes de valores em termos de proporo:
no far sentido, por exemplo, dizer que o valor V1 metade, um tero, etc., do valor V2.
Como exemplo de varivel de intervalo temos o Quociente de Inteligncia, em que o
valor 100 convencionalmente atribudo mdia de inteligncia de uma populao. No faz
sentido dizer que um indivduo com QI igual a 120 tem o dobro de inteligncia de outro com QI
igual a 60, embora seja verdade afirmar que o intervalo entre 120 e 100 , no s maior, mas at
o dobro do intervalo entre 90 e 80.

4 - Varivel de proporo (ou de razo) Tem todas as caractersticas da varivel de intervalo
mais o zero absoluto, o que permite a comparao dos valores em termos de proporo.
Exemplos: 40 anos de idade metade de 80; um rendimento de 1500 euros representa 3 vezes
mais do que o de 500 euros.

Observaes
- O esforo de aperfeioamento da medio das variveis concentra-se na tentativa de
obter instrumentos de medida mais sofisticados, de modo a produzirem medidas mais
aperfeioadas: ordinais em vez de nominais, de intervalo em vez daquelas. Sobretudo, conseguir
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 6
estabelecer vlidas unidades de medida, porque isso representa um importante salto do ponto
de vista da sofisticao dos procedimentos quantitativos utilizveis.
- Cada tcnica estatstica pressupe um certo nvel mnimo de medio. As mais
sofisticadas s podem aplicar-se a variveis com unidade de medida. As operaes apropriadas
para determinado nvel podem ser usadas com variveis de nvel superior, (embora isso implique
uma certa perda de informao). No o inverso: no possvel, por exemplo, calcular mdias
para variveis nominais ou ordinais.
- Em Cincias Sociais h poucas variveis propriamente de intervalo e quase todos os
tratamentos estatsticos apropriadas varivel de proporo so comuns varivel de intervalo. Por
isso e por uma questo de simplicidade, se outra coisa no dissermos em contrrio, usaremos o
termo de intervalo, quer para a varivel de intervalo propriamente dita, quer para a varivel de
proporo. O que, na prtica, para quase todos os efeitos, reduz a trs o nmero de tipos de
variveis, no que se refere ao nvel de medio.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 7
2 Descrio e Anlise de uma Varivel


2.0 Introduo

Neste captulo, vamos tratar de vrias tcnicas cujo objectivo descrever, sinteticamente,
as caractersticas de cada varivel de uma populao ou de uma amostra. Conhecendo estas
caractersticas, ficamos com uma ideia (umas vezes mais geral outras mais em pormenor) do
modo como os valores dessa varivel se comportam.
Por exemplo, suponhamos que a varivel em causa a altura das pessoas de um grupo.
Comeando com a mdia das alturas, temos logo alguma indicao do conjunto, mas ainda no
sabemos se h muitas pessoas baixas a compensar muitas pessoas altas, ou se, pelo contrrio, a
maior parte se agrupa em alturas mdias. Uma medida da disperso dos valores ir-nos- ajudar a
precisar a imagem, nesse aspecto.
Podemos encontrar, talvez, 13 pessoas com 170 cm, 15 com 171 cm, 14 com 172 cm, etc.
Os valores da varivel altura so 170, 171, 172 cm, Chamamos frequncia ao nmero de
casos que aparecem com determinado valor da varivel. Simbolicamente, poderamos ento
indicar estas frequncias do seguinte modo (ou semelhante):
170
f = 13;
171
f = 15;
172
f = 14
5
; etc.
Ao conjunto de todas as frequncias relativas a uma varivel d-se o nome de distribuio de
frequncias dessa varivel.
Vamos considerar, a seguir, noes e tcnicas adequadas aos trs tipos de variveis:
nominais, ordinais e intervalares. Comearemos pelas ltimas que, pela sua natureza, admitem
maior variedade e sofisticao de procedimentos.

2.1 Variveis intervalares

2.1.1 Apresentao dos dados: tabelas e grficos
Na operao de recolha directa de dados de uma varivel intervalar
6
, vamos obt-los em
bruto, sem nenhuma especial sistematizao. Dizemos, ento, que a varivel em causa uma
varivel desagregada ou, mais correctamente, uma varivel com dados desagregados. A no
ser que o nmero de casos seja muito reduzido, a apresentao dos dados assim coligidos
pouco esclarecedora do modo como a varivel se distribui, pois a floresta de nmeros no nos
deixar facilmente descortinar as suas caractersticas.

5
muito comum usar-se a letra i (em ndice inferior) para designar, genericamente, um qualquer valor do mesmo
tipo. Neste caso, podemos indicar uma qualquer frequncia pelo smbolo
i
f , em que o ndice i representa os
valores 170, 171, 172, etc.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 8
mais especficas. Mas se organizarmos estes dados em classes ou categorias (operao a que
chamamos classificao ou categorizao) j o nosso conhecimento da varivel pode
melhorar consideravelmente.
Vejamos o exemplo do quadro abaixo, com idades de um grupo de 50 pessoas.



Quadro 2.1 Idades

Para conseguirmos uma razovel visualizao da distribuio de idades, ser prefervel
classificar os dados em categorias com amplitude, por exemplo, de 10 anos
7
. Isto equivale a
considerar as pessoas includas em cada classe como tendo todas idade igual mdia (
i
x ) dessa
classe. Portanto, perdemos alguma da informao relativa a cada caso, mas ganhamos na
capacidade de interpretao e manipulao dos dados.


A B C D E F G H
Classes x i fi fi fr fr
%
%
10 a 20 15 3 3 0,06 0,06 6,0 6,0
20 a 30 25 6 9 0,12 0,18 12,0 18,0
30 a 40 35 7 16 0,14 0,32 14,0 32,0
40 a 50 45 11 27 0,22 0,54 22,0 54,0
50 a 60 55 10 37 0,20 0,74 20,0 74,0
60 a 70 65 7 44 0,14 0,88 14,0 88,0
70 a 80 75 4 48 0,08 0,96 8,0 96,0
80 a 90 85 2 50 0,04 1,00 4,0 100,0
Totais 50 1,00 100,0

Quadro 2.2 Dados classificados e frequncias

6
Isto , na recolha dos valores observados, por exemplo, da altura das pessoas de determinado conjunto.
7
Sempre que possvel, prefervel usar categorias com a mesma amplitude, porque isso facilita no s a comparao
entre elas como diversas outras operaes, algumas das quais mencionaremos mais frente.
44 47 31 54 78 55 63 57 22 54
46 30 24 56 44 37 40 45 19 33
47 46 31 64 43 18 29 69 70 59
57 27 68 88 75 38 57 13 53 83
46 63 25 52 49 64 66 20 38 74
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 9
As classes deste exemplo foram definidas como fechadas esquerda e abertas
direita, para no haver ambiguidade na colocao de qualquer caso
8
. A coluna B do quadro mostra
os valores dos pontos mdios das classes. Na coluna C, encontramos as frequncias absolutas
de cada classe, isto , o nmero de pessoas com idades contidas no respectivo intervalo. A coluna
seguinte vai recolhendo, sucessivamente, a soma desses valores. Chamam-se frequncias
absolutas acumuladas. Na coluna E, aparecem as frequncias relativas, ou seja, o peso de
casos que corresponde a cada categoria
9
. A sua soma tem que ser, necessariamente, igual
unidade. Em F, mostram-se as frequncias relativas acumuladas. Multiplicando por 100 as
frequncias relativas, obtemos, em G e H, as percentagens e as percentagens acumuladas, que
no so mais do que frequncias relativas calculadas em funo da base 100. Revelam-se muito
teis para comparar facilmente esta distribuio de valores com qualquer outra distribuio.
Trata-se aqui de uma distribuio ordenada, que o modo mais lgico de apresentar os
dados. Neste caso, a ordenao feita segundo valores crescentes da varivel, mas tambm podia
ser ao invs. De qualquer modo, fcil de perceber que s faz sentido falar em frequncias
acumuladas quando os dados esto ordenados.
Assim, as frequncias acumuladas permitem-nos introduzir a noo genrica de quantil,
sendo os mais usados o Quartil, o Decil e o Percentil. O primeiro quartil o valor da varivel,
situado de tal modo na distribuio ordenada de frequncias que tem imediatamente abaixo de si
a primeira quarta parte dos elementos. Por outras palavras, se a minha idade se situa sobre o
primeiro quartil, isso significa que h de pessoas com idades inferiores minha e com idade
superior. Identicamente para os outros dois quartis. Os trs dividem a distribuio ordenada de
frequncias em quatro partes iguais.
O segundo quartil coincide com a Mediana, que o valor (neste exemplo, a idade)
relativamente ao qual metade das pessoas se situam abaixo e a outra metade acima. Assim, se
olharmos, no quadro 2.2, para a distribuio das percentagens acumuladas, a mediana situar-se-
na posio para a qual se atingem os 50% dos casos (portanto, algures, na 4 categoria). De modo
semelhante, para os decis, que dividem a distribuio ordenada em 10 partes iguais, e para os
percentis
10
, que a dividem em 100 partes iguais. Veremos mais frente a frmula para encontrar
a posio da mediana.
Para alm da representao tabular, recorre-se aos grficos para uma visualizao mais
intuitiva dos dados. H uma enorme variedade de grficos, uns mais imaginativos (como os

8
Assim, uma pessoa com idade de 30 anos, entra na terceira linha e no na segunda.
9
Calculam-se, dividindo cada
i
f pelo total de pessoas.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 10
pictogramas, que usam figuras alusivas
11
), outros mais simples e de uso comum, como os grficos
de linhas, os de barras e os circulares.
O histograma um grfico de barras para variveis intervalares categorizadas, em que
cada barra tem um comprimento proporcional ao nmero de casos encontrados na categoria
correspondente. Vejamos o grfico 2.1 correspondente ao exemplo que vimos acompanhando.

0
2
4
6
8
10
12

10 20 30 40 50 60 70 80 90
Grfico 2.1 Histograma

Na linha horizontal temos referenciados os intervalos das classes, todos com a mesma
amplitude, e na vertical os valores das frequncias. As colunas apresentam uma altura
proporcional frequncia da respectiva categoria.
Se traarmos uma linha pelos pontos mdios de cada uma das colunas do histograma,
obtemos o chamado polgono de frequncias, como podemos verificar no grfico 2.2. Este
polgono, convencionalmente, prolonga-se, para ambos os lados, at atingir os pontos mdios das
bases do que seriam duas classes extremas com frequncia igual a zero. No nosso exemplo, esses
pontos limite seriam, respectivamente, o dos 5 e o dos 95 anos. curva obtida a partir das
frequncias acumuladas chama-se ogiva de Galton. Encontra-se desenhada no grfico 2.3. Para o
ler correctamente, de notar que os valores do eixo vertical so agora os das frequncias
acumuladas, numa escala muito diferente da dos grficos anteriores. A ogiva tambm se pode
traar com as frequncias relativas acumuladas (quer as propriamente ditas, quer as
percentagens); estas dariam origem, obviamente, a linhas com um serpentear semelhante.

10
Se o peso de uma criana se encontra no percentil 76, isso significa que 76% das crianas da mesma idade tm um
peso inferior.
11
Um exemplo de pictograma seria a comparao dos volumes da populao de vrios pases por meio de pequenas
figuras humanas, cada uma a significar um certo nmero de milhes de pessoas.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 11
0
2
4
6
8
10
12

10 20 30 40 50 60 70 80 90

Grfico 2.2 Polgono de frequncias

0
3
9
16
27
37
44
48
50
0
10
20
30
40
50
60

10 20 30 40 50 60 70 80 90

Grfico 2.3 Ogiva de Galton

Embora haja enorme variedade de tipos de grficos, acrescenta-se somente mais um
exemplo, o dos grficos circulares, j que so de uso muito frequente. No grfico 2.4, mostram-se
as reas proporcionais s percentagens da coluna G do quadro 2.2
6,0
12,0
14,0
22,0
20,0
14,0
8,0
4,0

Grfico 2.4 Exemplo de grfico circular
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 12
2.1.2 Medidas de tendncia central

Estas medidas chamam-se assim porque so indicadores da tipicidade dos valores da varivel,
apontam para zonas da distribuio em que h mais probabilidade de encontrar maior nmero de
casos.

A mais conhecida e usada a mdia aritmtica que se obtm dividindo a soma dos
valores pelo seu nmero. Simbolicamente, representamo-la por
12
x = n x
i
.
A mdia pode no coincidir com nenhum valor real, mas toma em linha de conta todos os
valores, mesmo os mais extremos. Diz-se que a mdia aritmtica representa o centro de
gravidade de uma distribuio, pois se considerarmos os valores superiores mdia, por um
lado, e os inferiores, por outro, a soma das distncias dos primeiros mdia igual soma
idntica dos segundos. Ou, de outro modo
13
: ( ) 0 = x x
i
.
No quadro 2.1, podemos somar todos os valores e dividir o resultado por 50. Obtemos
48,22 como mdia aritmtica de idades das 50 pessoas do conjunto. Mas a mdia aritmtica
tambm se pode calcular a partir do quadro de frequncias, depois de categorizados os dados
(quadro 2.2). Neste caso, tomam-se para valores da soma os pontos mdios das classes (coluna
B), multiplicados pelas respectivas frequncias absolutas (coluna C) e divide-se a soma pelo total
de casos. Ou seja: = x
i i
x f /
i
f . Fazendo os clculos, obtemos
14
= x 48,2.
Para a mdia ponderada usar-se-ia uma frmula idntica a esta ltima. Por exemplo, no
clculo de uma mdia de curso, em que as UC no tm igual peso, os
i
f seriam os pesos e os

i
x seriam as notas de cada disciplina
15
.

Outra medida de tendncia central a mediana, de que j falmos. Indica o ponto da
distribuio ordenada que divide esta distribuio em duas partes iguais. Embora sem as vantagens
operacionais da mdia, pode, em certos casos, dar uma melhor ideia de tendncia central do que
esta. De facto, como no clculo da mdia entram todos os valores, se entre estes existem alguns
valores extremos (isto , muito altos ou muito baixos em relao grande maioria dos
restantes), eles vo arrastar a mdia na sua direco, para fora dos valores mais comuns, mais
centrais. Pelo contrrio, a mediana, sendo um valor posicional, no sofre tal arrastamento.

12
a letra grega sigma maisculo e significa somatrio; n o nmero de casos.
13
Esta expresso significa que nula a soma algbrica dos desvios em relao mdia.
14
A pequena (neste caso, muito pequena) diferena de resultados entre os dois mtodos do clculo da mdia resulta
do facto de que, ao categorizar os dados, perdemos alguma informao, como dissemos acima.
15
Para alm da mdia aritmtica existem tambm as chamadas mdia geomtrica e mdia harmnica.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 13
Para calcular a mediana numa srie ordenada de n dados desagregados, se o nmero
de casos for mpar, a mediana ser o valor que se situa na posio k indicada pela seguinte
expresso: ( ) 2 / 1 + = n k . Se n for par, haver dois valores no meio da distribuio. Por
conveno, toma-se, para mediana, a mdia aritmtica desses dois valores (embora este ponto,
em sentido estrito, no pertena ao conjunto dos valores da varivel).
Se os dados se encontram categorizados, a categoria mediana facilmente
referencivel como sendo aquela em que se situam os 50% da frequncia acumulada. Designando
por
Md
F a frequncia acumulada at ao limite inferior ( l ) dessa categoria e por
Md
f o
nmero de casos existentes na mesma, sendo a a sua amplitude, ento calcula-se o valor da
mediana pela frmula:
a
f
F n
l Md
Md
Md

+ =
2 /

Relativamente ao quadro 2.2, teramos
16
: 18 , 48 10
11
16 25
40 =

+ = Md

A terceira medida de tendncia central a moda, que somente o valor mais frequente
numa distribuio. Se se tratar de uma distribuio categorizada, a categoria modal aquela
que apresenta maior frequncia. Na distribuio do quadro 2.2, a categoria modal a quarta, com
frequncia igual a 11. Coincide, neste caso, com a categoria mediana. Se existir mais do que um
valor com igual frequncia mxima, a distribuio pode ser bimodal ou at multimodal.
fcil de ver que, se a distribuio for unimodal e perfeitamente simtrica, a moda
coincide com a mediana e com a mdia. Mas se for assimtrica, a mdia que mais arrastada
no sentido da assimetria, como no exemplo do grfico 2.5.

0
2
4
6
8
10
0 2 4 6 8 10 12 14 16 18 20

Mo Md x
Grfico 2.5

Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 14
2.1.3 Medidas de disperso (ou de variao)

Estas medidas ajudam a comparar o comportamento das distribuies no que se refere
maior ou menor disperso dos dados. A amplitude, ou seja, a diferena entre o valor mais alto e
o mais baixo da distribuio, a medida de disperso mais bvia, mas no apresenta grande
utilidade para alm de possibilitar a comparao de campos de variao de variveis da mesma
natureza.

Os quantis, estudados acima, so tambm medidas deste tipo, embora a mais usada seja o
chamado intervalo semiquartil (ou desvio quartlicol): ( ) 2 /
1 3
Q Q Q = , em que
1
Q e
3
Q
indicam, respectivamente, os valores do primeiro e do terceiro quartis.

Temos depois o desvio mdio, que a mdia aritmtica das distncias de cada valor da
varivel mdia da mesma varivel. Indica-nos como que, em mdia, os valores se distanciam da
mdia da varivel. Tomando os desvios em valor absoluto, somamo-los e dividimos pelo nmero
deles, que nmero de casos (n) da varivel
17
.
= Dm n x x
i
/
No exemplo do quadro abaixo (quadro 2.3), 8 , 4 5 / 24 = = Dm ; ou seja, 4,8 a distncia
mdia das notas destes alunos em relao nota mdia do conjunto (14). Para dados agrupados, a
frmula idntica: = Dm / x x f
i i

i
f ,
onde os
i
x , agora, representam os pontos mdios dos intervalos e os
i
f as frequncias em cada
categoria.


Quadro 2.3 Distribuio de notas e desvios da mdia

16
de notar que um valor muito prximo da mdia, o que significa que se trata de uma distribuio bastante
simtrica, sem valores extremos, como facilmente tambm se verifica nos grficos 2.1 e 2.2.

notas x
i
= 14
i
x 14
i
x ( )
2
14
i
x
2
i
x
4 -10 10 100 16
12 -2 2 4 144
16 2 2 4 256
18 4 4 16 324
20 6 6 36 400
= soma 70 0 24 160 1140
x = mdia 14
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 15
Outra medida de disperso a varincia, que dada pela seguinte expresso matemtica
a qual, note-se, usa os quadrados dos desvios
18
: Var = ( ) n x x
i
/
2

ou, de outro modo equivalente, mas mais expedito: Var = ( n x
i
/
2
)
2
x
No exemplo do quadro 2.3, usando as duas frmulas, Var = 160 / 5 = 1140/5 - 14
2
= 32
A varincia , pois, uma mdia dos quadrados dos desvios (estes calculados em relao
mdia da varivel). Comparando com o desvio mdio, a varincia atribui um maior peso relativo
aos casos extremos da varivel, j que os respectivos desvios, pelo facto de aparecerem elevados
ao quadrado, vo influir mais na soma total.

O desvio padro a raiz quadrada da varincia: ( )
2 2
/ x n x s
i
=



No nosso exemplo, o desvio padro igual raiz quadrada de 32, isto , 5,657.

Embora no tendo uma interpretao imediata, o desvio padro a medida de disperso
mais importante e usada, em virtude das suas numerosas propriedades matemticas, sendo as
seguintes as principais:
1 Por conveno, tomamos para o valor do desvio padro a raiz positiva.
2 O desvio padro tem a mesma unidade dos dados (anos de idade se a varivel idade,
centmetros se essa a natureza da varivel, etc).
3 No depende do tamanho da populao (ou da amostra, se for o caso).
4 Pode servir de unidade para medir a distncia de qualquer valor relativamente
mdia. Exemplo: se a distribuio A tiver mdia igual a 70 e desvio padro igual a 5, o valor 80
encontra-se a 2 desvios padro da mdia; o mesmo sucede para o valor 130 na distribuio B
(com mdia = 110 e desvio padro = 10). Isto verdade mesmo que as duas variveis tenham
unidades diferentes: por exemplo, A pode referir-se a idades e B a rendimentos em contos
19
.
5 O desvio padro relaciona-se, ainda, de uma forma especial, com uma curva
importante (chamada curva normal) que muito usada na estatstica, pelo facto de servir como
uma boa estimativa para o modo como, na prtica, se realiza a distribuio de frequncias de
muitos fenmenos naturais. Voltaremos a este ponto mais frente.


17
J vimos atrs que a soma aritmtica dos desvios igual a zero.
18
Por razes que ultrapassam o nvel introdutrio deste texto, a frmula da varincia aparece, por vezes, indicada com
( 1 n ) no denominador (em vez de n ). Sendo n razoavelmente grande, as duas frmulas so praticamente
equivalentes.
19
Mais abaixo usaremos esta propriedade ao calcularmos pontos, na curva normal reduzida, que so equivalentes a
pontos de outras distribuies normais.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 16
A disperso dos elementos de uma distribuio tem naturalmente que ver com a
amplitude do campo de variao e com a grandeza dos valores da varivel. Vejamos com um
exemplo: se tivermos um grupo de crianas e adolescentes, muito natural que a disperso de
idades seja menor do que se considerarmos um conjunto de pessoas com trinta e mais anos. Ou,
ao invs, se ambas as distribuies tivessem o mesmo desvio padro, isso deveria ser interpretado
como significando, de facto, uma maior concentrao relativa no caso dos mais velhos. O
coeficiente de variao leva em linha de conta esta observao, pois controla o desvio padro
pela mdia: x s Cv / =

No devemos esquecer que temos estado a trabalhar com variveis intervalares, variveis
quantitativas
20
. Estas permitem usar, no seu estudo, um grande leque de medidas e tcnicas
matemticas que no podem ser todas utilizveis a nveis inferiores de quantificao. No faz
sentido, nomeadamente, recorrer a operaes que impliquem a existncia de unidade de medida
nos valores das variveis, se tais variveis forem de tipo ordinal ou nominal. E no possvel
sequer utilizar procedimentos que impliquem comparao quantitativa entre os valores, se se
tratar de uma varivel nominal.

Pelo contrrio, todas as operaes que so vlidas a nvel inferior so tambm vlidas a
nvel superior de medio: as noes que estudaremos a seguir para variveis ordinais e nominais
so tambm teis para variveis intervalares. Alis, j referimos vrias destas noes, como seja, a
mediana e os quantis (tambm aplicveis, at certo ponto, varivel ordinal), a moda, a frequncia
e distribuio de frequncias, as percentagens. No entanto, a mdia, o desvio mdio, o desvio
padro, etc., no tm cabimento com variveis de tipo inferior.

2.2 Variveis nominais

O cuidado bsico a manter na anlise de uma varivel nominal tem que ver com o facto
de que s temos uma mera classificao qualitativa de objectos, pelo que no faz sentido
considerar sequer uma ordem intrnseca dos valores da varivel. Assim, no que se refere aos
procedimentos relativos distribuio de frequncias (estudados acima para as variveis
intervalares) no podemos falar nem em intervalos nem em limites de categorias
21
, nem em
frequncias cumulativas (porque estas supem uma ordem dos valores). As frequncias de uma

20
No estudmos, de modo nenhum, todas as medidas possveis e nem sequer fizemos referncia a medidas de
assimetria, de achatamento e de concentrao das distribuies.
21
J dissemos que categorias, no contexto das variveis nominais e ordinais, no tm o significado que vimos nas
intervalares: aqui no se refere a intervalos mas designa os prprios valores da varivel.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 17
varivel desta natureza apresentam-se recorrendo igualmente a grficos, desde que os intervalos e
posies (das barras, por exemplo) no assumam significado quantitativo. Quanto a medidas de
tendncia central, s a de categoria modal. Mas as medidas de disperso no tm cabimento.

2.2.1 Propores e percentagens
A descrio de uma varivel nominal faz recurso contagem dos elementos em cada
categoria (frequncias) e s propores. Estas ltimas permitem comparaes fceis, porque
indicam as frequncias em relao a um padro comum: em relao unidade, para as propores
propriamente ditas, e em relao a cem, para as percentagens.
A proporo dos elementos em determinada categoria define-se como o quociente
entre a respectiva frequncia e o nmero total de elementos ( n f p
i i
/ = ).
A soma das propores de todas as categorias igual unidade. As propores tornam-se
especialmente teis, para comparar distribuies de frequncias de populaes de diferentes
tamanhos. Por exemplo, no quadro 2.4, podemos comparar mais facilmente os resultados das
escolas A e B observando as propores. D para verificar, por exemplo, que, embora os
aprovados apaream em propores bastante aproximadas (0,826 e 0,840), h maior
diferenciao no que se refere aos reprovados: a escola A teve uma proporo quase dupla de
primeiras reprovaes em relao ao que sucedeu na escola B, mas bastante menor em segundas
reprovaes (0,074 contra 0,107).

A B
i
n
prop. % i
n
prop. %
Aprovados 481 0,826 82,6 1081 0,840 84,0
Uma reprovao 58 0,100 10,0 68 0,053 5,3
Duas reprovaes 43 0,074 7,4 137 0,107 10,7
Total 582 1,000 100,0 1286 1,000 100,0

Quadro 2.4 Distribuio de resultados nas Escolas A e B

As percentagens (mais usadas do que as propores) obtm-se facilmente multiplicando
estas por 100. Tanto as propores como, sobretudo, as percentagens podem tornar-se muito
enganadoras se computadas relativamente a nmeros muito pequenos. Assim, ao usar
percentagens na anlise de qualquer varivel, deve-se sempre fazer referncia aos nmeros
absolutos correspondentes
22
.

22
claro que 1 igual a 50% de 2; mas, por ser to pequeno, no se pode da inferir qualquer tipo de padro de
comportamento, que deveria ficar implcito no uso de uma percentagem. Por motivo de arredondamentos de decimais
nos clculos das propores e percentagens, nem sempre os totais perfazem exactamente 1 ou 100. Nesse caso, por
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 18
Quando se trata de ler comparativamente as percentagens, muito importante manter a
referncia ao respectivo total, vendo se elas somam em colunas ou em linhas. No quadro 2.4,
somam em colunas e, portanto, podemos estabelecer as comparaes por escolas, dizendo, por
exemplo: na escola A tivemos 82,6 % de aprovados, enquanto que na escola B tivemos 84,0 %; e
assim por diante.

A B Totais
i
n
% i
n
% i
n
%
Aprovados 481 30,8 1081 69,2 1562 100,0
Uma reprovao 58 46,0 68 54,0 126 100,0
Duas reprovaes 43 23,9 137 76,1 180 100,0
Totais 582 1286 1868

Quadro 2.5 Distribuio de resultados nas Escolas A e B

No quadro 2.5, temos os mesmos valores absolutos, mas as percentagens esto calculadas
em linhas. A leitura tem, pois, de ser diferente da anterior. Por exemplo: dos 1562 aprovados,
30,8 % so da escola A e 69,2 % so da escola B; dos 126 com uma reprovao, 46 % so de A e
54 % de B; dos 180 com duas reprovaes, 23,9 pertencem escola A e 76,1 escola B .

2.2.2 Rcios e taxas
Uma rcio (ou razo) de um nmero para outro dada pelo quociente de ambos. A
razo de X para Y igual a X / Y. Por exemplo: a escola C tem 420 alunos no primeiro ciclo, 300
no segundo ciclo e 370 no terceiro. A rcio entre o nmero de alunos do 1 e 2 ciclos dada
por 420 / 300 = 42 / 30 = 1,4. Costuma exprimir-se da forma mais simples (42 / 30) ou, at,
relativamente unidade (neste caso: a rcio de 1,4 para 1). Contrariamente ao que acontece
com as propores, as rcios podem ser maiores que a unidade.
Permitem, pois, estabelecer comparaes entre frequncias de diferentes valores da
mesma varivel e entre situaes semelhantes, como quando quisermos relacionar o caso da
escola C com o de uma outra escola D. No entanto, tendo de lidar simultaneamente com um
nmero elevado de rcios, torna-se difcil interpretar o conjunto e prefervel usar percentagens
que, no fundo, so rcios referidas a uma mesma base, cem.


conveno, costume ajustar os valores que correspondem aos nmeros mais altos. No exemplo acima, a proporo
de aprovados na escola B dava, por arredondamento, 0,841 que foi ajustado para 0,840 para obtermos, na soma, 1,000
em vez de 1,001. Os zeros direita da vrgula tm a vantagem de indicar o grau de aproximao com que se trabalha:
1,000 diz-nos que a aproximao feita at s milsimas.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 19
As taxas tm a mesma lgica das percentagens: dizem respeito a uma base convencional.
Por exemplo: a taxa de nascimentos ser o nmero de nados vivos por mil mulheres em idade
de procriao; a taxa de suicdio poder ser definida como o nmero de suicdios por cem mil
habitantes.

Um caso especial a taxa de crescimento que calculada em funo de um
determinado perodo de tempo: igual diferena entre as quantidades final e inicial, dividida pela
quantidade inicial. Assim, se entre os anos 1990 e 2000, determinada cidade passou de 50.000
para 65.000 habitantes, a sua taxa de crescimento populacional, neste perodo, dada por
(65000 50000) / 50000 = 0,3 , ou 30%. de notar que a taxa de crescimento pode subir a mais
de 100% (no caso do valor final ultrapassar o dobro do inicial) ou descer a valores negativos (se
houver decrscimo no intervalo de tempo considerado).


2.3 Variveis ordinais

Para alm das tcnicas tpicas das nominais, as variveis ordinais, admitem ainda as
medidas posicionais, tais como a mediana (categoria mediana), os quartis e os decis, pelo facto de
os seus valores serem quantitativamente ordenados. Como indicador de disperso usamos
tambm o intervalo semiquartil.
Por no haver unidade, estas medidas referem-se a posies e no a intervalos. Alm
disso, para se tornarem de alguma utilidade, a varivel ter de possuir um nmero razoavelmente
elevado de valores (ou categorias), o que no o mais frequente.
Suponhamos que tnhamos duas variveis de prestgio social com 10 categorias. Na
primeira, os 3 e 1 quartis correspondiam respectivamente s categorias 6 e 4 e, na segunda,
situavam-se nas categorias 8 e 2
23
. Para a primeira varivel, o intervalo semiquartil seria dado
por: Q = (6-4) / 2 = 1 ; enquanto que, relativamente segunda, viria; Q = (8-2) / 2 = 3. O
segundo caso indicia uma maior disperso do que o primeiro.


23
Trata-se de posies (nmeros de ordem) e no de intervalos.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 20
3 Estatstica Indutiva
24


3.0 Introduo

3.0.0 Objectivos.
O objectivo genrico da estatstica indutiva determinar margens de segurana, ao
generalizar (para a populao) os resultados obtidos no estudo de uma amostra extrada dessa
mesma populao. A condio primeira desta generalizao que a amostra seja aleatria. Dois
casos tpicos se podem colocar:
1 - Na amostra, para uma qualquer varivel x (suponhamos, o rendimento), obtemos,
por exemplo, como mdia, o valor x (seja, 500 euros). A mdia correspondente na populao ( ),
muito provavelmente, encontrar-se- perto daquele valor. Quo perto? Os procedimentos da
estatstica indutiva vo permitir-nos calcular (em certas circunstncias) um intervalo, centrado no
valor x, relativamente ao qual podemos afirmar que a probabilidade de estar nele contido , por
exemplo, 95%
25
.
2 - Por outro lado, pode acontecer que, no nosso estudo, partamos de uma hiptese
acerca do valor de uma determinada caracterstica da populao (seja, outra vez a mdia, por
exemplo, = 550 euros). Mas, na amostra que estudamos, o valor correspondente por ns
encontrado x (imaginemos, x = 500). Em condies a estabelecer atravs da estatstica indutiva,
poder ser possvel rejeitar a hiptese inicial como sendo muito provavelmente falsa (explicitando
o nvel de probabilidade com que se efectua essa rejeio).

3.0.1 Definies.
Populao (ou universo) o conjunto de elementos cujas caractersticas queremos estudar.
Nem sempre possvel ter acesso a todos esses elementos. Recorremos ento a uma amostra,
isto , ao conjunto de elementos (escolhidos na dita populao) que de facto estudamos, com o
intuito de generalizar a toda a populao as concluses a que chegarmos.
Amostragem o processo de escolha da amostra. Chama-se amostragem probabilstica
quela que se realiza aleatoriamente, isto , segundo normas de escolha de acaso. Na estatstica
indutiva, pressupomos que as amostragens so sempre probabilsticas
26
. Teoricamente, de uma

24
O desenvolvimento deste captulo muito inspirado em Blalock, 1972.
25
Problema idntico se pode colocar para qualquer outro valor caracterstico da varivel, como o desvio padro ou a
varincia.
26
De facto, pressuporemos, quase sempre, amostragens simplesmente aleatrias, em que todas os elementos da
populao tm igual probabilidade de serem escolhidos para a amostra.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 21
mesma populao, possvel tirar sucessivamente um nmero infinito de amostras aleatrias e
independentes, isto , amostras de acaso que no so condicionadas pelos resultados anteriores.
Parmetro o nome dado a uma caracterstica (quantitativa) da populao. So exemplos
de parmetros a mdia e o desvio-padro de cada varivel, na populao; ou mesmo a
frequncia de um determinado valor da varivel. Os parmetros so nicos, no sentido em que
cada um deles tem um s valor, na nica populao.
Paralelamente, temos a noo de estatstica que uma caracterstica (quantitativa) da
amostra
27
. Ao parmetro nico, na populao, corresponde uma estatstica em cada amostra
28
. O
valor de cada estatstica varia, pois, de amostra para amostra, j que estas no so iguais.
Repetindo a amostragem um nmero infinito de vezes, obtm-se uma distribuio de frequncias
para cada estatstica, possuindo tal distribuio um nmero infinito de valores. A maior parte
destes no se afastam muito do valor do respectivo parmetro, pois so caractersticas de
amostras da mesma populao.
Chamamos distribuio de amostragem (ou distribuio amostral) de determinada
estatstica (por exemplo, a distribuio de amostragem das mdias) distribuio de frequncias
dos valores dessa estatstica, quando resultantes de amostras aleatrias, independentes e do
mesmo tamanho, tiradas sucessivamente (teoricamente, em nmero infinito) de uma s
populao
29
.

3.0.2 Noo de probabilidade.
Probabilidade tem que ver com as expectativas relativamente realizao de determinado
acontecimento (acontecimento favorvel), quando realizamos um grande nmero de
experincias em que um dos resultados possveis , precisamente, a ocorrncia desse
acontecimento. Se ele se verificar, falamos em sucesso.
Podemos ento adoptar, como definio operativa de probabilidade, a definio clssica:
probabilidade igual ao nmero de casos favorveis sobre o nmero de casos possveis
30
. Trata-se
pois de uma proporo, variando o seu valor entre zero e a unidade. Tambm se pode indicar em
termos de percentagem, multiplicando por 100 o valor da proporo.

27
O termo estatstica (com uso no plural) tem aqui, obviamente, um sentido diferente do que lhe atribudo quando
designa um ramo das matemticas aplicadas.
28
Exemplo: a varivel x (seja, idade) tem como mdia na populao o valor (43 anos), que o parmetro; em
sucessivas amostras poderemos obter mdias diferenciadas (estatsticas): x1 (45 anos), x2 (42), x3 (43), etc...
Usaremos, em geral, letras gregas para os parmetros e latinas para as estatsticas.
29
A noo de distribuio de amostragem fundamental para a compreenso da matria subsequente.
30
Com mais preciso, dizemos que probabilidade o limite (se existe) da proporo de sucessos relativamente ao
nmero total de experincias, quando este nmero tende para infinito. Assim, a probabilidade de obter caras, num s
lanamento de uma moeda, ser igual proporo do nmero de vezes que obtenho caras relativamente ao nmero
total de lanamentos, quando esta operao repetida muitas vezes igual a , se a moeda no estiver viciada.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 22
- Assim, a probabilidade do acontecimento impossvel igual a zero, enquanto que a
probabilidade do acontecimento certo igual unidade.
- Para acontecimentos independentes, a probabilidade de um qualquer deles se verificar
igual soma das probabilidades de cada um deles, considerado individualmente.
- A probabilidade de dois ou mais acontecimentos independentes se realizarem em
sucesso igual ao produto das probabilidades de cada um deles, considerados
individualmente.
A probabilidade associada a cada valor de uma determinada varivel vai variando ao longo
do campo dessa varivel. Podemos pois falar em distribuio de probabilidades (que uma espcie
de distribuio de frequncias). A este respeito, a probabilidade funciona, pois, como qualquer
outra varivel quantitativa.
Exemplo: seja a distribuio de
frequncias da varivel altura
representada no histograma junto (Fig.
3.1). O comprimento de cada barra
indica o nmero de pessoas com alturas
includas no respectivo intervalo.
Atendendo definio, a probabilidade
de um qualquer indivduo da populao
se encontrar includo em determinado
intervalo igual ao nmero de indivduos
nesse intervalo sobre o nmero total de
elementos da populao.
Fig. 3.1 Frequncias absolutas e relativas

Poderemos, ento, sobrepor ao primeiro, um segundo grfico, representando a
distribuio de probabilidades (zona tracejada). Embora a escala possa ser diferente, o perfil dos
dois grficos idntico. Mais: se atendermos a que os intervalos so iguais e a que, pela prpria
construo do grfico, a altura de cada barra proporcional ao nmero de indivduos contidos
no respectivo intervalo, facilmente se verifica a seguinte relao:
Ai / A = Ni / N = pi
sendo Ai e Ni, respectivamente, a rea da barra e o nmero de elementos correspondentes ao
intervalo i; pi d ento a probabilidade de um qualquer elemento da populao pertencer ao
mesmo intervalo.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 23
Isto significa que a probabilidade correspondente a
qualquer intervalo dada pela proporo da rea da
respectiva barra, relativamente rea total dentro do
polgono (A). Pelo facto de os dois grficos delimitarem
reas proporcionais, isto igualmente vlido quer para o
grfico da distribuio de frequncias, quer para o da
distribuio de probabilidades.

Por outro lado, quando aumenta o nmero de
elementos da populao e diminui gradualmente a
amplitude dos intervalos (ver Fig. 3.2), o polgono da
distribuio de probabilidades aproxima-se da curva que
une os pontos mdios dos extremos superiores das
barras. Assim, as reas delimitadas pelo polgono e pela
curva so iguais, para todos os efeitos, como mostra o
pormenor da Fig. 3.2.


Fig.3.2 Adaptao da curva ao histograma

Continua vlido o princpio que permite medir a probabilidade de um qualquer elemento
pertencer a determinado intervalo, atravs de uma proporo de reas: considera-se a rea
definida pela curva e pelas verticais traadas nos extremos do intervalo em causa (Ai) e tambm a
rea total delimitada por toda a curva (A)
31
; a proporo daquela rea relativamente a esta d-nos
o valor da probabilidade referida. No exemplo da Fig. 3.3, isto quereria dizer que a probabilidade
de x se encontrar no intervalo entre os valores x1 e x2 dada por Ai / A.

Fig. 3.3 Probabilidade para um intervalo de x

31
Mais precisamente, o intervalo considera-se fechado esquerda e aberto direita.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 24
3.0.3 Curva normal.
A chamada curva normal (CN) um modelo matemtico com muita utilidade no contexto
da estatstica porque, quer pela sua forma, quer pelas suas propriedades, possibilita uma
representao grfica e analtica muito aproximada de distribuies de frequncias e de
probabilidades de grande nmero de fenmenos naturais.
A CN uma curva em forma de sino, simtrica em relao vertical traada no ponto
mdio (ver Fig. 3.3). A frmula matemtica respectiva um pouco complicada, mas possui as
seguintes propriedades principais:

1 - Qualquer CN univocamente especificada por dois valores: a mdia (simbolicamente
designado por , se se trata da populao e por x, no caso de uma amostra) e o desvio-padro (
para a populao e s se se refere amostra). A CN que tem por mdia o ponto zero e por
desvio-padro a unidade chama-se Curva Normal Reduzida (CNR). costume designar por z a
varivel associada a esta curva, por uma questo de facilidade de identificao
32
.
2 - Para dois pontos numa qualquer CN, sempre possvel determinar, na CNR, dois
pontos em correspondncia, de tal modo que as reas, delimitadas pelas curvas e pelas verticais
traadas nos pontos correspondentes, so iguais propores das respectivas reas totais.
A correspondncia entre os pontos das duas curvas acha-se pela frmula geral:
z = (x- ) / .

Exemplo: seja uma qualquer curva normal (com mdia e desvio-padro ); e a CNR
(mdia = zero e desvio-padro = 1). Ento, aplicando aquela frmula geral, ser (ver Fig. 3.4):
z1 = (x1-) / e z2 = (x2-) / .

Indiquemos por A e Az as reas totais respectivamente da
CN e da CNR. Ento, de acordo com a 2 propriedade
referida, as reas A e Az so iguais propores das
respectivas reas totais.
Isto : A / A = Az / Az = p
Ora, p a probabilidade de x estar contido no intervalo
[x1, x2[, como vimos atrs.
Fig. 3.4 Correspondncia entre reas
da CN e da CNR
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 25
Tendo ns, em tabela (ver Tabela 3.2, p. 27), as reas definidas pela CNR (que nica, como
ficou dito), possvel usar essa tabela para calcular as probabilidades referentes a qualquer
intervalo de qualquer distribuio de x, desde que esta distribuio siga o modelo de uma CN.
Para isso, basta calcular os valores de z pela frmula, procurando, na Tabela 3.2 as propores de
rea correspondentes. Da mesma frmula se tira, se necessrio, o valor de x em funo de z:
x = z +

3 Do acabado de referir se pode deduzir que, qualquer que seja a CN, o mesmo nmero
de sigmas ( ), marcados para cada lado do ponto mdio, determinam iguais propores de reas
relativamente rea total (ver Fig. 3.5 e Tabela 3.1, p. 25).

O comportamento das distribuies de frequncia de muitas variveis (assim como das
distribuies de probabilidades que lhes esto associadas) aproxima-se amide do modelo
representado pela CN. Isto particularmente verdade quando lidamos com um grande nmero
de elementos e, sobretudo, para a distribuio de amostragem das mdias
33
.


Fig. 3.5 Percentagens das reas definidas por mltiplos de





32
Ento, z = 0 e z = 1 (ou sz = 1).
33
Tendo em conta que as mdias indicam pontos centrais nas respectivas amostras, j seria de esperar que, na sua
distribuio de amostragem, a maior parte delas se acumule perto do valor da mdia da populao, produzindo uma
distribuio de frequncias com a forma da CN.

Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 26

Tabela 3.1 reas e probabilidades referentes curva normal



3.0.4 Outras curvas tpicas.
Existem outros modelos matemticos a que a estatstica faz recurso. Ns s faremos
meno breve dos aspectos tericos de mais dois, frisando sobretudo os pressupostos em que se
apoiam, pois s na medida em que, na prtica, os pressupostos tericos se mantiverem que os
modelos so teis como referncias aproximadas da realidade.
A curva t (ou distribuio t) uma curva semelhante CNR, embora um pouco
mais achatada. Veremos frente a sua frmula e o seu uso. Basta dizer aqui que, no caso da curva
t, no h uma nica curva a que possamos reduzir todas as outras. Como impossvel tabel-
las todas, a tabela de t d-nos s informao sobre os chamados valores crticos (ver Tabela
3.3, p. 28).
De forma semelhante, para a distribuio do Qui-quadrado (
2
). Estudaremos, em
ocasio oportuna, o teste que usa esta distribuio. A tabela respectiva tambm s faz referncia
aos valores crticos, por motivos idnticos.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 27

Tabela 3.2 rea subtendida pela CNR, de zero a z

Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 28
Tabela 3.3 Valores crticos de t

Distribuio de t (Student)

Nvel de Significncia para testes unilaterais
0,10 0,05 0,025 0,01 0,005 0,0005
Nvel de Significncia para testes bilaterais
gl 0,20 0,10 0,05 0,02 0,01 0,001
01 3,078 6,314 12,706 31,821 63,657 636,619
02 1,886 2,920 4,303 6,965 9,925 31,598
03 1,638 2,353 3,182 4,541 5,541 12,924
04 1,533 2,132 2,776 3,747 4,604 8,610
05 1,476 2,015 2,571 3,365 4,032 6,869
06 1,440 1,943 2,447 3,143 3,707 5,959
07 1,415 1,895 2,365 2,365 3,499 5,408
08 1,397 1,860 2,306 2,896 3,355 5,041
09 1,383 1,833 2,262 2,821 3,250 4,781
10 1,372 1,812 2,228 2,764 3,169 4,587
11 1,363 1,796 2,201 2,718 3,106 4,437
12 1,356 1,782 2,179 2,681 3,055 4,318
13 1,350 1,771 2,160 2,650 3,012 4,221
14 1,345 1,761 2,145 2,624 2,977 4,140
15 1,341 1,753 2,131 2,602 2,947 4,073
16 1,337 1,746 2,120 2,583 2,921 4,015
17 1,333 1,740 2,110 2,567 2,898 3,965
18 1,330 1,734 2,101 2,552 2,878 3,922
19 1,328 1,729 2,093 2,539 2,861 3,883
20 1,325 1,725 2,086 2,528 2,845 3,850
21 1,323 1,721 2,080 2,518 2,831 3,819
22 1,321 1,717 2,074 2,508 2,819 3,792
23 1,319 1,714 2,069 2,500 2,807 3,767
24 1,318 1,711 2,064 2,492 2,797 3,745
25 1,316 1,708 2,060 2,485 2,787 3,726
26 1,315 1,706 2,056 2,479 2,779 3,707
27 1,314 1,703 2,052 2,473 2,771 3,690
28 1,313 1,701 2,048 2,467 2,763 3,674
29 1,311 1,699 2,045 2,462 2,756 3,659
30 1,310 1,697 2,042 2,457 2,750 3,646
40 1,303 1,684 2,021 2,423 2,704 3,551
60 1,296 1,671 2,000 2,390 2,660 3,460
120 1,289 1,658 1,980 2,358 2,617 3,373
1,282 1,645 1,960 2,326 2,576 3,291

Nota: quando no existir um nmero exacto para os seus gl, utilize o inferior mais prximo, excepto para o
gl muito elevados (acima de 120), em que deve utilizar a linha infinito.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 29
3.1 Testes ou Ensaios de Hipteses

Neste contexto, podemos definir hiptese como uma afirmao relativa a um aspecto no
conhecido (em geral, referente populao), elaborada de tal modo que pode ser rejeitada, isto
, pode provar-se que falsa, por anlise dos dados empricos (tirados em geral da amostra).
Antes de esta afirmao ser posta prova, deve indicar-se claramente que resultados da
experincia nos levaro a rejeitar a hiptese e que resultados implicaro a no rejeio da
mesma. Isto implica a especificao prvia de uma fronteira de separao (ponto crtico) entre o
rejeitar e o no rejeitar a hiptese. Mas, como, nos fenmenos sociais, praticamente, s podemos
falar em termos probabilsticos, qualquer deciso que se tome (quer rejeitando, quer no
rejeitando) envolve alguns riscos de nos enganarmos.
Vejamos primeiramente, de um modo abstracto, a lgica do procedimento. Seja a
hiptese que nos diz que A d origem a B (A B). Se est correcta, sempre que A ocorre,
verifica-se B. Assim, se ocorrer A e, por observao da realidade, no encontrarmos B, podemos
afirmar que a hiptese falsa, rejeitando-a. Mas, se encontrarmos B, isso, em geral, no prova
indiscutivelmente que a hiptese verdadeira, pois sempre (ou quase sempre) possvel imaginar
uma teoria alternativa (C) que explique B. Portanto, neste segundo caso, no poderemos rejeitar
a hiptese, mas tambm no ficar inequivocamente demonstrado que ela a verdadeira. Se, de
facto, a hiptese falsa (embora no o possamos saber com os dados acessveis), a experincia
realizada falha no objectivo de rejeitar uma hiptese falsa. Cometemos, ento, o chamado erro
, ou erro de tipo II.
Em Cincias Sociais, a questo torna-se ainda mais problemtica, porque as teorias no
so expressas em termos absolutos, mas sim probabilsticos. A B ter-se-ia que ler: A, muito
provavelmente (ou, na maior parte dos casos), implica B. O que significa que se admite a
verificao da afirmao na grande maioria das circunstncias, embora com a possibilidade de
algumas excepes, em nmero relativamente reduzido de casos. Portanto, se na nossa
observao da realidade no encontrarmos B, isso pode ser devido ao facto de a hiptese ser
falsa ( o mais provvel, segundo o que ficou dito acima) ou ao facto de estarmos a lidar com um
dos casos-excepo. Sendo este tipo de casos muito raro (pouco provvel), atrevemo-nos a
rejeitar a hiptese, correndo, no entanto, um pequeno risco de nos enganarmos. Se,
precisamente, acontecesse que nos tivesse calhado, na anlise, um dos poucos casos raros,
estaramos, sem o sabermos, a rejeitar uma hiptese verdadeira. A rejeio de uma hiptese
verdadeira um erro: o erro ou de tipo I.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 30
Desde que possamos garantir que a probabilidade de este erro ocorrer diminuta,
estamos em geral dispostos, em Cincias Sociais, a correr tal risco. Isto , se a experincia fosse
repetida muitas vezes, admitiramos a possibilidade de rejeitar uma hiptese verdadeira em, por
exemplo, 5% dessas experincias. Se fosse til garantir mais fortemente a certeza da concluso,
ento mudaramos as circunstncias da experincia, de modo a que a probabilidade de erro
fosse ainda mais pequena (1%, por exemplo).
As consideraes anteriores mostram que, formalmente, o caminho normal no provar
directamente uma teoria mas rejeitar as suas contrrias. Uma boa teoria aquela que resiste
sucessivamente a ser eliminada desde que afirmada de modo a poder s-lo. Isto , deve dar
lugar a hipteses que possam ser postas prova dos factos (Blalock, 1972, p. 113). Por outras
palavras, devemos tentar rejeitar uma hiptese no conveniente e no procurar provar
directamente a hiptese que nos interessa.
Na grande maioria das vezes, esta problemtica levanta-se a propsito do estudo das
populaes feito a partir dos dados encontrados nas amostras. Procede-se, pois, segundo o
seguinte esquema lgico:

1 Estabelece-se uma hiptese acerca de uma caracterstica da populao (parmetro)
hiptese que, de facto, esperamos rejeitar. A esta hiptese chama-se hiptese nula e indica-se
simbolicamente por H0. A hiptese alternativa H1.
34

2 Recorre-se aos conhecimentos matemticos para especificar como se distribuem as
probabilidades (admitindo que a hiptese nula verdadeira) na distribuio de amostragem
da caracterstica da amostra (estatstica) correspondente ao parmetro em causa. Ou seja, temos
de conhecer o modo como se distribuiriam os valores da estatstica, se repetssemos a
amostragem (em iguais circunstncias e sendo H0 verdadeira) um nmero infinito de vezes
35
.
3 Decide-se que risco que se est disposto a correr de rejeitar a hiptese nula, sendo
ela verdadeira (risco de erro ou de tipo I). Este nvel de risco (chamado nvel de significncia
do teste) tem que ver com o grau de segurana pretendido ao concluir pela rejeio da hiptese
nula
36
.

34
de notar que, em geral, H1 puramente residual. Por exemplo: se H0: = 5, ento, H1: 5.
35
Por exemplo: quando a hiptese nula diz respeito mdia da populao (parmetro), o conhecimento da distribuio
de amostragem das mdias das amostras (estatsticas), que segue o modelo da CN, permite-nos conhecer a distribuio
de probabilidades das mdias e, portanto, a probabilidade de obter determinada mdia (a obtida na amostra), assumindo
que os pressupostos so verdadeiros.
36
Convm, naturalmente, que o risco de erro seja pequeno tanto mais quanto maior segurana se pretender. Mas
h que atender ao facto de que quanto mais pequeno ele for, tanto maior ser o risco de erro , ou seja, o risco de
no rejeitar uma hiptese falsa.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 31
4 Calcula-se o valor da estatstica relevante, na amostra. Tendo j conhecido, no 2
passo, a distribuio de probabilidades, possvel agora saber (sempre no pressuposto de a
hiptese nula ser verdadeira) qual a probabilidade de obter o valor que, de facto, viemos a
obter para esta estatstica.
5 Decide-se acerca da rejeio ou no da hiptese nula. Se a probabilidade calculada no
ponto anterior for muito pequena (menor do que o risco de erro estipulado no 3 passo),
rejeita-se H0, embora sabendo que corremos um certo risco de estar a rejeitar uma hiptese
verdadeira
37
. Se aquela probabilidade for maior do que , no se rejeita a hiptese nula, nada se
conclui sobre a sua veracidade.


3.2 Testes Relativos Mdia

3.2.1 O teorema do limite central.
Este teorema diz respeito distribuio de amostragem das mdias
38
.

Primeiro enunciado: Se repetidas amostras aleatrias, de tamanho n, so tiradas de uma
populao com distribuio normal (com mdia = e varincia =
2
), a distribuio de
amostragem das mdias ser tambm normal, com mdia = e varincia =
2
n .
Temos, portanto, trs distintas distribuies referentes varivel em causa: a distribuio
(normal) da varivel na populao; a distribuio da mesma varivel na amostra
39
(neste contexto,
s nos interessa a sua mdia); e a distribuio de amostragem da mdia, isto , a distribuio
formada pelas mdias da mesma varivel, obtidas nas sucessivas amostras.
A varincia, como sabido, igual ao quadrado do desvio-padro. Ao desvio-padro da
distribuio de amostragem chama-se erro-padro. Neste caso, temos o erro-padro das
mdias, Sm = n . Quanto maiores forem as amostras (n), tanto menor ser o erro-padro,
isto , tanto mais compacta ser a distribuio de amostragem das mdias volta da mdia na
populao (). Isto traduz a intuio que nos leva a afirmar que quanto maior for a amostra, tanto
mais confiana ela nos d de representar a populao.


37
A rejeio de H0 implica, por excluso de partes, a aceitao de H1.
38
Consideramos, para j, que a populao infinita, ou muito grande ( 100 000, por conveno).
39
Esta no tem que ser normal, embora se espere que se aproxime da normalidade, dado que, na populao de onde a
amostra foi tirada, a distribuio da varivel normal.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 32
Segundo enunciado (generalizao do teorema anterior): Se repetidas amostras
aleatrias, de tamanho n, so tiradas de uma qualquer populao (com mdia = e varincia =

2
), ento, quando n grande, a distribuio de amostragem das mdias aproxima-se da
normalidade, com mdia = e varincia =
2
n .
Esta segunda formulao do teorema no exige, pois, que a distribuio da varivel na
populao seja normal, desde que o tamanho das amostras seja suficientemente grande. Quanto a
este tamanho, costume usar a seguinte regra prtica:
- Se n 100, no precisamos de exigir que a populao seja normal para aplicar o
teorema (verso generalizada).
- Se 50 < n < 100 e podemos garantir que a distribuio, na populao, no se afasta
muito da normalidade, tambm podemos continuar a aceitar o teorema.
- Se 30 < n 50 , ainda se poder admitir o teorema, mas com mais cautela no que
diz respeito aproximao da normalidade da distribuio da varivel na populao.
- Se n 30 , nunca se dever usar o teorema, a no ser que estejamos absolutamente
seguros que h mesmo normalidade na populao (de acordo com a primeira verso do
teorema). Infelizmente, esta informao quase sempre ignorada, dado que o conhecimento da
populao nos vem, em geral, atravs da amostra; sendo esta de pequeno tamanho, no nos
fornece suficiente nmero de casos para tirar concluses seguras sobre a populao, no seu
conjunto.

3.2.2 Primeiro caso: o conhecido, quer com populao normal
40
, quer
com amostra grande.
Em ambas as situaes se pode aplicar directamente o teorema do limite central: sendo
normal a distribuio da varivel na populao, temos as condies da primeira verso do
teorema; se a amostra for grande, aplicamos o teorema na forma generalizada, por
aproximao
41
.

3.2.3 Segundo caso: o desconhecido.
Se o valor do desvio-padro na populao desconhecido, no podemos usar
imediatamente nem a frmula do erro-padro ( Sm = / n ) nem, portanto, a da transformao

40
Por simplificao de linguagem, falamos em populao normal para nos referirmos a uma populao onde a
distribuio da varivel em causa segue o modelo normal.
41
Na aula terica, sero desenvolvidos exemplos apropriados, com referncia aos critrios de escolha do nvel de
significncia e do tipo de teste (unilateral ou bilateral)
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 33
para a CNR [z = (x - ) Sm ] de que falmos atrs. Por vezes, ser possvel substituir, nestas
frmulas, o por s (desvio-padro na amostra), sobretudo se esta for grande
42
.
Sendo a amostra pequena, usa-se a estatstica t de Student (devida ao matemtico W.
S. Gosset). A distribuio da estatstica t (associada a problemas da mdia) no segue o modelo
normal ( mais achatada), embora se aproxime da distribuio da CNR. E aproxima-se tanto mais
quanto maior for o tamanho da amostra. Por outro lado, no possvel reduzir as diversas
distribuies de t a uma s, de modo que possamos usar uma nica tabela, como acontece no
caso das distribuies normais. A tabela de t limita-se a fornecer-nos valores crticos
estratgicos correspondentes a alguns valores de probabilidade convencionalmente mais
usados.
A estatstica t obtm-se tomando a diferena entre a mdia da amostra e a mdia da
populao, e dividindo tal diferena por uma estimativa do erro-padro das mdias
43
.
x -
t = --------- , em que s o valor do desvio-padro encontrado na amostra.
44

s n-1
A forma da curva t depende do nmero dos chamados graus de liberdade
45
, nmero dado
por (n-1)
46
.

Condies de aplicabilidade de t :

1 A amostra de acaso (condio comum a todos os testes).
2 A distribuio da varivel na populao normal.

Notas: Quando o nmero de graus de liberdade infinito, a curva t coincide com a CNR.
medida que o tamanho da amostra vai aumentando, os valores de t vo-se aproximando dos de
z, como se pode ver facilmente por comparao das respectivas tabelas. S para amostras
bastante pequenas que os valores divergem notavelmente.

42
de notar que (mdia dos valores da varivel na populao), que tambm aparece na frmula, postulado na
hiptese nula, pois, nestes problemas, trata-se de testar uma afirmao sobre essa mdia. a partir desse valor que
trabalhamos, para tentar mostrar que os dados no permitem sustent-lo.
43
Trata-se, portanto, de uma frmula parecida com a de z .
44
Prova-se que s
2
(n-1) uma estimativa centrada da varincia da distribuio de amostragem das mdias. Veremos
mais frente o que isso significa.
45
A noo tem que ver com as condicionantes impostas a determinado clculo. Neste caso, gasta-se um grau de
liberdade porque o clculo do desvio-padro est condicionado por (xi x) = 0.
46
com este valor (tamanho da amostra menos um) que tem de se entrar na primeira coluna da tabela de t (Tabela
3.3, p.28).

Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 34
Portanto, esta distribuio sobretudo til em pequenas amostras, desde que a
distribuio da varivel, na populao, seja normal. Infelizmente, quando a amostra mais
pequena, tambm, em geral, temos menos informao sobre o que se passa na populao.
Havendo dvidas neste ponto, devem-se usar testes alternativos.
Por outro lado, no se conhecendo , sendo qual for o tamanho da amostra (pelo menos
quando menor do que 100), prefervel usar t sempre que a distribuio da varivel na
populao pode ser assumida como normal. Do que ficou dito decorre que esta exigncia de
normalidade tanto mais forte quanto mais pequena a amostra
47
.
























47
Nas aulas tericas (e, sobretudo, nas prticas), haver ocasio de estudar exemplos de problemas apropriados ao
uso do modelo t.

Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 35
3.3 Testes com propores
48


Os testes relativos mdia exigem, naturalmente, variveis de intervalo. Mas uma varivel
dicotmica pode ser, para certos efeitos, tratada como varivel de intervalo
49
.
Suponhamos, para concretizar, a varivel gnero. Atribuamos arbitrariamente o valor 1
(um) s mulheres e o valor zero aos homens. Ficaremos, assim, com uma populao simblica de
zeros e uns. Representando o nmero de mulheres por Nm e o dos homens por Nh, a soma dos
dois ser N, o nmero total de elementos na populao. Ento, a proporo de mulheres vir dada
por pu = Nm/N e a dos homens por qu = Nh/N, com pu + qu = 1
50
. Na amostra, identicamente,
teremos pa + qa = 1.

Podemos calcular a mdia dos valores zeros e uns na populao:

(n de uns . 1) + (n de zeros . 0) (puN . 1) + (quN . 0)
= ----------------------------------------------- = ----------------------------- = pu
n total de elementos N

Na amostra, seria identicamente: x = pa
Por outro lado, tambm se prova que, nas condies enunciadas, = pu . qu
Pelo teorema do limite central, sendo n grande, a distribuio de amostragem das mdias
aproximadamente normal, com mdia e desvio-padro = / n .
Ento, a distribuio de amostragem de propores (sendo n grande) ser uma distribuio normal,
com mdia = pu e erro-padro = (pu. qu) / n .
Por conseguinte, sendo a frmula de transformao para a CNR,
x pa - pu
z = ----------------- , vir, neste caso, z = ---------------
erro-padro (pu.qu / n

Esta a frmula para o clculo da estatstica nos testes de propores, com amostra
grande. Pode usar-se com propores propriamente ditas ou com percentagens
51
.



48
Neste pargrafo, continuaremos a considerar populaes infinitas, mas s amostras grandes.
49
De facto, os dois valores, numa varivel dicotmica, determinam um s intervalo, no havendo, por isso, lugar para
compar-lo a outros intervalos. Por isso, mesmo no existindo unidade de medida para a varivel, podemos sempre,
convencionalmente, fazer o intervalo igual unidade.
50
Donde se conclui que Nm = pu.N e Nh = qu.N. Numa amostra de tamanho n, o nmero de mulheres e homens seria
respectivamente nm e nh . E viria, de forma semelhante, nm = pa.n e nh = qa.n .
51
de notar que no h aqui lugar para aplicao da estatstica t, pois esta supe que a distribuio na populao
normal, o que no acontece com uma varivel dicotmica.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 36
3.4 Estimao de pontos e de intervalos. Tamanho da amostra

Em vez de testar hipteses, poderemos estar s interessados em estimar valores de
parmetros a partir das estatsticas da amostra.
A estimao de um ponto refere-se escolha da melhor estimativa de um parmetro, isto
, escolha da estatstica (ou estimador) mais apropriada para nos fornecer um valor aproximado
do dito parmetro.
A estimao de um intervalo refere-se ao clculo dos dois pontos que limitam um espao
dentro do qual poderemos afirmar (com determinado grau de probabilidade) que o parmetro se
encontra. Nesta operao, por conseguinte, alm da amplitude do intervalo, temos de considerar
tambm o nvel de garantia ou de confiana com que afirmamos que esse intervalo contm o
parmetro em causa.

3.4.1 Estimao de pontos.
Um parmetro, por vezes, pode ser estimado por mais do que um estimador. Por
exemplo, a mdia de uma varivel na populao pode ser estimada quer pela mdia, quer pela
mediana, na amostra.
Assim, poderemos considerar trs propriedades dos estimadores, as quais so tambm
critrios de escolha dos mais convenientes.
1 Centralidade (ou no tendenciosidade). Diz-se que um estimador centrado se o ponto
mdio da sua distribuio de amostragem coincide com o parmetro a estimar. o caso da mdia
da amostra relativamente mdia da populao, segundo o teorema do limite central.
2 Eficincia. Esta propriedade diz respeito proximidade do conjunto da distribuio de
amostragem da estatstica, em relao caracterstica da populao que se quer estimar. Um
estimador tanto mais eficiente quanto mais a sua distribuio de amostragem se aperta volta
do valor do parmetro. Por exemplo: ainda pelo teorema do limite central, sabemos que quanto
maior for o tamanho da amostra, tanto mais eficiente a respectiva mdia, como estimador da
mdia da populao.
Isto significa que a eficincia uma propriedade mais importante do que a centralidade, j
que um estimador um pouco tendencioso pode ser mais eficiente do que outro que seja centrado
isto , a sua distribuio de amostragem pode manter-se, no conjunto, muito mais perto do valor
do parmetro.
3 Consistncia. a propriedade do estimador tendencioso que tende a centrar-se quando
aumenta o tamanho da amostra.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 37
3.4.2 Estimao de intervalos Intervalos de Confiana
Tendo estabelecido o nvel de confiana
52
(ou nvel de probabilidade a que pretendemos
trabalhar), o intervalo de confiana obtido marcando, para ambos os lados da estatstica, uma
distncia igual distncia dos pontos crticos, no que seria o teste de hipteses bilateral
correspondente. Vejamos porqu.
Consideremos, por exemplo, a Fig. 3.6, que representa a distribuio de amostragem das
mdias das amostras de tamanho n. Pelas propriedades da CN, j sabemos que 95% das mdias
destas amostras estaro contidas num intervalo limitado por dois pontos simtricos (x e x),
situados a uma distncia do centro calculada por 1,96 x erro-padro. Este intervalo, recordemo-
lo, corresponde a 95% da rea limitada pela
curva da distribuio de amostragem. Para
fora deste intervalo, a curva define ainda os
restantes 5% de rea, correspondentes
distribuio de igual percentagem das
mdias das amostras. Este resto de rea
encontra-se dividido pelos dois extremos
(2,5% para cada lado, indicados a tracejado
na figura). Mas, o que de facto obtemos
numa qualquer amostra i um s valor, o
da respectiva mdia (xi). No conhecemos a
posio de , mas sabemos que, em 95%
dos casos (amostras), xi faz parte do
intervalo referenciado, quer se encontre
direita, quer esquerda de .
6
Fig. 3.6 Exemplo de intervalo de confiana

Ento, se tomarmos o mesmo intervalo para um e outro lado de xi (mdia da nossa
amostra), temos 95% de probabilidades de que a se encontre. o intervalo de confiana, a 95%,
relativo mdia da amostra i
53
.

52
de notar que, enquanto nos testes de hipteses, consideramos o nvel de significncia (), ou seja, a probabilidade de
virmos a recusar a hiptese nula sendo ela verdadeira, aqui o que est em causa a probabilidade do parmetro estar
contido em determinado intervalo simtrico relativamente estatstica, probabilidade essa medida por 1 -
(correspondendo a um teste bilateral).
53
Os limites do intervalo de confiana encontram-se, pois, mesma distncia dos pontos crticos no que seria um
teste bilateral a respeito de .
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 38
Em geral, qualquer que seja a estatstica considerada, os limites do intervalo de confiana
sero dados pelas seguintes frmulas:
Limite inferior: x l = estatstica a.(erro-padro)
Limite superior: x L = estatstica + a.(erro-padro)

em que xl e xL representam os limites do intervalo, o erro-padro o desvio-padro da
distribuio de amostragem da estatstica considerada e o a um coeficiente associado ao grau
de probabilidade escolhido, cujo valor retirado da tabela correspondente mesma distribuio
de amostragem.
54


1 caso : Sendo a estatstica a mdia
55
( xi ), o erro-padro igual a / n
Dado que, normalmente, no conhecemos :
- tratando-se de grandes amostras, faz-se s, sendo a tirado da CNR.
- para pequenas amostras, se a distribuio da varivel na populao for normal, usa-se,
como estimativa do erro-padro, o valor de t = s / n-1 . O valor de a tira-se da
tabela de t, com n-1 graus de liberdade.

2 Caso : A estatstica uma proporo ( pa ). S vamos considerar, neste caso, grandes
amostras; portanto o a tira-se da tabela da CNR. O erro-padro igual a pu . qu / n
ou aproximadamente igual a pa . qa / n

3.4.3 Erro Amostral (ou grau de preciso)
O erro amostral a distncia mxima (afirmada com determinado nvel de probabilidade) a
que o parmetro se poder encontrar em relao estatstica. Significa que, ao generalizar de
uma amostra para a populao, podemos afirmar, dentro da probabilidade referida, que o valor
do parmetro no se afastar da correspondente estatstica mais do que a distncia indicada pelo
erro amostral.
fcil de ver que, sendo o intervalo de confiana simtrico, o erro amostral igual a metade
deste intervalo, para o mesmo nvel probabilstico. Assim, a frmula geral do erro amostral (E)
vir:
- Para populaes infinitas: E = x L estatstica = a.(erro-padro)
- Para populaes finitas
56
: E = a.(erro padro). (N-n) / (N-1)

54
No exemplo acabado de dar anteriormente, a distribuio de amostragem (da mdia) normal, portanto o a (=
1,96) foi retirado da tabela da CNR. Noutros casos, poder ser retirado da tabela da curva t, etc.
55
Continuamos a considerar s a situao de populaes infinitas.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 39
Os valores do erro-padro calculam-se pelas frmulas acabadas de recordar no pargrafo
anterior. de notar, no entanto, que, ao estimar o valor do erro-padro, no caso das
propores, com frequncia se substituem tanto pu como qu por 0,5. A razo desta opo,
quando se desconhecem os verdadeiros valores das propores, deve-se ao facto de que o
produto pu.qu mximo precisamente quando ambos so iguais a 0,5. Ao proceder a tal
substituio, estamos, portanto, a garantir uma estimativa conservadora para o erro amostral
57
.

3.4.4 Clculo do tamanho da amostra
As frmulas anteriores permitem estimar o tamanho que uma amostra aleatria precisa
de ter para nos garantir um determinado grau de preciso (erro amostral), a certo nvel de
confiana (ou de probabilidade).
Vejamos, em primeiro lugar, o caso das mdias, para populaes infinitas
58
. J sabemos
que o erro amostral dado por:

E = a .( / n ) , donde se tira que n = (a / E)
2
.
2


Isto , para calcularmos aqui o tamanho da amostra, precisamos de especificar: 1 - o
nvel de confiana desejado, pois o valor de a tem que ver com ele; 2 - o grau de preciso com
que queremos estimar a mdia da populao (isto , o erro amostral, E); e 3 - uma estimativa
razovel do desvio-padro na populao ().

Enquanto que os dois primeiros valores dependem de opes do investigador, o ltimo
supe que existe informao apropriada sobre o desvio-padro na populao. Mas, se no
conhecemos a mdia, menos saberemos, em geral, acerca do desvio-padro. Portanto, ou se
procede a um estudo exploratrio prvio para obter um valor aproximado (o que vai pesar
fortemente no oramento do projecto), ou se usa uma estimativa ilustrada, a partir de algum
estudo semelhante j elaborado.



56
No temos considerado, at aqui, a situao de populaes finitas. Ao radical acrescentado, neste caso, frmula
chama-se factor de correco para populaes finitas.
57
Os valores pu e qu (bem assim como pa e qa) podem referir-se em propores ou em percentagens. Os resultados
dos clculos sero interpretados correspondentemente.
58
Neste pargrafo, por uma questo de simplificao, consideramos os clculos, somente, de novo, para populaes
infinitas. De qualquer modo, teoricamente, no fica garantido que o tamanho da amostra calculado para determinada
varivel seja idntico ao necessrio para outra varivel.

Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 40
Para o caso das propores, teramos identicamente:
n = (a / E)
2
. (pu.qu)

Aqui, mais uma vez, desconheceremos, normalmente, as propores na populao.
Recorremos por isso estimativa conservadora j indicada, fazendo pu = qu = 0,5 , ficando a
frmula:
n = 0,25 . (a / E)
2
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 41

4 Associaes de Duas Variveis


4.0 Introduo

4.0.1 Noo e tipos de associao de variveis.
Em Cincias Sociais, falamos de associao (ou relao) entre duas variveis para referir a
tendncia para determinados valores de cada uma dessas variveis aparecerem simultaneamente
nos mesmos indivduos (ou casos). Quanto maior for o nmero de elementos em que se verificar
tal fenmeno, tanto mais intensa ser a associao. Esta definio particularmente aplicvel a
variveis nominais.
No caso de variveis ordinais ou intervalares, contudo, a noo de associao estende-se
s situaes em que um certo movimento dos valores de uma varivel tende a coincidir com
algum movimento nos valores da outra varivel, ou seja, quando, ao passarmos de uns casos para
outros, se uma varivel se desloca em certo sentido, a outra varivel tende a deslocar-se tambm
de modo consistente. Mais uma vez, quanto maior for a tendncia de movimentos simultneos,
tanto maior ser a intensidade da associao.
A noo de associao diz, portanto, respeito a uma certa implicao ou determinao
entre as duas variveis, mas, para haver associao, no necessrio que a simultaneidade de
valores ou de movimentos se verifique em todos os casos da populao ou amostra a estudar. O
grau da associao indica, precisamente, a medida em que cada valor (categoria) de uma das
variveis tende a coexistir com determinado valor da outra varivel ou, ento, a medida em que a
variao de uma das variveis acompanha a da outra
59
.
No demais sublinhar que a ocorrncia simultnea ou a variao consistente de valores
nas duas variveis no significa necessariamente que uma seja causa da outra, pois podem ambas
derivar ou depender de origem comum. a interpretao terica que estabelece a linha de
causalidade. A estatstica pode s verificar a sua no existncia.
No estudo da associao entre variveis, distinguimos trs aspectos: - o da existncia de
associao; - o da intensidade da associao; - e o da direco da mesma. Quanto intensidade,
dizemos que a associao perfeita se a determinao entre uma varivel e outra completa, isto
, se se verifica identicamente em todos os casos o que rarissimamente acontecer, na

59
Recorde-se que, nas variveis nominais, a ordem dos valores arbitrria, portanto, no faz sentido considerar
direco nos movimentos de valores. Estes so qualitativa e no quantitativamente diferenciados.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 42
realidade. Tratando-se de uma associao imperfeita, falamos de associao forte ou fraca, de
modo bastante relativo.
O conceito de direco de associao s tem significado para variveis ordinais e
intervalares: a associao considerada positiva se os valores das duas variveis tendem a
aumentar em simultneo; e negativa no caso de os valores de uma das variveis tenderem a
diminuir quando os da outra crescem.
As medidas de associao de variveis, por um lado, devem permitir uma interpretao
intuitiva (isto , devem sintetizar e descrever a relao de modo facilmente compreensvel) e, por
outro, devem prestar-se a fcil comparao com medidas idnticas de outras associaes o que
implica possurem variaes e limites conhecidos. Assim, muitas medidas de associao (mas no
todas) so construdas de modo a variarem entre zero e um (para medidas de associaes sem
direco); ou entre -1 e +1, para as outras. Neste ltimo caso, os valores negativos
correspondem a associaes negativas e os positivos, a associaes positivas. Os extremos (-1 e
+1) indicam sempre associaes perfeitas e o zero refere-se a associaes nulas, ou no
existentes.
Grande parte das vezes, o trabalho com associaes de variveis aplica-se ao estudo de
amostras, com a inteno de generalizar os resultados a toda a populao. Deste modo, o
primeiro problema (a questo da existncia de associao) prolonga-se no clculo do grau de
probabilidade com que poderemos afirmar que a uma associao encontrada na amostra
corresponde uma associao idntica na populao. Se a amostra for probabilstica, esse clculo
pode executar-se atravs de um teste de hiptese. O segundo aspecto, por seu lado, transforma-
se na estimativa da intensidade de associao na prpria populao, a partir da intensidade
encontrada na amostra. A direco da associao na populao, quando aplicvel, a mesma da
amostra.

4.0.2 Noo de controlo estatstico
A associao entre duas variveis pode estar a ser influenciada por uma terceira ou at
por diversas variveis. Por exemplo: a relao entre nvel de instruo e rendimento econmico
provvel que no seja a mesma para homens e para mulheres. Se compararmos as caractersticas
da associao, considerada toda a populao, com o mesmo tipo de associao em cada um dos
grupos separadamente, estamos a proceder a um controlo estatstico. Ser bastante provvel que
encontremos diferenas importantes entre homens e mulheres, no que se refere ao modo como
o nvel de instruo se relaciona com o rendimento econmico. Mas, quer isso se verifique, quer
no, ficaremos a conhecer mais aprofundadamente a realidade.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 43
Definimos, ento, controlo estatstico como o estudo da associao entre duas variveis ao
longo de uma terceira varivel. Esta ltima a varivel de controlo. Pode tornar-se conveniente
considerar simultaneamente mais do que uma varivel de controlo, como aconteceria, no
exemplo anterior, se tomssemos, ao mesmo tempo, as variveis gnero e idade. Nesse caso,
estudaramos a associao entre nvel de instruo e rendimento econmico, tanto no grupo dos
homens como no das mulheres, separadamente, por nveis etrios
60
.


4.1 Associao entre uma varivel de intervalo e uma varivel nominal

muito frequente deparar-se o investigador com a necessidade de comparar duas
populaes relativamente a uma varivel ou a respeito da percentagem com que determinado
fenmeno se verifica em cada uma delas. Suponhamos, por exemplo, que queramos estudar as
diferenas de altura mdia entre portugueses e ingleses ou, ento, a comparao entre homens e
mulheres no que se refere percentagem de votos em determinado partido poltico. O primeiro
um caso de diferena de mdias e o segundo de diferena de propores. Tanto numa situao
como na outra, podemos considerar que se trata de uma associao entre uma varivel intervalar
(a altura ou a percentagem de votos) e uma varivel nominal dicotmica (a nacionalidade ou o
gnero)
61
.
Se se tratar de, a partir da comparao de resultados de amostras, querermos tirar
concluses acerca da comparao das respectivas populaes, teremos um caso de teste de
diferena de mdias ou de teste de diferena de propores.

4.1.1 Testes de diferena de mdias
Encontradas as mdias nas duas amostras aleatrias (cada uma de cada populao), vamos
compar-las, achando a diferena entre elas. Imaginando a situao terica em que repetiramos
estes procedimentos um nmero infinito de vezes, sempre com amostras aleatrias do mesmo
tamanho, obteramos uma distribuio de amostragem das diferenas de mdias. Como queremos
mostrar que a diferena encontrada nas amostras reais indicia, muito provavelmente, que existe
diferena nas populaes, o teste de diferena de mdias parte da hiptese contrria (H0), que

60
Facilmente se verifica que a introduo de variveis de controlo, por este processo, tem de ser feita com parcimnia,
dado que no s o estudo se torna mais complicado, como tambm se vai reduzindo o tamanho dos grupos analisados,
podendo rapidamente chegar-se a situaes que j no permitem generalizao segura. Para as variveis de intervalo,
encontraremos, no captulo seguinte, uma outra forma de controlo.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 44
afirma ser nula, nas populaes, a diferena das mdias da varivel em causa; ou seja, as
populaes no se distinguiriam quanto a essa varivel. Se conseguirmos rejeitar esta hiptese
com elevado nvel de probabilidade, ento estaremos -vontade para afirmar, com segurana, a
diferena entre as populaes.
A fim de trabalharmos com a distribuio de amostragem da diferena de mdias,
necessitamos de uma extenso do teorema do limite central: Se duas sries de amostras
aleatrias e independentes de tamanho n1 e n2 forem tiradas respectivamente das populaes
normais Nor((
1
,
1
2
) e Nor((
2
,
2
2
), ento a distribuio de amostragem das diferenas de
mdias das amostras (x1- x2) ser Nor(
1
-
2
,
1
2
/n
1
+
2
2
/n
2
).
Este enunciado significa que, ao efectuar o teste de diferena de mdias, teremos que
usar:
- como hiptese nula (H0): =
1

2
= 0
- e como erro-padro da diferena de mdias
62
: EP =
1
2
/n
1
+
2
2
/n
2

No caso de amostras grandes, a estimativa deste erro-padro pode ser calculada usando
o valor dos desvios-padro encontrados nas amostras, ou seja, substituindo 1 e 2
respectivamente por s1 e s2. No caso de amostras pequenas, no se afastando muito as
populaes da normalidade, usa-se a frmula de t, com o nmero de graus de liberdade gl =
n1+n2-2, sendo a estimativa do erro-padro dada pela frmula seguinte:
EP = s1
2
/(n1-1) + s2
2
/(n2-1)

4.1.2 Testes de diferena de propores
No caso dos valores da varivel a comparar serem propores (ou percentagens), o
raciocnio idntico, mas as frmulas a usar (s para amostras grandes) so um pouco mais
complexas:
- hiptese nula (H0): pu = pu1 - pu2 = 0
- estimativa do erro-padro:
EP = puqu x 1/n1+ 1/n2 ,

em que pu = (n1p1+ n2p2) / (n1+ n2) e qu = 1 - pu

61
Se a varivel nominal tivesse mais categorias, teramos que efectuar o estudo ou tomando-as duas a duas o que
tornaria a interpretao um tanto problemtica ou recorrendo anlise de varincia, uma tcnica estatstica um pouco
mais sofisticada.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 45
4.2 - Associao entre duas variveis nominais

A associao entre duas variveis nominais tipicamente estudada a partir dos quadros
de contingncia, ou tabelas de duas entradas, em que o nmero de casos com valores comuns
em cada varivel aparece no cruzamento das colunas e linhas correspondentes. Vejamos os
exemplos dos quadros seguintes:


Sexo Sexo
Mulher Homem Total Mulher Homem Total

Gosto por Novelas
Sim 22 8 30 18 12 30
No 8 12 20 12 8 20
Total 30 20 50 30 20 50

A Variveis Associadas

B- Variveis no Associadas

Tabela 4.1 Variveis sexo e gosto por telenovelas

Como j ficou dito anteriormente, existe associao se se verificar que certos valores de
uma das variveis tendem a aparecer conjuntamente com determinados valores da outra varivel.
o caso de A na tabela 4.1, visto que a proporo de mulheres que gostam de telenovelas (22/30
= 0,73, ou 73%) maior do que a proporo de homens (8/20 = 0,4, ou 40%). Inversamente para
os que no gostam de telenovelas.
Se, pelo contrrio, no se manifestar qualquer associao entre as duas variveis, isso
significa que cada uma delas no vai influir na distribuio dos elementos pelas categorias da outra.
o caso representado em B, que mostra que o facto de ser homem ou mulher nada tem a ver
com o gostar ou no de telenovelas. Posto de outro modo: no grupo dos homens, a proporo
dos que gostam de telenovelas (12/20, ou 60%) igual das pessoas que possuem o mesmo
interesse na populao em geral (30/50, ou 60%). Identicamente para as mulheres (18/30, ou
60%).
Na prtica, evidentemente, a situao B nunca se verificar de modo to perfeito. Haver
sempre lugar para alguma diferena de propores (neste caso, ao comparar homens e mulheres),
por tnue que seja. Uma diferena pequena corresponder a uma mera oscilao aleatria sem

62
Limitamo-nos a usar uma aproximao simplificada. Do ponto de vista terico, levantam-se algumas dificuldades
relativamente ao clculo do nmero de graus de liberdade. A esse propsito, pode ver-se Blalock (1972, cap. 13). A
frmula aqui proposta tanto mais segura quanto maiores forem as amostras.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 46
indcio de associao sociologicamente significativa entre as variveis. Pelo contrrio, quanto mais
a realidade se afastar da situao B, mais seguramente se poder afirmar que as duas variveis no
so independentes. Assim, ser possvel criar uma medida da sua interdependncia olhando para
cada uma das clulas do quadro e comparando as frequncias observadas com as que se
verificariam se no houvesse associao. Designemos estas ltimas por frequncias esperadas
63
.
Foi deste modo que surgiu a medida chamada Qui-quadrado (), que se obtm do
seguinte modo: calcula-se, para cada clula, a frequncia esperada (fe) e subtrai-se da respectiva
frequncia observada (fo); o valor achado (que pode ser negativo) eleva-se ao quadrado e divide-
se pela frequncia esperada. Finalmente, o valor de
2
dado pela soma de todos os resultados
assim obtidos em cada uma das clulas.

Temos, deste modo, a frmula de definio :
2
= [(f
o
-f
e
)
2
/ f
e
]
a qual facilmente se transforma numa outra,
mais expedita para o clculo
64
: f
o
2


2
= n
f
e

Para determinar as frequncias esperadas, como acabmos de dizer, supomos a no
existncia de associao. Seja o exemplo genrico da tabela abaixo.
Nessas condies, vir, como vimos: a / (a+c) = b / (b+d) = (a+b) / n

De onde se conclui que: a = (a+b) (a+c) / n
b = (a+b) (b+d) / n





O clculo das frequncias esperadas efectuar-se-ia, de modo idntico, para a segunda
linha. Podemos, assim, enunciar a regra geral:
Para calcular a frequncia esperada numa determinada clula, multiplicam-se os
respectivos totais marginais e divide-se pelo nmero total de casos.


63
O nome provm do uso do
2
em testes de hipteses, como veremos mais abaixo.
64
Note-se que o smbolo de somatrio significa que as operaes a que ele se refere devem ser executadas para cada
clula. Na segunda frmula, o nmero total de casos ( n ) subtrado do resultado final do somatrio.
a b
a+b
c d
c+d
a+c b+d n
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 47
Propriedades da varivel qui-quadrado
1 O qui-quadrado igual a zero se as frequncias observadas forem iguais s esperadas,
pois todos as parcelas viro iguais a zero.
2 O qui-quadrado ser tanto maior quanto maiores forem as diferenas entre as
frequncias observadas e as frequncias esperadas.
3 Mas o seu valor depende tambm do nmero total de casos, de tal modo que, para
associaes idnticas, ele directamente proporcional ao nmero de elementos (na amostra ou
na populao). Isto significa uma grande limitao no que se refere utilidade do qui-quadrado
como medida de associao, visto que, se quisermos comparar intensidades de diferentes
associaes, por meio dele, ou as populaes (ou amostras) so do mesmo tamanho ou h que
tomar em conta o efeito desse tamanho
65
.
4 O qui-quadrado, sendo sempre positivo (ou nulo, no caso extremo), no pode
mostrar-se sensvel direco da associao. Esta caracterstica implica uma perda de informao
quando esta varivel usada com variveis ordinais e intervalares. Mas torna-a apropriada com as
variveis nominais, pois nestas no podemos falar de direco de associao, como j ficou dito
mais acima
66
.
5 O qui-quadrado possui distribuio de amostragem que obedece a regras conhecidas
e que nos permite us-lo para efectuar testes de hipteses naturalmente, sobretudo no campo
das variveis nominais.

4.2.1 O teste do qui-quadrado
Na maior parte dos nossos estudos, estaremos interessados em saber at que ponto
que uma associao encontrada numa amostra se pode generalizar para a populao. Se as
variveis forem de natureza nominal, podemos recorrer estatstica qui-quadrado. Da que este
teste seja muito usado em cincias sociais.
O teste do
2
, como todos os relativos existncia de associao, parte da hiptese nula
de que, na populao, no existe associao entre as duas variveis. Sendo essa hiptese
verdadeira, tambm no deveria haver associao na amostra (imagem da mesma populao).
Portanto, as frequncias esperadas na amostra do nosso teste sero calculadas de modo a reflectir
esta consequncia da hiptese nula.

65
As medidas derivadas do qui-quadrado sero, em geral, construdas de modo a compensar esta limitao.
66
O uso do
2
com variveis ordinais ou intervalares obedece ao princpio de que as operaes apropriadas para nveis
de medio mais baixos so tambm vlidas a nvel mais elevado, embora a possam existir procedimentos com outra
sofisticao, que impliquem menos perda de informao.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 48
Para vermos at que ponto que as frequncias observadas contrariam a hiptese nula,
afastando-se das esperadas, calculamos o valor do respectivo qui-quadrado. Este valor, que
corresponde amostra concreta que estudamos, pertence a uma distribuio terica de um
nmero infinito de valores semelhantes, achados em outras tantas amostras possveis, escolhidas
em idnticas circunstncias
67
. Ou seja, trata-se de um valor includo numa distribuio de
amostragem.
Se o valor achado na nossa amostra fosse muito elevado, isso significaria que, sendo a
hiptese nula verdadeira, s muito raramente o teramos obtido. Seria muito mais provvel, nesse
caso, que o ponto de partida (a hiptese nula) fosse falso. Recusaramos, pois, a hiptese nula,
embora sempre com uma pequena probabilidade, um pequeno risco, de estarmos a recusar uma
hiptese verdadeira ( o risco de erro )). E quando que o valor achado considerado elevado?
Quando resultar igual ou maior que o valor fornecido pela tabela do Qui-quadrado (ver na pgina
seguinte) na distribuio apropriada ao nosso problema e para o nvel de risco escolhido.
Como a distribuio de amostragem do
2
depende do nmero de graus de liberdade, h
que encontrar, na tabela, a linha correspondente. O nmero de graus de liberdade obtm-se
multiplicando o nmero de linhas menos um pelo nmero de colunas menos um
68
:
gl = (l -1).(c -1)
A tabela do qui-quadrado d-nos os valores crticos da estatstica para cada nmero de
graus de liberdade e para certos valores mais comuns de probabilidade
69
.

Condies de aplicabilidade do teste do qui-quadrado
1 - A amostra ter que ser aleatria, para que a estatstica (neste caso, o
2
encontrado)
possa ser considerada como pertencente distribuio de amostragem.
2 - O tamanho da amostra (n) ter que ser relativamente grande, pois s assim a
distribuio do qui-quadrado se aproxima da distribuio terica dada na tabela. Depende do
nmero de clulas e dos valores dos totais marginais. Como regra prtica, costuma usar-se a
seguinte: Se uma frequncia esperada igual ou menor do que 5, procede-se fuso de linhas ou
de colunas, para reduzir o nmero de categorias
70
.



67
J sabemos que se trata de amostras (tericas) aleatrias, independentes, de igual tamanho.
68
Este valor indica o nmero de clulas que, na tabela das distribuies de frequncias das duas variveis, se poderiam
preencher, arbitrariamente, sem alterar os totais marginais.
69
Recorde-se que a probabilidade medida pela proporo da rea definida pela curva e pela vertical do ponto
considerado. As reas correspondentes zona de rejeio situam-se direita da vertical.
70
Em tabelas de 2x2, sendo n pequeno, pode usar-se o teste exacto de Fisher (Blalock, 1972, cap. 15).
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 49
4.2.2 Medidas de associao derivadas do qui-quadrado
J vimos que o qui-quadrado, dependendo da grandeza da relao entre as variveis,
depende igualmente do tamanho da amostra. E quanto maior for o qui-quadrado, mais significativa
a associao, isto , mais garantias nos d de que tambm existe na populao
71
.
Desta forma, uma relao que aparece como significativa a nvel mais exigente no
necessariamente mais forte do que outra a que corresponde um qui-quadrado menor. Pode
simplesmente pertencer a uma amostra mais pequena. Por conseguinte, o teste do qui-quadrado
mais importante em pequenas amostras, dado que, nas grandes, qualquer valor, por diminuto que
seja, resulta estatisticamente significativo.
Por outro lado, isto mostra, simultaneamente, que o valor do qui-quadrado no pode ser
considerado uma boa medida de associao. Por isso, as medidas dele derivadas tero que tomar
em conta o efeito do nmero de casos.

2

A primeira dessas medidas o (l-se fi), sendo:
2
= --------
n
O
2
tem as seguintes propriedades:

- igual a zero se no h associao; - No caso particular de uma tabela de 2x2, o limite superior
igual unidade; - No caso geral de uma tabela l x c, o limite superior o valor mais baixo de
entre o nmero de colunas menos um, ou o nmero de linhas menos um: [Min (l-1,c-1)]. Esta
caracterstica dificulta a comparao de medidas que dizem respeito a tabelas em que as variveis
apresentam diferente nmero de categorias. Por exemplo, numa tabela 4x3 o limite superior de

2
2, mas no caso da tabela ser 4x4, o limite superior j 3.
Para ultrapassar esta ltima dificuldade, temos a segunda medida derivada do
2
que o
chamado V de Cramer, a variar sempre entre zero e um:


2

2

V
2
= --------------------- = ----------------
n . Min (l-1,c-1) Min (l-1,c-1)
Finalmente, entre outras medidas afins, podemos ainda destacar o chamado coeficiente de
contingncia de Pearson:


2

C = ----------

2
+ n

Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 50
4.3 Associao entre duas variveis ordinais

A noo de varivel ordinal implica, como ficou dito, que os respectivos valores se
encontrem em gradao quanto grandeza ou intensidade do fenmeno a que a varivel se
refere, mas sem especificao de unidade de medida. Os valores so indicativos de ordem, no
so de natureza escalar ou intervalar.
No caso em que os dados de uma varivel ordinal so em nmero relativamente
reduzido, eles podero ser ordenados um a um ou, quando muito, aparecero muito poucos
elementos empatados na mesma posio. Diz-se ento que os dados da varivel so
desagregados ou no agrupados.
Pelo contrrio, a varivel com dados agrupados apresenta-se tipicamente com poucas
categorias e muitos casos empatados em cada um das categorias, ou seja, com o mesmo
nmero de ordem.

4.3.1 O rs de Spearman, para dados no agrupados
Suponhamos que temos cinco profisses e que pedimos a quatro grupos de duas pessoas
para as classificarem por ordem decrescente de prestgio social. Obteremos assim, para cada
grupo, duas variveis ordinais (A e B) cujos valores so as posies atribudas. Quanto maior
coincidncia houver na colocao das profisses, mais intensamente positiva ser a associao
entre as duas variveis. Inversamente, quanto maior for a constncia na divergncia de ordenao,
mais intensamente negativa ser a associao. No h associao (a associao nula) no caso em
que as ordenaes das profisses no apresentam qualquer consistncia de semelhana ou de
oposio.


1 classificao 2 classificao 3 classificao 4 classificao

Profisses A B A B A B A B

P
1
1 1 1 5 1 3 1 1
P
2
2 2 2 4 2 5 2 2
P
3
3 3 3 3 3 1 3 4
P
4
4 4 4 2 4 4 4(4,5) 5
P
5
5 5 5 1 5 2 4(4,5) 3


Tabela 4.2 Exemplos de associaes entre variveis ordinais

71
Isto faz, desde logo, sentido, pois quanto maior for a amostra, mais confiana teremos de que ela espelha a
populao.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 51
A medida de associao rs de Spearman toma em conta as diferenas de posio (di) de
cada caso (aqui, de cada profisso) nas duas variveis:

6 di
2

rs = 1 - ----------- , sendo n o nmero de elementos
n (n
2
-1)


Na 1 classificao da Tabela 4.2, rs vem igual a 1 (associao perfeita positiva), na 2
classificao igual a -1 (associao perfeita negativa) e na 3 igual a -0,3.
No caso de dois ou mais elementos aparecerem com valores empatados, isto ,
classificados com o mesmo nmero de ordem, substitui-se este valor comum pela mdia
aritmtica dos valores que seriam obtidos se no se tivessem verificado empates. S depois se
calculam os respectivos di (4 classificao).

Teste de significncia para o rs
Sendo n 10, a distribuio de amostragem do rs aproximadamente normal com
desvio-padro igual a 1/ n-1 .


4.3.2 O gama () de Goodman e Kruskal

Esta medida baseia-se no seguinte: tomando os elementos da amostra (ou populao) dois a dois,
comparam-se os respectivos nmeros de ordem em cada uma das variveis; quando, ao passar de
um elemento para o outro, os nmeros de ordem variam no mesmo sentido em ambas as
variveis, temos um par de elementos que chamamos par concordante. Indicamo-lo
simbolicamente por c. Se, pelo contrrio, a ordem de classificao cresce numa das variveis e
decresce na outra, estamos perante um caso de par discordante (d). O par empatado (e)
ser o caso em que os dois elementos possuem o mesmo nmero de ordem em, pelo menos,
uma das variveis. O gama no entra em linha de conta com os empates.
Se o nmero de pares concordantes for maior do que o dos pares discordantes, a
associao situar-se- no campo positivo, pois, quando uma das variveis se desloca num sentido,
a outra tende a segui-la no mesmo sentido; e ser tanto mais positiva quanto maior for a
diferena. Identicamente para o caso da associao negativa, que ser tanto mais intensamente
negativa quanto maior for o nmero dos pares discordantes relativamente aos concordantes.

Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 52
O gama indica a proporo da diferena entre o nmero total de pares concordantes
(C) e o nmero total de discordantes (D), relativamente soma dos dois.

C - D
= ----------
C + D


Vejamos, em primeiro lugar, exemplos para o caso de dados desagregados recorrendo s
variveis e situaes indicadas na Tabela 4.2.

Pares 1 situao 2 situao 3 situao 4 situao
P
1
P
2
c d c c
P
1
P
3
c d d c
P
1
P
4
c d c c
P
1
P
5
c d d c
P
2
P
3
c d d c
P
2
P
4
c d d c
P
2
P
5
c d d c
P
3
P
4
c d c c
P
3
P
5
c d c d
P4P5 c d d e


Tabela 4.3 Pares concordantes e discordantes



Aplicando a frmula de gama em cada uma das quatro situaes, obtemos:


10 0 0 10 4 6 8 - 1
1 = --------- = 1; 2 = --------- = -1; 3 = -------- = -0,2 4 = -------- = 0,78
10 + 0 0 + 10 4 + 6 8 + 1


O gama varia, pois, entre -1 e +1, correspondendo os extremos a associaes perfeitas e
o zero a inexistncia de associao
72
.

O caso de dados categorizados (ou agregados) talvez mais comum e pode referir-se a
uma amostra (ou populao) com um grande nmero de elementos. A anlise individual de cada
possvel par de elementos implicaria um trabalho muito demorado. Esse trabalho facilitado

72
Na 4 situao, excluiu-se o par empatado.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 53
devido excluso dos pares empatados e, ao nmero quase sempre reduzido de categorias
(valores) das variveis. Veja-se o exemplo seguinte.

Nveis de instruo
Nveis de rendimento
Baixo Mdio Alto Total
Baixo 6 4 1
11
Alto 2 5 7
14
Total 8 9 8 25

Tabela 4.4 Rendimento por instruo

Consideremos os 6 elementos da clula superior esquerda. Todos os diferentes pares por
eles formados se encontram empatados, relativamente a ambas as variveis. Os pares
constitudos por cada um destes 6 elementos e por cada um dos outros 4+1 elementos da mesma
linha esto empatados em relao primeira varivel, porque todos tm baixo rendimento.
Identicamente para os pares correspondentes primeira coluna. Todos estes empates so
excludos do clculo do gama.
Vejamos agora os 30 pares (6x5) formados por cada um dos 6 elementos da primeira
clula e por cada um dos 5 da clula que se encontra na segunda linha e segunda coluna. Em todos
esses pares, quando passamos de um elemento para o outro, os valores de ambas as variveis
crescem simultaneamente: de baixo para mdio, na instruo e de baixo para alto no
rendimento. So todos pares concordantes. De modo semelhante para os 42 pares (6x7)
formados por um elemento da primeira clula e por um elemento da clula inferior da coluna da
direita.

Comecemos agora pela clula direita, na primeira linha. Exclumos os pares formados
com elementos da mesma linha e da mesma coluna, porque seriam empatados. O nico
elemento desta clula forma cinco pares discordantes com os elementos da segunda linha,
segunda coluna, pois, ao passarmos do primeiro elemento para cada um dos segundos, o valor da
varivel rendimento sobe (de baixo para alto) e o da varivel instruo desce (de alto para
mdio). Do mesmo modo para os dois pares resultantes da comparao do nosso elemento
com cada um dos dois que se encontram na segunda linha, primeira coluna.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 54
claro que os quatro elementos da coluna do meio, na primeira linha, tambm
constituem pares concordantes e discordantes de modo semelhante.

A Tabela 4.4 est construda de tal modo que ambas as variveis ordinais apresentam os
respectivos valores a aumentar, partindo do vrtice superior esquerdo. No tinha
necessariamente que ser assim, mas, para situaes como esta (em geral, a forma mais lgica),
podemos estabelecer as seguintes regras
73
:
1 - Para cada clula, o nmero de pares concordantes igual ao produto do nmero de
elementos nela contidos pela soma dos elementos existentes, na tabela, abaixo e direita dessa
clula;
2 - Os pares discordantes referentes a cada clula obtm-se multiplicando o respectivo
nmero de elementos pelo nmero de elementos que se encontram abaixo e esquerda da
mesma.

Para este exemplo: C1 = 6 x (5+7) = 72; C2 = 4 x 7 = 28; C = C1+C2 = 100
D3 = 1 x (5+2) = 7; D2 = 4 x 2 = 8; D = D3+D2 = 15

C - D 100 - 15
= --------- = -------------- = 0,74
74

C + D 100 + 15




73
As regras assim formuladas ainda seriam vlidas se os valores de ambas as variveis diminussem a partir do canto
superior esquerdo. Mas, se a ordenao dos valores fosse inversa, ter-se-ia que adaptar a formulao. No exemplo
dado, como a varivel rendimento dicotmica, todos os pares ficam considerados partindo s das clulas da primeira
linha.
74
O gama tem tambm teste de significncia. H0 a hiptese de no haver associao ( = 0), o que equivale ao
numerador nulo: C = D (Blalock, 1972).
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 55
5 - Associao entre Variveis de Intervalo

5.0 Noes introdutrias

Uma qualquer recta representada pela equao linear geral bx a y + = . Num sistema
de referncia ortogonal, a recta ter uma forma geomtrica idntica ao exemplo da figura abaixo,
em que x (varivel independente) se situa sobre o eixo das abcissas e y sobre o eixo das
ordenadas.
Por quaisquer dois pontos (P1 e P2) deste espao a duas dimenses pode sempre fazer-se
passar uma recta [ver Fig. 5.1]. Mas uma recta tambm determinada por um par de valores a
e b, sendo a o ponto de interseco da recta com o eixo da varivel dependente, e b o
coeficiente angular ou declive da mesma recta. Este ltimo valor indica a variao em y por cada
unidade de variao em x.
O seu sinal e a sua grandeza fornecem-nos tambm indicao sobre a orientao da recta.
De facto,
- se b > 0 , a recta sobe para a direita;
- se b = 0 , a recta horizontal;
- se b < 0 , a recta sobe para a esquerda.
Alm disso, sendo as escalas das duas variveis iguais na representao grfica, fcil de
ver que:
- se |b| = 1 , a recta faz um ngulo de 45 com o eixo dos xx
- se |b| > 1 , esse ngulo maior do que 45
- se |b| < 1 , o ngulo menor do que 45.

y
y = a + bx
P
2

P
1
b
a


0 1 2 x


Fig. 5.1 Representao da recta
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 56
Vamos usar estas noes simples no estudo da relao entre duas variveis de intervalo.
Representaremos cada uma dessas variveis a deslocar-se sobre um dos eixos do sistema de
referncia. Em geral, costume usar-se "x" como varivel independente. Por exemplo: querendo
estudar a associao entre o "nmero de anos de instruo" e o "vencimento mensal",
tomaremos esta ltima varivel como dependente ou explicada (no eixo dos "yy") e aquela como
independente ou explicativa (no eixo dos "xx").
Cada elemento da nossa amostra ou populao ter um certo nmero de anos de
instruo e um certo vencimento. Seja a pessoa P1, com o vencimento mensal "y1" e o nmero de
anos de instruo "x1". Marcando estes valores nos respectivos eixos, podemos determinar um
ponto correspondente a essa pessoa (P1). Assim, ao conjunto dos elementos da amostra (ou
populao) corresponder, geometricamente, uma nuvem de pontos no sistema de referncia.

5.1 - Regresso linear bivariante

5.1.1 - Chamamos regresso (bivariante) ao estudo da natureza da relao entre duas
variveis de intervalo, de tal modo que, conhecida essa relao, seja possvel estimar uma das
variveis a partir da outra.
Trata-se de uma questo tpica da relao entre duas variveis que, embora associadas
entre si, no o so de modo absoluto e inteiramente determinado. Por exemplo: em qualquer
populao, a varivel vencimento mensal (y) anda positivamente associada ao nmero de anos de
instruo (x) isto , quanto maior for o x, tanto maior tende a ser o y. Mas no se trata de
uma associao perfeita, pois nem todas as pessoas com as mesmas habilitaes ganham o
mesmo. E, vice-versa, indivduos com igual rendimento no tero necessariamente o mesmo
nmero de anos de instruo.
Contudo, se conhecermos a frmula matemtica que traduza aproximadamente (no
conjunto) a relao entre as duas variveis, ento ser possvel calcular o valor aproximado do
vencimento correspondente a determinado nmero de anos de instruo.
Para formalizar o modelo matemtico apropriado, admitimos que, na populao, existe
uma distribuio de yy para cada valor de x (ver Fig. 5.2). curva que une os pontos mdios
destas distribuies chamamos curva de regresso de y sobre x.
Conhecendo ns a frmula matemtica desta curva, podemos calcular, para cada x (seja,
por exemplo, x1), o correspondente valor de y determinado por um ponto sobre a curva.
Este ponto, por definio de curva de regresso, o ponto mdio da mini-distribuio dos yy
(os quais podemos designar genericamente por y1i) correspondentes ao x1 escolhido e,
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 57
portanto, d-nos uma estimativa desses valores
75
. Quanto mais prximos dos pontos mdios
estiverem, pois, os valores y1i nestas distribuies (isto , quanto mais reduzidos forem os
respectivos desvios-padro), tanto mais exacta ser a estimativa.


y


y
1i




0 x
1
x

Fig. 5.2 Curva de regresso

Supondo que a curva de regresso uma recta (com uma equao y = + x), para um
determinado valor de x (por exemplo, x1) viria o respectivo valor de y ( y 1i ). Neste caso,
teramos, ento, y1i = y 1i + i = + x1 + i , onde i representa genericamente os desvios
de cada y1i concreto relativamente recta. Os i chamam-se erros ou desvios ou ainda
perturbaes.

5.1.2 - Na prtica, temos normalmente uma nuvem de pontos, cada um dos quais a
corresponder a um elemento da amostra. No conhecemos directamente a populao nem a
respectiva recta de regresso. O processo que vamos usar para calcular uma estimativa desta recta
o chamado mtodo dos mnimos quadrados processo esse executado a partir da amostra e
dos respectivos dados.
Trata-se de ajustar uma recta a um conjunto de pontos, nas melhores condies possveis
(ver Fig. 5.3). O "critrio de optimizao" do ajustamento a minimizao da soma dos quadrados
das distncias verticais dos pontos recta que se pretende ajustar. Isto : tomando as distncias
verticais de cada ponto recta, elevando ao quadrado essas distncias e achando a sua soma

75
Os valores y1i vo determinar, na figura, os pontos situados na vertical de x1. Reportando-nos ao exemplo do
nmero de anos de instruo e do rendimento, eles indicariam as pessoas com x1 anos de instruo, mas com
rendimentos diferentes. Ento, y1i seria o rendimento mdio dessas pessoas.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 58
global, a recta dos mnimos quadrados (RMQ) ser aquela para a qual mnima a dita soma
76
.
Simbolicamente, ser a recta para a qual o somatrio (yi - yi)
2
mnimo.

y
y
i




y
i




x
i
x

Fig. 5.3 Ajustamento da recta


A recta dos mnimos quadrados (calculada, como ficou dito, a partir de uma amostra)
uma estimativa da recta de regresso (na populao). Ser da forma y = a + bx , em que "a"
estimativa de "" e "b" estimativa de "", sendo e os parmetros da recta de regresso
propriamente dita.

Propriedades da RMQ
77
:
1 - As estatsticas "a" e "b" so os mais eficientes e consistentes (centrados) estimadores
dos parmetros "" e "", se de facto a equao de regresso (na populao) for uma recta.
2 - A soma das distncias verticais recta (desvios) nula.
3 - O desvio padro da distribuio dos desvios mnimo.
4 Tanto a recta y = ayx + byxx como a recta x = axy + bxyy passam pelo chamado
centro de gravidade do sistema, isto , pelo ponto determinado pelos valores mdios de "x" e "y"
[ver Fig. 5.4].





76
Se considerssemos as distncias horizontais, obteramos outra recta dos mnimos quadrados que teria "y" como
varivel independente e "x" como varivel dependente. Para distinguir as duas, usaremos as seguintes convenes: y =
ayx + byxx e x = axy + bxyy . Esta simbologia quer indicar que "ayx" e "byx" se referem a uma recta em que "y" a varivel
dependente e "x" a varivel independente e vice-versa.
77
Pressupomos que as amostras so aleatrias. Omitimos a referncia a outros pressupostos formais, por razes de
simplicidade.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 59
y





x
Fig. 5.4 Centro de gravidade do sistema

5 - Da definio da RMQ podem deduzir-se as frmulas de "a" e "b", sendo as da direita
mais apropriadas e usadas para o clculo
78
:




=
2 2 2
) (
) )( (
) (
) )( (
x x n
y x xy n
x x
y y x x
b
i
i i
yx


n
x b y
x b y a
yx
yx yx

= =



5.1.3 Correlao

Para alm do modelo matemtico que traduz aproximadamente a natureza da relao
entre "x" e "y", interessa-nos tambm conhecer o grau de intensidade dessa relao, ou seja, at
que ponto que as duas varveis variam concomitantemente. Se tal intensidade for diminuta, no
interessa muito calcular a estimativa de "y" a partir do conhecimento de "x", visto que a margem
de erro muito grande. Geometricamente, esta situao traduzir-se-ia por uma grande disperso
dos pontos relativamente recta.
Neste contexto, a medida a usar o coeficiente de correlao linear ou de Pearson,
representado simbolicamente por "r"
79
. Este coeficiente mede a disperso dos pontos da amostra
(ou populao) relativamente recta; ou seja, mede o grau de perfeio do ajustamento da recta
nuvem de pontos. Tem sempre, como referncia, um modelo linear do tipo que temos estado a
estudar.

78
A excluso dos ndices nas frmulas de clculo tem por objectivo torn-las menos pesadas.
79
Mantendo a conveno relativa ao uso das letras gregas e latinas, o coeficiente de correlao linear, na populao,
ser indicado por "", sendo o "r", da amostra, uma sua estimativa.
y
x
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 60
Algumas propriedades:

(1) O coeficiente de correlao linear dado por
( )( )



=
2 2
) ) (
) )( (
y y x x
y y x x
r
i i
i i


A frmula mostra que r igual ao quociente da covariao de x e y pela raiz quadrada do
produto das respectivas variaes. Mostra igualmente que se trata de uma medida simtrica, visto
que, trocando as posies do x e do y, obtemos exactamente o mesmo valor.
A frmula de clculo tem a seguinte expresso:


( )( )


=
2 2 2 2
) ( ) (
) )( (
y y n x x n
y x xy n
r
(2) r = 1 para a mxima correlao positiva
r = -1 para a mxima correlao negativa
r = 0 para correlao nula
Nos dois primeiros casos, teramos todos os pontos sobre a recta: haveria uma perfeita
determinao de uma varivel pela outra
80
. No ltimo caso, a recta seria horizontal (Figs. 5.5 e 5.6).
de notar novamente que estamos a lidar com um modelo linear, cuja expresso geomtrica a
recta. Isso significa, por exemplo, que pode haver relao (no linear) entre as variveis e, no
entanto, o coeficiente de correlao ser nulo (Fig. 5.7).


y y








x x


Fig.5.5 Associao linear perfeita Fig. 5.6 Associao nula

(3) A partir das frmulas, prova-se muito facilmente que o quadrado do coeficiente de correlao
igual ao produto dos coeficientes angulares das duas rectas: r
2
= byx . bxy

80
Na correlao positiva, a recta sobe para a direita; na negativa, para a esquerda.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 61

(4) O r muito sensvel ao efeito de valores extremos desgarrados e deve sempre apreciar-se
em funo do campo de variao considerado. Ver a Fig. 5.8 que mostra um exemplo de mudana
na recta por efeito de pontos extremos.

y y












x x

Fig. 5.7 Associao no linear Fig. 5.8 Exemplo com valores extremos



(5) O coeficiente de correlao permite ainda uma interpretao em relao variao explicada e
no explicada das variveis. Considere-se a Fig. 5.9.
Quando no conhecemos a RMQ, que expressa a relao entre as duas variveis, a melhor
estimativa de y para um qualquer valor xi o valor mdio ( y )
81
. Mas a partir da equao da
RMQ (ou da recta de regresso, no caso de se tratar da populao), possvel calcular um yi
(situado na recta) que, globalmente, se aproxima mais do verdadeiro valor yi.
Olhando para a figura, vemos que ) ( ) ( y y y y y y
i i i i
+ = . Elevando ambos os
membros ao quadrado e somando para todos os valores, facilmente se provaria que:


+ =
2 2 2
) ( ) ( ) ( y y y y y y
i i i i

ou seja, a variao total da varivel dependente igual variao no explicada mais a variao
explicada pela varivel independente
82
.




81
Na linguagem comum, usamos muitas vezes esta aproximao em frases como, por exemplo, a seguinte: Apesar de
grandes diferenas de salrios, o vencimento mdio dos trabalhadores desta empresa ...
82
A noo de variao, j a encontrmos antes. Os termos explicada ou no explicada tm a ver com o
acrscimo de conhecimento proveniente da estimativa fornecida pela RMQ.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 62
y
yi
y = a + bx
yi

y y



0 x i x

Fig. 5.9 Variao explicada e no explicada

Por outro lado, prova-se tambm que:

=
2
2
2
) (
) (
y y
y y
r
i
i
=
total variao
explicada variao


Ao quadrado do coeficiente de correlao (r
2
) chamamos coeficiente de determinao, o qual
nos d, por conseguinte, a proporo da variao total da varivel dependente que explicada
pelo modelo matemtico considerado, isto , pela RMQ como estimativa da recta de regresso.
Ento, ) 1 (
2
r ser igual proporo da variao total que no explicada pela recta. Chama-se,
por sua vez, coeficiente de alienao raiz quadrada deste valor
2
1 r .

(6) Os testes de significncia de r e de b so testes em que se pe prova a hiptese nula
segundo a qual, na populao, no existe associao entre as variveis o que se traduz pela
afirmao de que e so nulos. Como as frmulas destes dois coeficientes tm igual
numerador (e o denominador positivo em ambos os casos), a hiptese nula equivale a afirmar
que o respectivo numerador igual a zero, na populao.
Para testar esta hiptese, recorre-se tabela dos valores crticos de r (ver na pgina
seguinte). O nmero de graus de liberdade a considerar dado pelo tamanho da amostra menos
duas unidades: (n 2)
83
.


83
A compreenso mais aprofundada do que este teste implica exigiria o estudo da chamada estatstica F e da sua
distribuio de amostragem.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 63
Valores crticos de r a vrios nveis de significncia

Testes unilaterais 0,05 0,025 0,01 0,005 0,0005

Testes bilaterais 0,10 0,05 0,02 0,01 0,001

[ gl = n-2 ]


Nota: O valor observado de r ser significativo, a determinado nvel de significncia, se for igual ou maior do que
o respectivo valor da tabela.




5.2 Generalizao da noo de regresso


5.2.1 A regresso mltipla implica a generalizao da noo de regresso para um
modelo em que a varivel dependente (ou explicada) estimada a partir de duas ou mais variveis
independentes (ou explicativas). Por simplicidade, vamos continuar a considerar modelos lineares
com s duas variveis independentes.

A frmula matemtica deste modelo corresponde ao plano num espao a trs dimenses e
do tipo
84
:











84
Introduzimos aqui uma nova notao para simplificar as frmulas, sobretudo em vista a generalizaes com mais
variveis independentes. Seguindo as convenes adoptadas por Blalock (1972): x1 ser a varivel dependente; a1.23
indicar que se trata de um coeficiente correspondente a um modelo em que x1 a varivel dependente e x2 e x3 so as
duas variveis independentes; b12.3 ser o coeficiente de regresso parcial da varivel x2 (independente) no mesmo
modelo com outra varivel independente (x3). Identicamente para b13.2.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 64
x1 = a1.23 + b12.3 x2 + b13.2 x3


Fig. 5.10 O plano num espao a trs dimenses

A regresso mltipla, neste caso, corresponde, por conseguinte, ao ajustamento de um plano
nuvem de pontos num espao a trs dimenses. O ajustamento realiza-se, aqui tambm, pelo
mtodo dos mnimos quadrados, isto , o plano ajustado aquele para o qual mnima a soma
dos quadrados das distncias verticais de cada ponto da nuvem ao plano.
Os coeficientes permitem uma interpretao idntica do caso da recta: a1.23 o ponto
em que o plano intercepta o eixo da varivel dependente (x1); os bb so os coeficientes de
regresso, aqui chamados coeficientes de regresso parcial.
Cada um dos bb indica a variao da varivel dependente provocada pela variao unitria
da respectiva varivel independente, conservando constante a outra varivel independente.
Representam, portanto, o peso de cada varivel independente na determinao da varivel
dependente. Contudo, nem sempre fcil interpretar esse peso de influncia, visto que os bb
esto associados s unidades das variveis a que dizem respeito
85
.

85
Se uma das variveis for, por exemplo, a idade e outra o peso, para comparar os bb haveria que ter em conta que
um diz respeito variao de um ano e o outro variao de um quilo! Reduzindo as variveis a unidades de desvio-
padro, obteramos bb que j seriam comparveis em termos dessa unidade. Trata-se dos chamados coeficientes
normalizados de regresso. possvel efectuar testes de significncia para os bb, nas condies habituais.
a

x1i
x1i
0
x
1

x
2

x
3

Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 65
Os coeficientes de regresso parcial podem ser calculados a partir dos coeficientes de
regresso simples, segundo as frmulas indicadas abaixo
86
:


32 23
32 13 12
3 . 12
1 b b
b b b
b

=
23 32
23 12 13
2 . 13
1 b b
b b b
b

=

5.2.2 Uma primeira generalizao da noo de correlao verifica-se no coeficiente de
correlao mltipla (designado por R), que nos d uma medida da disperso dos pontos da
nuvem relativamente ao plano dos mnimos quadrados. Por outras palavras, este coeficiente mede
o grau de ajustamento do modelo linear aos dados
87
. O seu quadrado (R
2
) designa-se ainda por
coeficiente de determinao, e indica-nos a proporo da variao total da varivel dependente
que explicada pelas variveis independentes consideradas no modelo linear.
Ao valor de
2
1 R chama-se coeficiente de alienao, o qual nos d, por conseguinte,
a raiz quadrada da proporo da variao total da varivel dependente que no explicada pelo
modelo.
O R tambm pode ser sujeito a teste de significncia, de modo semelhante ao que vimos
para o caso do coeficiente de correlao simples (r).

5.2.3 A noo de correlao parcial aparece como uma outra generalizao da
correlao simples. H um coeficiente de correlao parcial para cada varivel independente, o
qual mede a variao concomitante dessa mesma varivel e da varivel dependente, controlando
(isto , mantendo constantes) as outras variveis independentes
88
. Tambm esta medida, claro,
diz respeito ao modelo linear considerado e nesse contexto que tem de ser entendida.
Reportando-nos ao caso mais simples, de duas variveis independentes, teremos, pois, dois
coeficientes de correlao parcial, cujos valores podem ser obtidos a partir dos coeficientes de
correlao simples, isto , das variveis tomadas duas a duas:


86
Os coeficientes de regresso simples poderiam obter-se tomando as trs variveis duas a duas e calculando os
coeficientes de regresso das respectivas rectas dos mnimos quadrados. Por exemplo, para as variveis x1 e x2, viria,
nesta nova notao, x1 = a1.2 + b12 x2 ; para as variveis x2 e x3, seria x2 = a 2.3 + b23 x3 ; etc.
87
No caso de duas variveis, este ajustamento medido pelo coeficiente de correlao simples (r), como ficou dito
anteriormente.
88
O controlo estatstico (j estudado atrs para outros tipos de variveis) pode realizar-se aqui por meio da
correlao parcial.
Mtodos de Investigao
Introduo Anlise de Dados Quantitativos

Universidade do Minho 2009/2010
Licenciatura em Cincias da Comunicao 66

2
32
2
13
32 13 12
3 . 12
1 1 r r
r r r
r

=
2 . 13
r =
2
23
2
12
23 12 13
1 1 r r
r r r



Tambm aqui (em paralelo com o que acontece com
2
r ), o quadrado do coeficiente de
correlao parcial (
2
3 . 12
r ) nos d a proporo da variao total da varivel dependente que
explicada por uma varivel independente (neste caso
2
x ), depois da outra ou outras variveis
independentes terem explicado tudo o que podiam. Trata-se, portanto, do acrscimo de
explicao dessa varivel dentro do modelo.

5.2.4 A noo de correlao parcial pode ajudar a compreender a natureza de uma
relao causal entre variveis. Veja-se o seguinte exemplo, em que a anlise terica faz pensar
que a relao entre x1 e x2 explicada pela comum dependncia da varivel x3 o que se pode
traduzir por um modelo do tipo: x1 x3 x2
Se o modelo realista, o coeficiente de correlao parcial de x1 e x2 controlando por x3
(r12.3) dever ter um valor prximo de zero. No entanto, mais uma vez, a matemtica no
substitui a compreenso terica do fenmeno, pois obter-se-ia o mesmo resultado se o modelo
fosse do tipo: x1 x3 x2 . Em ambos os casos, o controlo de x3 elimina a variao conjunta
(de x1 e x2), que, na primeira situao provm do facto daquela varivel causar as outras duas e,
na segunda, por o fluxo de causalidade passar de x1 para x2, precisamente atravs de x3 .
Veja-se, porm, o seguinte caso: x3 x1 x2 , isto , a varivel x1 depende
simultaneamente de x3 e x2 . Calculado o coeficiente de correlao parcial entre x1 e x2
controlando por x3 (r12.3), ele dever ser maior do que o coeficiente de correlao simples r12 ,
visto que, ao executar o controlo pela terceira varivel, procede-se eliminao do efeito
perturbador dessa varivel na relao entre x1 e x2 .
A aplicao da estatstica no esclarecimento da causalidade pode tornar-se um trabalho
bastante complexo, sobretudo quando se entra em linha de conta com os efeitos simultneos de
diversas variveis. Os exemplos acabados de referir s pretendem dar uma ideia de um possvel
uso, neste contexto, da noo de correlao parcial.

Vous aimerez peut-être aussi