Estatistica I

Programa
Introduo; Linguagem Bsica da Estatistica e Metodos Quantitativos de

Analise dos Dados (Statistics Applied to Psychology); Estatistica e
Investigacao Cientifica; Historia da Estatistica e Analise Quantitiva em
Psicologia; Estatistica Descritiva e Analise Exploratoria; Tecnicas de
Apresentacao de Dados; Tabelas de Frequencia e Dados Associados;
Medidas de Tendencia Central; Medidades de Variabilidade ou de Diperso;
Medidades de Assimetria e de Curtose/Achatamento; Medidades de Posicao
Relativa: Quartis, Decis, Centis, e Resultados z e T; Estatistica Inferencial;
Conceitos Bsicos de Porabilididade; Distribuies de Amostragem e Testes
de Hipteses Estatisticos; Testes de Hipteses Aplicados medias, uma
amostra, 2 relacionadas, 2 independentes; Testes de Hipteses Estatisticos
No-Paramtricos ou de Destribuio Livre (ordinais); Qui-Quadrado e
Propores.
Introduzindo SPSS; Iniciar sesso de trabalho com SPSS; Usar ficheiro de
dados no SPSS; Introduzir variveis e dados no SPSS; Produzir e Interpretar
Tabelas de Frequncias; Produzir Representaes Grficas; Calcular e
Interpretar Estatsticas Descritivas; Produir Relatrio de Mtodos
Quantitativos; Trabalhar com os procedimentos do Meno Analyse do SPSS;
Procedimentos Usando o Teste t de Student: uma amostra, 2 amostras
relacionadas, e 2 independetnes; Procedimentos Usando Testes noparamtricos: Teste de Wilcoxon, e teste U de Mann-Whitney; Procedimentos
usando testes no paramtricos: O Teste Qui-Quadrado.
Aula Terica I:
Eis o processo de investigao, segundo Bryman e Cramer:
Primeiro, forma-se a teoria, que a fundamentao terica; o incio
do processo de investigao, a formulao dos conceitos
explicativos para os fenmenos empiricamente observados (ou
seja, a conceptualizao terica da evidncia emprica uma
experincia que se apoia somente em experincias vividas).
aquilo que queremos comprovar.
De seguida, formulam-se as hipteses, que so a formulao das
profecias relativas a facetas limitadas da teoria, que, sendo
confirmadas, a suportam. So os ensaios de resposta s questes
da investigao; tentativas de explicao das relaes existentes
entre as variveis em estudo. A formulao de hipteses tem um
lado positivo, pois foram o pensamento sistemtico e organizado
acerca do que se quer estudar e a estruturao do plano de
investigao em conformidade, mas por outro lado podem fazer

divergir a ateno do investigador para longe de outras facetas
interessantes que possam caraterizar os dados recolhidos.
Um exemplo de uma teoria seria a teoria do controlo da
delinquncia juvenil, e o exemplo de uma hiptese seria crianas
de sociedades convencionais tendem a envolver-se menos em atos
de delinquncia que crianas de sociedades no-convencionais.
Vamos realar esta diferena: uma hiptese uma especulao,
uma previso sobre determinado fenmeno emprico e como ele se
comporta. Deve ser testada, normalmente atravs de experincias.
Uma teoria, por outro lado, uma explicao bem fundamentada
que descreve eventos empricos. Envolve factos, leis (a
generalizao de um conjunto de observaes para as quais
nenhuma excepo tem sido encontrada) e hipteses j testadas.
Contudo, isso no a impede de poder ser derrubada com o passar
dos anos.
Tendo a teoria e a hiptese, segue-se a operacionalizao de
conceitos, ou seja, o desenvolvimento de medidas dos conceitos
para a validao das hipteses. Os conceitos so traduzidos em
variveis, ou seja, em atributos em que os objectos (sujeitos, firmas,
naes, etc.) diferem. Por exemplo, a adeso sociedade
convencional [questionrio sobre percees dos jovens face
escola] e o grau de delinquncia [n de atos delinquentes
reportados pelos jovens].
Ento, h a seleo de sujeitos relevantes a quem administrado o
instrumento concebido para a investigao (inqurito, questionrio,
entrevista, etc.). Por exemplo, 5500 jovens em idade escolar de
Berkley, Califrnia. Como impossvel estudar a populao,
estudamos uma amostra suficientemente grande que achamos
represent-la. Tambm h uma aleatorizao desta amostra, ou
seja, h um compromisso com a produo de concluses que
possam ser generalizadas a outros participantes com caracteristicas
semelhantes aos sujeitos do estudo. Portanto, esta amostra deve
ser representativa do grupo alargado de sujeitos que a investigao
estuda. A estatstica inferencial permite demonstrar a probabilidade
dos resultados derivados de uma amostra poderem vir a ser

verificados na populao em que esta se extraiu.
Agora vem a etapa do plano de investigao, que pode ser
experimental, caso se procure uma relao de casualidade (VI/VD),
e que tem dois grupos de sujeitos, o GE, sujeitos alvo do tratamento
experimental, e o GC, participantes que servem como termo de
comparao com o grupo de participantes do GE. Tambm pode ser
correlacional, caso no haja manipulao das variveis de
interesse, e haja uma recolha simultnea de dados relativos a todas
as variveis. Esta fase determina e informa vrias fases do
processo de investigao, tendo implicaes nos tipos de
tratamento estatstico que pode ser aplicado aos dados.
Segue-se a recolha de dados, seja atravs de entrevista,
observao, questionrio, etc. Depois vem a anlise dos dados, que
pode
ser
univariada
(descrio/caracterizao/sumariao;
distribuio de frequncias; medidas de tendncia central; medidas
de disperso), bivariada (relao entre duas variveis
diferenas/associao; amostras independentes/emparelhadas;
tcnicas paramtricas/no-paramtricas ou seja, se formulam
diversas hipteses sobre a natureza da populao, ou no,
respetivamente), ou multivariadas (relao entre 3 ou + variveis).
Por fim, tiram-se as concluses, que podem confirmar as validando
a teoria (replicao/ramificao), ou refut-las, infirmando a teoria, e
fazendo com que esta requeira reviso/refinamento.
Histria
A Estatistica tem uma longa e diversificada histria com mais de
6000 anos. J na antiguidade, como no Egipto, era usada para
sumariar a dimenso das colheitas, de modo a fixar taxas sobre o
preo dos cereais. Atualmente, a Estatstica e as suas produes
as estatsticas so um aspeto aceite em todas as sociedades
(estatstica sobre o emprego, acidentes, etc.).
A palavra Estatstica no sentido apresentado refere-se recolha de

informao quantitativa e aos mtodos de tratamento desses
dados.
Vejamos o caso da probabilidade, cuja teoria, durante sculos,
esteve ao servio dos jogos de azar.
Pierre Fermat (1601-1665) era um matemtico que trocou
correspondncia com Pascal (1623 1662) acerca de um conjunto
de questes formuladas por Gombauld, um jogador compulsivo, em
relao a problemas frequentes nos jogos de azar. Desta amizado
resultaram alguns dos fundamentos da teoria da probabilidade e
lgebra combinatria.
Christian Huygens (1629 1695) publicou o tratado On
Reasoning With Games of Dice.
Jacques Bernoulli (1654 1705) publicou o livro The Art of
Conjecture, no qual desenvolve uma teoria dos jogos de azar.
Abraham Moivre (1667 1754) publica, em Londres, The Doctrine
of Chances or a Method of Calculating the Probabilities of Events in
Play, onde demonstra a aproximao binomial normal.
Pierre Laplace (1749 1829) deriva a funo associada curva
suavizada, hoje conhecida como normal, e mostra que a Lei do Erro
pode ser aplicada a problemas distintos
Carl Gauss (1777 - 1855) desenvolveu uma funo matemtica,
posteriormente conhecida como Distribuio de Laplace-Gauss, que
demonstra a sua utilidade a racionalizao das observaes
recolhidas nos inquritos geodsicos efetuados a pedido do
governo Holands e Dinamarqus.
Quetelet (1796 1874) era um astrnomo belga, que mostrou
como a Lei do Erro se pode generalizar a muitos campos, inclusive
ao das caracteristicas humanas.
J no ramo da estatstica moderna, temos:
Francis Galton (1822 1911) foi responsvel pelo

desenvolvimento e aplicao de mtodos estatsticos na rea da
gentica e da psicologia.
Karl Pearson (1857 1936) contribuiu monumentalmente para o
desenvolvimento da Estatstica, publicando 30 trabalhos originais
sobre mtodos estatsticos entre 1893 e 1901, sendo responsvel
pelo desenvolvimento matemtico de tcnicas estatsticas, de
correlao e de regreo, entre outras.
Ronald Fisher (1890 1962) foi um estatstico aplicado, com
contributos enormes para tcnicas como a anlise varincia
(ANOVA), bem como no campo da metodologia da investigao
cientfica, publicando 2 obras de referncia internacional: The
Design of Experiments, em 35, e Statistical Methods for Research
Workers (1925).
A partir da dcada de 60 comearam a surgir programas
informticos bastante complexos, capazes de realizar clculo
cientifico. Das variadas propostas de software estatstico, destacouse o SPSS (Statistical Package for the Social Sciences) que foi
comercializado pela 1 vez em 65, constituindo um dos programas
mais conhecidos e usados. Outros programas informticos de
clculo estatstico frequentemente referidos incluem o BMDP
(Biomedical Computer Programs), o SAS (Statistical Analysis
System), Minitab, o Systat, e a Statistica.
Vamos agora rever alguma terminologia bsica. A Estatstica a
cincia que recolhe, organiza, e analisa os dados de uma
amostra extrada aleatoriamente de uma populao para, a partir
da caracterizao exaustiva dessa distribuio de dados amostrais,
e recorrendo ao clculo de probabilidades, realizar inferncias
acerca da populao da qual se pressupe que a amostra
representa.
A populao o conjunto de objectos, existentes ou possveis, que
verificam uma funo bem especifica. Um objecto qualquer
pessoa, animal, coisa, instituio, etc. Uma amostra qualquer
subconjunto duma populao, referenciando-se sempre a uma
populao da qual parte integrante.
Um parmetro toda a funo definida sobre os valores numricos

de uma populao. A estatstica toda a funo definida sobre os
valores numricos de uma amostra.
Uma constante uma medida invariante, que assume o mesmo
valor para todas as unidades de anlise num determinado contexto.
Por outro lado, uma varivel uma propriedade de um objeto ou
acontecimento que pode assumir valores diferentes; a compreenso
da variabilidade subjacente varivel requer a necessidade de
medir e/ou registar as alteraes ocorridas em cada situao.
Uma varivel pode ser qualitativa se a sua amplitude (a diferena
mxima observada) consiste em categorias exaustivas e
mutuamente
exclusivas
que
representam
atributos
ou
caracteristicas no-quantitativas. Se assim for, a varivel pode ser
no ordenada se as categorias no sugerirem ordem ou posto, ou
ordenada, se sugerirem.
A varivel tambm pode ser quantitativa se a sua amplitude
consistir numa contagem ou numa mensurao numrica de uma
caracterstica. Se assim for, a varivel pode ser discreta, se o
nmero de valores for finito ou infinito mas contvel, ou contnua se
o nmero de valores for infinito e no contvel.
A Estatstica divide-se em 2 ramos: estatstica descritiva, que
recolhe, organiza, sumariza, e analisa os dados, e estatstica
inferencial, que procura a verificao de inferncias acerca da
populao (dos seus parmetros, da sua distribuio, etc.), a partir
do conhecimento das correspondentes estatsticas amostrais.
Vamos agora estudar a mensurao, que a atribuio de
nmeros aos objetos seguindo certas regras, resumidas numa s:
aceitar apenas como relaes validas aquelas que sejam
empiricamente verificveis entre as modalidades correspondentes
aos objectos (indicadores/constructos).
Os indicadores so manifestos, podendo ser medidos, e do
acesso aos constructos, que so latentes, no podendo ser
medidos de forma direta, e estes, por sua vez, representam os
conceitos, tericos. Estes, como se referem definio terica dos

constructos, no envolvem uma perspectiva de mensurao.
Por nvel/escala de medida nominal, entende-se que os nmeros
sejam usados para nomear, identificar, ou classificar. Os smbolos
so apenas rtulos para classes mutuamente exclusivas e
exaustivas, tendo apenas a propriedade de diferenciao, ou seja,
s empiricamente verificvel a relao de igualdadedesigualdade.
Aqui, as transformaes apropriadas so qualquer substituio de
um para um. A limitao so os processos aritmticos permitidos;
apenas a contagem e tcnicas estatsticas baseadas nesta.
Exemplos seriam nmeros de telefone, gnero, raa, e tipos de
personalidade.
Por outro lado, no nvel/escala de medida ordinal, os nmeros
indicam colocao ou ordem. Os smbolos ordenados, geralmente
nmeros, indicam a posio de classes equivalentes, possuindo a
propriedade de diferenciao e de ordem, mas as diferenas entre
eles no informam acerca das diferenas de magnitude entre as
classes.
Aqui, as transformaes apropriadas incluem qualquer trasofrmao
do tipo monotmico, e as limitaes, processos aritmticos
permitidos, como a contagem e classificao, e tcnicas
estatsticas, no s baeadas na contagem, como em mtodos de
classificao e outras baseadas em interpretaes de maior/menor
do que. Exemplos incluem postos militares, classe social,
classificao de atraso mental.
No nvel/escala de medida intervalar os intervalos ou distncias
entre cada nmero e o seguinte so iguais, desconhecendo-se a
que distncia cada um est do zero. Esta igualdade de diferenas
reflete igual magnitude entre as classes, mas a origem da classe
determinada arbitrariamente; os nmeros tm a propriedade de
diferenciao, ordem, e equivalncia de intervalos.
Aqui, as transformaes apropriadas so aquelas de tipo linear, ou
sea, Y = a + bX. A limitao inclui os processos aritmticos
permitidos, ou seja, a multiplicao e a diviso, no permitindo

contagem, classificao, +/-, e tambm permite as tcnicas
estatsticas baseadas na contagem. Exemplos incluem as escalas
de temperatura, e a altitude.
Por fim, no nvel/escala de medida Proporcional ou de razo, cada
nmero pode ser concebido como uma distncia medida a partir do
zero, e so aplicveis todas as propriedades das escalas de
intervalo (a diferenciao, a ordem, a equivalncia de intervalos) e a
origem da escala reflete a ausncia da carateristica medida.
As transformaes apropriadas so a multiplicao por uma
constante positiva. Todos os processos aritmticos, todas as
operaes aritmticas, e todas as tcnicas estatsticas so
permitidos. Como exemplos, temos a altura e o peso.
Aula 2
Vamos estudar as medidas de tendncia central. Acontece que a
descrio de uma distribuio de dados inclui, quase sempre, uma
medida ao centro.
A mdia aritmtica, ou simplesmente mdia, a mais comum das
medidas do centro de uma distribuio. Denotando-se n
observaes por x1, x2 xn, a respetiva mdia : (x1+x2++xn) /
n. muito til para comparar populaes ou descrever a evoluo
duma varivel ao longo do tempo, mas pouco fivel como medida
do centro caso a populao no seja homognea (ou seja, haja
extremos).
A mdia aritmtica ponderada, ou pesada, ou combinada, calculase quando, ao descrever uma distribuio, necessrio atribuir um
peso distinto s diferentes observaes. Denotando-se os
respetivos pesos por p1, p2, , pn, esta dada por: (p1x1 + p2x2 +
pnxn) / (p1 + p2 + pn).
Frequentemente, sobretudo quando so usados dados secundrios
(que no foram obtidos pelo investigador), este depara-se com
observaes agrupadas (ou seja, em sries e em classes). Aqui, a
frmula habitual da mdia no pode ser usada para calcular o
centro da distribuio. Contudo, tendo acesso aos valores xi da

varivel e s respetivas frequncias, pode-se fazer (Efixi) / n, onde fi
= frequncia absoluta, e n = somatrio de fi.
A mdia aritmtica truncada, ou aparada, controla o problema que
a mdia aritmtica tem face distribuies heterogneas, eliminando
os valores mais extremos da distribuio, e calculando a mdia
usando os restantes, indicando sempre a percentagem dos valores
aparados/usados. No SPSS o procedimento Explore, na opo
Descriptive Statistics relativas ao menu Analize, produz a mdia
aparada a 5%, ou seja, a computao ignora os 5% de dados mais
afastados do centro da distribuio, calculando a mdia para os
restantes registos.
A mediana tambm se trata duma medida de tendncia central, dita
de posio, e a determinao do seu valor requer, em primeiro
lugar, uma ordenao de todas observaes (n). Ento, sendo n
par, a mediana coincide com o valor da observao no centro da
lista ordenada; a sua posio calculada contando (n+1) / 2 a partir
de qualquer extremo da lista. Sendo n impar, o valor da Mdn obtmse atravs do clculo da mdia aritmtica dos valores relativos s 2
observaes centrais da lista ordenada, respetivamente Pmdn1 =
n /2 e Pmdn2 = (n / 2) + 1A moda outra medida de tendncia central, que caracteriza a
modalidade ou modalidades, em caso de igualdade, cujo efectivo
maior; ou seja, a modalidade ou registo da varivel estudada com
maior frequncia.
Vamos agora ver as medidas de disperso ou de variabilidade e
comeamos com a amplitude total. Obtm-se calculando a
diferena entre o valor x mximo e o valor x mnimo observado na
distribuio cuja caracterizao se procura: A = xmax xmin. Em
alguns casos, pode-se recorrer a xmax xmin +1.
A amplitude declica obtem-se calculando a diferena entre os
valores que corresponde ao 9 decil, D9, e ao primeiro, D1,
incluindo 80% dos registos centrais da distribuio, 40% direita e
esquerda da mediana. Esta medida de variabilidade no afetada
pela presena de um nmero moderado de valores extremos, e por

isso usa-se com distribuies assimtricas.
A amplitude interquartlica tambm conhecida por amplitude
interquartis (Q) atravs do clculo da diferena entre os valores
correspondentes a Q3 e Q1, ou seja: Q = Q3 Q1. Q3 o valor que
tem abaixo de si 75% das observaes, e 25% acima; Q1 separa
25% das 75% restantes. H quem prefira usar uma mediana
prxima de Q, a chamada Amplitude Semi-Interquartlcia, ou ASI:
(Q3-Q1) / 2.
Ento temos a varincia e o desvio padro que medem a
disperso tomando em considerao o grau de afastamento das
observaes em relao respetiva mdia.
A varincia (s2 ) para um conjunto de observaes, a mdia dos
quadrados dos desvios dos registos dana viarivel relativamente
media dos valores observados. Ou seja, a varincia de n
observaes xn dada por s2 = [(x1 mdia)2 + (x2 mdia)2 + +
(xn mdia)2] / (n 1).
O desvio padro (s) , portanto, a raiz quadrada da varincia.
O coeficiente de variao a estratgia mais simples para
comparar a disperso/variabilidade, em termos de desvio padro,
de medidas cujas mdias so diferentes, escalando o desvio padro
em razo magnitude da mdia: CV = sx / x. Na sua utilizao,
importa ter em considerao a natureza da varivel a ser medida.
Vamos agora ver as medidas da forma, que descrevem a forma
geral da distribuio, tendo em considerao 2 caracteristicas
adicionais:
1. A simetria: Uma distribuio de dados simtrica se a sua
mdia divide o histrograma em 2 metades, onde uma o
espelha da outra, o que ocorre numa distribuio normal.
Caso no ocorra, a distribuio assimtrica, ou seja, um dos
lados do grfico mais alongado que o outro; assimtrica
positiva se o alongamento tendo a ocorrer no lado direito, e
negativa caso ocorra predominantemente no esquerdo. Uma
curva normal tem assimetria de 0. Se a simetria superar +-
1.0, a forma da distribuio afasta-se substancialmente de

uma curva normal.
H diferentes indicadores que podem ser calculados como
medidades de assimetria. Temos o primeiro coeficiente de
assimetria de Pearson, onde As1 = (mdia M0) / Sx. E
tambm h o coeficiente de assimetria de Kelley, centlico: Asq
= (Q3+Q1 2Mdn) / Q3 Q1. Tambm h o coeficiente de
assimetria baseado nos momentos, que o SPSS calcula
assim: g1 = {n / [(n 1)(n 2)]} * E[(x mdia) / (Sx)] 3, onde
Sx o desvio padro calculado com n-1 no denominador
(parte de cima).
2. A curtose uma medida do grau de achatamento e
afunilamento da curva que descreve a distribuio, e o seu
valor informa se a curva tende a ser afunilada (ou seja, com
uma elevada proporo de dados aglomerados junto ao
centro) ou achatada (com os dados a espalharem-se ao longo
duma grande amplitude). Numa curva normal, a curtose = 0.
Um valor positivo indica que os dados se concentram no
centro da distribuio, e devido a isso esta apresenta uma
forte elevao nesse local (distribuio leptocrtica). Um valor
negativo indica que os dados se dispersam ao longo da
distribuio, e esta, por essa razo, se revela mais achatada
que a curva normal (distribuio platicrtica). Por no ser
afunilada nem plana, a curva normal diz-se mesocrtica.
Valores superiores a +-1 indicam que a curva no
mesocrtica, no seguindo de perto uma distribuio
adequadamente normal.
Eis o coeficiente de curtose cientlico: C = (Q3 Q1) / [2(C90
C10)].
As representa as medidas de assimetria, e g 2 a curtose. As > 0 =
assimetria positiva ou direita; =0 = simetria perfeita, <0 =
assimetria negativa ou esquerda. G2 > 0 = leptocrtica, C < 0.263;
g2 = 0 = mesocrtica, G = .263; g2 < 0 = platicrtica, C > .263
Agora vamos ver as medidas de posio, geralmente
designadas em quartis, e que preferencialmente so usadas para
variveis quantitativas, medidas no nvel intervalar/razo, embora
tambm possam ser usadas no nvel ordinal. So um modo de

determinar como que um registo individual se compara com os
restantes.
Um quartil a medida mais simples; ordenados os dados de forma
ascendente de acordo com a sua magnitude, os quartis dividem a
populao em 4 grupos iguais: 52% tem um resultado menor ou
igual ao primeiro quartil, Q1, 50% menor ou igual a Q2, e 75%
inferior a Q3. A mediana, por definio, o 2 quartil. Um decil
definido de modo semelhante, mas divide a populao em 10
grupos iguais. J o percentil divide os dados ordenados em funo
do seu tamanho em 100 grupos iguais.
Tudo o que acabmos de ver referia-se a variveis quantitativas. O
que acontece com as qualitativas? Nestas, a moda carateriza o
mesmo que caracterizava anteriormente. Contudo, agora, no
existem muitas medidas de disperso. Existe, contudo, a razo de
variao, que permite averiguar se uma grande proporo dos
dados est concentrada na categoria modal ou dispersa por todas
as outras categorias. Eis a definio: n de entradas fora da classe
modal / n total de entradas.
As medidas apropriadas para variveis num nvel de medida inferior
(ex. nominal) podem ser usadas para variveis de um nvel mais
elevado (ex. Ordinal ou intervalar).
Vamos brevemente discutir a representao grfica de dados. O
grfico circular (pie) representa dados qualitativos, sendo
constituido por um circulo dividido em tantas fatias quantas as
caracteristicas da varivel. O tamanho das fatias determinado
pelo nmero (frequncia absoluta [ni]) ou percentagem/proporo
(frequncia relativa [fi]) de observaes nas categorias.
O grfico de barras, tal como o pie, univariado, e representa
dados qualitativas ou quantitativos discretos. um diagrama de
barras, usualmente verticais, onde cada uma est associada a cada
uma das categorias da varivel. A altura das barras determinada
pelas frequncias absolutas, ni, ou pelas relativas, fi.
O grfico de frequncias acumuladas tambm univariado, e
representa dados qualitativos na escala ordinal, ou quantitativos
discretos. um grfico de linhas onde esto representadas as

frequncias absolutas acumuladas [Ni] ou relativas acumuladas [Fi].
At primeira categoria, as frequncias acumuladas so nulas para
as categorias superior ltima, e toma o valor n se forem
representadas as Ni, ou 1, se forem representadas as Fi.
Um histograma mais uma representao univariada de dados
quantitativos contnuos. um grfico de barras verticais adjacentes,
com uma barra associada a cada uma das classes da varivel. A
base de cada barra proporcional amplitude da respetiva classe a
rea proporcional s frequncias absolutas, ni, ou s relativas, fi.
Um polgono de frequncias mos uma representao
univariada de dados quantitativos; um grfico de linhas onde so
representadas as frequncias absolutas ou relativas nos pontos
mdios das classes. Para o fechar tem de se criar uma classe
adicional em cada um dos extremos, de amplitude igual
adjacente, e frequncia nula.
A ltima representao univariada a caixa de bigodes, que
representa dados no agrupados quantitativos, sendo um grfico
que contm um rectngulo, dividido em 2 partes, situando os 3
quartis. Os bigodes da caixa situam os pontos adjacentes inferior e
superior, ou seja, o menor e maior valores observados qua ainda
no so observaes anmas ou atpicas (aka outliers). Os
asteriscos ou crculos identificam valores anmalos, ou seja,
aqueles valores observados muito pequenos (chamados moderados
e simbolizados como O) e muito grandes (chamados severos e
simbolizados com *), tendo valores de grandeza que implica que
sejam classificados como valores anmalos.
O menor valor no atpico o AI, e est na linha vertical mais
esquerda da caixa. Na linha paralela do lado direito est o AS, o
maior valor atpico. Mais esquerda que o AI esto os valores
atpicos severos, e mais direita que o AS, os valores atpicos
moderados.
Os valores atpicos severos inferiores < [Q1 3 * (Q3 Q1)]
Os severos superiores so < [Q3 + 3 * (Q3 Q1)]
Os moderados inferiores so > [Q1 3 * (Q3 Q1)] ^ < [Q1 1.5 *

(Q3 Q1]
Por fim, temos o grfico de disperso (scatter) que representa
dados qualitativos ou quantitativos, e bivariado. Pode ser
classificado segundo dois critrios (tabelas de contingncia: linhas x
colunas). So uma representao grfica num sistema de eixos
cartesianos dum conjunto de observaes, emparelhadas, de 2
variveis quantitativas, X e Y: (x1, y1), (x2, y2), , (xn, yn).
Aula 3
Vamos discutir a curva normal e resultados Z. A curva normal tem
uma importncia crucial no processo de descrio de dados, pois
muitas das distribuies relativas s cincias sociais conformam as
caracteristicas desta distribuio terica proposta por Carl Gauss.
Como so muitas as distribuies de medidas recolhidas em
humanos que seguem de perto as propriedades deste ideal terico,
a curva normal pode ser usada para gerar frequncias e
probabilidades numa grande variedade de situaes.
A curva normal, em primeiro lugar, trata-se de uma curva unimodal
de distribuio de frequncias, com dados representados no eixo
das abcissas (X) e as respetivas frequncias de ocorrncia no eixo
das ordenadas (Y). A curva possui caracteristicas que a distinguem
de outras curvas de distribuio de frequncias, nomeadamente a
maioria dos resultados agrupam-se em torno do centro da
distribuio, onde a curva atinge o seu mximo, e medida que a
distncia ao centro aumenta, os resultados vo sendo cada vez
mais raros em ambas as caudas. A curva tambm simtrica (as
2 metades so imagens idnticas em espelho uma da outra. E as
trs medidas de tendncia central (mdia, moda, mediana)
coincidem no mesmo valor, o centro ou ponto central da
distribuio.
A curva tambm tem uma relao constante com o desvio
padro. Quando a sua abcissa marcada em unidades de desvio
padro, formam-se vrias reas de percentagem constante sob a
curva normal, e essa relao mantem-se constante em todas as

curvas de Gauss. Devido simetria da curva, a percentagem
correspondente a cada unidade de desvio padro a mesma
acima e abaixo da mdia, que o ponto central da distribuio. A
curva traada em unidades de desvio padro (eixo das abcissas)
designada curva normal padro.
O afastamento de uma unidade de desvio padro em relao
mdia, a curva atinge o seu ponto de inflexo (onde muda de
direo e o seu afastamento do centro se sobrepe diminuio). A
curva tambm assimpttica com a abcissa (as caudas nunca
intersectam o eixo XX).
A curva normal padro possui mdia 0 (u = .00) e um desvio padro
igual unidade (o = 1.00). Marcando o eixo das abcissas em
unidades de desvio padro, a rea sob a curva acima destas
unidades sempre a mesma. Como numa curva normal a mdia, a
mediana, e a moda coincidem no mesmo ponto de abcissa, a
mdia e a mediana so permutveis. Dado que a mediana divide
sempre qualquer distribuio de frequncias exatamente ao meio,
ento quando a mdia e a mediana coincidem, a mdia tambm
divide a distribuio ao meio, com 50% dos resultados acima da
mdia, e os restantes abaixo.
Na curva normal padro, M+-1DP = 68.26%; M +- 1DP = 95.44%; M
+- 3DP = 99.74%.
Vamos falar agora dos resultados normalizados (z). A curva
normal padro traduz uma distribuio normalizada de frequncias
(distribuio z) de valores (padronizados/normalizados) medidos
numa escala em que a mdia sempre 0 e o desvio padro
sempre 1. Ou seja, ao interpretar a medida dos resultados brutos de
desempenho, sendo que se toma em considerao a mdia da
distribuio e a quantidade de variabilidade/desvio padro, a
compreenso de um desempenho individual de um sujeito ocorre
comparando-o com o desempenho total do grupo em que este
foi medido/avaliado. Tambm se pode comparar o desempenho
individual de um mesmo sujeito em dois conjuntos separados de
resultados normalmente distribudos.
H uma tabela dos resultados Z, que representa a percentagem sob

a curva normal entre a mdia e Z. Esta serve para determinar a
percentagem exata de casos existentes entre um qualquer
resultado normalizado/padronizado z e a mdia. Os valores
esto, nela, organizados em 2 direes, em coluna e linha. A
primeira coluna d os resultados de Z arredondados a uma casa
decimal, e a segunda casa decimal lida na primeira linha da
tabela. A tabela d a percentagem de casos existentes entre um
determinado resultado Z e a mdia, e no a percentagem de
resultados acima/abaixo dum resultado Z, ou entre 2 resultados Z.
Para o clculo de resultados normalizados Z, muito til desenhar
a curva, localizando a parte para qual a questo remete, pois esta
imagem clarifica o que est a ser questionado e facilita a
compreenso do problema. Assinalar a mdia e, equidistantemente,
os resultados Z positivos, direita, e negativos, esquerda, na
linha que serve de base curva pressupondo que, quanto maior o
resultado Z, mais para a direita se situar. Uma boa imagem do
problema facilita a respetiva soluo.
Vamos analisar o caso A, onde calculamos a percentagem de casos
existentes entre determinado resultado Z e a mdia. Aqui, a regra
procurar esse resultado Z na tabela da distribuio normal padro e
ler diretamente o valor de percentagem que lhe corresponde.
No caso B, vamos calcular a percentagem de casos inferiores, ou
que existem abaixo, de determinado resultado Z. Aqui a regra
que, caso o resultado Z for positivo, procuramos o correspondente
valor de percentagem na tabela e adicionamolo-o a 50% (.5). Ou
seja, caso haja 41.15% casos, p = 41.15 + 50.0% = 91.15% de
casos abaixo do resultado Z de 1.35. Caso Z seja negativo,
procuramos o resultado na tabla, lemos o correspondente valor de
percentagem, e subtramo-lo a 50%.
No caso C, vamos calcular a percentagem de casos superiores, que
existem acima, de um determinado resultado Z. Se este for positivo,
lemos o valor de percentagem na tabela e subtramo-lo a 50% (.5).
Se for negativo, adicionamos o valor de percentagem a 50%.
No caso D, queremos calcular a percentagem de casos existentes

entre 2 resultados Z. Aqui, a regra relativa aonde os dois
resultados se encontram face mdia. Caso se encontrem em
lados opostos, procuramos os resultados na tabela, lemos os
correspondentes valores de percentagem, e adicionamo-los. Caso
se encontrem do mesmo lado e ambos so positivos, procuramos
os resultados, lemos as percentagens, e subtramos ao maior o
menor. Caso se encontrem do mesmo lado e ambos so negativos
subtramos ao maior o menor.
Vamos agora ver a transformao de resultados brutos em
normalizados. Acontece que possvel calcular as reas sob a
curva normal; no diretamente usando resultados normalizados Z,
mas tomando valores de resultados brutos para calcular a % de
casos acima ou abaixo de determinado valor, ou entre 2 valores.
Para tal importante que os valores da mdia e do desvio padro
relativos distribuio de resultados brutos se conhecem. Quando
tal ocorre, obtm-se o resultado normalizado Z com base em: z = (X
M) / DP, o que define o resultado Z como a traduo da diferena
entre o resultado bruto, X, e a mdia, M, em unidades de desvio
padro. Assim sendo, Z indica a distncia a que o resultado bruto se
encontra da mdia, acima ou abaixo, em unidades de DP.
A distribuio normal de um qualquer conjunto de resultados brutos,
quaisqueres que sejam os valores da sua mdia e DP, pode ser
convertida numa distribuio normal padro, na qual a mdia
sempre 0 e o DP a unidade. Os resultados Z so determinantes na
interpretao dos resultados brutos relativos aos desempenhos dos
sujeitos; ao considerarem a mdia da distribuio e sua
variabilidade (ie DP) permitem que se compreendam os resultados
individuais de desempenho relativamente a todos os resultados que
constituem a distribuio. Como os resultados Z tm em conta toda
a distribuio, importante conhecer todos os valores da
distribuio antes que os resultados brutos individuais possam ser
interpretados significativamente.
No Caso A, queremos calcular a percentagem de casos existentes
entre um determinado resultado bruto e a mdia. Aqui, a regra
transformar esse resultado bruto no correspondente resultado Z
atravs da formula acima, e ento procurar o valor na tabela de

distribuio normal padro, e ler diretamente o valor de
percentagem correspondente.
No Caso B, queremos calcular a percentagem de casos inferiores,
ou abaixo, de um determinado resultado bruto. Aqui, a regra , em
primeiro lugar, transformar esse resultado bruto no resultado Z
correspondente e, caso este seja positivo, ler o correspondente
valor de percentagem e adicion-lo a 50%. Caso seja negativo,
subtra-lo a 50%.
No Caso C queremos calcular a percentagem de casos superiores,
ou acima de um determinado resultado bruto. Aqui, transformamos
o resultado bruto no resultado Z correspondente e, se este for
positivo, lemos o correspondente valor de percentagem e
subtramo-lo a 50%. Se for negativo, adicionamo-lo a 50%.
No Caso D, queremos calcular a percentagem de casos existentes
entre dois resultados brutos, e aqui transformamos esses resultados
brutos nos resultados Z que lhes correspondem e, caso ambos se
encontrem em lados opostos da mdia, procuramos os resultados
na tabela, lemos as percentagens, e adicionmo-las. Caso se
encontrem do mesmo lado da mdia, sendo ambos positivos,
procuramos os valores de percentagem, e subtramos ao maior o
menor. Se estiverem ambos do mesmo lado da mdia, como
negativos, procuramos os resultados na tabela, lemos os
correspondentes valores de percentagem e subtramos ao maior o
menor.
Aula 4
Vamos analisar a Lgica do Teste de Hipteses. O paradigma
pode ser levado ao verificacionismo ou falsificacionismo; a lgica do
V / F; a probabilidade do erro amostral / significncia, e as hipteses
nula (H0) ou de Trabalho (H1).
Eis a sequncia.
1. Estabelecem-se as hipteses, H0 e H1.
2. Define-se a regio de rejeio, a estatstica observada/crtica.
3. Clculo da estatstica observada, via SPSS: Assymptotic sig.

4. Concluso, via estatstica e geral.
Eis a anlise de dados: A inferncia H0, a priori verdadeira
(probabilidade condicional). Visa-se reunir evidncia confirmatria
da sua falsidade, demonstrando assim a veracidade de H1,
resultante da negao de H0. A hiptese H1, localizada no extremo
direito da curva normal, bilateral, e do lado esquerdo unilateral.
Vamos rever tudo isto de um melhor modo. A estatstica inferencial
usada para conhecer uma populao, qual no temos acesso,
atravs de uma amostra. Todas as concluses tm uma certa
margem de erro, sem podermos afirmar com 100% de certeza que
certo valor ou efeito encontrado na amostra existe na populao.
Podemos afirmar que existe, com uma certa probabilidade, um grau
de confiana, como 95%. Por outras palavras, podemos afirmar que
um resultado ou efeito existe na populao com uma certa margem
de erro, por exemplo 5%.
Existem dois mtodos principais da estatstica inferencial, a
estimao e o teste de hipteses, este ltimo visando detectar
efeitos na populao, e qualific-los, e usado quando se quer
saber se certos efeitos existem na populao. Numa estimao, a
amostra usada para estimar um parmetro, e um intervalo de
confiana dessa estimativa, como em proporo de eleitores que
votam no partido X. Num teste de hipteses, h uma hiptese nula
(O efeito no existe na populao), que avanada, e os
resultados da amostra so usados para a tentar rejeitar.
O primeiro passo de um teste de hipteses criar hiptese. Cria-se
a hiptese experimental, que diz que h um certo efeito na
populao. Pode ser uma hiptese numa direo especfica (teste
unilateral) ou sem direo especfica (teste bilateral). Forma-se
tambm uma hiptese nula, que afirma no haver esse efeito na
populao.
De seguida, escolhe-se um nvel de significncia (alfa), que a
probabilidade que o investigador estabelece como limite para
decidir se o valor do teste se deve ao acaso. Se a =.05, o efeito
real se apenas 5% (ou menos) dos resultados se dever ao acaso.
Agora, no 3 passo, calcula-se o teste estatstico, que nos oferece

uma quantificao do efeito a ser estudado. O teste estatstico a
usar vai depender de vrios fatores: o tipo de efeito a testar, o n de
variveis e o seu nvel de medio, a independncia das
observaes, e outras caracteristicas dos dados (distribuio de
frequncias, igualdade de varincias, etc.).
Ento, calcula-se p, a probabilidade do resultado do teste estatstico
acontecer na populao devido ao acaso, e no devido a um efeito
real. Como se calcula p? O efeito que se pretende estudar
calculado atravs do teste estatstico, com base nos valores da
amostra. Ento, necessrio determinar a probabilidade deste
resultado do teste estatstico se dever ao acaso, e no a um efeito
real existente na populao: p.
Por fim, compara-se alfa e p. p < a = H um efeito na populao,
com x% de confiana; rejeita-se a hiptese nula, pois o efeito
estatisticamente significativo. P >= a, o efeito encontrado na
amostra pode dever-se ao acaso, sem se poder afirmar que existe
na populao.

Estatistica I

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Estatistica I

Transféré par

Droits d'auteur :

Formats disponibles

Programa

Introduo; Linguagem Bsica da Estatistica e Metodos Quantitativos de

investigao em conformidade, mas por outro lado podem fazer

dos resultados derivados de uma amostra poderem vir a ser

A palavra Estatstica no sentido apresentado refere-se recolha de

Francis Galton (1822 1911) foi responsvel pelo

Um parmetro toda a funo definida sobre os valores numricos

conceitos, tericos. Estes, como se referem definio terica dos

permitidos, ou seja, a multiplicao e a diviso, no permitindo

centro da distribuio. Contudo, tendo acesso aos valores xi da

pela presena de um nmero moderado de valores extremos, e por

1.0, a forma da distribuio afasta-se substancialmente de

tambm possam ser usadas no nvel ordinal. So um modo de

discretos. um grfico de linhas onde esto representadas as

Os moderados inferiores so > [Q1 3 * (Q3 Q1)] ^ < [Q1 1.5 *

curva normal, e essa relao mantem-se constante em todas as

H uma tabela dos resultados Z, que representa a percentagem sob

No caso D, queremos calcular a percentagem de casos existentes

atravs da formula acima, e ento procurar o valor na tabela de

3. Clculo da estatstica observada, via SPSS: Assymptotic sig.

Agora, no 3 passo, calcula-se o teste estatstico, que nos oferece

Vous aimerez peut-être aussi