Académique Documents
Professionnel Documents
Culture Documents
AQUISIO DE CONHECIMENTO
Era da Informao
Conceito
A estatstica a cincia de resumir e analisar os dados sujeitos a variao aleatria Last, 1988 a cincia de coletar, resumir, apresentar e interpretar dados e, us-los para testar hipteses
Variabilidade
Variabilidade e estatstica
Comparao de grupos
Estatstica Bsica
Estatstica Descritiva: descreve fatos sem associao de causa e efeito Estatstica Analtica ou Inferencial: analisa fatos com associaes de causa e efeito
Estatstica
Estatstica Descritiva X Estatstica Inferencial
100 90
20 15 10 5 0
80 70 60 50
classe 1 classe 2
F.A. 2 4 6 12 10 25 12 19 7 5 3 1 106
F.R. 0,02 0,04 0,06 0,11 0,09 0,24 0,11 0,18 0,07 0,05 0,03 0,01
mdia moda mediana desvio mdio desvio padro assimetria curtose coeficiente de variao
Conceitos
Parmetro: uma medida numrica que descreve uma caracterstica de uma populao. Estatstica: uma medida numrica que descreve uma caracterstica da amostra.
Dados primrios: dados coletados pelo prprio pesquisador e sua equipe. Dados secundrios: no foram obtidos pelo pesquisador e sua equipe (diversas fontes como artigos em peridicos, institutos de pesquisa, DATASUS, IBGE, OMS, OPAS).
Variveis
Varivel qualquer caracterstica ou atributo que difere de pessoa para pessoa. Ex.: Idade de cada aluno em uma sala de aula, peso, altura. Podem ser variveis independentes ou dependentes Conforme a caracterstica que medem podem ser:
Tipos de variveis
Quantitativa ou Numrica: Discreta: n de filhos, n de moradores, etc Contnua: peso, altura, etc
Qualitativa ou Categrica Nominal: cor da pele, situao conjugal Ordinal: classe econmica, auto-percepo de sade
DEFINIES OPERACIONAIS
VARIVEIS INDEPENDENTES: influencia(m) outras variveis. aquela (s) que
Anlise Univariada
Resume os principais aspectos da populao em estudo. Mostra o comportamento de uma varivel, independente de outras variveis. Geralmente descrevem-se duas caractersticas:
Distribuio Medidas
...x Bi x Multi-
Estatstica descritiva
19
Estatstica ou medida amostral: uma medida numrica que descreve alguma caracterstica de uma amostra. habitualmente representada
por letras latinas. Por exemplo: x (mdia), s (desvio padro), r (coeficiente de correlao)
Amostra
Parmetros
Parmetro: uma medida numrica que descreve alguma caracterstica de uma populao. habitualmente representado por
letras gregas. Por exemplo: (mdia), (desvio padro), (coeficiente de correlao)
Populao
Parmetro
21
Medidas amostrais
mdia (mean), mediana (median), moda (mode), mdia aparada (trimmed mean).
23
Medidas amostrais
Localizao relativa:
24
Medidas amostrais
Disperso:
amplitude (range), distncia inter-quartil (inter-quartile range), varincia (variance), desvio padro (standard deviation), coeficiente de variao (coefficient of variation),
25
Medidas amostrais
Assimetria:
26
Amostra e variabilidade
Se as pessoas variam, o que acontece com as amostras? Ex.: Estudo para estimar o peso ao nascer no HC-UFG. Afere-se o peso de todas as crianas nascidas na 1 semana de agosto e na 1 semana de setembro.
Resultados
Variabilidade amostral
As populaes que forneceram as amostras so realmente diferentes? OU A diferena obtida foi apenas devido a variao aleatria?
Tabelas de frequncias
Tabelas que resumem a informao contida na amostra, ordenando os seus valores e agrupando-os em classes (de valores repetidos ou de valores distribudos por intervalos).
30
Grficos
Grficos de frequncias Histogramas Caixas de bigodes ou diagramas de extremos e quartis (boxplots) Diagramas de caule-e-folhas (stem and leaf) Diagramas de disperso (scatterplot)
31
32
Tipos de frequncias:
Uma tabela de frequncias uma tabela onde figuram os valores de pelo menos um destes tipos de frequncias.
33
Tabela de frequncias
Valid
0 1 2 3 4 5 6 8 9 13 Tot al
34
Medidas amostrais
mdia (mean), mediana (median), moda (mode), mdia aparada (trimmed mean).
35
x1 x2 ... xn x n
x x
i 1 i
x n
* i i
onde fi designa a frequncia absoluta de xi* (ou a frequncia absoluta da classe com marca xi* no caso de dados agrupados em classes)
36
A mdia pode ser pensada como o centro de massa dos valores das observaes, ie, o ponto de equilibrio aps dispormos as observaes sobre uma rgua.
Pontos afastados ou erros nas observaes podem afastar a mdia do grosso das observaes.
37
38
Uma mdia aparada no mais do que uma mistura entre os conceitos de mdia e mediana por forma a combinar as qualidades de ambas. Uma mdia aparada uma mdia que calculada excluindo uma certa proporo de observaes em cada extremo da amostra.
39
A moda o valor mais frequente de uma amostra. Ao contrrio do que acontece com a mediana e a mdia, uma amostra pode possuir mais do que uma moda.
Moda
40
A moda a nica medida de localizao central que pode ser utilizada para dados numa escala nominal. A moda pode no ter significado, especialmente em dados de natureza contnua ou em dados discretos com poucas observaes repetidas! Quando os dados esto agrupados em classes podemos falar da classe modal, ou seja, da classe com maior frequncia.
41
Medidas amostrais
Localizao relativa:
42
Mnimo o valor mais reduzido da amostra Mximo o valor mais elevado da amostra
43
Quartis so os valores (Q1, Q2 e Q3) que dividem a amostra, depois de ordenada, em quatro partes iguais (ou o mais iguais possvel). Q2 coincide com a mediana.
44
Quantil de ordem p (0 p 1) um valor, xp, que divide a amostra em duas partes, tal que esquerda de xp est a proporo p da amostra e direita a proporo 1-p. Percentil de ordem p (p vai de 1 a 100) - o mesmo que um quantil mas em que a proporo dada em percentagem.
45
Medidas amostrais
Disperso:
amplitude (range), distncia inter-quartil (inter-quartile range), varincia (variance), desvio padro (standard deviation), coeficiente de variao (coefficient of variation),
46
47
No intervalo que vai de Q1 a Q3 encontram-se 50% das observaes (as mais centrais).
48
A varincia a mdia dos quadrados dos desvios das observaes em relao mdia da amostra.
49
A varincia no vem representada na mesma unidade das observaes. Se tomarmos a raiz quadrada da varincia obtemos o desvio padro que tambm uma medida de disperso e vem na mesma unidade das observaes.
Nos programas de estatstica e nas mquinas de calcular o que aparece so as verses corrigidas da varincia e do desvio padro. O desvio padro e a varincia podem ser fortemente afectados por erros ou observaes muito afastadas.
50
O Coeficiente de variao a razo entre o desvio padro e a mdia, v = s / x. Trata-se de uma medida relativa de disperso e por isso no tem unidades.
51
Coeficiente de assimetria uma medida que assume o valor zero quando a distribuio de frequncias da amostra completamente simtrica e assume valores diferentes de zero (positivos ou negativos) quando a distribuio no simtrica.
Ateno que numa amostra quase impossvel observar simetria pura. Por isso o coeficiente de assimetria assume valores quase sempre diferentes de zero. Para termos uma ideia se a assimetria relevante devemos comparar o valor do coeficiente com o erro associado. Se o coeficiente no exceder 2 ou 3 vezes o erro, o seu valor no ser muito relevante, especialmente quando queremos extrapolar para a populao.
52
Uma distribuio possui assimetria positiva (alternativamente negativa) quando existe uma concentrao de valores na zona de valores mais reduzidos (alternativamente elevados) da amostra.
Quase simetria Coef.ass. ~ 0 Assimetria negativa Coef.ass. <0
53
A assimetria tambm pode ser avaliada comparando os valores da mdia, mediana e moda (desde que esta ltima faa sentido).
moda
mdia mediana
54
Distribuio Normal
55
Simetria pura:
56
Grficos
Grficos de frequncias Histogramas Caixas de bigodes ou diagramas de extremos e quartis (boxplots) Diagramas de caule-e-folhas (stem and leaf) Diagramas de disperso (scatterplot)
57
Histogramas
O histograma um grfico que reflecte a forma da distribuio de frequncias da amostra. Tambm procura reflectir a estrutura (forma) da populao de onde foi retirada a amostra. Para construir um histograma necessrio primeiro repartir os dados por classes e depois calcular as respectivas frequncias. O histograma um grfico de frequncias construdo a partir desta tabela de frequncias (por classes). Os histogramas so particularmente teis para variveis contnuas ou variveis com poucos valores repetidos.
58
Histogramas
A apresentao do histograma depende muito do nmero de classes considerado. Um nmero muito grande de classes produz um histograma com demasiada irregularidade, enquanto um histograma com um nmero demasiado reduzido de classes oculta a forma da distribuio (perde-se demasiada informao).
59
Histogramas
Poucas classes Muitas classes
60
Grficos de frequncias
Grficos de frequncias so grficos de barras que traduzem graficamente o contedo da tabela de frequncias. Os mais habituais so os grficos de frequncias absolutas ou relativas, mas tambm podemos construir grficos de frequncias absolutas ou relativas acumuladas. Os grficos de frequncias (no acumuladas) so apropriados para dados qualitativos ou numricos discretos (ou que se comportam como tal). Quando as frequncias absolutas so reduzidas e a gama de valores da amostra dispersa os grficos de frequncias tornam-se pouco interessantes (muito irregulares).
61
Grficos de frequncias
Chama-se funo de distribuio emprica funo cuja imagem grfica o grfico de frequncias relativas acumuladas.
10 0%
Exemplo:
Percent
75 %
50 %
25 %
0% 0 1 2 3
62
Caixas de bigodes
Pode ser encarada como a representao grfica de algumas medidas de localizao: mediana Q1 Q3 outliers e extremos
63
Caixas de bigodes
Mnimo da amostra mas no menos de Q1-1.5(Q3-Q1)
64
Caixa de bigodes
Algumas caixas tm os bigodes at ao mnimo e mximo e no tm representados outliers. As caixas de bigodes do informao sobre
A localizao central: mediana Outras localizaes: 1 e 3 quartis e mnimo e mximo. Disperso: amplitude e distncia inter-quartil Assimetria: posio relativa da mediana na caixa, comprimento dos bigodes.
65
Caixas de bigodes
Assimetria positiva Simetria Assimetria negativa
66
As caixas de bigodes tambm so teis para comparar vrias amostras num mesmo grfico, caixas de bigodes comparativas.
67
Ex:
68
Formas de distribuies
Os grficos de frequncias, histogramas, diagramas de caule-e-folhas (e em parte as caixas de bigodes) do-nos informao quanto forma da distribuio dos dados (e consequentemente da populao de onde foram retirados) Existem distribuies de vrios tipos: unimodais, bimodais e multimodais
69
Formas de distribuies
Exemplo: unimodal
bimodal
70
Diagramas de disperso
Os diagramas de disperso so grficos que permitem relacionar duas variveis entre si. Representam-se pares de dados (x,y), onde no eixo horizontal marcam-se os valores de x e no eixo vertical os valores de y
71
Diagramas de disperso
72
Ex: rvores
73
Componentes
Representao tabular
Apresentao de tabelas A tabela deve ser simples, claras e objetivas. Grandes volumes de dados devem ser divididos em vrias tabelas. A tabela deve ser auto-explicativa. Nenhuma casa da tabela deve ficar em branco, apresentando sempre um nmero ou um smbolo. As tabelas, excludos os ttulos, sero delimitadas, no alto e em baixo, por traos horizontais grossos, preferencialmente.
Representao tabular
Apresentao de tabelas Recomenda-se no delimitar as tabelas direita e esquerda, por traos verticais. Ser facultativo o emprego de traos verticais para a separao de colunas no corpo da tabela. Deve-se manter a uniformidade quanto ao nmero de casas decimais. Os totais e subtotais devem ser destacados.
Tabelas de contingncia
Conjugando duas sries em uma nica tabela, obtm-se uma tabela de dupla entrada.
Distribuies de Freqncia
Relacionam categorias ou classes de valores, juntamente com contagens (ou freqncia) do nmero de valores que se enquadram em cada categoria.
Exemplo 1: VARIVEL QUALITATIVA
Distribuies de Freqncia
Distribuio de freqncia para dados no agrupados ou no tabulados em classes; Distribuio de freqncia para dados agrupados ou tabulados em classes.
Distribuies de Freqncia
Dados agrupados em classes