Académique Documents
Professionnel Documents
Culture Documents
E para fazer o primeiro ensaio resolveu retirar uma sub amostra aleatória de 45
questionários com declaração de renda mensal como proporção do salário mínimo
(SM).
1
Prof. Renaldo A. GonsalvesPontifícia Universidade Católica de São Paulo
Notas Preliminares de Aula
Para fazer esta primeira abordagem da construção dos intervalos de classe, o
pesquisador fez um estudo com as medidas de posição central e de dispersão.
Em Salários Mínimos
Média 7,37
Erro padrão 1,76
Mediana 3,60
Modo 5,85
Desvio padrão 11,80
Variância da amostra 139,31
Curtose 12,59
Assimetria 3,38
Intervalo 62,88
Mínimo 0,35
Máximo 63,23
Soma 331,76
Contagem 45,00
Para construir as duas classes, ele optou pela média (7,37 SM) como critério para
separar a população de “renda baixa” e da outra que apresenta “renda alta”. A partir
desta definição, contou o número de famílias (frequência) em cada um dos grupos.
Evidentemente em uma pesquisa com dados tão extremos (a menor renda familiar é
0,35 SM e a maior, 63,23 SM), não pode ser representada por duas classes, esta é uma
abordagem incorreta. Os principais problemas desta abordagem são: ocultamos as
famílias de classe média e não apontamos as famílias que vivem em condição de
extrema pobreza.
Para definir o número de classes podemos afirmar que os intervalos devem ser uma
combinação entre a quantidade para descrever detalhes e a facilidade de leitura dos
dados. Esta combinação está ligada ao objetivo da pesquisa.
A sugestão é trabalhar com o número mínimo de dois (2) intervalos e no máximo quinze
(15). Adotar um número maior que 15 é possível, no entanto classes dificulta
significativamente a leitura dos resultados.
Portanto, não há uma regra objetiva para estabelecer o número de classes ao se fazer um
estudo. O número de classes está ligado às características do fenômeno analisado – por
exemplo, um estudo do perfil do consumidor na cidade de São Paulo necessita de um
número maior de classes, pois a distribuição da renda é muito desigual, e aos objetivos
da pesquisa.
2
Prof. Renaldo A. GonsalvesPontifícia Universidade Católica de São Paulo
Notas Preliminares de Aula
Ao contrário da complexidade do estudo sobre os consumidores de São Paulo, os
intervalos de classes que definem o desempenho dos alunos de uma escola particular,
cujos alunos tenham características semelhantes podem ser pequenos. Neste caso,
bastaria apenas tratar como: baixo desempenho, desempenho intermediário, e alto
desempenho.
A sugestão do ponto de partida para a definição dos intervalos de classe pode ser a
análise do desvio padrão da amostra ou da população, que permite saber se a base de
dados que estamos tratando é homogênea (desvio padrão próximo de zero) ou
heterogênea (desvio padrão elevado). Outras medidas de dispersão como intervalo,
coeficiente de variação, poderão ser usadas também.
NOTA: Para que seja interessante a construção de intervalos de classe é necessário que
o conjunto de dados não seja igual para todos os elementos. Isto significaria dizer que,
se a renda dos moradores da cidade de São Paulo, apurada na pesquisa fosse igual para
todos não haveria necessidade de construir classes ou qualquer tipo de segmentação.
Por outro lado se construímos um grande número de intervalos de classe, isso pode
tornar a distribuição de frequência extensa é a análise dos resultados poderá ficar
comprometida.
No outro extremo da tabela temos também uma amplitude de intervalo maior (54,23
SM). Isso ocorre devido a hipótese que as famílias com renda superior a 9 SM tenham
os mesmos hábitos de consumo.
3
Prof. Renaldo A. GonsalvesPontifícia Universidade Católica de São Paulo
Notas Preliminares de Aula
Há outra notação possível para a tabela acima. Aproveitaremos o quadro abaixo para
introduzir o conceito de frequência relativa (F).
A frequência relativa é obtida pela divisão do número da frequência absoluta (p. ex. 9)
pelo total de observações (45) multiplicado por 100.
Os dados da tabela acima também podem ser vertidos em gráficos, estes são uma boa
alternativa para apresentar as informações de uma tabela. Como exemplo desta
transcrição, vamos usar os dados da distribuição de frequência absoluta, construímos
um histograma de barra.
4
Prof. Renaldo A. GonsalvesPontifícia Universidade Católica de São Paulo
Notas Preliminares de Aula
Frequência Relativa em %.
5
Prof. Renaldo A. GonsalvesPontifícia Universidade Católica de São Paulo
Notas Preliminares de Aula
Nos gráficos apresentados acima, inferimos sempre a mesma informação, ou seja, que a
classe de renda de 3 SM e até 6 SM é a maior desta distribuição (têm maior frequência).
No entanto, o gráfico de frequência relativa permite inferir que 51,11% % das famílias
desta pesquisa frequentam o intervalo de 1 SM até 6 SM.
Neste estudo, o histograma de barra que foi usado para descrever a frequência relativa
da renda dos paulistanos, talvez seja o gráfico mais explicativo para o leitor.
Outros Gráficos.
A partir do exposto acima, podemos afirmar que existem dois processos de organização
dos dados de uma pesquisa: A) as tabelas de distribuição de frequências agrupadas; e B)
os gráficos.
Ambos os processos (tabelas e gráficos) tem como objetivo facilitar o entendimento das
informações de uma base de dados, pois, a partir desta compreensão, torna-se possível
inferir as características de uma realidade e tomar decisões.
Uma pesquisa foi feita com uma amostra aleatória de 52 alunos, com objetivo de
verificar a quantia de dinheiro disponível no período da manhã em uma universidade da
cidade de São Paulo, revelou os seguintes valores:
6
Prof. Renaldo A. GonsalvesPontifícia Universidade Católica de São Paulo
Notas Preliminares de Aula
Dito de outra maneira, podemos afirmar que encontraremos, neste estudo, um número
maior de alunos com quantias menores de dinheiro. Para compreender como o poder
aquisitivo se distribui neste grupo de alunos, vamos estabelecer cinco classes de
disponibilidade de dinheiro (baixa; média baixa; média; média alta e alta) com
intervalos de R$ 10,00 para cada uma das classes.
7
Prof. Renaldo A. GonsalvesPontifícia Universidade Católica de São Paulo
Notas Preliminares de Aula
8
Prof. Renaldo A. GonsalvesPontifícia Universidade Católica de São Paulo
Notas Preliminares de Aula
Outras representações:
Tronco e Ramos.
Um estudo feito com uma amostra de 30 veículos, pela concessionária que administra a
estrada que liga São Paulo à Caminas (100 Km.), levantou o tempo de viagem destes
automóveis em minutos.
Com estes dados, o técnico que conduziu a pesquisa, resolveu organizar estas
informações em um gráfico chamado de Tronco e Ramos. Este recurso é usado para
distribuir a frequência dos dados.
9
Prof. Renaldo A. GonsalvesPontifícia Universidade Católica de São Paulo
Notas Preliminares de Aula
Usando este critério, chegou à conclusão que o tempo gasto para percorrer a estrada
com maior frequência está no intervalo de 100 até 109 minutos (10 automóveis), outra
observação importante é que 13 automóveis da amostra permaneceram na estrada um
tempo inferior a 100 minutos.
No outro extremo desta representação gráfica, encontrou 6 veículos com tempo acima
de 100 minutos.
Diagrama de Pizza.
Despesas do MEC em %
10
Prof. Renaldo A. GonsalvesPontifícia Universidade Católica de São Paulo
Notas Preliminares de Aula
Observando o gráfico podemos afirmar que a prioridade do MEC, neste ano em que foi
feita a pesquisa, podemos afirmar que foi gasto a maior parte do orçamento com ensino
de 2º grau (41,26%), seguido pelo 3º com 39,86% e 1º grau com 18,88%.
Diagrama de Dispersão.
Um exemplo:
Para testar esta hipótese colecionou as notas finais e o número de aulas assistidas de
uma amostra aleatória de 25 alunos retirada de várias séries.
FALTAS 35 13 12 8 9 3 4 6 25 12 29 22 13 3 33 30 10 20 9 10 14 4 3 5 34
NOTA FINAL 2,0 8,0 7,5 9,0 9,5 10,0 8,0 8,0 4,0 6,0 4,5 4,5 5,0 9,5 2,5 4,0 5,0 5,0 6,5 5,5 4,5 8,5 6,5 8,5 1,5
DIAGRAMA DE DISPERSÃO
12,00
ESTUDO DA RELAÇÃO ENTRE A NOTA FINAL E AS FALTAS
10,00 3; 10,00
3; 9,50 9; 9,50
8; 9,00
4; 8,50
5; 8,50
8,00 6; 8,00
4; 8,00 13; 8,00
12; 7,50
9; 6,50
Nota Final
3; 6,50
6,00 12; 6,00
10; 5,50
10; 5,00 13; 5,00 20; 5,00
14; 4,50 22; 4,50 29; 4,50
4,00 25; 4,00 30; 4,00
33; 2,50
2,00 35; 2,00
34; 1,50
0,00
Faltas
0 5 10 15 20 25 30 35 40
Observando-se o gráfico acima, podemos afirmar que há uma relação de causa e efeito
entre as faltas e as notas finais, ou seja, quanto maior o número de faltas menor serão as
notas dos alunos e o inverso também é verdadeiro. Esta relação de causa e efeito é
conhecida como correlação, podendo ser medida numericamente. Estudaremos este
tema em um capítulo adiante.
11
Prof. Renaldo A. GonsalvesPontifícia Universidade Católica de São Paulo
Notas Preliminares de Aula
Algumas sugestões de normas para as representações gráficas.
O gráfico deverá apresentar título, notas, números, legendas, fonte, e outras informações
necessárias para facilitar a sua leitura e evitar um texto com as explicações. O texto que
acompanha um gráfico deve apenas destacar a informação relevante.
O gráfico, sempre que possível, deverá ter um formato quadrado, evitando assim as
distorções no seu formato final.
Quartis.
Quartis são as medidas mais utilizadas para estudos de localização não central, e são
empregadas para descrever as propriedades de grandes bases de dados.
Definimos os quartis como sendo os valores que dividem a área do histograma (ou uma
base de dados) em quatro partes iguais, sendo medidas de posição dentro de uma base
de dados organizada do menor número observado para o maior. Desta maneira temos: o
1o Quartil (Q1): o 2o Quartil (Q2) – que é a mediana; o 3o Quartil (Q3).
Abaixo do primeiro quartil (Q1), ficam 25% de uma base de dados, os outros
75% ficam acima.
O segundo quartil (Q2), divide a base de dados em duas partes 50% ficam
abaixo e os outros 50% acima – esta medida é conhecida como mediana.
No terceiro quartil (Q3), 75% da base de dados ficam abaixo desta referência, os
outros 25% ficam acima.
12
Prof. Renaldo A. GonsalvesPontifícia Universidade Católica de São Paulo
Notas Preliminares de Aula
Exemplo: Os dados abaixo foram levantados pelo gestor de uma escola que pesquisou o
número médio de alunos em 27 salas selecionadas aleatoriamente. Os dados obtidos
foram disponibilizados na tabela abaixo:
17 19 20 23 27 28 30 33 35 37 37 38 39 42 42 43 43 44 45 45 45 46 47 48 48 51 55
Então:
17 19 20 23 27 28 30 33 35 37 37 38 39 42 42 43 43 44 45 45 45 46 47 48 48 51 55
A 14º posição é o número 42. Este é o Quartil 2 (Q2) da nossa base de dados.
Temos 50% dos dados à esquerda e 50% dos dados à direita de 42.
3. Para encontrar Q1, temos que dividir os 50% dos dados abaixo de 42 em
duas partes iguais, para isso, basta observar que neste caso n = 13, aplicando-
se o mesmo princípio da fórmula acima, teremos (13 + 1) / 2 = 7.
Se contarmos à esquerda do úmero 42 sete posições, o número encontrado
será o Q1.
17 19 20 23 27 28 30 33 35 37 37 38 39 42 42 43 43 44 45 45 45 46 47 48 48 51 55
O número encontrado é o 30, este é o Q1, e abaixo dele temos 25% da nossa
base de dados.
13
Prof. Renaldo A. GonsalvesPontifícia Universidade Católica de São Paulo
Notas Preliminares de Aula
Q1 Q2 Q3
17 19 20 23 27 28 30 33 35 37 37 38 39 42 42 43 43 44 45 45 45 46 47 48 48 51 55
Os Quartis Q1, Q2 e Q3 geram um gráfico chamado “caixa com bigodes” (Box Plot)
que facilita a interpretação destas medidas de posição.
Um gráfico de caixa com bigodes usa cinco valores-chave para descrever um conjunto
de dados: Q1, Q2 e Q3, o valor mínimo e o valor máximo.
Q1 30
Q2 = a mediana 42
Q3 45
Valor mínimo 17
Valor máximo 55
Salas de Aula
Q1=30
Q2 =42
Q3 =45
Mínimo Máximo = 55
14
Prof. Renaldo A. GonsalvesPontifícia Universidade Católica de São Paulo
Notas Preliminares de Aula
Neste mesmo estudo, solicitou-se aos alunos que declarassem a quantia em Reais (R$),
que dispunham no momento. O diagrama de caixa com bigodes deste estudo apresentou
a seguinte distribuição.
Dinheiro
Caso a base de dados, que estamos analisando, tenha um número “n” par de
observações, usamos o seguinte recurso para encontrar Q2 e as outras posições.
15
Prof. Renaldo A. GonsalvesPontifícia Universidade Católica de São Paulo
Notas Preliminares de Aula
Exemplo: Temos uma amostra com oito observações.
O ponto que divide a série em duas partes iguais (mediana) é o intervalo entre 39 e 41.
Quando aplicamos a fórmula, a mediana fica sendo o número 41 ou a quinta posição da
nossa amostra, por este mesmo critério, as outras posições Q1 e Q3 estarão deslocadas
para a direita.
Percentis e Decis.
16