Académique Documents
Professionnel Documents
Culture Documents
de Dados
Explorando a temática
Atividades
A primeira etapa de qualquer análise estatística, ou melhor, a fase preliminar da busca das informações agregadas a dados já coletados, é a análise exploratória destes.
Como o próprio nome diz, a análise exploratória dos dados é o conjunto de ferramentas da Estatística Descritiva que têm como objetivo fazer uma síntese dos dados,
organizando-os sob a forma de tabelas, números e gráficos. Portanto, para entendermos nosso problema de reprovação, precisamos estudar as ferramentas da Estatística
Descritiva:
b. Síntese numérica: Separatrizes, Medidas de posição (média, mediana e moda) e medidas de variabilidade (soma dos quadrados dos resíduos, variância, desvio padrão,
coeficiente de variação) e Medidas de curtose e assimetria.
c. Síntese gráfica: Gráficos de pizza, barra, coluna, linha, séries históricas, histograma, gráfico de Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box
plot.
O objetivo desta aula é promover o conhecimento fundamental que lhe permitirá entender dados coletados, transformando dados brutos em informações úteis!
Explorando a temática
SÍNTESE TABULAR DE DADOS
Na análise exploratória de dados, em última instância, todos os resultados são apresentados ou na forma de figuras ou de tabelas. Assim como nos gráficos, invista no título
da tabela e sempre coloque respostas claras para pelo menos quatro perguntas: O quê? Quem? Quando? Onde? Sugerimos que a interpretação das informações na tabela
também seja colocada no próprio título. Se necessário, coloque notas explicativas, usando siglas somente para coisas realmente conhecidas. A tabela a seguir é um
exemplo de formato de tabelas, apresentando um modelo para síntese de variáveis categóricas de uma base de dados.
TABELA 1 - Análise exploratória de variáveis categóricas: a síntese de variáveis categóricas, sejam elas explicativas ou desfecho, resume-se a apresentar suas
categorias, a frequência de valores em cada categoria e os respectivos percentuais
A síntese numérica de variáveis categóricas é muito simples, basta que você apresente suas categorias, a frequência de valores em cada categoria e os respectivos
percentuais, tal como apresentado na tabela. Já a síntese de variáveis quantitativas é mais ampla e envolve resumir quatro aspectos:
1. separatrizes;
2. um valor típico, medida de posição ou de tendência central;
3. uma medida do grau de variabilidade ou de dispersão dos dados;
4. medidas de assimetria e curtose.
1. Separatrizes: o objetivo das separatrizes é separar em partes iguais a amostra ou dados da pesquisa já ordenados. Percentil: divide os dados em 100 partes.
Encontramos a posição da parte dentro dos dados ordenados.
Onde:
Determine:
a. o P10 (Percentil 10);
Decil: divide os dados em 10 partes e encontramos a posição dessa parte dentro dos dados ordenados.
Onde:
Determine:
a. o D5(Decil 5);
Quartil: divide os dados em 4 partes e encontramos a posição dessa parte dentro dos dados ordenados.
Onde:
Determine:
a. o Q1(Quartil 1);
b. e o Q4 (Quartil 4).
Videoaula: Síntese tabular e numérica de dados (separatrizes)
O objetivo é encontrar o valor característico, aquele que melhor represente os dados. Vamos discutir as duas possibilidades mais aplicadas a problemas de pequeno e médio
porte na área de ciências exatas e engenharia: a média ( x ¯ ) e a mediana (Md).
Média Aritmética ( )
A média aritmética talvez seja a medida mais utilizada em estatística e uma das mais importantes. Pode ser calculada diretamente, usando calculadoras, como a científica e
a financeira, bem como depender de todos os dados da distribuição que estiverem à disposição (BRUNI, 2007).
Contudo, destaca-se o fato de que a média é sensível aos valores muito extremos do conjunto de dados. Para chegar a ela, é preciso considerar se os dados estão
agrupados ou não, pois, em cada caso, o cálculo se dará de uma maneira diferente.
Média aritmética de dados não agrupados: é a média aritmética simples ou simplesmente média. A média é definida como o somatório dos dados dividido pela
quantidade de dados analisados. Essa definição pode ser representada matematicamente pela fórmula:
Exemplo 4: Um professor define que, para ser aprovado em sua disciplina, o aluno precisa tirar média igual ou superior a 6,0 nas cinco avaliações que ele aplica durante o
semestre - cada uma no valor de 10,0 créditos. Analise se os alunos destacados a seguir seriam aprovados segundo o critério definido pelo professor:
chamada de média aritmética ponderada é quando os dados estão organizados, contados e organizados na frequência. Nesse caso, as variáveis têm importâncias diferentes,
de acordo com a quantidade de vezes que cada dado aparece.
Exemplo 5: O quadro a seguir apresenta as notas dos 14 alunos de uma turma em avaliação da disciplina Fundamentos e Metodologia da Matemática II, cujo valor foi 20,0
créditos.
Média aritmética de dados agrupados em classes: o cálculo da média para dados agrupados é muito parecido com a média ponderada. A diferença é que, quando os
dados estão organizados em classes, precisamos calcular o ponto médio dessas classes.
Para calcular o ponto médio de uma classe, basta fazer uma média aritmética dos extremos da classe, ou seja, somar o seu limite inferior com o seu limite superior e dividir
o resultado por 2.
Exemplo 7: O quadro mostra a distribuição das frequências dos salários mensais (agrupados em classes) de 50 empregados de uma firma.
Exemplo 8: O quadro a seguir apresenta as notas dos 36 alunos de uma turma em avaliação da disciplina Estatística, cujo valor foi 20,0 créditos. xi → notas dos alunos e fi
indica quantos dados estão em cada classe.
A mediana é uma medida de tendência central que divide o conjunto de dados analisado em duas partes iguais, cada um com o mesmo número de elementos. Isso significa
que "abaixo da mediana deverão estar 50% dos elementos analisados. Acima da mediana deverão estar 50% dos dados analisados" (BRUNI, 2007, p. 49). Tem sua aplicação
conveniente quando o conjunto de dados analisados tem valores extremos, ou seja, há valores grandes e pequenos dentro do mesmo conjunto de dados.
Mediana para dados não agrupados: nesse caso, devemos considerar a quantidade de elementos presentes na série que está sendo analisada.
Se a quantidade de dados for ímpar: a mediana é o elemento central. A posição do elemento central é dada pela fórmula: (n+1)/2 , em que n é o número de dados.
Se a quantidade de dados for par: a mediana é igual à média aritmética simples dos dois elementos centrais.
b) o estoque do aparelho de TV cujo preço é R$ 420,00 acabou. Qual é o preço mediano dos aparelhos restantes?
Exemplo 10: Suponha que você esteja gerenciando um restaurante e mantendo o controle da venda dos diversos pratos oferecidos pelo estabelecimento. Considere que
tenha observado os seguintes valores de venda semanais do prato "Papillote de berinjelas à Provençal" durante um período de nove semanas:
40 56 38 38 63 59 5 2 4 9 46
Mediana para dados agrupados sem intervalo de classe: o cálculo é semelhante ao anterior, quando os dados não estão agrupados. Contudo, a utilização da tabela com
as frequências acumuladas auxilia no trabalho. Acompanhe os exemplos disponibilizados a seguir.
Exemplo 11: A tabela seguinte apresenta a nota dos 35 alunos de uma turma em avaliação da disciplina Fundamentos e Metodologia da Matemática II, cujo valor foi 20,0
créditos.
Exemplo 12: A tabela a seguir mostra os salários do setor de produção de uma empresa.
Mediana para dados agrupados em intervalos de classe: nesse caso, para determinar a mediana, é necessário seguir alguns passos. Veja:
1º passo: determinar a posição da mediana, que é dada por n. É preciso determinar que metade dos dados seja menor e a outra metade seja maior que a mediana, sendo n o
número de dados.
2º passo: determinar a classe mediana. Com o resultado do 1º passo, basta procurar, na coluna da frequência acumulada, em qual intervalo esse valor se enquadra. A classe
mediana é a classe na qual está a mediana.
Onde:
Exemplo 13: A tabela a seguir apresenta as notas dos 36 alunos de uma turma em avaliação da disciplina Estatística, cujo valor foi 20,0 créditos, organizados em classes.
Exemplo 14: A tabela a seguir apresenta a idade das pessoas que visitaram um evento em determinado shopping.
Qual é a mediana?
Não se esqueça de que para obter a mediana é necessário, antes de tudo, colocar os dados em ordem crescente. Não ordenar os dados é a principal fonte de erro no
cálculo da mediana!
Algumas pessoas se perguntam: "Quantas casas decimais devo apresentar no resultado?" Quanto menos casas decimais você conseguir apresentar nos seus resultados,
melhor para o entendimento da informação! Apresente seus resultados usando o mesmo número de casas decimais que os dados originais ou, no máximo, uma casa
decimal além do original, como foi feito nos cálculos anteriores.
Outra questão é "Quando escolher entre média e mediana para melhor representar um conjunto de dados?" ou "Em que situações resumir uma variável quantitativa usando
a média e quando a mediana é melhor para representar os dados?". Para essa resposta, é preciso seguir uma regra prática:
a) Se média e mediana forem semelhantes, então usar a média para representar os dados.
b) Se média e mediana forem muito diferentes, então usar a mediana para representar os dados.
Moda é o valor que ocorre com maior frequência na distribuição dos dados. Quando não existe um valor com maior número de repetições, a moda não existe. Daí dizemos
que o conjunto de dados é amodal. Ao contrário, se mais de um dado do conjunto aparece com o mesmo e maior número de repetições, dizemos que o conjunto de dados é
multimodal.
Exemplo 15: Os preços, em reais, para alguns aparelhos de TV 21 polegadas, estão a seguir.
Exemplo 16: Os dados a seguir representam a massa, em quilogramas, das atletas de uma equipe júnior de atletismo:
46 44 49 45 44 48 50 42 44 45
Moda para dados agrupados em intervalos de classe: aqui utilizaremos a fórmula de King para o cálculo da moda. Segundo Bruni (2007), há também as fórmulas de
Czuber e a de Pearson. A fórmula é:
Sendo:
Antes de aplicar a fórmula, primeiramente é necessário determinar a classe modal, que é a classe com maior frequência. Acompanhe os exemplos disponibilizados a
seguir.
Exemplo 17: A tabela seguinte apresenta as notas dos 36 alunos de uma turma em avaliação da disciplina Estatística, cujo valor foi 20,0 créditos, organizados em classes.
Exemplo 18: O quadro mostra a distribuição de frequência dos salários mensais (agrupados em classes) de 50 empregados de uma firma.
Quando há valores razoavelmente próximos, ou seja, sem grande variação, a média e a mediana são próximas uma da outra.
O objetivo é identificar o quanto os dados são heterogêneos, são imprevisíveis, em suma, quantificar o grau de variabilidade de uma variável quantitativa.
A princípio, podemos medir a variabilidade de um dado informando o seu valor mínimo (mín) e o valor máximo (máx), o que nos leva à sua amplitude (AT):
AT = máx - mín.
Cálculo da amplitude total para dados não agrupados em intervalos de classe: nesse caso, a amplitude total é a diferença entre o maior e o menor valor do conjunto de dados
coletados.
Exemplo 19: Os dados a seguir mostram o número de pedidos atendidos mensalmente por uma fábrica de móveis nos anos de 2009 e 2010:
Exemplo 20: O Procon de uma cidade procurou um grande supermercado, após muitas reclamações dos clientes, para realizar uma pesquisa sobre o tempo que
aguardavam na fila para passar suas compras no caixa. O levantamento realizado gerou a seguinte tabela:
Cálculo da amplitude total para dados agrupados em intervalos de classe: a amplitude total é a diferença entre o limite superior da classe mais alta e o limite inferior da
classe mais baixa. Veja o exemplo:
Exemplo 21: Um radar fotográfico, instalado em uma rodovia na qual o limite de velocidade é de 100 km/h, registrou em uma semana 150 multas por excesso de velocidade,
assim distribuídas:
A amplitude é determinada de modo fácil, mas como considera apenas os valores extremos, sua interpretação fica dificultada, podendo distorcer as análises.
Variância (s²)
A variância considera todos os dados coletados para a variável que está sendo estudada. É o valor que corresponde à média aritmética dos quadrados dos desvios em relação
à média. A variância é difícil de ser interpretada (TIBONI, 2010). A fórmula para a determinação da variância populacional é:
Onde,
xi = elemento do conjunto;
x = média aritmética;
Contudo, quando o cálculo da variância trata de uma amostra e não de uma população, o que é muito comum em estatística, a fórmula sofre uma correção e o
denominador será "n - 1" e não n. Esse ajuste visa corrigir o fato de o número de elementos da amostra ser menor que o número de elementos da população. Então:
Essa medida de dispersão permite corrigir a dificuldade de interpretação da variância. O desvio padrão corresponde à raiz quadrada da variância. Assim:
s = √s²
Quanto mais próximo de 0 for o desvio padrão, menor a dispersão do conjunto de dados.
As medidas de dispersão relativas são aquelas que analisam uma medida de tendência central, geralmente a média aritmética, e as medidas de dispersão, em geral o desvio
padrão, de uma única vez. O coeficiente de variação é a medida de dispersão relativa mais usual e representa a razão entre o desvio padrão e a média aritmética. Pode ser
representado da seguinte maneira:
a) A média aritmética;
b) A variância amostral;
c) O desvio padrão amostral;
d) O coeficiente de variação.
Exemplo 23: A tabela a seguir apresenta as idades de um grupo de alunos matriculados na disciplina Métodos Quantitativos.
Pede-se:
a) Calcular a média;
Exemplo 24: O quadro a seguir mostra a distribuição de frequências dos salários mensais (agrupados em classes) de 50 empregados de uma firma:
Calcule:
* A tabela a seguir mostra o número de votos por turma de dois candidatos que estão concorrendo a uma vaga de representante na comissão de uma festa para arrecadar
fundos para a formatura:
Supondo que você já consiga calcular o desvio padrão (s) de um conjunto de dados, como interpretar o seu resultado? É fato que, quanto maior o desvio padrão, maior a
variabilidade dos dados. Mas, o que é um desvio padrão grande? Essa resposta depende da magnitude da média (x ¯), isto é, para sabermos se um desvio padrão é grande
ou pequeno, vai depender do valor da média. Por exemplo, sejam os resultados das provas de um atleta, resumidos a seguir:
Em qual prova, salto em altura ou tempo para 100 m, o atleta é mais heterogêneo, ou seja, tem os resultados com maior variabilidade? Se você responder a essa questão
comparando os dois desvios padrões, estará cometendo dois erros:
Então, como efetivamente obter o grau de variabilidade de uma variável? Isso é feito pelo coeficiente de variação (cv), uma relação percentual entre o desvio padrão e a
média:
Além de ser uma medida adimensional, o que possibilita comparações entre diferentes variáveis, o CV pode ser interpretado de forma absoluta:
Quando você fizer uma análise exploratória de dados, lembre-se de corrigir os gráficos produzidos pelo Excel. Lembre-se também de colocar os títulos das tabelas e das
figuras o mais informativos possível. E, ao calcular o desvio padrão, não se esqueça de considerar que você tem dados amostrais. Confira na sua calculadora e/ou no próprio
Excel qual a fórmula que está sendo usada. Resuma os dados por meio de gráficos, números e tabelas. Esse é o primeiro e fundamental passo para entender os dados e o
problema investigado.
Uma figura vale mais que mil palavras! Isso é verdade, entretanto, um gráfico vale mais que mil palavras se e somente se ele for desenhado de forma clara, correta e concisa.
Sempre desenhe gráficos a partir de seus dados, mas tente fazê-los de tal forma que a frase "basta olhar para entender" seja válida. Os gráficos mais úteis para a análise de
dados de experimentos de pequeno e médio porte na área de ciências exatas e engenharia são: gráficos de pizza, barras, colunas, linha, séries históricas, histograma,
gráfico de Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box plot (tabela a seguir). Entretanto, na prática, devemos construir gráficos usando
ferramentas computacionais como o Excel.
Como fazer os gráficos? Siga as regras e os comentários a seguir e você terá sucesso ao desenhar gráficos:
1. Um gráfico deve conter um título, entretanto, este não deve ser colocado no próprio gráfico (como o Excel insiste em fazer). Quando desenhamos um gráfico usando o
Excel, por exemplo, este será exportado para algum documento do Word ou para o PowerPoint, ou para outros editores de texto e apresentadores de slides. O título do
gráfico será então colocado no slide ou na descrição da figura no editor de textos, sendo desnecessário e errado colocá-lo no meio do próprio gráfico. Mesmo em casos
excepcionais, quando o gráfico não é exportado para nenhum outro aplicativo, sendo impresso diretamente do Excel, o título não deve ser colocado no meio da figura. O título
deve ser inserido no cabeçalho da planilha que contém o gráfico.
2. Ao escrever um relatório, comece pelas figuras. É impressionante, mas as pessoas leem artigos científicos, relatórios técnicos, jornais e revistas de "fofoca" da mesma
forma: começamos pelas figuras! Por isso, o título de gráficos e tabelas deve ser o mais claro possível: toda informação necessária para o entendimento da figura deve estar
no seu título. Essa é uma tendência das revistas científicas (Nature e Science, por exemplo) e tem um efeito colateral: o título da figura fica muito longo. Isso não é
exatamente uma regra, mas recomendação. Se você quer que seu relatório seja lido, invista nos títulos de figuras e tabelas e sempre coloque respostas claras para pelo
menos quatro perguntas: O quê? Quem? Quando? Onde? A interpretação das informações no gráfico também deve ser colocada como subtítulo da figura. Se necessário,
coloque notas explicativas usando siglas somente para aquilo que realmente for conhecido de quem lerá o seu texto (seu chefe ou o chefe do seu chefe). Veja um exemplo de
gráfico de pizza na figura a seguir.
GRÁFICO 1 - Principais ferramentas estatísticas encontradas em artigos publicados no New England Journal of Medicine (NEJM)
3. Caso o gráfico tenha eixos (horizontal X e vertical Y), estes devem estar rotulados para entendimento. Os rótulos dos eixos devem conter as respectivas unidades de
medida envolvidas (g, R$, kg, m/s etc.). Esse é mais um ponto de erro do Excel! Além de não colocar os rótulos nos eixos, o Excel coloca o título no meio da figura e uma
legenda que não tem a menor utilidade. Na verdade, as legendas somente devem ser colocadas se existirem mais de um grupo de dados na figura. Veja um exemplo correto
de gráfico de barras na figura a seguir.
GRÁFICO 2 - Risco de reprovação em disciplinas de cursos de Engenharia e Tecnologia do Centro Universitário de Belo Horizonte
4. Não existe regra fixa para a escolha da escala do gráfico. Qualquer escala é boa desde que os valores no gráfico não fiquem muito espalhados nem muito juntos numa
única região da figura.
5. Sombreamento, efeitos 3D e pequenas figuras relacionadas com o tipo de dado usado no gráfico, colocados para dar vida à figura: na maioria das vezes esses efeitos são
inúteis, podendo até mesmo distorcer o gráfico.
6. A maioria dos gráficos apresenta o valor zero como ponto de início dos eixos, mas isso não é necessário se o ponto de início da escala é devidamente marcado na figura.
Na verdade, as pessoas usualmente assumem que o valor zero está na base do gráfico. Para os gráficos de linha isso não é problemático, entretanto, quando se tratar de
gráficos de colunas ou de barras, o valor zero deve obrigatoriamente estar na base da coluna. Caso isso não seja feito, ocorre uma distorção do gráfico levando a uma
interpretação errada dos dados. Veja o exemplo a seguir. O primeiro gráfico, como não começa no valor zero, está errado, ele "ilude o leitor": a auditoria foi um sucesso?!
GRÁFICO 3 - Exemplos de gráfico de colunas: o valor zero deve obrigatoriamente ser incluído na figura
Fonte: Elaborado pela autora.
7. Mais de uma curva ou linha pode ser desenhada em um único gráfico com o objetivo de comparação. Entretanto, deve-se diferenciar claramente os dados de cada linha
para que não haja erro de interpretação (use cores diferentes ou linhas pontilhadas ou mesmo símbolos). Linhas de grade, usualmente colocadas no gráfico para auxiliar a
leitura das escalas, devem ser discretas (na cor cinza, por exemplo) ou serem eliminadas.
8. Os gráficos devem ser desenhados no formato de paisagem, com a altura tendo aproximadamente ¾ da sua largura. Caso isso não seja feito, poderá haver distorção da
figura e da própria informação, que fica comprometida: o primeiro gráfico está correto, mas os outros estão na categoria "como mentir com estatística".
GRÁFICO 5 - Formato dos gráficos: a figura deve ser desenhada em formato de paisagem, com altura de aproximadamente 75% da largura
GRÁFICO 6 - Gráfico distorcido: desenhando a figura com a altura muito pequena em relação à largura, a informação é falseada e se tem a sensação de
estabilidade dos dados
Fonte: Elaborado pela autora.
GRÁFICO 7 - Gráfico distorcido: desenhado a figura com a altura muito grande em relação à largura, a informação é falseada e se tem a sensação de redução
dos dados ao longo do tempo
9. Gráfico de pizza, "o queridinho": apesar de muito "engraçadinho", este gráfico é muito confuso. Evite o seu uso, substituindo-o pelo gráfico de barras ou de colunas. É
aceitável construí-lo somente quando são poucos setores bem definidos (até cinco pedaços). Evite gráficos de pizza em 3D, com vários pedaços.
10. Diagrama de dispersão: ferramenta que nos permite avaliar o efeito de uma variável explicativa quantitativa sobre um desfecho. Serve tanto para visualizarmos funções
matemáticas teóricas (gráfico 8) quanto funções de relacionamentos empíricos já conhecidos (gráfico 9), mas a sua grande utilidade é quando tentamos estabelecer a
associação entre duas variáveis quantitativas (gráfico 9). O gráfico 8 é um diagrama de dispersão mostrando uma relação completamente teórica entre duas variáveis (x e y).
Como é uma relação exata, somente é desenhada a linha que liga os pontos do gráfico. No gráfico 9 é desenhada uma relação empírica, no caso a lei de Abrams, que
relaciona a resistência do concreto à compressão (R) com o fator água/cimento (fx) da seguinte forma: R = a/ßfx. Nessa figura, a e ß foram definidos como 100 e 10
respectivamente, de tal forma que a equação ficou R = 100/10fx, fx variando de 0 a 3. Já o gráfico 10 mostra o uso "nobre" dos diagramas de dispersão, quando tentamos
explorar, criar e propor uma nova relação empírica entre duas variáveis quantitativas. Nesse exemplo, em vez de aplicarmos a relação empírica de Abrams, usamos dados
reais de fator fx de água/cimento e a resistência medida em 28 dias de uma amostra de concretos (desfecho). Ao inserirmos uma linha de tendência linear, estamos
sugerindo que, na faixa de variação medida de fx (entre 0,2 e 1,0), a resistência à compressão do concreto se relaciona com fx por meio de uma equação de reta.
GRÁFICO 8 - Diagrama de dispersão sem os marcadores e com linhas contínuas mostrando a relação de x e sua função f(x) = 2x3 - cos(x+1) - 3. Nesse caso, o
diagrama está mostrando uma relação teórica exata, tal como aquela encontrada nas disciplinas de Cálculo Diferencial
Fonte: Elaborado pela autora.
GRÁFICO 9 - Diagrama de dispersão com marcadores e linhas contínuas mostrando a relação empírica da lei de Abrams que relaciona a resistência à
compressão de concretos, medida em megapascal (MPa), e o fator água/cimento (fx), determinado pela razão do peso de água pelo peso em cimento do
concreto
GRÁFICO 10 - Diagrama de dispersão somente com os marcadores e sem linhas contínuas mostrando uma possível relação linear entre resistência à
compressão de concretos em 28 dias (MPa) e o fator água/cimento (fx)
O próximo gráfico mostra possíveis padrões de relacionamento entre uma variável explicativa (X) e o desfecho (Y), ambos quantitativos. Sempre que construir um diagrama de
dispersão, você deve interpretar o gráfico gerado em um dos quatro padrões mostrados na figura a seguir. A) Correlação positiva: em média, quando X aumenta, Y também
aumenta, numa tendência em "linha reta". Por exemplo, quanto maior a área de um imóvel, maior é o seu preço de venda. B) Correlação negativa: em média, quando X
aumenta, Y tende a diminuir. Por exemplo, quanto mais velho um imóvel, menor é o seu preço de venda. C) Associação curvilínea: em média, quando X aumenta, Y também
aumenta, mas não numa tendência em "linha reta", e sim "em curva". Isso pode ocorrer quando, por exemplo, a relação entre a variável resposta (Y) e a explicativa (X) for
uma equação de segundo grau (parábola) ou cúbica, de grau três. D) Sem associação: também é um padrão importante, pois indica que não há relação entre as duas
variáveis associadas, que a variável explicativa, na verdade, não explica o desfecho! Por exemplo, frequentemente se observa que a idade do aluno não está associada à sua
nota na maioria das disciplinas que ele cursa.
FIGURA 1 - Padrões de relacionamento entre variáveis avaliadas por meio de diagrama de dispersão: correlação positiva (A), correlação negativa (B),
associação curvilínea (C) e ausência de associação (D)
Fonte: Elaborado pela autora.
11. Histograma: a ideia deste gráfico é categorizar uma variável quantitativa, dividindo-a em intervalos ou classes, contar quantos valores se encaixam em cada intervalo e
construir um gráfico de colunas com o resultado. Ao se interpretar um histograma, deve-se tentar responder às seguintes questões: Qual é a forma da distribuição dos
dados? Existe um ponto central bem definido? Como é a amplitude de variação dos dados? Existe apenas um pico isolado? A distribuição é simétrica? Os exemplos a seguir
podem auxiliá-lo na interpretação de um histograma. Procure descobrir com qual destes quatro tipos o seu histograma se parece.
Exemplo 1 - Histograma simétrico: a frequência de dados é mais alta no centro e decresce gradualmente à esquerda e à direita de forma aproximadamente simétrica, em
forma de sino. Exemplo 2 - Histograma fortemente assimétrico: a frequência dos dados decresce rapidamente num dos lados e muito lentamente no outro, provocando
uma assimetria na distribuição dos valores. A distribuição dos salários numa empresa é um exemplo comum de histograma assimétrico, pois muitas pessoas ganham pouco
e poucas pessoas ganham muito. Exemplo 3 - Histograma tipo platô: as classes de valores centrais apresentam aproximadamente a mesma frequência. Essa situação
também sugere mistura de valores de diferentes populações. Exemplo 4 - Histograma bimodal: alguns valores isolados têm frequência elevada, formando uma espécie de
ilha, os quais podem ser caracterizados por uma mistura de diferentes dados, sugerindo-se a separação destas diferentes populações.
Vamos usar como exemplo de dados para a construção de um histograma notas de amostra de alunos em uma prova de Cálculo Diferencial (n=120):
TABELA 19 - Dados brutos de notas de amostra de alunos em prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte - UniBH, 2014/2
Passo 2 - Determinar quantas classes ou intervalos (k) serão usados para dividir os dados. Regra empírica: k ≈ √n. No exemplo, n ≈ 120; k ≈ √120 ≈ 10
Passo 3 - Determinar o tamanho de cada subintervalo (h). h ≈ R/k . No exemplo, h ≈ R/k ≈ 25/10 ≈ 2,5. Ou seja, no nosso exemplo, temos 120 valores que variam de 0 a 25 e
vamos dividi-los em 10 classes de tamanho 2,5.
Passo 4 - Contar a frequência de valores em cada classe. No exemplo, começando em zero (valor mínimo), teremos uma tabela de distribuição de frequências, base para
construção do histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos verificar na base de dados quantos valores se encaixam em cada classe.
Observe no quadro a seguir o símbolo --|, ele indica que o valor à direita faz parte do intervalo, mas o valor à sua esquerda não! Ou seja, o intervalo 2,5 --| 5,0 implica em
valores acima de 2,5 e menores ou iguais a 5,0. Por exemplo, alunos que tiraram 5,0 são contabilizados somente no segundo intervalo (2,5 --| 5,0), assim como aqueles que
tiraram 7,5 pontos entram somente na terceira classe (5,0 --| 7,5). Veja também o símbolo |--|, ele só pode ser usado no primeiro subintervalo e possibilita que incluamos o
valor 0,0 na primeira classe (0,0 |--| 2,5). Se não fizéssemos isso, não teríamos onde colocar a frequência de valores iguais a zero. Eventualmente você poderá deparar com
tabelas construídas com o símbolo "invertido", |--, que indica valores maiores ou iguais ao número colocado à esquerda e menores que o valor colocado à direita. Por
exemplo, 30 |-- 40 implica valores maiores ou iguais a 30 e menores que 40. Usamos a notação --| que é o padrão usado pelo Excel na construção de histogramas (próximo
quadro).
Lembre-se de que o total, a soma da coluna "Frequência", deve ser exatamente o tamanho da amostra (n). Além da coluna de frequência absoluta, podemos calcular a
frequência relativa ou percentual de cada classe (em relação ao total de valores) e a frequência acumulada ou percentual acumulado, útil para a construção de gráficos de
Pareto (que será explicado mais à frente).
Tabela 20 - Tabela de distribuição de frequências das notas de amostra de alunos em prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte -
UniBH, 2014/2
GRÁFICO 12 - Histograma com a distribuição das notas na prova de Cálculo Diferencial: os dados mostram um padrão de distribuição assimétrico, semelhante
àquele apresentado no histograma do exemplo 2
GRÁFICO 13 - Gráfico de Pareto com a frequência de defeitos de fabricação de uma peça mecânica: 66% dos defeitos são somente de três categorias
prioritárias para um plano de ação para melhorar a qualidade do processo de fabricação (rebarbas, diâmetro menor e diâmetro maior)
13. Box Plot: esse gráfico, também conhecido como diagrama em caixa ou "caixa e bigode", informa sobre a distribuição dos dados. Somente se aplica a variáveis
quantitativas (próxima figura), informando o menor valor (pequena linha horizontal inferior) e valor máximo (pequena linha horizontal superior). A distância entre o valor mínimo e
a aresta inferior da caixa cinza é a amplitude em que ocorrem os 25% dos valores mais baixos. Este é conhecido como 1º quartil, sendo delimitado pelo percentil 25 dos
dados. As duas caixas, cinza e vermelha, mostram onde estão 50% dos dados. A distância entre a aresta superior da caixa vermelha e a pequena linha horizontal superior,
que equivale ao máximo dos dados, refere-se ao intervalo em que ocorrem 25% dos maiores valores da variável. A linha separando as duas caixas representa a mediana, que
expressa o valor do meio se todos os dados fossem colocados em ordem. Valores discrepantes ou outliers, são conhecidos como valor aberrante, ou seja, muito fora da
representação gráfica dos dados. Estes valores, são desconsiderados em pesquisa e experimentos, para um resultado estatístico confiável.
FIGURA 3 - Exemplo de Box Plot para uma variável quantitativa genérica: quanto maior o tamanho das duas caixas, vermelho e cinza, maior a variabilidade
e dispersão dos dados
Assim como os histogramas, o box plot nos informa sobre a maneira de distribuição dos dados, conforme mostra o exemplo a seguir.
Exemplo 26: Os seguintes dados representam uma amostra das medidas do tamanho de partículas de materiais nanoestruturados, utilizados em aplicações odontológicas.
10,10...62,94...64,34...64,47...66,40...69,13...77,31..78,50...80,86
81,66..81,91...87,82...88,10...88,53...91,44...94,19
a) Com base nos dados apresentados, calcule a mediana, o quartil superior, o quartil inferior, o desvio interquartílico, o valor máximo e o mínimo. Identifique, ainda, se existir,
valor(es) discrepante(s) ou outlier(s).
b) Com os dados calculados em (a), construa o diagrama de caixa (box plot) e comente as informações nele contidas.
Esses diagramas de caixa apresentam a vantagem de permitir a visualização de grupos de dados (próxima figura). O diagrama a seguir mostra o resultado comparativo da
taxa de aprovação de oito disciplinas de cursos de Engenharia.
FIGURA 4 - Box plot com as taxas de aprovação de oito disciplinas de cursos de Engenharia: Desenho e Estatística se destacam das outras disciplinas, que têm
taxas de aprovação bem menores e mais heterogêneas. Cálculo Integral é a disciplina com menor taxa de aprovação e maior variabilidade dos dados
A análise exploratória dos dados é o primeiro passo para que você se torne especialista na área investigada. Suas ferramentas de análise não produzem conclusões
definitivas sobre um problema, mas possibilitam que hipóteses sejam construídas de forma consistente.
A assimetria é a propriedade que indica a tendência de concentração maior dos dados em relação ao ponto central da distribuição, ou "mede o grau de afastamento de uma
distribuição em relação a um eixo central" (BRUNI, 2007, p. 83). Assim, quando nos referimos a esse eixo central, as curvas podem ser chamadas, basicamente, de
simétricas ou assimétricas. No caso das curvas simétricas, é a média que representa o eixo de simetria, sendo que as distribuições à esquerda e à direita desse eixo são
iguais. Uma curva será simétrica quando a média, a moda e a mediana são iguais, ou seja, apresentam um mesmo valor. Já as curvas assimétricas são aquelas em que a
média não tem simetria.
Na figura, a curva B representa uma curva simétrica e as curvas A e C são exemplos de curvas assimétricas. Ainda, ao analisar a figura, é possível afirmar que a curva A
representa uma assimetria negativa ou à direita, pois os valores estão concentrados à esquerda do eixo central e, nesse caso, de modo geral, a média é menor que a
mediana, enquanto a curva C representa uma assimetria positiva ou à esquerda, onde os valores estão concentrados à direita do eixo central e, em geral, a média é maior
que a mediana. Já a curtose é a característica que analisa o grau de achatamento ou alongamento de uma distribuição (LEVINE, 2011; BRUNI, 2007). Portanto, no caso da
curtose, a análise é feita no eixo vertical.
Ao analisar a figura, é possível observar que há três formas diferentes para a curtose. As curvas achatadas como a curva (c) são chamadas de platicúrticas e dizemos que
têm menor curtose, enquanto as curvas alongadas como a curva (a) recebem o nome de leptocúrticas e têm alta curtose. Já as curvas perfeitas, com mediana curtose, como
a curva (b), são chamadas de mesocúrticas (BRUNI, 2007).
Na análise da assimetria em relação à média, moda e mediana, conforme já destacado, as distribuições são classificadas como simétricas quando a média, a moda e a
mediana são iguais e, nesse caso, o grau de assimetria será nulo.
Observe que a média é maior que a mediana e a mediana é maior que a moda. Nesse caso temos muitos dados com valores baixos e também muitos dados com valores
altos. Um exemplo simples são os salários no Brasil: temos muitos brasileiros que ganham pouco e poucos brasileiros que ganham muito.
Já nessa figura, a média é menor que a mediana e a mediana é menor que a moda.
Além de se basear nas regras apresentadas, que exigem uma interpretação caso a caso do que seja "média e mediana muito diferentes", você poderá construir histogramas
e, pelo padrão do gráfico, escolher uma ou outra medida para representar os dados. Nos modelos de histograma mostrados no tópico anterior, exemplos 1 (simétrico), 3
(despenhadeiro) e 5 (platô), a média é a melhor medida de posição. Já nos histogramas dos exemplos 2 (fortemente assimétrico) e 6 (ilha isolada), a mediana é a melhor
medida de posição que caracteriza o conjunto de dados.
Vimos nesta unidade os principais tópicos da análise exploratória de dados, também denominada de Estatística Descritiva:
Síntese tabular de dados: na análise exploratória de dados, em última instância, todos os resultados são apresentados ou na forma de figuras ou de tabelas. Assim, invista
no título da tabela e sempre coloque respostas claras para pelo menos quatro perguntas: O quê? Quem? Quando? Onde? Também sugiro que a interpretação das
informações na tabela seja colocada no próprio título. Se necessário, coloque notas explicativas, usando siglas somente para coisas realmente conhecidas.
Síntese numérica de dados: o resumo de uma variável categórica é muito simples, basta que você apresente suas categorias, a frequência de valores em cada categoria e os
respectivos percentuais. Já a síntese de variáveis quantitativas é mais ampla e envolve resumir dois aspectos:
1. separatrizes;
2. um valor típico ou característico para a variável, que é definido pela média (x ¯) e pela mediana (Md). Se média e mediana forem semelhantes, então a média deve ser
usada para representar os dados. Entretanto, caso haja discrepância muito grande entre média e mediana, então se deve usar a mediana para representar os dados;
3. uma medida do grau de variabilidade ou de dispersão dos dados, calculada pelo desvio padrão amostral (s) e o coeficiente de variação (CV);
Síntese gráfica: uma figura vale mais que mil palavras! Isso é verdade, entretanto, um gráfico vale mais que mil palavras se e somente se ele for desenhado de forma clara,
correta e concisa. Sempre desenhe gráficos a partir de seus dados, mas tente fazê-los de tal forma que a frase "basta olhar para entender" seja válida. Os gráficos mais úteis
para a análise de dados de experimentos de pequeno e médio porte na área de ciências exatas e engenharia são: gráficos de pizza, barras, colunas, linha, séries históricas,
histograma, gráfico de Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box plot. Na prática, devemos construir gráficos usando ferramentas
computacionais, como o Excel.
Caso você deseje se aprofundar sobre as questões discutidas nesta unidade, leia os capítulos 2 e 3 do livro texto:
LEVINE, D. M. et al. Estatística: teoria e aplicações: usando Microsoft Excel em português. 6. ed. Rio de Janeiro: LTC, 2012.
Referências
DAFICO, D. de A. Método simples para explicar a resistência à compressão do concreto de alto desempenho. [s/d]. Disponível em: <https://docplayer.com.br/932215-Metodo-
simples-para-explicar-a-resistencia-a-compressao-do-concreto-de-alto-desempenho.html>. Acesso em 14/02/2018.
TIBONI, C. G. R. Estatística básica: para os cursos de administração, ciências contábeis, tecnológicos e de gestão. São Paulo: Atlas, 2010.
Atividades
F1: Atividade de Fixação - Unidade 2