Vous êtes sur la page 1sur 34

Unidade de ensino 2 - Síntese Tabular, Numérica e Gráfica

de Dados

Introdução a unidade de ensino

Explorando a temática

Atividades

F1: Atividade de Fixação - Unidade 2


Introdução a unidade de ensino
Se você usar técnicas de análise estatística, você poderá rapidamente se transformar num especialista em qualquer assunto. Pois bem, como exemplo, que tal se tornar um
especialista em reprovação em disciplinas básicas de cursos de Engenharia e Tecnologia? E você não precisará "repetir" nenhuma dessas disciplinas para ser um
especialista em reprovação, basta trabalhar com os dados! Esse é um problema bem conhecido, mas suas causas e fatores associados não. Uma hipótese é que durante o
ensino fundamental e médio muitos alunos não conseguem adquirir habilidade em resolver problemas matemáticos. Essa deficiência então culmina nos cursos de Engenharia
com altos índices de reprovação no ciclo básico. Disciplinas como Cálculo Diferencial, Geometria Analítica e Álgebra Linear (GAAL), Química Geral e Algoritmos (AEDS)
podem ser verdadeiros "infernos" para alunos da área de exatas.

A primeira etapa de qualquer análise estatística, ou melhor, a fase preliminar da busca das informações agregadas a dados já coletados, é a análise exploratória destes.
Como o próprio nome diz, a análise exploratória dos dados é o conjunto de ferramentas da Estatística Descritiva que têm como objetivo fazer uma síntese dos dados,
organizando-os sob a forma de tabelas, números e gráficos. Portanto, para entendermos nosso problema de reprovação, precisamos estudar as ferramentas da Estatística
Descritiva:

a. Síntese tabular: Resumo da análise por meio de tabelas;

b. Síntese numérica: Separatrizes, Medidas de posição (média, mediana e moda) e medidas de variabilidade (soma dos quadrados dos resíduos, variância, desvio padrão,
coeficiente de variação) e Medidas de curtose e assimetria.

c. Síntese gráfica: Gráficos de pizza, barra, coluna, linha, séries históricas, histograma, gráfico de Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box
plot.

O objetivo desta aula é promover o conhecimento fundamental que lhe permitirá entender dados coletados, transformando dados brutos em informações úteis!
Explorando a temática
SÍNTESE TABULAR DE DADOS

Na análise exploratória de dados, em última instância, todos os resultados são apresentados ou na forma de figuras ou de tabelas. Assim como nos gráficos, invista no título
da tabela e sempre coloque respostas claras para pelo menos quatro perguntas: O quê? Quem? Quando? Onde? Sugerimos que a interpretação das informações na tabela
também seja colocada no próprio título. Se necessário, coloque notas explicativas, usando siglas somente para coisas realmente conhecidas. A tabela a seguir é um
exemplo de formato de tabelas, apresentando um modelo para síntese de variáveis categóricas de uma base de dados.

TABELA 1 - Análise exploratória de variáveis categóricas: a síntese de variáveis categóricas, sejam elas explicativas ou desfecho, resume-se a apresentar suas
categorias, a frequência de valores em cada categoria e os respectivos percentuais

Fonte: Elaborada pela autora.

Síntese numérica de dados

A síntese numérica de variáveis categóricas é muito simples, basta que você apresente suas categorias, a frequência de valores em cada categoria e os respectivos
percentuais, tal como apresentado na tabela. Já a síntese de variáveis quantitativas é mais ampla e envolve resumir quatro aspectos:

1. separatrizes;
2. um valor típico, medida de posição ou de tendência central;
3. uma medida do grau de variabilidade ou de dispersão dos dados;
4. medidas de assimetria e curtose.

1. Separatrizes: o objetivo das separatrizes é separar em partes iguais a amostra ou dados da pesquisa já ordenados. Percentil: divide os dados em 100 partes.
Encontramos a posição da parte dentro dos dados ordenados.

Onde:

P_10 representa 10% dos dados;

P_50 é igual à mediana e representa 50% dos dados;

P_90 representa 90% dos dados.

Veja a seguir alguns exemplos.

Observação: a resolução para todos os exemplos encontra-se no pdf ao final da unidade.

Exemplo 1: Temos os dados numéricos de 1 até 100 (todos números inteiros).

Determine:
a. o P10 (Percentil 10);

b. e o P90 (Percentil 90).

Decil: divide os dados em 10 partes e encontramos a posição dessa parte dentro dos dados ordenados.

Onde:

D_1 representa 10% dos dados;

D_5 é igual a mediana e representa 50% dos dados;

D_10 representa 100% dos dados

Exemplo 2: Temos os dados numéricos de 1 até 100 (todos números inteiros).

Determine:

a. o D5(Decil 5);

b. e o D10 (Decil 10).

Quartil: divide os dados em 4 partes e encontramos a posição dessa parte dentro dos dados ordenados.

Onde:

Q_1 representa 25% dos dados;

Q_2 é igual a mediana e representa 50% dos dados;

Q_4 representa 75% dos dados

Exemplo 3: Temos os dados numéricos de 1 até 100 (todos números inteiros).

Determine:

a. o Q1(Quartil 1);

b. e o Q4 (Quartil 4).
Videoaula: Síntese tabular e numérica de dados (separatrizes)

Valor Típico ou Medida de Posição ou de Tendência Central

O objetivo é encontrar o valor característico, aquele que melhor represente os dados. Vamos discutir as duas possibilidades mais aplicadas a problemas de pequeno e médio
porte na área de ciências exatas e engenharia: a média ( x ¯ ) e a mediana (Md).

Média Aritmética ( )

A média aritmética talvez seja a medida mais utilizada em estatística e uma das mais importantes. Pode ser calculada diretamente, usando calculadoras, como a científica e
a financeira, bem como depender de todos os dados da distribuição que estiverem à disposição (BRUNI, 2007).

Contudo, destaca-se o fato de que a média é sensível aos valores muito extremos do conjunto de dados. Para chegar a ela, é preciso considerar se os dados estão
agrupados ou não, pois, em cada caso, o cálculo se dará de uma maneira diferente.

Média aritmética de dados não agrupados: é a média aritmética simples ou simplesmente média. A média é definida como o somatório dos dados dividido pela
quantidade de dados analisados. Essa definição pode ser representada matematicamente pela fórmula:

Acompanhe alguns exemplos.

Exemplo 4: Um professor define que, para ser aprovado em sua disciplina, o aluno precisa tirar média igual ou superior a 6,0 nas cinco avaliações que ele aplica durante o
semestre - cada uma no valor de 10,0 créditos. Analise se os alunos destacados a seguir seriam aprovados segundo o critério definido pelo professor:

Fonte: DINIZ, 2015.


Média aritmética de dados agrupados, mas não organizados em classes:

chamada de média aritmética ponderada é quando os dados estão organizados, contados e organizados na frequência. Nesse caso, as variáveis têm importâncias diferentes,
de acordo com a quantidade de vezes que cada dado aparece.

Acompanhe a seguir os exemplos.

Exemplo 5: O quadro a seguir apresenta as notas dos 14 alunos de uma turma em avaliação da disciplina Fundamentos e Metodologia da Matemática II, cujo valor foi 20,0
créditos.

7,0 13,0 12,0 15,0 3,0 15,0 17,0


10,0 17,0 7,0 10,0 18,0 15,0 12,0

Calcule a nota média da turma.

Exemplo 6: A tabela a seguir mostra os salários do setor de produção de uma empresa.

TABELA 3 - Salário dos funcionários do setor de produção

Fonte: DINIZ, 2015.

Qual é a média salarial desse setor da empresa?

Média aritmética de dados agrupados em classes: o cálculo da média para dados agrupados é muito parecido com a média ponderada. A diferença é que, quando os
dados estão organizados em classes, precisamos calcular o ponto médio dessas classes.

Para calcular o ponto médio de uma classe, basta fazer uma média aritmética dos extremos da classe, ou seja, somar o seu limite inferior com o seu limite superior e dividir
o resultado por 2.

Acompanhe alguns exemplos disponibilizados a seguir.

Exemplo 7: O quadro mostra a distribuição das frequências dos salários mensais (agrupados em classes) de 50 empregados de uma firma.

TABELA 4 - Salário em classes dos empregados de uma turma


Fonte: DINIZ, 2015.

Calcule o salário médio desse grupo de empregados.

Exemplo 8: O quadro a seguir apresenta as notas dos 36 alunos de uma turma em avaliação da disciplina Estatística, cujo valor foi 20,0 créditos. xi → notas dos alunos e fi
indica quantos dados estão em cada classe.

TABELA 5 - Notas em classes da turma em Estatística

Fonte: DINIZ, 2015.

Qual é a nota média da turma?

Videoaula: Medidas de posição (Média)


Mediana (Md)

A mediana é uma medida de tendência central que divide o conjunto de dados analisado em duas partes iguais, cada um com o mesmo número de elementos. Isso significa
que "abaixo da mediana deverão estar 50% dos elementos analisados. Acima da mediana deverão estar 50% dos dados analisados" (BRUNI, 2007, p. 49). Tem sua aplicação
conveniente quando o conjunto de dados analisados tem valores extremos, ou seja, há valores grandes e pequenos dentro do mesmo conjunto de dados.

Mediana para dados não agrupados: nesse caso, devemos considerar a quantidade de elementos presentes na série que está sendo analisada.

Se a quantidade de dados for ímpar: a mediana é o elemento central. A posição do elemento central é dada pela fórmula: (n+1)/2 , em que n é o número de dados.

Se a quantidade de dados for par: a mediana é igual à média aritmética simples dos dois elementos centrais.

Acompanhe os exemplos disponibilizados a seguir.

Exemplo 9: O preço, em reais, de alguns aparelhos de TV 20 polegadas são os seguintes:

500 640 470 520 420 480 440

Com base nos preços levantados:

a) encontre o preço mediano;

b) o estoque do aparelho de TV cujo preço é R$ 420,00 acabou. Qual é o preço mediano dos aparelhos restantes?

Exemplo 10: Suponha que você esteja gerenciando um restaurante e mantendo o controle da venda dos diversos pratos oferecidos pelo estabelecimento. Considere que
tenha observado os seguintes valores de venda semanais do prato "Papillote de berinjelas à Provençal" durante um período de nove semanas:

40 56 38 38 63 59 5 2 4 9 46

Determine a mediana do conjunto de dados.

Mediana para dados agrupados sem intervalo de classe: o cálculo é semelhante ao anterior, quando os dados não estão agrupados. Contudo, a utilização da tabela com
as frequências acumuladas auxilia no trabalho. Acompanhe os exemplos disponibilizados a seguir.

Exemplo 11: A tabela seguinte apresenta a nota dos 35 alunos de uma turma em avaliação da disciplina Fundamentos e Metodologia da Matemática II, cujo valor foi 20,0
créditos.

Calcule a mediana da turma representada pela tabela a seguir.

TABELA 6 - Notas da turma na disciplina Fundamentos e Metodologia da Matemática II

Fonte: DINIZ, 2015.

Exemplo 12: A tabela a seguir mostra os salários do setor de produção de uma empresa.

TABELA 7 - Salário dos funcionários do setor de produção


Fonte: DINIZ, 2015.

Qual é o salário mediano desse setor da empresa?

Mediana para dados agrupados em intervalos de classe: nesse caso, para determinar a mediana, é necessário seguir alguns passos. Veja:

1º passo: determinar a posição da mediana, que é dada por n. É preciso determinar que metade dos dados seja menor e a outra metade seja maior que a mediana, sendo n o
número de dados.

2º passo: determinar a classe mediana. Com o resultado do 1º passo, basta procurar, na coluna da frequência acumulada, em qual intervalo esse valor se enquadra. A classe
mediana é a classe na qual está a mediana.

3º passo: determinar a mediana. Para isso, vamos usar a fórmula:

Onde:

lMd = limite inferior do intervalo de classe mediana;

Fant = frequência acumulada da classe anterior à classe mediana;

fMd = frequência simples da classe mediana;

n = número de elementos coletados na pesquisa;

hMd = amplitude do intervalo de classe.

Acompanhe a seguir os exemplos.

Exemplo 13: A tabela a seguir apresenta as notas dos 36 alunos de uma turma em avaliação da disciplina Estatística, cujo valor foi 20,0 créditos, organizados em classes.

xi → notas dos alunos e fi → indica quantos dados estão em cada classe.

TABELA 8 - Notas em classes da turma em Estatística


Fonte: DINIZ, 2015.

Qual é a nota mediana da turma?

Exemplo 14: A tabela a seguir apresenta a idade das pessoas que visitaram um evento em determinado shopping.

TABELA 9 - Idade dos visitantes do evento

Fonte: DINIZ, 2015.

Qual é a mediana?

Não se esqueça de que para obter a mediana é necessário, antes de tudo, colocar os dados em ordem crescente. Não ordenar os dados é a principal fonte de erro no
cálculo da mediana!

Algumas pessoas se perguntam: "Quantas casas decimais devo apresentar no resultado?" Quanto menos casas decimais você conseguir apresentar nos seus resultados,
melhor para o entendimento da informação! Apresente seus resultados usando o mesmo número de casas decimais que os dados originais ou, no máximo, uma casa
decimal além do original, como foi feito nos cálculos anteriores.

Outra questão é "Quando escolher entre média e mediana para melhor representar um conjunto de dados?" ou "Em que situações resumir uma variável quantitativa usando
a média e quando a mediana é melhor para representar os dados?". Para essa resposta, é preciso seguir uma regra prática:

a) Se média e mediana forem semelhantes, então usar a média para representar os dados.

b) Se média e mediana forem muito diferentes, então usar a mediana para representar os dados.

Vídeo: Medidas de posição (Mediana)


Moda (Mo)

Moda é o valor que ocorre com maior frequência na distribuição dos dados. Quando não existe um valor com maior número de repetições, a moda não existe. Daí dizemos
que o conjunto de dados é amodal. Ao contrário, se mais de um dado do conjunto aparece com o mesmo e maior número de repetições, dizemos que o conjunto de dados é
multimodal.

Acompanhe os exemplos disponibilizados a seguir.

Exemplo 15: Os preços, em reais, para alguns aparelhos de TV 21 polegadas, estão a seguir.

500 840 470 480 420 480 440

Qual é a moda para o conjunto de dados?

Exemplo 16: Os dados a seguir representam a massa, em quilogramas, das atletas de uma equipe júnior de atletismo:

46 44 49 45 44 48 50 42 44 45

Moda para dados agrupados em intervalos de classe: aqui utilizaremos a fórmula de King para o cálculo da moda. Segundo Bruni (2007), há também as fórmulas de
Czuber e a de Pearson. A fórmula é:

Sendo:

l = limite inferior da classe modal;

fant = frequência da classe imediatamente anterior;

fpost = frequência da classe imediatamente posterior;

h = amplitude da classe modal.

Antes de aplicar a fórmula, primeiramente é necessário determinar a classe modal, que é a classe com maior frequência. Acompanhe os exemplos disponibilizados a
seguir.
Exemplo 17: A tabela seguinte apresenta as notas dos 36 alunos de uma turma em avaliação da disciplina Estatística, cujo valor foi 20,0 créditos, organizados em classes.

TABELA 10 - Notas de alunos

Fonte: DINIZ, 2015.

Exemplo 18: O quadro mostra a distribuição de frequência dos salários mensais (agrupados em classes) de 50 empregados de uma firma.

TABELA 11 - Distribuição de frequências dos salários mensais

Fonte: DINIZ, 2015.

Calcule o salário modal desse grupo de funcionários.

Quando há valores razoavelmente próximos, ou seja, sem grande variação, a média e a mediana são próximas uma da outra.

Videoaula: Medidas de posição (Moda)


MEDIDA DO GRAU DE VARIABILIDADE OU DE DISPERSÃO DOS DADOS

O objetivo é identificar o quanto os dados são heterogêneos, são imprevisíveis, em suma, quantificar o grau de variabilidade de uma variável quantitativa.

Amplitude total (AT)

A princípio, podemos medir a variabilidade de um dado informando o seu valor mínimo (mín) e o valor máximo (máx), o que nos leva à sua amplitude (AT):

AT = máx - mín.

Cálculo da amplitude total para dados não agrupados em intervalos de classe: nesse caso, a amplitude total é a diferença entre o maior e o menor valor do conjunto de dados
coletados.

Veja os exemplos a seguir.

Exemplo 19: Os dados a seguir mostram o número de pedidos atendidos mensalmente por uma fábrica de móveis nos anos de 2009 e 2010:

TABELA 12 - Pedidos atendidos nos anos de 2009 e 2010

Fonte: DINIZ, 2015.

Determine a amplitude total em cada ano:

Exemplo 20: O Procon de uma cidade procurou um grande supermercado, após muitas reclamações dos clientes, para realizar uma pesquisa sobre o tempo que
aguardavam na fila para passar suas compras no caixa. O levantamento realizado gerou a seguinte tabela:

TABELA 13 - Tempo de espera para passar as compras no caixa


Fonte: DINIZ, 2015

Determinar a amplitude total do conjunto de dados:

Cálculo da amplitude total para dados agrupados em intervalos de classe: a amplitude total é a diferença entre o limite superior da classe mais alta e o limite inferior da
classe mais baixa. Veja o exemplo:

Exemplo 21: Um radar fotográfico, instalado em uma rodovia na qual o limite de velocidade é de 100 km/h, registrou em uma semana 150 multas por excesso de velocidade,
assim distribuídas:

TABELA 14- Velocidade dos veículos registrados por um radar

Fonte: DINIZ, 2015.

Determine a amplitude total do conjunto de dados.

A amplitude é determinada de modo fácil, mas como considera apenas os valores extremos, sua interpretação fica dificultada, podendo distorcer as análises.

Variância (s²)

A variância considera todos os dados coletados para a variável que está sendo estudada. É o valor que corresponde à média aritmética dos quadrados dos desvios em relação
à média. A variância é difícil de ser interpretada (TIBONI, 2010). A fórmula para a determinação da variância populacional é:

Onde,
xi = elemento do conjunto;

x = média aritmética;

n = quantidade de elementos do conjunto.

Contudo, quando o cálculo da variância trata de uma amostra e não de uma população, o que é muito comum em estatística, a fórmula sofre uma correção e o
denominador será "n - 1" e não n. Esse ajuste visa corrigir o fato de o número de elementos da amostra ser menor que o número de elementos da população. Então:

Desvio padrão (s)

Essa medida de dispersão permite corrigir a dificuldade de interpretação da variância. O desvio padrão corresponde à raiz quadrada da variância. Assim:

s = √s²

Quanto mais próximo de 0 for o desvio padrão, menor a dispersão do conjunto de dados.

Coeficiente de variação (cv)

As medidas de dispersão relativas são aquelas que analisam uma medida de tendência central, geralmente a média aritmética, e as medidas de dispersão, em geral o desvio
padrão, de uma única vez. O coeficiente de variação é a medida de dispersão relativa mais usual e representa a razão entre o desvio padrão e a média aritmética. Pode ser
representado da seguinte maneira:

Acompanhe os exemplos que envolverão as medidas de dispersão apresentadas.

Exemplo 22: Dada a amostra {3; 4; 5; 7; 8; 10}, calcule:

a) A média aritmética;
b) A variância amostral;
c) O desvio padrão amostral;
d) O coeficiente de variação.

Exemplo 23: A tabela a seguir apresenta as idades de um grupo de alunos matriculados na disciplina Métodos Quantitativos.

TABELA 15 - Idade dos alunos matriculados


Fonte: DINIZ, 2015.

Pede-se:

a) Calcular a média;

b) A variância e o desvio padrão populacional;

c) A variância e o desvio padrão amostral.

Exemplo 24: O quadro a seguir mostra a distribuição de frequências dos salários mensais (agrupados em classes) de 50 empregados de uma firma:

TABELA 16 - Salário dos funcionários da empresa

Fonte: DINIZ, 2015.

Calcule:

a) O salário médio desse grupo de funcionários;


b) O desvio padrão populacional;
c) O desvio padrão amostral.

Exemplo 25: Acompanhe agora um exemplo de aplicação do conceito de desvio padrão:

* A tabela a seguir mostra o número de votos por turma de dois candidatos que estão concorrendo a uma vaga de representante na comissão de uma festa para arrecadar
fundos para a formatura:

TABELA 17 - Votos dos candidatos a representante na comissão de formatura por turma

Fonte: DINIZ, 2015.

a) Calcule o desvio-padrão de cada um desses candidatos;

b) Qual dos dois candidatos é o mais regular?


Nos exemplos apresentados para destacar o cálculo do desvio padrão amostral e populacional, apresentamos o cálculo das duas formas. Contudo, é preciso ficar atento à
situação que será analisada. Quando a situação se referir a uma amostra, calcule o desvio padrão amostral, e quando se referir à população, calcule o desvio padrão
populacional.

Supondo que você já consiga calcular o desvio padrão (s) de um conjunto de dados, como interpretar o seu resultado? É fato que, quanto maior o desvio padrão, maior a
variabilidade dos dados. Mas, o que é um desvio padrão grande? Essa resposta depende da magnitude da média (x ¯), isto é, para sabermos se um desvio padrão é grande
ou pequeno, vai depender do valor da média. Por exemplo, sejam os resultados das provas de um atleta, resumidos a seguir:

Tempo para correr 100 metros: X = 11,5 e s = 2,1 segundos;

Salto em altura: X = 2,2 e s = 0,8 metros.

Em qual prova, salto em altura ou tempo para 100 m, o atleta é mais heterogêneo, ou seja, tem os resultados com maior variabilidade? Se você responder a essa questão
comparando os dois desvios padrões, estará cometendo dois erros:

1º Não se pode comparar diferentes unidades de medida (s versus m);

2º Deve-se considerar a magnitude da média ao se avaliar um desvio padrão.

Então, como efetivamente obter o grau de variabilidade de uma variável? Isso é feito pelo coeficiente de variação (cv), uma relação percentual entre o desvio padrão e a
média:

Além de ser uma medida adimensional, o que possibilita comparações entre diferentes variáveis, o CV pode ser interpretado de forma absoluta:

QUADRO 1 - Definição e interpretação do grau de variabilidade de um conjunto de dados

Fonte: Elaborado pela autora.

No caso do atleta, teremos os seguintes valores de coeficiente de variação:

Quando você fizer uma análise exploratória de dados, lembre-se de corrigir os gráficos produzidos pelo Excel. Lembre-se também de colocar os títulos das tabelas e das
figuras o mais informativos possível. E, ao calcular o desvio padrão, não se esqueça de considerar que você tem dados amostrais. Confira na sua calculadora e/ou no próprio
Excel qual a fórmula que está sendo usada. Resuma os dados por meio de gráficos, números e tabelas. Esse é o primeiro e fundamental passo para entender os dados e o
problema investigado.

Videoaula: Medidas de variabilidade ou de dispersão dos dados


Síntese gráfica de dados

Uma figura vale mais que mil palavras! Isso é verdade, entretanto, um gráfico vale mais que mil palavras se e somente se ele for desenhado de forma clara, correta e concisa.
Sempre desenhe gráficos a partir de seus dados, mas tente fazê-los de tal forma que a frase "basta olhar para entender" seja válida. Os gráficos mais úteis para a análise de
dados de experimentos de pequeno e médio porte na área de ciências exatas e engenharia são: gráficos de pizza, barras, colunas, linha, séries históricas, histograma,
gráfico de Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box plot (tabela a seguir). Entretanto, na prática, devemos construir gráficos usando
ferramentas computacionais como o Excel.

TABELA 18 - Gráficos mais úteis

Fonte: Elaborada pela autora.

Como fazer os gráficos? Siga as regras e os comentários a seguir e você terá sucesso ao desenhar gráficos:

1. Um gráfico deve conter um título, entretanto, este não deve ser colocado no próprio gráfico (como o Excel insiste em fazer). Quando desenhamos um gráfico usando o
Excel, por exemplo, este será exportado para algum documento do Word ou para o PowerPoint, ou para outros editores de texto e apresentadores de slides. O título do
gráfico será então colocado no slide ou na descrição da figura no editor de textos, sendo desnecessário e errado colocá-lo no meio do próprio gráfico. Mesmo em casos
excepcionais, quando o gráfico não é exportado para nenhum outro aplicativo, sendo impresso diretamente do Excel, o título não deve ser colocado no meio da figura. O título
deve ser inserido no cabeçalho da planilha que contém o gráfico.
2. Ao escrever um relatório, comece pelas figuras. É impressionante, mas as pessoas leem artigos científicos, relatórios técnicos, jornais e revistas de "fofoca" da mesma
forma: começamos pelas figuras! Por isso, o título de gráficos e tabelas deve ser o mais claro possível: toda informação necessária para o entendimento da figura deve estar
no seu título. Essa é uma tendência das revistas científicas (Nature e Science, por exemplo) e tem um efeito colateral: o título da figura fica muito longo. Isso não é
exatamente uma regra, mas recomendação. Se você quer que seu relatório seja lido, invista nos títulos de figuras e tabelas e sempre coloque respostas claras para pelo
menos quatro perguntas: O quê? Quem? Quando? Onde? A interpretação das informações no gráfico também deve ser colocada como subtítulo da figura. Se necessário,
coloque notas explicativas usando siglas somente para aquilo que realmente for conhecido de quem lerá o seu texto (seu chefe ou o chefe do seu chefe). Veja um exemplo de
gráfico de pizza na figura a seguir.

GRÁFICO 1 - Principais ferramentas estatísticas encontradas em artigos publicados no New England Journal of Medicine (NEJM)

Fonte: BAILAR; MOSTELLER, 1992.

3. Caso o gráfico tenha eixos (horizontal X e vertical Y), estes devem estar rotulados para entendimento. Os rótulos dos eixos devem conter as respectivas unidades de
medida envolvidas (g, R$, kg, m/s etc.). Esse é mais um ponto de erro do Excel! Além de não colocar os rótulos nos eixos, o Excel coloca o título no meio da figura e uma
legenda que não tem a menor utilidade. Na verdade, as legendas somente devem ser colocadas se existirem mais de um grupo de dados na figura. Veja um exemplo correto
de gráfico de barras na figura a seguir.

GRÁFICO 2 - Risco de reprovação em disciplinas de cursos de Engenharia e Tecnologia do Centro Universitário de Belo Horizonte

Fonte: Elaborado pela autora.

4. Não existe regra fixa para a escolha da escala do gráfico. Qualquer escala é boa desde que os valores no gráfico não fiquem muito espalhados nem muito juntos numa
única região da figura.

5. Sombreamento, efeitos 3D e pequenas figuras relacionadas com o tipo de dado usado no gráfico, colocados para dar vida à figura: na maioria das vezes esses efeitos são
inúteis, podendo até mesmo distorcer o gráfico.

6. A maioria dos gráficos apresenta o valor zero como ponto de início dos eixos, mas isso não é necessário se o ponto de início da escala é devidamente marcado na figura.
Na verdade, as pessoas usualmente assumem que o valor zero está na base do gráfico. Para os gráficos de linha isso não é problemático, entretanto, quando se tratar de
gráficos de colunas ou de barras, o valor zero deve obrigatoriamente estar na base da coluna. Caso isso não seja feito, ocorre uma distorção do gráfico levando a uma
interpretação errada dos dados. Veja o exemplo a seguir. O primeiro gráfico, como não começa no valor zero, está errado, ele "ilude o leitor": a auditoria foi um sucesso?!

GRÁFICO 3 - Exemplos de gráfico de colunas: o valor zero deve obrigatoriamente ser incluído na figura
Fonte: Elaborado pela autora.

7. Mais de uma curva ou linha pode ser desenhada em um único gráfico com o objetivo de comparação. Entretanto, deve-se diferenciar claramente os dados de cada linha
para que não haja erro de interpretação (use cores diferentes ou linhas pontilhadas ou mesmo símbolos). Linhas de grade, usualmente colocadas no gráfico para auxiliar a
leitura das escalas, devem ser discretas (na cor cinza, por exemplo) ou serem eliminadas.

GRÁFICO 4 - Exemplo de gráfico com legenda identificando diferentes dados

Fonte: Elaborado pela autora.

8. Os gráficos devem ser desenhados no formato de paisagem, com a altura tendo aproximadamente ¾ da sua largura. Caso isso não seja feito, poderá haver distorção da
figura e da própria informação, que fica comprometida: o primeiro gráfico está correto, mas os outros estão na categoria "como mentir com estatística".

GRÁFICO 5 - Formato dos gráficos: a figura deve ser desenhada em formato de paisagem, com altura de aproximadamente 75% da largura

Fonte: Elaborado pela autora.

GRÁFICO 6 - Gráfico distorcido: desenhando a figura com a altura muito pequena em relação à largura, a informação é falseada e se tem a sensação de
estabilidade dos dados
Fonte: Elaborado pela autora.

GRÁFICO 7 - Gráfico distorcido: desenhado a figura com a altura muito grande em relação à largura, a informação é falseada e se tem a sensação de redução
dos dados ao longo do tempo

Fonte: Elaborado pela autora.

9. Gráfico de pizza, "o queridinho": apesar de muito "engraçadinho", este gráfico é muito confuso. Evite o seu uso, substituindo-o pelo gráfico de barras ou de colunas. É
aceitável construí-lo somente quando são poucos setores bem definidos (até cinco pedaços). Evite gráficos de pizza em 3D, com vários pedaços.

10. Diagrama de dispersão: ferramenta que nos permite avaliar o efeito de uma variável explicativa quantitativa sobre um desfecho. Serve tanto para visualizarmos funções
matemáticas teóricas (gráfico 8) quanto funções de relacionamentos empíricos já conhecidos (gráfico 9), mas a sua grande utilidade é quando tentamos estabelecer a
associação entre duas variáveis quantitativas (gráfico 9). O gráfico 8 é um diagrama de dispersão mostrando uma relação completamente teórica entre duas variáveis (x e y).
Como é uma relação exata, somente é desenhada a linha que liga os pontos do gráfico. No gráfico 9 é desenhada uma relação empírica, no caso a lei de Abrams, que
relaciona a resistência do concreto à compressão (R) com o fator água/cimento (fx) da seguinte forma: R = a/ßfx. Nessa figura, a e ß foram definidos como 100 e 10
respectivamente, de tal forma que a equação ficou R = 100/10fx, fx variando de 0 a 3. Já o gráfico 10 mostra o uso "nobre" dos diagramas de dispersão, quando tentamos
explorar, criar e propor uma nova relação empírica entre duas variáveis quantitativas. Nesse exemplo, em vez de aplicarmos a relação empírica de Abrams, usamos dados
reais de fator fx de água/cimento e a resistência medida em 28 dias de uma amostra de concretos (desfecho). Ao inserirmos uma linha de tendência linear, estamos
sugerindo que, na faixa de variação medida de fx (entre 0,2 e 1,0), a resistência à compressão do concreto se relaciona com fx por meio de uma equação de reta.

GRÁFICO 8 - Diagrama de dispersão sem os marcadores e com linhas contínuas mostrando a relação de x e sua função f(x) = 2x3 - cos(x+1) - 3. Nesse caso, o
diagrama está mostrando uma relação teórica exata, tal como aquela encontrada nas disciplinas de Cálculo Diferencial
Fonte: Elaborado pela autora.

GRÁFICO 9 - Diagrama de dispersão com marcadores e linhas contínuas mostrando a relação empírica da lei de Abrams que relaciona a resistência à
compressão de concretos, medida em megapascal (MPa), e o fator água/cimento (fx), determinado pela razão do peso de água pelo peso em cimento do
concreto

Fonte: Elaborado pela autora.

GRÁFICO 10 - Diagrama de dispersão somente com os marcadores e sem linhas contínuas mostrando uma possível relação linear entre resistência à
compressão de concretos em 28 dias (MPa) e o fator água/cimento (fx)

Fonte: Elaborado pela autora, baseado em DAFICO.

O próximo gráfico mostra possíveis padrões de relacionamento entre uma variável explicativa (X) e o desfecho (Y), ambos quantitativos. Sempre que construir um diagrama de
dispersão, você deve interpretar o gráfico gerado em um dos quatro padrões mostrados na figura a seguir. A) Correlação positiva: em média, quando X aumenta, Y também
aumenta, numa tendência em "linha reta". Por exemplo, quanto maior a área de um imóvel, maior é o seu preço de venda. B) Correlação negativa: em média, quando X
aumenta, Y tende a diminuir. Por exemplo, quanto mais velho um imóvel, menor é o seu preço de venda. C) Associação curvilínea: em média, quando X aumenta, Y também
aumenta, mas não numa tendência em "linha reta", e sim "em curva". Isso pode ocorrer quando, por exemplo, a relação entre a variável resposta (Y) e a explicativa (X) for
uma equação de segundo grau (parábola) ou cúbica, de grau três. D) Sem associação: também é um padrão importante, pois indica que não há relação entre as duas
variáveis associadas, que a variável explicativa, na verdade, não explica o desfecho! Por exemplo, frequentemente se observa que a idade do aluno não está associada à sua
nota na maioria das disciplinas que ele cursa.

FIGURA 1 - Padrões de relacionamento entre variáveis avaliadas por meio de diagrama de dispersão: correlação positiva (A), correlação negativa (B),
associação curvilínea (C) e ausência de associação (D)
Fonte: Elaborado pela autora.

11. Histograma: a ideia deste gráfico é categorizar uma variável quantitativa, dividindo-a em intervalos ou classes, contar quantos valores se encaixam em cada intervalo e
construir um gráfico de colunas com o resultado. Ao se interpretar um histograma, deve-se tentar responder às seguintes questões: Qual é a forma da distribuição dos
dados? Existe um ponto central bem definido? Como é a amplitude de variação dos dados? Existe apenas um pico isolado? A distribuição é simétrica? Os exemplos a seguir
podem auxiliá-lo na interpretação de um histograma. Procure descobrir com qual destes quatro tipos o seu histograma se parece.

FIGURA 2 - Tipos de histograma

Fonte: Elaborado pela autora.

Exemplo 1 - Histograma simétrico: a frequência de dados é mais alta no centro e decresce gradualmente à esquerda e à direita de forma aproximadamente simétrica, em
forma de sino. Exemplo 2 - Histograma fortemente assimétrico: a frequência dos dados decresce rapidamente num dos lados e muito lentamente no outro, provocando
uma assimetria na distribuição dos valores. A distribuição dos salários numa empresa é um exemplo comum de histograma assimétrico, pois muitas pessoas ganham pouco
e poucas pessoas ganham muito. Exemplo 3 - Histograma tipo platô: as classes de valores centrais apresentam aproximadamente a mesma frequência. Essa situação
também sugere mistura de valores de diferentes populações. Exemplo 4 - Histograma bimodal: alguns valores isolados têm frequência elevada, formando uma espécie de
ilha, os quais podem ser caracterizados por uma mistura de diferentes dados, sugerindo-se a separação destas diferentes populações.

Vamos usar como exemplo de dados para a construção de um histograma notas de amostra de alunos em uma prova de Cálculo Diferencial (n=120):

TABELA 19 - Dados brutos de notas de amostra de alunos em prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte - UniBH, 2014/2

Fonte: Elaborado pela autora.


Passo 1 - Determinar valores mínimo, máximo e amplitude (R):

mín = 0; máx = 25; R = máx - mín = 25 - 0 = 25

Passo 2 - Determinar quantas classes ou intervalos (k) serão usados para dividir os dados. Regra empírica: k ≈ √n. No exemplo, n ≈ 120; k ≈ √120 ≈ 10

Passo 3 - Determinar o tamanho de cada subintervalo (h). h ≈ R/k . No exemplo, h ≈ R/k ≈ 25/10 ≈ 2,5. Ou seja, no nosso exemplo, temos 120 valores que variam de 0 a 25 e
vamos dividi-los em 10 classes de tamanho 2,5.

Passo 4 - Contar a frequência de valores em cada classe. No exemplo, começando em zero (valor mínimo), teremos uma tabela de distribuição de frequências, base para
construção do histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos verificar na base de dados quantos valores se encaixam em cada classe.

Observe no quadro a seguir o símbolo --|, ele indica que o valor à direita faz parte do intervalo, mas o valor à sua esquerda não! Ou seja, o intervalo 2,5 --| 5,0 implica em
valores acima de 2,5 e menores ou iguais a 5,0. Por exemplo, alunos que tiraram 5,0 são contabilizados somente no segundo intervalo (2,5 --| 5,0), assim como aqueles que
tiraram 7,5 pontos entram somente na terceira classe (5,0 --| 7,5). Veja também o símbolo |--|, ele só pode ser usado no primeiro subintervalo e possibilita que incluamos o
valor 0,0 na primeira classe (0,0 |--| 2,5). Se não fizéssemos isso, não teríamos onde colocar a frequência de valores iguais a zero. Eventualmente você poderá deparar com
tabelas construídas com o símbolo "invertido", |--, que indica valores maiores ou iguais ao número colocado à esquerda e menores que o valor colocado à direita. Por
exemplo, 30 |-- 40 implica valores maiores ou iguais a 30 e menores que 40. Usamos a notação --| que é o padrão usado pelo Excel na construção de histogramas (próximo
quadro).

Lembre-se de que o total, a soma da coluna "Frequência", deve ser exatamente o tamanho da amostra (n). Além da coluna de frequência absoluta, podemos calcular a
frequência relativa ou percentual de cada classe (em relação ao total de valores) e a frequência acumulada ou percentual acumulado, útil para a construção de gráficos de
Pareto (que será explicado mais à frente).

Tabela 20 - Tabela de distribuição de frequências das notas de amostra de alunos em prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte -
UniBH, 2014/2

Fonte: Elaborado pela autora

GRÁFICO 12 - Histograma com a distribuição das notas na prova de Cálculo Diferencial: os dados mostram um padrão de distribuição assimétrico, semelhante
àquele apresentado no histograma do exemplo 2

Fonte: Elaborado pela autora.


12. Gráfico de Pareto: esta ferramenta é ótima para ajudar na definição de prioridades, quando precisamos fazer um plano de ação para melhoria de qualidade de um serviço
ou produto. Por exemplo, se um determinado problema ou defeito pode ocorrer de diversas formas, como escolher os tipos de defeito prioritários para serem corrigidos? A
ideia do "efeito Pareto" é que 80% dos problemas estão associados a 20% dos problemas. Nem sempre esse efeito ocorre, mas esse é o objetivo do gráfico de Pareto:
verificar quais itens ou problemas ocorrem com maior frequência num determinado cenário. Por exemplo, numa amostra de 400 defeitos de fabricação de uma peça
mecânica, foram observados 16 tipos de defeito: rebarbas, diâmetro menor, diâmetro maior, sem usinagem, altura menor, trincas, altura maior, borda muito fina, enviesado,
base maior que o topo, borda muito grossa, cor muito escura, estrutura pouco flexível, base menor que o topo, cor muito clara e estrutura frágil. Ao se construir um gráfico de
Pareto com os dados (gráfico a seguir), observa-se que a maioria absoluta (66%) dos defeitos se refere somente a três tipos: rebarbas (32%), diâmetro menor (21%) e
diâmetro maior (13%). Ou seja, ao fazer um plano de ação para corrigir possíveis defeitos de fabricação dessa peça, "ignore" 13 defeitos e priorize suas ações em apenas
esses três. Fazendo isso, 66% do problema estará corrigido!

GRÁFICO 13 - Gráfico de Pareto com a frequência de defeitos de fabricação de uma peça mecânica: 66% dos defeitos são somente de três categorias
prioritárias para um plano de ação para melhorar a qualidade do processo de fabricação (rebarbas, diâmetro menor e diâmetro maior)

Fonte: Elaborado pela autora.

13. Box Plot: esse gráfico, também conhecido como diagrama em caixa ou "caixa e bigode", informa sobre a distribuição dos dados. Somente se aplica a variáveis
quantitativas (próxima figura), informando o menor valor (pequena linha horizontal inferior) e valor máximo (pequena linha horizontal superior). A distância entre o valor mínimo e
a aresta inferior da caixa cinza é a amplitude em que ocorrem os 25% dos valores mais baixos. Este é conhecido como 1º quartil, sendo delimitado pelo percentil 25 dos
dados. As duas caixas, cinza e vermelha, mostram onde estão 50% dos dados. A distância entre a aresta superior da caixa vermelha e a pequena linha horizontal superior,
que equivale ao máximo dos dados, refere-se ao intervalo em que ocorrem 25% dos maiores valores da variável. A linha separando as duas caixas representa a mediana, que
expressa o valor do meio se todos os dados fossem colocados em ordem. Valores discrepantes ou outliers, são conhecidos como valor aberrante, ou seja, muito fora da
representação gráfica dos dados. Estes valores, são desconsiderados em pesquisa e experimentos, para um resultado estatístico confiável.

FIGURA 3 - Exemplo de Box Plot para uma variável quantitativa genérica: quanto maior o tamanho das duas caixas, vermelho e cinza, maior a variabilidade
e dispersão dos dados

Fonte: Elaborado pela autora.

Assim como os histogramas, o box plot nos informa sobre a maneira de distribuição dos dados, conforme mostra o exemplo a seguir.

Exemplo 26: Os seguintes dados representam uma amostra das medidas do tamanho de partículas de materiais nanoestruturados, utilizados em aplicações odontológicas.

10,10...62,94...64,34...64,47...66,40...69,13...77,31..78,50...80,86
81,66..81,91...87,82...88,10...88,53...91,44...94,19
a) Com base nos dados apresentados, calcule a mediana, o quartil superior, o quartil inferior, o desvio interquartílico, o valor máximo e o mínimo. Identifique, ainda, se existir,
valor(es) discrepante(s) ou outlier(s).

b) Com os dados calculados em (a), construa o diagrama de caixa (box plot) e comente as informações nele contidas.

Esses diagramas de caixa apresentam a vantagem de permitir a visualização de grupos de dados (próxima figura). O diagrama a seguir mostra o resultado comparativo da
taxa de aprovação de oito disciplinas de cursos de Engenharia.

FIGURA 4 - Box plot com as taxas de aprovação de oito disciplinas de cursos de Engenharia: Desenho e Estatística se destacam das outras disciplinas, que têm
taxas de aprovação bem menores e mais heterogêneas. Cálculo Integral é a disciplina com menor taxa de aprovação e maior variabilidade dos dados

Fonte: Elaborada pela autora.

A análise exploratória dos dados é o primeiro passo para que você se torne especialista na área investigada. Suas ferramentas de análise não produzem conclusões
definitivas sobre um problema, mas possibilitam que hipóteses sejam construídas de forma consistente.

Videoaula: Síntese gráfica de dados


MEDIDAS DE ASSIMETRIA E CURTOSE

Assimetria e curtose - uma visão geral

A assimetria é a propriedade que indica a tendência de concentração maior dos dados em relação ao ponto central da distribuição, ou "mede o grau de afastamento de uma
distribuição em relação a um eixo central" (BRUNI, 2007, p. 83). Assim, quando nos referimos a esse eixo central, as curvas podem ser chamadas, basicamente, de
simétricas ou assimétricas. No caso das curvas simétricas, é a média que representa o eixo de simetria, sendo que as distribuições à esquerda e à direita desse eixo são
iguais. Uma curva será simétrica quando a média, a moda e a mediana são iguais, ou seja, apresentam um mesmo valor. Já as curvas assimétricas são aquelas em que a
média não tem simetria.

FIGURA 5 - curvas simétricas e assimétricas

Fonte: DINIZ, 2015.

Na figura, a curva B representa uma curva simétrica e as curvas A e C são exemplos de curvas assimétricas. Ainda, ao analisar a figura, é possível afirmar que a curva A
representa uma assimetria negativa ou à direita, pois os valores estão concentrados à esquerda do eixo central e, nesse caso, de modo geral, a média é menor que a
mediana, enquanto a curva C representa uma assimetria positiva ou à esquerda, onde os valores estão concentrados à direita do eixo central e, em geral, a média é maior
que a mediana. Já a curtose é a característica que analisa o grau de achatamento ou alongamento de uma distribuição (LEVINE, 2011; BRUNI, 2007). Portanto, no caso da
curtose, a análise é feita no eixo vertical.

FIGURA 6 - Diferentes curtoses


Fonte: DINIZ, 2015.

Ao analisar a figura, é possível observar que há três formas diferentes para a curtose. As curvas achatadas como a curva (c) são chamadas de platicúrticas e dizemos que
têm menor curtose, enquanto as curvas alongadas como a curva (a) recebem o nome de leptocúrticas e têm alta curtose. Já as curvas perfeitas, com mediana curtose, como
a curva (b), são chamadas de mesocúrticas (BRUNI, 2007).

Na análise da assimetria em relação à média, moda e mediana, conforme já destacado, as distribuições são classificadas como simétricas quando a média, a moda e a
mediana são iguais e, nesse caso, o grau de assimetria será nulo.

FIGURA 7 - Distribuição simétrica

Fonte: DINIZ, 2015.

Temos também as distribuições assimétricas, que podem ser positivas ou negativas.

FIGURA 8 - Distribuição assimétrica positiva

Fonte: DINIZ, 2015.

Observe que a média é maior que a mediana e a mediana é maior que a moda. Nesse caso temos muitos dados com valores baixos e também muitos dados com valores
altos. Um exemplo simples são os salários no Brasil: temos muitos brasileiros que ganham pouco e poucos brasileiros que ganham muito.

FIGURA 9 - Distribuição assimétrica negativa


Fonte: DINIZ, 2015.

Já nessa figura, a média é menor que a mediana e a mediana é menor que a moda.

Além de se basear nas regras apresentadas, que exigem uma interpretação caso a caso do que seja "média e mediana muito diferentes", você poderá construir histogramas
e, pelo padrão do gráfico, escolher uma ou outra medida para representar os dados. Nos modelos de histograma mostrados no tópico anterior, exemplos 1 (simétrico), 3
(despenhadeiro) e 5 (platô), a média é a melhor medida de posição. Já nos histogramas dos exemplos 2 (fortemente assimétrico) e 6 (ilha isolada), a mediana é a melhor
medida de posição que caracteriza o conjunto de dados.

Vimos nesta unidade os principais tópicos da análise exploratória de dados, também denominada de Estatística Descritiva:

Síntese tabular de dados: na análise exploratória de dados, em última instância, todos os resultados são apresentados ou na forma de figuras ou de tabelas. Assim, invista
no título da tabela e sempre coloque respostas claras para pelo menos quatro perguntas: O quê? Quem? Quando? Onde? Também sugiro que a interpretação das
informações na tabela seja colocada no próprio título. Se necessário, coloque notas explicativas, usando siglas somente para coisas realmente conhecidas.

Síntese numérica de dados: o resumo de uma variável categórica é muito simples, basta que você apresente suas categorias, a frequência de valores em cada categoria e os
respectivos percentuais. Já a síntese de variáveis quantitativas é mais ampla e envolve resumir dois aspectos:

1. separatrizes;

2. um valor típico ou característico para a variável, que é definido pela média (x ¯) e pela mediana (Md). Se média e mediana forem semelhantes, então a média deve ser
usada para representar os dados. Entretanto, caso haja discrepância muito grande entre média e mediana, então se deve usar a mediana para representar os dados;

3. uma medida do grau de variabilidade ou de dispersão dos dados, calculada pelo desvio padrão amostral (s) e o coeficiente de variação (CV);

4. medidas de assimetria e curtose.

Síntese gráfica: uma figura vale mais que mil palavras! Isso é verdade, entretanto, um gráfico vale mais que mil palavras se e somente se ele for desenhado de forma clara,
correta e concisa. Sempre desenhe gráficos a partir de seus dados, mas tente fazê-los de tal forma que a frase "basta olhar para entender" seja válida. Os gráficos mais úteis
para a análise de dados de experimentos de pequeno e médio porte na área de ciências exatas e engenharia são: gráficos de pizza, barras, colunas, linha, séries históricas,
histograma, gráfico de Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box plot. Na prática, devemos construir gráficos usando ferramentas
computacionais, como o Excel.

Caso você deseje se aprofundar sobre as questões discutidas nesta unidade, leia os capítulos 2 e 3 do livro texto:

LEVINE, D. M. et al. Estatística: teoria e aplicações: usando Microsoft Excel em português. 6. ed. Rio de Janeiro: LTC, 2012.

Resolução dos exemplos propostos:


PDF Resoluções exemplos Estatística un2.pdf

Referências

BRUNI, A. L. Estatística aplicada à gestão empresarial. São Paulo: Atlas, 2007.

DAFICO, D. de A. Método simples para explicar a resistência à compressão do concreto de alto desempenho. [s/d]. Disponível em: <https://docplayer.com.br/932215-Metodo-
simples-para-explicar-a-resistencia-a-compressao-do-concreto-de-alto-desempenho.html>. Acesso em 14/02/2018.

DINIZ, R. S. Estatística. São Paulo: Ânima, 2015.

TIBONI, C. G. R. Estatística básica: para os cursos de administração, ciências contábeis, tecnológicos e de gestão. São Paulo: Atlas, 2010.
Atividades
F1: Atividade de Fixação - Unidade 2

Vous aimerez peut-être aussi