Vous êtes sur la page 1sur 21

Programa Avaliao

Socioeconmica de Projetos

Unidade 1
Estatstica Descritiva

Braslia - 2015

Fundao Escola Nacional de Administrao Pblica


Presidente
Gleisson Rubin
Diretor de Desenvolvimento Gerencial
Paulo Marques
Coordenadora-Geral de Educao a Distncia
Natlia Teles da Mota Teixeira
Conteudista
Alexandre da Costa Pereira (2013)

Diagramao realizada no mbito do acordo de Cooperao Tcnica FUB/CDT/Laboratrio Latitude e Enap.

SUMRIO
Unidade 1 - ESTATSTICA DESCRITIVA....................................................................................................... 4
Objetivos da Unidade.............................................................................................................................. 4
1.1. DADOS ESTATSTICOS........................................................................................................................ 4
1.2. DISTRIBUIES DE FREQUNCIAS..................................................................................................... 6
1.3. MEDIDAS DE POSIO.................................................................................................................... 15
1.4. MEDIDAS DE DISPERSO................................................................................................................. 19

Unidade 1
Estatstica Descritiva
Unidade 1 - ESTATSTICA DESCRITIVA

Objetivos da Unidade
Esta unidade tem por objetivo fazer com que voc tenha condies de descrever e apresentar
os resultados de um conjunto de observaes de forma clara, objetiva e passando o mximo
de informaes possveis.
Para tal objetivo, sero abordadas questes relacionadas a dados estatsticos, distribuies de
frequncias, representaes grficas, medidas de posio e disperso.
Aps concluir esta unidade, espera-se que voc seja capaz de:
Reconhecer a importncia dos mtodos estatsticos para o estudo de variveis.
Compreender os conceitos fundamentais da estatstica descritiva.
Analisar distribuies de freqncias para dados estatsticos e suas formas de
representao.
Distinguir e saber aplicar as diversas medidas de posio. Calcular a mdia, mediana
e moda para uma amostra.
Distinguir e saber aplicar as diversas medidas de disperso.
Calcular a varincia, o desvio-padro e coeficiente de variao para uma amostra.

1.1. DADOS ESTATSTICOS


A Estatstica pode ser definida como sendo parte da matemtica aplicada que fornece mtodos
para a coleta, organizao, descrio, anlise e interpretao de dados e para a utilizao dos
mesmos na tomada de decises.
A estatstica, portanto, uma cincia que se dedica coleta, anlise e interpretao de dados,
preocupando-se com os mtodos de coleta, organizao, sntese, apresentao e interpretao
dos dados, assim como em tirar concluses sobre as caractersticas das fontes donde estes
foram retirados para melhor compreender as situaes analisadas.
Como podemos apreciar no portal do Instituto Brasileiro de Geografia e Estatstica IBGE
(<http://www.ibge.gov.br/brasil_em_sintese/>), so diversos os dados considerados como
de interesse para utilizao nos processos de planejamento e gesto de projetos e polticas
pblicas, apresentando-se de forma destacada no site os dados referentes s temticas
4

relacionadas populao, educao, trabalho, habitao, agropecuria, indstria, comrcio,


servios e contas nacionais, bem como as sries estatsticas disposio no stio <http://
seriesestatisticas.ibge.gov.br/apresentacao.aspx>.
O banco de dados Sries Estatsticas & Sries Histricas, disposio no stio supracitado,
tem por objetivo disseminar, para um pblico diversificado (instituies governamentais, setor
privado, rea acadmica, estudantes, ONGs), informaes provenientes de dados oficiais
oriundos de pesquisas do IBGE, em sua maior parte, e de outras fontes governamentais.
Ordenadas segundo um intervalo de tempo, essas informaes constituem Sries Estatsticas
Histricas, sendo, em muitos casos, sries longas (perodos superiores a 20 anos).
Os temas contemplados pelas Sries Estatsticas & Sries Histricas renem um acervo de
informaes sobre a realidade brasileira em suas dimenses social (educao, habitao,
trabalho, sade, organizao familiar), demogrfica (caractersticas da populao, dinmica
demogrfica e indicadores demogrficos) e econmica (sistema de contas nacionais; ndices de
preos, de produo, de comrcio e agropecuria) que, sem excluir os dados de anos recentes,
cobrem perodos to longos quanto possvel, importantes enquanto dados estatsticos de
interesse em atividades de avaliao socioeconmica de projetos.
Na Figura 01 apresentada abaixo, podemos ver um dos resultados dos levantamentos de
sries de dados estatsticos relacionados com a demografia brasileira, referente srie para a
evoluo dos anos de escolaridade para a parcela da populao com idade superior a 10 anos.
Figura 01- Evoluo da escolaridade da parcela da
populao brasileira com idade > 10 anos.

Fonte: <http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&
vcodigo=ECE370&t=media-anos- estudo-pessoas-10-anos>.
Outro exemplo interessante de fonte de dados para sries histricas consiste na compilao
de dados realizada por rgos da Administrao Direta, como o caso do registro feito pelo
Ministrio da Sade para o nmero de bitos e de internaes de vtimas de acidentes do
trnsito, cujos dados mais recentes indicam 42.800 bitos em 2010, 174.000 feridos internados
em 2011.
A Figura 02 abaixo mostra a evoluo do nmero de bitos de 2001 a 2010, com crescimento
de 40% no perodo.
5

Figura 02- Srie de dados de bitos em acidentes de trnsito no perodo 2001-2010.

Fonte: <http://www.vias-seguras.com/layout/set/print/
os_acidentes/estatisticas/estatisticas_nacionais>.
Para que grficos como os apresentados nas Figuras 03 e 04 possam ser produzidos, faz-se
necessria a mobilizao de um esforo importante, com mobilizao de recursos humanos,
materiais e financeiros de monta para a coleta, tratamento e anlise de dados, conforme
metodologia adequada com o estudo das distribuies de frequncias e representaes
grficas, medidas de posio e disperso para que possam ser adequadamente utilizados
para atender, por exemplo, s necessidades do Estado na formulao de polticas pblicas,
fornecendo dados estatsticos demogrficos e econmicos.
Passaremos, ento, apresentao dos fundamentos da estatstica descritiva, essenciais
para a compreenso do processo estatstico utilizado para a anlise de dados e o adequado
tratamento dos mesmos.
Como primeiro tpico a ser trabalhado, teremos o estudo das distribuies de frequncias
para os dados analisados para a adequada compreenso de determinada varivel luz da
Estatstica.

1.2. DISTRIBUIES DE FREQUNCIAS


Para o estudo do tema relacionado distribuio de frequncias para uma determinada
varivel, sero apresentados os conceitos referentes forma de organizao dos dados com a
adequada determinao do nmero de classes, sua amplitude, obteno de suas frequncias
absoluta e relativa, bem como as formas de representao grfica e de anlise para as variveis
de estudo.
Tipos de Variveis e a Determinao do Nmero de Classes (K)
importante que a distribuio conte com um nmero adequado de classes. Se o nmero
de classes for excessivamente pequeno, acarretar perda de detalhe e pouca informao se
poder extrair da tabela. Por outro lado, se for utilizado um nmero excessivo de classes,
haver alguma classe com frequncia nula ou muito pequena, no atingindo o objetivo de
classificao que tornar o conjunto de dados supervisionveis.

Qualquer conjunto de dados, tais como a precipitao pluviomtrica em um determinado


ms, o PIB de municpios em um Estado, a ocorrncia de acidentes em uma rodovia etc.,
contm informao sobre algum grupo de indivduos. As possveis diferenas entre indivduos
determinam a variao que est sempre presente na anlise de dados.
Uma caracterstica que pode assumir diferentes valores de indivduo para indivduo
denominada varivel, pois de outra forma, seria denominada constante. As variveis podem
ser classificadas em qualitativas e quantitativas. Os dados qualitativos so divididos em
nominais e ordinais, enquanto os dados quantitativos so divididos em discretas e contnuas.
Portanto, ao conjunto de distintos valores numricos que adota um carter quantitativo,
denomina-se varivel estatstica, que pode apresentar-se conforme dois tipos:
Variveis qualitativas ou categricas: que no se podem medir numericamente (ex:
nacionalidade, sexo, escolaridade etc).
Variveis quantitativas: Possuem valor numrico (ex: idade, preo de um produto, renda etc).
As variveis tambm podem se classificar em:
Variveis unidimensionais: somente transmitem informao sobre uma caracterstica
(ex: idade de alunos de uma turma).
Variveis bidimensionais: guardam informao sobre duas caractersticas da
populao (ex: idade e renda de trabalhadores de uma cidade).
Variveis pluridimensionais: detm informao sobre trs ou mais caractersticas (ex:
idade, altura e peso de alunos de uma turma).
Por sua parte, as variveis quantitativas podem classificar-se em discretas e contnuas:
Discretas: s podem tomar valores inteiros (ex: 1, 2, 8, -4, etc.), como o caso do
nmero de espcies de orqudeas em um determinado bioma.
Contnuas: Podem tomar qualquer valor real dentro de um intervalo. Por exemplo, a
velocidade de um veculo em uma rodovia, que pode ser 70,4 km/h, 94,57 km/h...
Quando se estuda o comportamento de uma varivel, necessrio que se proceda distino
dos seguintes conceitos:
Indivduo: qualquer elemento que porte informao sobre o fenmeno que se estuda.
Assim, se estudamos altura dos alunos em uma turma, cada aluno um indivduo;
se o objeto de estudo o preo de uma habitao, cada unidade de habitao um
indivduo.
Populao: conjunto de todos os indivduos (pessoas, objetos, animais etc) que
portem informao sobre o fenmeno que se estuda. Por exemplo, se estudamos o
preo de habitaes em uma cidade, a populao ser o total de habitaes em dita
cidade.
Amostra: subconjunto que, selecionando uma populao, por exemplo no caso do
estudo do preo de habitaes em uma cidade, o normal seria no obter informaes
sobre todas as moradias da cidade, pois seria um trabalho muito complexo, mas
deveria selecionar um subgrupo (amostra) que se entenda suficientemente
representativo.
Convm destacar que quando coletamos dados para uma pesquisa, estas observaes
so chamadas de dados brutos. Um exemplo de dados brutos corresponde precipitao

pluviomtrica mensal, medida em mm, consistindo em dados obtidos conforme metodologia


utilizada na hidrologia, na forma que foram coletados em uma determinada estao
climatolgica, sendo, por este motivo, denominados de dados brutos1.
Geralmente, este tipo de dado no possui as informaes que so necessrias pelo observador
para a utilizao direta em um projeto, ou concluses que o auxiliem na tomada de deciso, que
somente poder ser viabilizada aps a adequada organizao dos dados, visando potencializar
a sua capacidade de fornecer informaes teis ao analista e minimizar o erro na tomada de
deciso na avaliao de um dado problema a ser enfrentado.
A simples organizao dos dados em um rol2 aumenta muito a capacidade de informao destes.
Ser possibilitada a verificao da amplitude total3 de variao para os dados observados e
tambm ser possvel a organizao de rol crescente dos dados, com a identificao dos dados
mais frequentes na amostra.
Para a organizao de um conjunto de dados, recomenda-se a elaborao de tabela de
distribuio de frequncias, onde so apresentadas as frequncias de cada uma das classes4,
contando o nmero de observaes contidas em cada uma delas, obtendo-se a frequncia de
classe. Denomina-se distribuio de frequncias a disposio tabular dos dados agrupados em
classes, associados s suas frequncias correspondentes.
Para o caso, por exemplo, da precipitao pluviomtrica mensal em uma determinada regio,
poder-se-ia incluir, em uma nica classe, os meses em que a precipitao pluviomtrica, para
um certo perodo estivesse compreendida no intervalo de 100 e 200mm.
Considerando os dados de chuva referentes ao registro de observaes em estao
climatolgica, tomado como exemplo, ser possvel identificar conceitos presentes em uma
distribuio de frequncias. Para a elaborao da distribuio de frequncias, necessrio
que, primeiramente, se determine o nmero de classes (k) em que os dados sero agrupados.
Por questes de ordem prtica e esttica, sugere-se utilizar de 5 a 20 classes, e uma
recomendao de ordem prtica que poder ser seguida a definio do nmero de classes
(k) em funo do nmero de observaes (n), segundo a expresso k = n.
Quadro 01: Precipitao pluviomtrica mdia mensal para um perodo de 4 anos.
Ms/Ano
jan/08
fev/08
mar/08
abr/08
mai/08
jun/08
jul/08
ago/08
set/08
out/08

P (mm)
70,9
0,9
154,4
219,6
111,3
294,5
146,1
204,8
25,0
23,6

Ms/Ano
jan/09
fev/09
mar/09
abr/09
mai/09
jun/09
jul/09
ago/09
set/09
set/09

P (mm)
103,3
154,2
131,8
145,6
160,6
190,6
139,5
146,7
26,5
0,2

Ms/Ano
jan/10
fev/10
mar/10
abr/10
mai/10
jun/10
jul/10
ago/10
set/10
set/10

P (mm)
25,5
21,7
15,3
94,3
69,7
62,7
22,8
9,9
0,0
0,3

Ms/Ano
jan/11
fev/11
mar/11
abr/11
mai/11
jun/11
jul/11
ago/11
set/11
set/11

P (mm)
139,8
75,9
89,5
169,1
168,9
194,1
122,8
33,8
2,3
5,3

1. Dados na forma em que foram coletados, sem nenhum tratamento


2. a mais simples organizao numrica. a ordenao dos dados em ordem crescente ou decrescente
3. Corresponde diferena entre o maior e o menor valor observado em um conjunto de dados. Notaremos por A
4. Intervalos nos quais os valores da varivel analisada so agrupados.

nov/08
dez/08

3,5
1,8

nov/09
dez/09

2,0
2,6

nov/10
dez/10

34,7
2,6

nov/11
dez/11

2,7
2,6

Obs. P correspondendo a precipitaes totais mensais, em mm.


Para n = 48 observaes, teremos, ento, o nmero de classes definido por k = 48 = 6,9, o que
implicaria na definio de 7 classes.
Convm destacar que a definio do nmero de classes, poder, inclusive, ser realizada
conforme critrios fixados pelo prprio analista, respeitando-se o princpio de evitar classes
excessivamente ou fracamente populosas.
Em seguida determinao do nmero de classes (k) para o agrupamento dos dados, se
proceder determinao da amplitude5 do intervalo de classe (c), sendo necessria6, antes,
a determinao da amplitude total dos dados (A), que corresponde diferena entre o maior
valor observado e o menor valor observado. Para o clculo da amplitude total dos dados (A)
para o exemplo considerado, que corresponde diferena entre o maior valor observado e o
menor valor observado, teramos:

Para a amplitude do intervalo de classe (c), considerando o valor da amplitude total (A)
calculado, teremos:

O prximo passo, aps conhecida a amplitude de classes, ser a determinao dos intervalos
de classe, mediante a definio dos limites inferior (LI) e superior (LS) das classes, escolhidos
de modo que o menor valor observado esteja localizado no ponto mdio (PM) da primeira
classe, ou seja:

Para o valor do limite inferior para um intervalo, teramos:

Como exemplo de clculo, o limite Inferior da 1 Classe ser dado por:

5. Intervalos abertos os limites da classe (inferior e superior) no pertencem a ela. Intervalos fechados os limites de classe
(superior e inferior) pertencem classe em questo. Intervalos mistos um dos limites pertence classe, e o outro, no.
6. Existem outros procedimentos para determinao da amplitude do intervalo de classe que podem ser encontrados na
literatura.

Convm destacar que o ponto mdio do intervalo para a primeira classe corresponder ao
valor 0mm e, tendo em vista que no existe valor negativo para precipitao pluviomtrica
(desconsiderando-se a evapotranspirao), teremos o Quadro 02 abaixo com as classes da
nossa distribuio, basta que somemos a amplitude do intervalo de classe a cada limite inferior.
Quadro 02: Definio dos limites inferior e superior de cada uma das
classes determinadas para o universo de dados analisado.
Classe
1a
2a
3a
4a
5a
6a
7a

LI
-24,5
24,6
73,7
122,8
171,9
221
270,1

LS
24,6
73,7
122,8
171,9
221
270,1
319,2

Poderemos, ento, elaborar um quadro de frequncias7 absolutas e relativas, conforme


indicado no quadro apresentado a seguir:
Quadro 03: Frequncias absoluta (fa) e relativa (fr) para cada uma das classes.
Classe

LI

LS

fa

fr

1a
2a
3a
4a
5a
6a
7a

-24,5
24,6
73,7
122,8
171,9
221
270,1
Total

24,6
73,7
122,8
171,9
221
270,1
319,2

18
8
6
11
4
0
1
48

0,375
0,167
0,125
0,229
0,083
0,000
0,021
1,000

Em relao interpretao das informaes contidas no Quadro 03, pode-se observar que os
valores para precipitao ocorrida nos 48 meses avaliados esto concentrados na primeira,
segunda e quarta classes, decrescendo em direo s classes do fim da tabela.
A apresentao dos dados na forma de distribuio de freqUncias facilita bastante o clculo
manual de vrias medidas estatsticas de interesse, bem como a sua apresentao grfica,
consistindo em ferramenta disposio do analista.
Caso o interesse do analista, alm da determinao das frequncias absolutas e relativas,
se dirija determinao da quantidade de observaes que existe acima ou abaixo de um

7. A frequncia absoluta (f ) corresponde ao nmero de observaes que temos em uma determinada classe ou em um
determinado atributo de uma varivel qualitativa, e a frequncia relativa (fr) corresponde proporo do nmero de
observaes em uma determinada classe em relao ao total de observaes que temos. Esta freqncia pode ser expressa
em termos porcentuais. Para isto, basta multiplicar a frequncia relativa obtida por 100.

10

determinado ponto na distribuio, teramos o recurso da utilizao da frequncia acumulada8.


A frequncia acumulada, apresentada no Quadro 04, pode ser obtida da seguinte forma:
abaixo do limite superior da primeira classe temos 18 registros que esto presentes nesta
classe, como pode ser visto na distribuio de frequncias absoluta.
Quando consideramos a segunda classe, a frequncia acumulada corresponde ao nmero de
pessoas que temos abaixo do limite superior desta classe, ou seja, os 8 registros da segunda
classe mais os 18 da primeira classe totalizam 26 registros mensais de pluviometria abaixo de
122,8mm, correspondendo a 54,2% do total dos registros contidos na amostra. Para as outras
classes, o raciocnio semelhante.
Quadro 04: Frequncias acumuladas para cada uma das classes.
Classe
1a
2a
3a
4a
5a
6a
7a
Total

LI
-24,5
24,6
73,7
122,8
171,9
221
270,1
Total

LS
24,6
73,7
122,8
171,9
221
270,1
319,2
Total

f acum.
0
18
26
32
43
47
47
48

f acum.r
0,000
0,375
0,542
0,667
0,896
0,979
0,979
1,000

Um exemplo tpico de aplicao das distribuies de frequncias acumuladas corresponde


identificao de uma determinada frequncia abaixo ou acima de um determinado valor
que no corresponde ao limite superior ou inferior de uma classe qualquer. Podemos, ento,
querer verificar qual a porcentagem de registros mensais de chuva com intensidade superior
a 122,8mm. Para isto, basta consultar diretamente a frequncia acumulada acima deste valor
(100% 54,2% = 45,8%), pois o valor 122,8mm/ms corresponde a um dos limites de classe
apresentados nesta tabela. Para a determinao de frequncias acumuladas correspondentes
a valores no coincidentes a limites superiores ou inferiores de classes, o procedimento
o mesmo, bastando realizar a interpolao para a classe correspondente para encontrar a
frequncia acumulada desejada.
Por exemplo, para a determinao da frequncia acumulada para registros mensais de
pluviometria com intensidade superior a 100mm nos 48 meses que constituem o intervalo de
tempo, referente amostra estudada, teramos:

Logo:

8. Freqncia acumulada o total acumulado (soma) de todas as classes anteriores at a classe atual.

11

Ou seja, teramos a frequncia de 46,4% de registros mensais de precipitao pluviomtrica


superior a 100mm no perodo de 48 meses em questo. Na Figura 05 apresentada abaixo,
teremos a representao grfica da distribuio de frequncias na forma relativa (percentuais)
para o caso utilizado no exemplo, sendo destacado o valor correspondente frequncia de
registros de precipitao pluviomtrica com intensidade superior a 100mm/ms.
Figura 03- Representao grfica da distribuio de frequncias.

Interessante ressaltar que quando se trabalha com variveis qualitativas, os atributos so as


variaes nominativas da varivel, bem como a construo do quadro, que consiste em contar
as ocorrncias de cada atributo, e o resultado da contagem definir a frequncia absoluta
do atributo em questo. Para exemplificar o caso do trabalho com variveis qualitativas,
teramos o caso de pesquisa, na qual se procurou avaliar o nmero de habitaes assistidas
por esgotamento sanitrio em uma determinada populao, apresentando-se o Quadro 05 a
seguir apresentado:
Quadro 05: Exemplo para frequncias absoluta e relativa para variveis qualitativas.
Esgotamento Sanitrio
Atendimento
No Atendimento
Total

fa
20
60
80

fr
0,25
0,75
1,0

Em relao s formas de representao grfica de tabelas de frequncia, importante destacar


que, dependendo do tipo de varivel, h um grfico mais adequado a ser utilizado para a
representao. Os diferentes tipos de grfico (histogramas, polgonos de frequncia, ogivas,
grficos de setores, pictogramas e outros) permitem uma melhor visualizao de resultados.

Estes grficos podem ser obtidos utilizando planilhas eletrnicas como, por exemplo, o
Excel.

12

Os histogramas9 so grficos utilizados para representar tabelas intervalares. J o polgono de


frequncia10, voc pode obter pela simples unio dos pontos mdios dos topos dos retngulos
de um histograma, conforme mostra a Figura 04, que apresenta o histograma e os polgonos
de frequncia absoluta e acumulada para a distribuio dos dados referentes s classes
correspondentes contidas no Quadro 06, apresentado a seguir:
Quadro 06: Dados e frequncias absoluta (fa) e acumulada (facum.) para 6 classes.
i
1
2
3
4
5
6

Classes
150 |- 154
154 |- 158
158 |- 162
162 |- 166
166 |- 170
170 |- 174
Total

xi
152
156
160
164
168
172

fai
4
9
11
8
5
3
40

facumi
4
13
24
32
37
40

a) Histograma
Figura 4a - Exemplos de Histograma

9. Histogramas: so constitudos por um conjunto de retngulos, com as bases assentadas sobre um eixo horizontal, tendo o
centro da mesma no ponto mdio da classe que representa, e cuja altura proporcional frequncia da classe.
10. Polgono de frequncias um grfico de anlise no qual as frequncias das classes so localizadas sobre perpendiculares
levantadas nos pontos mdios das classes. Completa-se o polgono unindo as extremidades da linha que ligam os pontos
representativos das frequncias de classe aos pontos mdios das classes imediatamente anterior e posterior s classes
extremas, que tm frequncia nula.

13

b) Polgono de frequncia absoluta


Figura 4b - Exemplos de Polgono de frequncia absoluta

Grficos para a representao de polgono de frequncias acumuladas so chamados de ogivas


e correspondem a um grfico onde estas frequncias so localizadas sobre perpendiculares,
levantadas nos limites inferiores ou superiores das classes.
Para uma tabela de varivel qualitativa, h um tipo de grfico adequado para apresentar
os resultados correspondes ao grfico de setores, tambm popularmente conhecido como
grfico tipo pizza (Figura 05), com construo simples feita mediante a proporo entre o
ngulo central do setor (fatia da pizza) e o valor para a varivel representada.
Figura 05- Composio mdia do trfego para os postos de contagem na BR101-NE11.

Aps o estudo das formas de determinao das distribuies de frequncias e grficos que
as representam, voc dever ser capaz de organizar um conjunto de dados por meio de uma
distribuio de frequncias (absoluta, relativa, e acumuladas), represent-las graficamente e
proceder anlise das informaes contidas nos mesmos.

11. Pesquisa realizada pelo Exrcito Brasileiro (2005), mediante parceria com o Departamento Nacional de Infraestrutura de
Transportes - DNIT, em 8 (oito) postos de contagem considerados no levantamento estatstico para o projeto de duplicao
da BR101-NE.

14

1.3. MEDIDAS DE POSIO


As medidas de posio ou de tendncia central constituem uma forma mais sinttica de
apresentar os resultados contidos nos dados observados, pois representam um valor central
em torno do qual os dados se concentram. As medidas de tendncia central mais empregadas
so: mdia (aritmtica, ponderada e geomtrica), mediana e moda. Quando se estuda
variabilidade, as medidas mais importantes so: amplitude, desvio padro e varincia.
No Quadro 07 mostrado abaixo, so apresentadas as expresses aritmticas para o clculo das
principais medidas de posio:
Quadro 07: Expresses para as principais medidas de tendncia central.

15

A Utilizao da Mdia
Sendo a Distribuio Normal uma das distribuies mais importantes e que surge com mais
frequncia nas aplicaes (o que justifica a grande utilizao da mdia), a mdia consistir na
melhor medida de localizao do centro para uma srie de dados. Entretanto, sendo a mdia
uma medida bastante sensvel variabilidade dos dados, preciso ter cuidado com a sua
utilizao, tendo em vista que pode propiciar uma imagem distorcida da amostra.
A mdia possui uma particularidade bastante interessante, que consiste no seguinte: se
calcularmos os desvios de todas as observaes relativamente mdia e somarmos esses
desvios, o resultado obtido igual a zero.
Outra caracterstica da mdia que torna a sua utilizao vantajosa em certas aplicaes
quando o que se pretende representar a quantidade total expressa pelos dados, e ento se
utiliza a mdia. Na realidade, ao multiplicar a mdia pelo nmero total de elementos, obtemos
a quantidade pretendida.
Moda
Define-se moda como sendo o valor que surge com mais frequncia se os dados so discretos
ou, ainda, o intervalo de classe com maior frequncia se os dados so contnuos.
Assim, da representao grfica dos dados, obtm-se imediatamente o valor que representa
a moda ou a classe modal. Esta medida especialmente til para reduzir a informao de um
conjunto de dados qualitativos, apresentados sob a forma de nomes ou categorias para os
quais no se pode calcular a mdia e por vezes a mediana.
Para dados agrupados com classes, teramos o seguinte processo para a determinao do
valor modal para uma determinada srie de dados:
1. Identificao da classe de maior frequncia:
Para o exemplo apresentado no Quadro 06, teramos a 3 classe (158 |- 162).
2 passo: Clculo da Moda:

Sendo:

16

Mediana
A mediana uma medida de localizao do centro da distribuio dos dados, definida do
seguinte modo: Ordenados os elementos da amostra, a mediana o valor (pertencente ou
no amostra) que a divide ao meio, isto , 50% dos elementos da amostra so menores ou
iguais mediana e os outros 50% so maiores ou iguais mediana.
Para sua determinao, utiliza-se a seguinte regra, depois de ordenada a amostra de n
elementos: Se n mpar, a mediana o elemento mdio e, se n par, a mediana a semisoma dos dois elementos mdios.
Teramos, ento, para dados no agrupados, o seguinte processo:
a) Quando o nmero de valores observados mpar:

Exemplo: Considere o conjunto de dados:


1) Coloque os valores em ordem crescente ou decrescente:

2) Determine a ordem ou posio (P) da Mediana por P = (n+1)/2; portanto:

O nmero que se encontra na 4 posio consiste na mediana, portanto, Md = 4


b) Quando o nmero de valores observados par:
Exemplo: Considere o conjunto de dados:

1) Coloque os valores em ordem crescente ou decrescente:

2) Determine a ordem ou posio (P) para n/2 e para n/2 +1

17

Os nmeros so 6 (4 posio) e 7 (5 posio): 2, 3, 4, 6, 7, 8, 9, 10


Tira-se a mdia aritmtica entre os dois nmeros:

Consideraes a respeito de Mdia e Mediana


Como medida de localizao, a mediana mais robusta do que a mdia, pois no to sensvel
ao valor dos dados que compem a amostra. Dentre as observaes a respeito da comparao
entre mdia e mediana, poderamos destacar as seguintes:
Quando a distribuio simtrica, a mdia e a mediana coincidem.
A mediana no to sensvel, como a mdia, s observaes que so muito maiores ou muito
menores do que as restantes (outliers). Por outro lado, a mdia reflete o valor de todas as
observaes.
Assim, a mdia, ao contrrio da mediana, uma medida muito influenciada por valores muito
grandes ou muito pequenos, mesmo que estes valores surjam em pequeno nmero na
amostra. Estes valores so os responsveis pela m utilizao da mdia em muitas situaes
em que teria mais significado utilizar a mediana.
Portanto, teramos as seguintes consideraes sobre a influncia da forma da distribuio dos
dados:

Figura 05- Exemplos de distribuies simtricas.


Quando for aproximadamente simtrica, a mdia aproxima-se da mediana.

Quando se apresentar de forma enviesada para a direita (alguns valores grandes como outliers),
a mdia tende a ser maior que a mediana.
Figura 06- Exemplos de distribuies assimtricas.
Caso a distribuio seja enviesada para a esquerda (alguns valores pequenos como outliers), a
mdia tende a ser inferior mediana.

18

1.4. MEDIDAS DE DISPERSO


No item anterior foram apresentados conceitos de algumas medidas de localizao do centro de
uma distribuio de dados. Veremos agora como medir a variabilidade presente num conjunto
de dados. As medidas de disperso so utilizadas para medir o grau de variabilidade (disperso)
dos valores observados em torno da mdia aritmtica. Servem para medir a representatividade
da mdia e proporcionam conhecer o nvel de homogeneidade ou heterogeneidade dentro de
cada grupo analisado.
Assim, um aspecto importante no estudo descritivo de um conjunto de dados o da determinao
da variabilidade ou disperso desses dados, relativamente medida de localizao do centro
da amostra. Supondo ser a mdia a medida de localizao mais importante, ser relativamente
a ela que se define a principal medida de disperso a varincia, apresentada a seguir.
Varincia
Define-se a varincia como sendo a medida que se obtm somando os quadrados dos
desvios das observaes da amostra, relativamente sua mdia, e dividindo pelo nmero de
observaes da amostra menos um.

Desvio-padro
a raiz quadrada da varincia. Na frmula original para o clculo da varincia, observa-se que
uma soma de quadrados, a unidade em que se exprime no a mesma que a dos dados Por
exemplo, se a unidade original for metro (m), o resultado ser metro ao quadrado (m2).

19

Para retornar unidade de medida original, extrai-se a raiz quadrada da varincia, passando
a chamar-se de desvio-padro. Assim, para obter uma medida da variabilidade ou disperso
com as mesmas unidades que os dados, tomamos a raiz quadrada da varincia e obtemos o
desvio padro.

O desvio padro, portanto, uma medida que s pode assumir valores no negativos e,
quanto maior for, maior ser a disperso dos dados. O desvio padro ser maior, quanto mais
variabilidade houver entre os dados.
Coeficiente de Variao
O coeficiente de variao (CV) consiste em uma medida relativa de disperso, til para
a comparao em termos relativos ao grau de concentrao em torno da mdia de sries
distintas. Para uma amostra, teramos a seguinte expresso:

O coeficiente de variao expresso em porcentagem, avaliado para amostras segundo a


seguinte referncia:
Baixa disperso: CV 15%
Mdia disperso: 15% < CV < 30%
Grande disperso: CV 30%

Distribuio Normal
A distribuio normal a mais importante distribuio estatstica, considerando a questo prtica
e terica, apresentando-se em formato de sino, unimodal, simtrica em relao a sua mdia.
Considerando a probabilidade de ocorrncia, a rea sob sua curva soma 100%. Isso quer dizer
que a probabilidade de uma observao assumir um valor entre dois pontos quaisquer igual
rea compreendida entre esses dois pontos.
20

Na figura apresentada a seguir, com as barras situadas logo abaixo do eixo das abscissas,
representando os desvios-padro, quanto mais afastado do centro da curva normal, mais
rea compreendida abaixo da curva haver, ou seja, a um desvio-padro, temos 68,26% das
observaes contidas, a dois desvios-padres, possumos 95,44% dos dados compreendidos e,
finalmente, a trs desvios, temos 99,73% de probabilidade de ocorrncia.
Figura 07- Relao entre o desvio-padro e a probabilidade de ocorrncia de um evento.

p(x) para n desvios-padro 68,26% => 1 desvio


95,44% => 2 desvios
99,73% => 3 desvios
O desvio-padro, quando analisado isoladamente, no d margem a muitas concluses. Por
exemplo, para uma distribuio cuja mdia 79,7, como o caso do exemplo com a srie de dados
de precipitao pluviomtrica mensal, visto no incio do curso, que apresentou desvio padro de
76,9, considerado como bastante elevado, um desvio-padro de 5mm/ms seria pequeno, mas
para uma distribuio cuja mdia fosse 10, este desvio-padro j no seria to pequeno.

Condies para se usar o desvio-padro ou varincia para comparar a variabilidade entre grupos:
mesmo nmero de observaes;
mesma unidade;
mesma mdia.
Alm disso, se quisermos comparar duas ou mais amostras de valores expressos em unidades
diferentes, no ser ser possvel fazer a comparao por meio do desvio-padro, pois ele
expresso na mesma unidade dos dados.

21