Académique Documents
Professionnel Documents
Culture Documents
Exemplo:
Uma exploração pecuária tem os registos de produção diária de uma manada de várias
vacas, ao longo de diversas épocas de lactação. Na situação mais simples, em que existe
apenas 1 vaca durante uma época de lactação, existem pelo menos 300 registos de
produção diária. Este conjunto de dados aumenta extraordinariamente com o número de
vacas e os anos de registos. O técnico pouca informação útil consegue retirar, no sentido
de ficar a conhecer o comportamento da produção diária de leite, pela leitura da
listagem completa de todos os dados. Provavelmente, o resumo dessa listagem de
valores, em forma de tabelas, gráficos e pelo cálculo de alguns indicadores ou
parâmetros estatísticos, consegue transmitir maior quantidade da informação contida
nesse conjunto de dados.
Cada uma das características constitui uma variável aleatória (da natureza dos dados que
contém). As análises de dados podem referir-se a uma única variável – estatística
univariada – ou a diversas variáveis, incluindo a análise de relações entre essas variáveis
– estatística multivariada.
As principais razões para que as análises estatísticas sejam efectuadas sobre amostras, e
não sobre todos os indivíduos da população são:
ESA 2005/2006 1
Estatística Descritiva
ESA 2005/2006 2
Estatística Descritiva
A recolha de dados pode ser realizada recorrendo a processos que se podem classificar
em experimentais ou observacionais.
ESTATÍSTICA DESCRITIVA
ESA 2005/2006 3
Estatística Descritiva
Uma amostra diz-se univariada quando os dados que a integram se referem apenas a um
atributo ou característica dos elementos.
Dados qualitativos
k
N = ∑ ni
i =1
ni
fi =
N
ni
fi = × 100
N
Exemplo:
ESA 2005/2006 4
Estatística Descritiva
120
102
100
Freq. Absoluta
80
60
40
24
18
20
6
0
Não paridas Parto simples Parto duplo Parto triplo
Tipo de parto
80
70
Freq. relativa (%)
60
50
40
30
20
10
0
Não paridas Parto simples Parto duplo Parto triplo
Tipo de parto
ESA 2005/2006 5
Estatística Descritiva
Parto triplo
4% Não paridas
12%
Parto duplo
16%
Parto simples
68%
Dados quantitativos
Nas secções seguintes vamos usar, para além de outros exemplos esporádicos usados
para ilustrar as explicações de alguns conceitos, a seguinte amostra de pesos (em kg) à
nascença de borregos (pressuposta aleatória e representativa do rebanho):
ESA 2005/2006 6
Estatística Descritiva
tomando por base a tabela de frequências, que auxiliará na realização dos cálculos
subjacentes à estimação dos parâmetros estatísticos. Na secção do cálculo destes
parâmetros apresentar-se-á esta tabela.
Pelas mesmas razões também é pouco usual traçar-se o histograma (nome dado ao
gráfico de barras para a situação em que nas abcissas se representam os diversos valores
possíveis xi da variável aleatória), já que maioria das barras (no caso de valores
discretos, ou analisados como tal, as barras têm largura nula, reduzindo-se a uma linha
vertical) que representam as frequências absolutas têm altura unitária.
3
Freq. Asoluta
0
15 16 17 18 19 20 21 22
xi
xi ni Fac fi fra
2.1 1 1 0.0667 0.0667
2.2 2 3 0.1333 0.2000
2.3 0 3 0 0.2000
2.4 2 5 0.1333 0.3333
2.5 0 5 0 0.3333
2.6 0 5 0 0.3333
2.7 0 5 0 0.3333
2.8 1 6 0.0667 0.4000
2.9 0 6 0 0.4000
3 1 7 0.0667 0.4667
3.1 0 7 0 0.4667
ESA 2005/2006 7
Estatística Descritiva
Histograma
4
Freq. Absolutas
0
2,1
2,3
2,5
2,7
2,9
3,1
3,3
3,5
3,7
3,9
4,1
x
Representações gráficas mais usuais para pequenas amostras com dados não agrupados
em classes
Representa cada um dos dados da amostra como um ponto, sobre um eixo horizontal,
onde é imposta uma escala numérica adequada aos dados da amostra. Se existem
diversos valores repetidos, sobre a mesma posição da escala são representados tantos
pontos quantos os valores repetidos:
ESA 2005/2006 8
Estatística Descritiva
Este tipo de gráfico é útil para analisar a distribuição dos valores no intervalo de
variação, permitindo evidenciar de um modo simples, situações de lacunas (isto é, não
ocorrências de observações) dentro do intervalo de variação, zonas de mais intensa
concentração de valores e situações de assimetria da distribuição. Os valores extremos
são facilmente identificados. Este tipo de gráfico é útil para pequenas amostras (até
cerca de 20 dados), porém resultar de leitura mais difícil para amostras maiores.
Inicialmente este tipo de diagrama foi idealizado para representar valores numéricos
com, pelo menos, dois dígitos. Contudo, as aplicações informáticas actuais
generalizaram o seu uso para valores inteiros com um só dígito.
Notas:
ESA 2005/2006 9
Estatística Descritiva
Exemplo:
6.1 5.8 7.8 7.1 7.2 9.2 6.6 8.3 7.0 8.3
7.8 8.1 7.4 8.5 8.9 9.8 9.7 14.1 12.6 11.2
Por exemplo, existe um único valor no intervalo [5, 6[, que é o valor 5.8: o algarismo 5
representa o “caule” e o algarismo 6 representa a “folha” desta observação. No intervalo
[6, 7[ existem duas observações: 6.1 e 6.6; o “caule” é o algarismo 6, que se representa
uma única vez; as “folhas”, respectivamente os algarismos 1 e 6, aparecem indicadas de
seguida. Não existe nenhuma observação no intervalo [10, 11[; assim, aparece o
“caule”, mas não aparece nenhuma “folha”, sendo este “vazio” de dados facilmente
identificado. A mesma observação se faz para o intervalo [13, 14[. Note-se que para
valores com 3 (ou mais) dígitos, todos os algarismos à excepção do último são
atribuídos ao “caule”.
ESA 2005/2006 10
Estatística Descritiva
valores [10,11[: 10.0 e 10.1; 10.2 e 10.3; 10.4 e 10.5; 10.6 e 10.7; 10.8 e 10.9; o mesmo
se passa para os valores [11,12[:
10.0 11.1 11.4 10.5 10.6 10.7 10.6 10.5 10.3 11.0
11.7 11.6 10.2 10.1 10.6 10.4 10.8 10.9 11.3 11.8
Nota: alguns programas informáticos, para amostras do género desta última, utilizam a
notação “*” ou “z” – de zero - para os valores 10.0 e 10.1; “t” – de two e three
para 10.2 e 10.3; “f” – de four e five – para 10.4 e 10.5; “s” – de six e seven –
para 10.6 e 10.7; “.” ou “e” – de eight – para 10.8 e 10.9. O diagrama seguinte,
elaborado no programa estatístico NCSS, ilustra este pormenor:
ESA 2005/2006 11
Estatística Descritiva
Tal como no diagrama de pontos, o grupo de borregos com pesos entre 2.2 e 2.4
aparecem isolados; além disso, ficamos a saber que a mediana é Med = 3.2 .
Parâmetros estatísticos
Parâmetros de localização
Moda
Notas:
i – Em pequenas amostras, a moda pode ser pouco informativa acerca da tendência
central, pois a repetição de um valor pode ser meramente casual;
ESA 2005/2006 12
Estatística Descritiva
ii – No exemplo dos borregos, consideremos que o 1º valor era 2.2 (e não 2.1), de modo
que haveria também 3 observações de peso 2.2; isto é, a amostra teria duas modas, e
amostra dir-se-ia bi-modal;
iii – Os principais inconvenientes apontados à moda como parâmetro de localização, é o
facto de não ter um valor único, em amostras com mais de uma moda, além de que no
seu cálculo não se entra em conta com todos os valores da amostra;
iv – Alguns autores consideram que se existem 2 modas contíguas, a moda é a média
desses dois valores. Por exemplo, se no exemplo anterior, existissem 3 observações 3.1
e 3 observações 3.2, a moda seria 3.15.
Mediana
A mediana é definida como sendo o valor central de uma amostra de dados, ordenada
por ordem crescente ( xi , i = 1, 2,..., N ).
Se o tamanho da amostra é par, não existe propriamente um valor, mas sim dois valores
centrais; nesta situação, considera-se que a mediana é a média das duas observações
x N + x N +1
centrais: Med = 2 2
.
2
Podemos usar a seguinte tabela de cálculo (sem a inclusão dos valores “vazios”) para
obter o valor da mediana (esta tabela será continuada nas secções seguintes como uma
ferramenta de cálculo dos parâmetros estatísticos):
xi ni Fac = ∑ ni
2.1 1 1
2.2 2 3
2.4 2 5
2.8 1 6
3.0 1 7
3.2 3 10
3.4 1 11
3.6 1 12
3.8 1 13
4.0 1 14
4.2 1 15
Nota: imagine-se que na amostra anterior havia duas observações 4.2, isto é, N =16;
x N + x N +1 x + x 3.2 + 3.2
nesta situação, a mediana seria Med = 2 2
= 8 9 = = 3.2
2 2 2
ESA 2005/2006 13
Estatística Descritiva
Média
∑x i
x= i =1
Se existem k < N distintos valores na amostra, tal que existem valores repetidos, sendo
k
ni a frequência absoluta do valor xi , tal que ∑ni =1
i = N , então a média é calculada por:
∑ n .x i i
x= i =1
Nota: para ter a noção da similaridade entre esta expressão e a anterior, basta imaginar
que todos os ni = 1 .
ESA 2005/2006 14
Estatística Descritiva
∑(x − x ) = 0
i =1
i
∑(x − λ)
2
i é mínima para λ = x
i =1
xi ni Fac = ∑ ni ni .xi
2.1 1 1 2.1
2.2 2 3 4.4
2.4 2 5 4.8
2.8 1 6 2.8
3.0 1 7 3.0
3.2 3 10 9.6
3.4 1 11 3.4
3.6 1 12 3.6
3.8 1 13 3.8
4.0 1 14 4.0
4.2 1 15 4.2
11
∑ n .x
i =1
i i =45.7
∑ n .x i i
45.7
Logo, a média é x = i =1
= = 3.0467
N 15
ESA 2005/2006 15
Estatística Descritiva
∑ n .x i i
ni .xi k ni
k k
n
Nota: x = i =1
=∑ =∑ .xi =∑ fi .xi , em que fi = i é a frequência relativa
N i =1 N i =1 N i =1 N
da observação xi . Isto é:
xi fi fi .xi
2.1 0.0667 0.1400
2.2 0.1333 0.2933
2.4 0.1333 0.3200
2.8 0.0667 0.1867
3.0 0.0667 0.2000
3.2 0.2000 0.6400
3.4 0.0667 0.2267
3.6 0.0667 0.2400
3.8 0.0667 0.2533
4.0 0.0667 0.2667
4.2 0.0667 0.2800
11
x = ∑ fi .xi = 3.0467
i =1
No exemplo que estamos a seguir, nota-se que x = 3.0467 < Med = Mod = 3.2 , o que é
um sintoma de que a amostra tem uma cauda inferior mais prolongada, isto é, a amostra
denota uma tendência de assimetria, mais concretamente, assimetria negativa. Numa
amostra simétrica, a média, a mediana e a moda coincidem.
Média truncada
Para evitar o efeito das observações extremas (em ambas as caudas da amostra) no
cálculo da média, alguns autores propõem a utilização de uma estimativa da média
truncada, que consiste em eliminar, após ter ordenado a amostra por ordem crescente,
uma determinada percentagem de observações nas caudas inferior e superior da
amostra; após ter eliminado essas observações, calcula-se a média aritmética para as
observações restantes não eliminadas. Logicamente, o tamanho da amostra é reduzido
no número de observações eliminadas.
xi ni ni .xi
2.4 2 4.8
2.8 1 2.8
3.0 1 3.0
3.2 3 9.6
ESA 2005/2006 16
Estatística Descritiva
3.4 1 3.4
3.6 1 3.6
11
N =9 *
∑ n .x
i =1
i i =27.2
k*
∑ n .x i
27.2 i
A média truncada é x = i =1
*
=
= 3.0222 : repare-se que, mesmo após a
N 9
eliminação de 40% das observações, o valor da média pouco se alterou; nesta amostra
truncada, a mediana continua a ser Med = 3.2 , como facilmente se pode deduzir da
tabela anterior.
Média geométrica
N
xG = N ∏ xi = N x1.x2 .x3 ...xN
i =1
Média harmónica
A média harmónica é o recíproco (ou inverso) da média aritmética dos recíprocos das
observações:
1 n
xH = N
= N
1 1
∑x
i =1
∑x
i =1
i i
n
A média harmónica não está definida para amostras com valores nulos, e é muito
afectada por valores extremamente baixos.
Quartis
Os quartis são parâmetros de localização que dividem a amostra em quartas partes, isto
é, dividem a amostra em 4 sub-amostras, cada uma com 25% das observações.
ESA 2005/2006 17
Estatística Descritiva
Outros quantis
Além dos quartis, podem considerar-se outros quantis, nomeadamente decis (valores
xi tais que dividem a amostra em sub-amostras com 10% de observações) e percentis
(valores xi tais que dividem a amostra em sub-amostras com a percentagem de
observações pretendida).
Tal como com os quartis, os quantis são deduzidos a partir da tabela de frequências.
Parâmetros de dispersão
ESA 2005/2006 18
Estatística Descritiva
[ x1 , xN ]
isto é, o intervalo definido pelos valores mínimo e máximo da amostra. A Amplitude d
variação (“Range”) é a amplitude deste intervalo:
R = xN − x1
A dispersão ou variabilidade da amostra será maior quanto maior for esta amplitude.
Repare-se que esta apreciação da variabilidade é muito relativa, já que tem em conta
apenas os valores extremos. Por exemplo, a amostra constituída pelas seguintes
observações 10, 10.1, 10.1, 10.2, 10.5, 10.6, 10.6, 10.7, 15 tem uma amplitude de 5
unidades, mas à excepção da observação 15, a amostra é bastante concentrada.
Amplitude inter-quartílica
Q3 − Q1
Embora esta estimativa da variabilidade não seja tanto influenciada pelos valores
extremos e traduza melhor que a amplitude da amostra a maior ou menor tendência de
concentração dos valores em torno da média, ainda não leva em conta todas as
observações presentes na amostra.
Esta medida de variabilidade pode ter pouco significado quando os valores da amostra
estão fortemente concentrados em torno da mediana: a amplitude inter-quartílica é
pequena, mas não diz absolutamente nada acerca da concentração ou dispersão dos
valores abaixo do 1º quartil ou acima do 3º quartil. Considere-se o seguinte exemplo:
ESA 2005/2006 19
Estatística Descritiva
Diagrama de extremos-e-quartis
Este diagrama, também designado por caixa-com-bigodes (da tradução literal da sua
designação em Inglês, “boax-and-whiskers”) permite efectuar uma análise gráfica da
variabilidade de uma amostra, bem como analisar a distribuição da concentração nas
quatro sub-amostras definidas pelos quartis (intervalos quartílicos).
Pela amplitude de cada uma destas quatro sub-amostras, é possível ficar-se com uma
ideia bastante rigorosa de como é o comportamento da amostra, em termos de dispersão
ou concentração de valores, bem como deduzir acerca da sua simetria.
Repare-se que a amostra é mais concentrada nas sub-amostras definidas entre o valor
mínimo e o 1º quartil (1º intervalo quartílico), e entre a mediana e o 3º quartil (3º
intervalo quartílico). A zona de maior dispersão de valores ocorre no 2º intervalo
quartílico. A amostra tem uma ligeira tendência para maior concentração acima da
mediana, pelo que a distribuição resulta ligeiramente assimétrica negativa.
ESA 2005/2006 20
Estatística Descritiva
xi < Q1 − 3 × ( Q3 − Q1 ) ou xi > Q3 + 3 × ( Q3 − Q1 )
Desvio médio
Uma medida da dispersão em torno da média resulta da soma dos desvios de cada
observação para a média:
∑ x −x i
dm = i =1
ESA 2005/2006 21
Estatística Descritiva
∑n . x − x i i k
ni k
dm = i =1
=∑ . xi − x = ∑ fi . xi − x
N i =1 N i =1
Este parâmetro mede o afastamento médio de cada observação para a média: quanto
maior for (comparativamente com a média ou com os dados originais), mais dispersa
será a amostra, e consequentemente menos representativa é a média.
xi ni xi − x ni . xi − x
2.1 1 0.9467 0.9467
2.2 2 0.8467 1.6934
2.4 2 0.6467 1.2934
2.8 1 0.2467 0.2467
3.0 1 0.0467 0.0467
3.2 3 0.1533 0.4599
3.4 1 0.3533 0.3533
3.6 1 0.5533 0.5533
3.8 1 0.7533 0.7533
4.0 1 0.9533 0.9533
4.2 1 1.1533 1.1533
11
∑n . x − x
i =1
i i = 8.4533
∑n . x − x i i
8.4533
O desvio médio é dm = i =1
= = 0.5636 .
N 15
xi fi xi − x fi . xi − x
2.1 0.0667 0.9467 0.0631
2.2 0.1333 0.8467 0.1129
2.4 0.1333 0.6467 0.0862
2.8 0.0667 0.2467 0.0164
3.0 0.0667 0.0467 0.0031
3.2 0.2000 0.1533 0.0307
3.4 0.0667 0.3533 0.0236
3.6 0.0667 0.5533 0.0369
3.8 0.0667 0.7533 0.0502
4.0 0.0667 0.9533 0.0636
4.2 0.0667 1.1533 0.0769
11
dm = ∑ fi . xi − x = 0.5636
i =1
O desvio médio, quando comparado com os valores originais (que variam entre 2.1 e
4.3), ou com o valor da média, embora não seja muito elevado, revela contudo alguma
ESA 2005/2006 22
Estatística Descritiva
tendência de dispersão; uma comparação mais objectiva poderá ser obtida pela
dm 0.5636
proporção = = 0.1850 , isto é, o desvio médio é da ordem de 18.5% do valor
x 3.0467
da média.
Variância
s2 =
( N1 − 1) .s12 + ( N 2 − 1) .s22
( N1 + N 2 − 2 )
Este resultado pode generalizar-se para o caso de 3 ou mais amostras.
A variância, tal como o desvio médio, é uma medida do afastamento médio de cada uma
das observações em torno da média. No caso do desvio médio, o módulo da diferença
para a média é, por definição, o afastamento de cada observação para a média. No caso
da variância, usa-se o quadrado da distância das observações para a média.
∑(x − µ)
2
i
σ2 = i =1
Contudo, na Estatística não se tem a população, mas sim uma amostra de observações,
geralmente de muito menor dimensão que a população. Demonstra-se que a expressão
anterior, quando aplicada a amostras relativamente diminutas em comparação com a
população (e usando a média amostral x como estimativa da média da população µ )
sub-valoriza o valor da variância (isto é, o valor da variância amostral seria menor que o
valor da variância da população de onde a amostra foi retirada). Para evitar este
enviesamento, utiliza-se a seguinte expressão de cálculo da variância amostral, denotada
com o símbolo s 2 :
∑(x − x )
2
i
s2 = i =1
N −1
ESA 2005/2006 23
Estatística Descritiva
k
2
∑ i i
n . x
1 k = 1 n .x 2 − N .x 2
k
s =
2
∑ ni .xi − i =1
2
∑
N − 1 i =1 N N − 1 i =1 i i
Repare-se que o valor da variância vem expresso numa escala quadrática, não podendo
portanto comparar-se com os valores originais. Para podermos comparar duas
quantidades, estas têm de estar nas mesmas unidades. Assim, calcula-se a variância, e
de seguida reduz-se para a escala em que estão as observações:
s = ss
s
cv =
x
xi ni ni .xi2
2.1 1 4.41
2.2 2 9.68
2.4 2 11.52
2.8 1 7.84
3.0 1 9
3.2 3 30.72
3.4 1 11.56
3.6 1 12.96
3.8 1 14.44
4.0 1 16
4.2 1 17.64
11
∑ n .x
i =1
i
2
i = 145.77
ESA 2005/2006 24
Estatística Descritiva
1 k 1
s2 = ∑ ni .xi2 − N .x 2 = (145.77 − 15 × 3.0467 2 ) = 0.4667
N − 1 i =1 14
Parâmetros de assimetria
Para distribuições assimétricas, a média tende a situar-se do mesmo lado da moda que a
cauda mais longa:
M oda x x M oda
x − moda
Assimetria = (primeiro coeficiente se assimetria de Pearson)
s
ESA 2005/2006 25
Estatística Descritiva
Para evitar o uso da moda, pode adoptar-se uma relação empírica entre a média, a
mediana e a moda: x − moda = 3 ( x − mediana ) e a assimetria é dada por:
3 ( x − mediana )
Assimetria = (segundo coeficiente se assimetria de Pearson)
s
( Q3 − Q2 ) − ( Q2 − Q1 ) = ( Q3 − 2Q2 + Q1 )
( Q3 − Q1 ) ( Q3 − Q1 )
e o coeficiente percentílico de assimetria é:
∑(x − x )
3
terceiro momento centrado na média ( m3 = 1
N i ):
i =1
∑(x − x )
1 3
N ( N − 1) m3 N ( N − 1) N i
g1 = × = × i =1
N −2 s3 N −2 s3
Está provado que para N>150 o coeficiente g1 é assintóticamente normal com média
zero e variância N6 ; o coeficiente de assimetria estandardizado é:
g1
gs =
6
N
Todos estes coeficientes são nulos quando a amostra é perfeitamente simétrica; são
positivos se a amostra é assimétrica positiva ou assimétrica à direita, e são negativos
para amostras assimétricas negativas.
ESA 2005/2006 26
Estatística Descritiva
N
0.4342
∑(x − x )
1 3
N ( N − 1) m3 N ( N − 1) N i
15 ×14
g1 = × = × i =1
= × 15 3 = 0.1012
N −2 s3 N −2 s3 13 0.6832
Nota-se que este coeficiente indica uma ligeira assimetria positiva, em contradição com
os coeficientes anteriores. Antes de mais, este coeficiente é mais rigoroso que os
anteriores, pois no seu cálculo entram todas as observações. Além disso, esta
discrepância é devida a que a tendência de assimetria é mínima: qualquer dos
coeficientes é, em valor absoluto, muito baixo, o que indica que a distribuição é
praticamente simétrica, donde resulta a aparente contradição dos coeficientes.
Parâmetros de forma
Leptocúrtica
Platicúrtica Mesocúrtica
ESA 2005/2006 27
Estatística Descritiva
A distribuição diz-se platicúrtica se tem altura inferior à da curva normal. Repare-se que
o facto de a distribuição ter altura menor no centro, significa maior proporção de
observações nas caudas, isto é, é sintoma de uma forte dispersão.
( Q3 − Q1 )
k= 2
P90 − P10
Para uma curva normal, o valor deste coeficiente é k = 0.263 . Um valor inferior é
sintoma de uma curva muito achatada, e um valor superior é sintoma de uma curva
demasiado alta.
∑(x − x )
4
( m4 = 1
N i ):
i =1
g2 =
( N + 1)( N − 1) × m4 − 3 ( N − 1)
( N − 2 )( N − 3) s 4 N +1
Para uma curva normal, o valor deste coeficiente é g = 0 . Um valor negativo é sintoma
de uma curva muito achatada, e um valor positivo é sintoma de uma curva demasiado
alta.
( Q3 − Q1 ) 3.6 − 2.4
k= 2 = 2 = 0.3333
P90 − P10 4.0 − 2.2
indicando que a distribuição tem uma ligeira tendência de ser mais alta no centro que a
distribuição normal. O coeficiente baseado no 4º momento é g 2 = −1.1421 . Mais uma
vez, a contradição entre este coeficiente e o coeficiente percentílico pode explicar-se
pelo facto de este coeficiente g 2 é mais rigoroso pois leva em conta todas as
observações (e não apenas os quartis e percentis).
ESA 2005/2006 28
Estatística Descritiva
ESA 2005/2006 29