Académique Documents
Professionnel Documents
Culture Documents
i
f a frequncia relativa associada ao valor
i
x (
i
i
n
f
N
= , devolve o peso
ou proporo que o valor
i
x tem em relao ao todo observado para a
caracterstica estudada)
ai
f a frequncia acumulada at ao valor
i
x
1
i
ai i
k
f f
=
| |
=
|
\
Tabela de distribuio de frequncias
Valores da
caracterstica
Estudada(X)
Frequncia
absoluta
Frequncia
absoluta
acumulada
Frequncia
relativa
Frequncia
relativa
percentagem
Frequncia
relativa
acumulada
1
x
1
n
1 a
n
1
f
1
f %
1 a
f
2
x
2
n
2 a
n
2
f
2
f %
2 a
f
M M M M M M
i
x
i
n
ai
n
i
f
i
f %
ai
f
M M M M M M
N
x
N
n
aN
n
N
f
N
f %
aN
f
Construo de classes
Face grande variedade de valores que uma varivel aleatria
contnua pode assumir (ou mesmo uma v.a. discreta que apresente
uma grande diversidade de valores) torna-se necessrio agrupar esses
valores em intervalos de classes, de forma a simplificar todos os
procedimentos posteriores.
12
Estatstica
inf sup
, L L
uma classe com limite superior
sup
L e limite inferior
inf
L .
k considerado o nmero de classes necessrio
Frmula de Sturges:
log
1 int
log 2
n
k
| |
= +
|
\
com ( ) int x a parte inteira do valor x e n o nmero total de observaes.
i
a a amplitude das classes.
max min
i
x x
a
k
=
com
max
x a observao de valor mais elevado e
min
x a observao de
menor valor
i
c o ponto mdio da classe de ordem i,
inf sup
2
i
L L
c
+
=
Se k for par comeamos a construir as classes pelo valor entre a classe
de ordem
2
k
e 1
2
k
+ .
Se k for impar comeamos a construir a classes a partir do ponto mdio
da classe de ordem
1
2
k +
Regras para construo de classes:
Nenhuma classe dever ter frequncia nula
As classes devem ter, sempre que possvel, amplitudes iguais
O nmero de classes deve ser entre 4 e 14.
Os pontos mdios, devem ser nmeros que facilitem os clculos
Grficos
Para alm do impacto visual, a representao grfica possui a grande
vantagem de permitir, atravs de uma rpida observao, uma
percepo dos principais aspectos dos fenmenos em estudo.
Como um grfico no pode traduzir todas as caractersticas da
distribuio em estudo, pretendendo-se uma caracterizao exaustiva
dessa distribuio, a representao grfica deve funcionar como um
complemento apresentao dos dados numa tabela de frequncias.
13
Estatstica
Um dos factos que torna desaconselhvel o uso isolado de grficos, a
possibilidade de a sua observao originar concluses distorcidas.
Assim, muito importante que:
- na construo de um grfico se tomem as devidas precaues para
que ele traduza a verdade dos factos.
- na observao de um grfico se esteja alerta para a possibilidade de
a verdade estar escondida, no sendo observvel atravs de uma
observao rpida e pouco atenta.
Grfico linear:
-normalmente descreve a evoluo de um fenmeno ao longo do
tempo
-eixo do xx: valores (qualidades) da caracterstica (ex: tempo)
-eixo do yy: valores das frequncias absolutas ou relativas
Grfico de barras:
-normalmente serve para analisar diferenas de intensidade de uma
caracterstica, podem ser barras verticais ou horizontais
-eixo do xx: valores (qualidades) da caracterstica (ex: tempo) (barras
verticais)
-eixo do yy: valores das frequncias absolutas ou relativas (barras
verticais)
0
0,2
0,4
0,6
0,8
1
1,2
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
14
Estatstica
Pictograma:
-anlogos aos grficos de barras mas com figuras que representam a
caracterstica analisada
26
15 20 22 15
Maio Junho Julho Agosto Setembro
Sectograma ou grfico circular:
-representao grfica constituda por um circulo, dividido em sectores.
-Cada sector representa um dos valores (qualidade) da varivel.
-A amplitude angular de cada sector proporcional frequncia
absoluta ou relativa.
Histograma:
0
2
4
6
8
10
12
1 2 3 4 5
n
i
-
f
r
e
q
u
n
c
i
a
s
a
b
s
o
l
u
t
a
s
xi-valores da caracteirstica x
grfico de barras
8%
24%
44%
20%
4%
sectograma
15
Estatstica
-Usado para varivel continua, dividida por classes.
-Composto por rectngulos justapostos em que a base de cada um
deles corresponde ao intervalo de classe e a sua altura respectiva
frequncia absoluta ou relativa.
Medidas de localizao
Medidas de tendncia central
Mdia:
( )
X
-Se X uma varivel discreta de n dados no tabelados, com valores
1 2
, ,...,
n
X x x x = , temos
1
n
i
i
x
X
n
=
=
= +
ou
1
2
ai
e i i
i
n
n
M L a
n
= +
sendo:
i
L o limite inferior da classe mediana,
1 ai
f
= + = =
Sendo:
i
L o limite inferior da classe modal
s
L o limite superior da classe modal
i
a a amplitude da classe modal
1 i
n
= +
Decis: ( )
1 2 9
, ,..., D D D
-Os decis so valores da varivel que dividem a distribuio de
frequncias em dez partes iguais.
-Se os valores no esto distribudos por classes:
1 i
D x = sendo
ai
f a 1 tal que 0,1
ai
f
M
5 e
D M = ou
5 ai
D f = sendo
ai
f a 1 tal que 0, 5
ai
f
M
9 i
D x = sendo
ai
f a 1 tal que 0, 9
ai
f
-Se os valores esto distribudos por classes:
1
0,1
ai
k i i
i
k f
D L a
f
= +
Percentis: ( )
1 2 99
, ,..., P P P
-Os percentis so valores da varivel que dividem a distribuio de
frequncias em cem partes iguais.
-Se os valores no esto distribudos por classes:
1 i
P x = sendo
ai
f a 1 tal que 0, 01
ai
f
M
50 e
P M = ou
50 ai
P f = sendo
ai
f a 1 tal que 0, 5
ai
f
M
99 i
P x = sendo
ai
f a 1 tal que 0, 99
ai
f
-Se os valores esto distribudos por classes:
19
Estatstica
1
0, 01
ai
k i i
i
k f
D L a
f
= +
Sendo:
i
L o limite inferior da classe que contm o k-simo quartil, decil
ou percentil.
1 ai
f
Varincia
-A varincia d-nos a distncia mdia das observaes em torno da
mdia.
( )
2
2
2 2 1 1
n n
i i
i i
x X x
S X
n n
= =
= =
A varincia tem por medida o quadrado das observaes, pelo que a
sua utilidade assegurada pelo uso da raiz quadrada, que
denominamos por desvio padro.
2
S S =
Para dados tabelados, as expresses anteriores tomam a forma:
20
Estatstica
( )
2
2
2 2 1 1
k k
i i i i
i i
n x X n x
S X
n n
= =
= =
E para dados agrupados em classes:
( )
2
2
2 2 1 1
k k
i i i i
i i
n c X n c
S X
n n
= =
= =
2
S S = em qualquer dos casos.
Medidas de disperso relativa
Para compreender, em termos relativos, o grau de disperso em torno
da mdia, usa-se uma outra medida chamada coeficiente de
disperso.
=
Como uma medida de disperso relativa, permite comparar
conjuntos de dados expressos em diferentes unidades.
Escrevendo em percentagem o coeficiente de disperso, obtm-se o
coeficiente de variao.
=
100%
Um coeficiente de variao superior a 50% indica uma grande
disperso relativa e uma pequena representatividade da mdia como
medida estatstica.
Nota: S possvel utilizar estas medidas se as variveis em estudo
tomarem valores de um nico sinal (ou todos positivos, ou todos
negativos).
Distribuies bidimensionais
At aqui, a anlise e descrio das caractersticas de uma populao
limitou-se a distribuies unidimensionais, ou seja, a um estudo
individualizado de cada caracterstica. No entanto, ao ter disponvel
21
Estatstica
informao acerca de vrias caractersticas da mesma populao,
poder haver interesse em verificar se algumas dessas caractersticas
esto interligadas e analisar o seu comportamento conjunto.
Se forem duas as caractersticas estudadas diz-se que estamos perante
uma distribuio bidimensional.
Tabela de Contingncia. Distribuio Conjunta. Distribuies Marginais
Para organizar a informao referente a uma distribuio bidimensional,
de caractersticas qualitativas ou quantitativas, usa-se uma tabela de
dupla entrada, chamada tabela de contingncia, que ter tantas
linhas e colunas quantos os valores ou modalidades que cada
caracterstica apresentar.
Por exemplo, consideremos um conjunto de n indivduos dos quais
interessa estudar simultaneamente, duas caractersticas. A varivel X
que apresenta k valores x1, x2,.,xk e a varivel Y que apresenta p
valores y1, y2, .,yp. Como resultado da observao das duas variveis,
obtm-se uma varivel bidimensional (X, Y) que toma o valor (xi, yj)
quando, para determinado indivduo, a varivel X toma o valor xi e a
varivel Y toma o valor yj.
Exemplo:
Ao estudar, simultaneamente, a altura (X) e o peso (Y) de 10 indivduos
Altura 175 180 162 157 180 173 171 168 165 165
Peso 80 82 57 63 78 65 66 67 62 58
obteve-se uma varivel bidimensional (X, Y) que toma os valores:
(175, 80), (180, 82), (162, 57), (157, 63), (180, 78)
(173, 65), (171, 66), (168, 67), (165, 62), (165, 58)
A distribuio de frequncias da varivel bidimensional apresentada
numa tabela de contingncia com k linhas (cada uma correspondendo
a um valor distinto de X) e p colunas (cada uma correspondendo a um
valor distinto de Y), ou seja, composta por k*p clulas. Genericamente,
na clula da tabela que resulta da interseco da linha do valor xi com
a coluna do valor yj, indicado o nmero de indivduos que
apresentam o valor xi de X conjuntamente com o valor yj de Y, isto , a
frequncia absoluta conjunta, nij, correspondente ao par (xi, yj).
Tabela de contingncia
Y
X
y1
y2 yj yp
x1 n11 n12 ... n1j n1p
22
Estatstica
x2 n21 n22 n2j n2p
xi ni1 ni2 nij nip
xk nk1 nk2 nki nkp
A partir da distribuio conjunta das duas variveis representadas na
tabela de contingncia, possvel realizar o estudo de cada uma das
variveis, independentemente da outra, originando-se duas
distribuies marginais, uma para a varivel X e outra para a varivel Y,
obtidas atravs das somas dos valores de cada linha e de cada coluna
da tabela de contingncia.
Como cada uma das distribuies marginais s descreve uma das
variveis, na notao usada para a frequncia marginal aparece
apenas um dos indces, i ou j, sendo o outro substitudo por um ponto(.).
A frequncia marginal absoluta de xi, n.i, representa a soma das
frequncias referentes a todos os indivduos que apresentam o valor xi,
independentemente do valor que apresente a varivel Y e a frequncia
marginal absoluta de yj, nj., representa a soma das frequncias
referentes a todos os indivduos que apresentam o valor yj,
independentemente do valor que apresente a varivel X.
Como as distribuies marginais so na realidade distribuies
unidimensionais, pode-se criar, para cada uma delas, uma tabela de
frequncias semelhante s estudadas anteriormente.
Diagrama de Disperso
O diagrama de disperso um grfico que permite observar o
comportamento conjunto de duas variveis e ajuda a determinar se
existe alguma relao entre elas.
Cada ponto do grfico representa um elemento da populao. As
coordenadas so os valores das duas variveis.
Exemplo:
Os pesos e a altura de um grupo de amigos o seguinte:
23
Estatstica
Anlise de regresso
A Anlise de regresso e correlao, compreende a anlise de dados
amostrais para saber se e como as duas ou mais variveis esto
relacionadas uma com a outra numa populao.
A anlise de regresso estuda o relacionamento entre uma varivel
chamada a varivel dependente e outras variveis chamadas variveis
independentes. Este relacionamento representado por um modelo
matemtico, i.e., por uma equao que associa a varivel dependente
com as variveis independentes. Este modelo designado por modelo
de regresso linear simples se define uma relao linear entre a varivel
dependente e uma varivel independente.
24
Estatstica
Regresso linear simples. Mtodo dos mnimos quadrados
Ajustar os pontos a uma recta y ax b = + com o objectivo de minimizar o
erro
Recta dos mnimos quadrados:
2 2
com
i i
i
x y n x y
a
y ax b x nx
b y ax
=
= +
Dado um conjunto de observaes de duas variveis, a obteno da
recta de mnimos quadrados s ter alguma utilidade se houver uma
forte correlao linear entre essas variveis.
Para determinar qual o grau de correlao linear entre duas variveis
quantitativas utiliza-se o Coeficiente de correlao de Pearson.
2 2 2 2
i i
i i
x y n x y
r
x nx y ny
25
Estatstica
Coeficiente de
correlao
Correlao
1 r = Perfeita positiva
0.8 1 r < Forte positiva
0.5 0.8 r < Moderada positiva
0.1 0.5 r < Fraca positiva
0 0.1 r < < nfima positiva
0 Nula
0.1 0 r < < nfima negativa
0.5 0.1 r < Fraca negativa
0.8 0.5 r < Moderada negativa
1 0.8 r < Forte negativa
1 r = Perfeita negativa
Dependendo da intensidade com que se relacionam as variveis, a
recta ser um melhor ou pior modelo para traduzir a relao entre elas.
Para verificar a qualidade do ajustamento, ou seja, saber com que rigor
a recta se ajusta aos pontos, calcula-se o Coeficiente de determinao,
2
r , bastando para tal elevar ao quadrado o valor do coeficiente de
correlao.
Coeficiente de determinao:
2
r
Quanto mais prximo
2
r estiver de 1, maior a capacidade preditiva do
modelo.