Académique Documents
Professionnel Documents
Culture Documents
3 3 2 2 31 3 3 3 2 2 1 2 2 3 2 3 3 3 3
3 3 3 2 2 3 1 3 2 3 3 2 3 1 1 1 3 3 3 3
Exemplo (com variável qualitativa)
Nenhum 6 15%
Total 40 100%
Gráfico de Barras
segundo grau
primeiro grau
nenhum
0 4 8 12 16 20 24
número de famílias
Gráfico em Colunas
25
número de f amílias
20
15
10
0
nenhum primeiro grau segundo grau
Gráfico de Setores (Proporções)
segundo grau
(57,5 %) primeiro grau
(27,5 %)
Exemplo (com variável discreta)
20 26 21 21 20 21 23 22 24 22
22 22 23 23 23 22 23 22 24 21
Distribuição de Frequências????
20 2 0,10 (10%)
21 4 0,20 (20%)
22 6 0,30 (30%)
23 5 0,25 (25%)
24 2 0,10 (10%)
25 0 0,00 (0 %)
26 1 0,05 ( 5%)
Total 20 1,00 (100%)
Gráfico de Colunas
Exemplo (com variável contínua)
Tempo (em segundos) para carga de um
aplicativo num sistema compartilhado (50
observações):
4,7 18,1
4 5 6 7 ... 19
Histograma
Histograma do tempo (em segundos) para carga
de um aplicativo num sistema compartilhado
(50 observações) - discretização
20
18
16
número de observações
14
12
10
8
6
4
2
0
4 6 8 10 12 14 16 18
tempo
Histograma
% de indivíduos
% de indivíduos
25 40
20 30
15
20
10
5 10
0 0
9 10 11 12 13 14 15 16 16 20 24 28 32 36 40 44
pressão intra-ocular pressão intra-ocular
17
18
Medidas Descritivas
X=
X
n
Exemplo
A: 20 21 21 22 22 23 23 24
B: 16 18 20 22 22 24 26 28
C: 15 22 23 23 23 24 24
Comparação dos três algoritmos pela
média
Algoritmo
A
B
C
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Número de falhas
Como medir a dispersão?
Exemplo: A ( 20 21 21 22 22 23 23 24 )
20 21 22 23 24
Valores X 20 21 21 22 22 23 23 24
Média X 22
Desvios (X - X) -2 -1 -1 0 0 1 1 2
Desvios
20 21 22 23 24
Desvios: -2 -1 0 1 2 Soma = 0
Desvios Quadráticos
Soma
Valores X 20 21 21 22 22 23 23 24 176
Média X 22 -
Desvios X-X -2 -1 -1 0 0 1 1 2 0
2
Desvios (X-X) 4 1 1 0 0 1 1 4 12
quadráticos
Variância (S2)
A variância (S2) é uma média dos desvios
quadráticos. Usa-se no denominador n-1 ao
invés de n quando trabalhamos com amostras
e não a população completa.
2 X X 2
S
n 1
No exemplo apresentado (algoritmo A), a variância é:
12
S2 = = 1,71
7
Desvio Padrão (S)
O desvio padrão (S) é a raiz quadrada da
variância.
S = S2
S = 1,71 = 1,31
Comparação dos três algoritmos pela
média e desvio padrão
Algoritmo Falhas X S
A 20 21 21 22 22 23 23 24 22 1,31
B 16 18 20 22 22 24 26 28 22 4,00
C 15 22 23 23 23 24 24 22 3,16
Diagramas de pontos e valores de S
Algoritmo A
(S = 1,31)
Algoritmo B
(S = 4,00)
Algoritmo C
(S = 3,16)
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Número de falhas
Exemplo
TABELA Medidas descritivas das notas finais
dos alunos de três turmas
A 20 6,0 3,3
B 40 8,0 1,5
C 30 9,0 2,6
Medida relativa de dispersão - Exemplo
X1: 1 2 3 média = 2
desvio padrão = 1
coeficiente de variação = 0,5
36
34
34,741 X 2S
32
30
Série
28 temporal
26 25,725
24
22
20
18
16
16,709 X 2S
14
12
0 4 8 12 10 20 30 40 50
2 6 10 14
Medidas baseadas na ordenação dos dados
o número de
elementos é o
mesmo em cada
quartil (25%)
25% 25%
25%
25%
QI Md QS
Quartil
Inferior mediana Quartil
(1º quartil) Superior
(3º quartil)
Cálculo da mediana
Dados:
{2, 0, 5, 7, 9, 1, 3, 4, 6, 8}
n = 10; (n + 1) / 2 = 5,5
0 1 2 3 4 5 6 7 8 9
Md = 4,5
Cálculo dos Quartis
0 1 2 3 4 5 6 7 8 9
Ei = 0 Md = Es = 9
4,5
Qi = 2 Qs = 7
Exercício:
Cálculo da mediana
Dados:
{2, 0, 5, 7, 9, 1, 3, 4, 6, 8, 100}
n = 11; (n + 1) / 2 = 6
0 1 2 3 4 5 6 7 8 9 100
Md = 5
Exercício:
0 1 2 3 4 5 6 7 8 9 100
Ei = 0 Md = 5 Es = 100
Qi = 2,5 Qs = 7,5
Medida de dispersão:
Distância interquartílica
O desvio inter-quartílico é uma medida robusta de
dispersão. Ele é calculado por:
Q3 Q1
Onde Q3 é o percentil 75, também chamado de quartil superior, e o Q1 é o
percentil 25, também chamado de quartil inferior. Ele é uma boa medida de
dispersão para distribuições assimétricas. Para dados normalmente distribuídos, o
desvio inter-quartílico é aproximadamente igual a 1,35 vezes o desvio padrão.
(b) distribuição
(a) distribuição assimétrica
simétrica
50%
50% 50%
50%
QI 1,5QS QI
QS 1,5QS QI
• Alisamento
• Generalização
• Normalização
• Transformação numérico para categórico
• Transformação categórico para numérico
Alisamento
Exemplo:
• Normalização linear
• Normalização por desvio padrão
• Normalização pelo valor máximo dos elementos
• Normalização por escala decimal
Normalização
Normalização linear no intervalo [0,1]
Normalização
Normalização por desvio padrão
– Objetivo: considera a posição média dos valores e os graus de
dispersão em relação à posição média
– Útil quando mínimo e máximo são desconhecidos
f(X) = (X - média) / σ
onde σ = desvio padrão
média = 1850
σ = 1131,62
51
Normalização
Normalização pelo valor máximo dos elementos
– Dividir cada valor pelo maior valor
– Resultado similar à normalização linear
• Igual se mínimo = 0 (zero)
f(X) = X / máximo
52
Transformação numérico categórico
• Mapeamento direto
• Mapeamento em intervalos (discretização)
Transformação numérico categórico
Mapeamento direto
• Objetivo: substituição de valores numéricos
por valores categóricos
Exemplo: sexo
1 M
0 F
Transformação numérico categórico
• Mapeamento direto
• Representação binária 1-de-N
Transformação categórico numérico
Mapeamento direto
Mapeamento em valores de 1 a N
Transformação categórico numérico
Mapeamento direto
Usar:
Tamanhos iguais
Freqüências iguais