Vous êtes sur la page 1sur 31
UNIVERSIDADE ESTADUAL PAULISTA "JÚLIO DE MESQUITA FILHO" Campus de Presidente Prudente ESTATÍSTICA BÁSICA

UNIVERSIDADE ESTADUAL PAULISTA "JÚLIO DE MESQUITA FILHO" Campus de Presidente Prudente

ESTATÍSTICA BÁSICA

Relatório das atividades desenvolvidas no período da Bolsa de Apoio Acadêmico e Extensão I (PAE) de 26/04/2007 á 28/02/2008.

Bolsista: Fabiano José dos Santos Orientadora: Vilma Mayumi Tachibana

Presidente Prudente

2008

Índice

1.0

Introdução

2

1.1

O que é Estatística

3

Análise exploratório de dados

4

2.0

Resumo de Dados

4

2.1

Classificação de variáveis

4

2.2

Distribuição de Freqüência

6

2.3

Gráficos

7

2.3.1 Gráficos para Variáveis Qualitativas

7

2.3.2 Gráficos para as Variáveis Quantitativas

8

2.4

Ramo-e-Folhas

13

2.5

Exercícios

13

3.0

Medidas-resumo

17

3.1

Medida de Posição

17

3.2

Medida de Dispersão

17

3.3

Quantis

18

3.4

Intervalo – interquartil

19

3.5

Exercícios

19

4.0

Análise Bidimensional

20

4.1

Introdução

20

4.2

Associação entre variáveis Qualitativas

21

4.3

Medidas de Associação

22

4.4

Associação entre Variáveis Quantitativas

22

4.5

Associação entre Variáveis Qualitativas e Quantitativas

24

4.6

Exercícios

25

5.0

Probabilidade

26

5.1

Introdução

26

5.2

Probabilidade condicional e independência

27

5.3

Exercícios

28

Dados da Companhia MB

29

Bibliografia

30

1.0 Introdução

O projeto inicialmente proposto tem como objetivo o aprendizado, desenvolvimento

da análise e o entendimento do conjunto de dados do objeto de estudo do pesquisador. A transformação dos dados em informações, para compará-los com outros

resultados para um melhor entendimento da análise em que esta sendo feita ou ainda julgar sua=adequação a alguma teoria. A Estatística Descritiva é a ciência que apresenta processos próprios para coletar, apresentar adequadamente conjuntos de dados sejam eles numéricos ou não. Pode-se dizer que o seu objetivo é o de apresentar informações sobre dados em análise para que se tenha maior compreensão dos fatos em que os mesmo representam.

A essência da ciência é a observação e que seu objetivo básico é a Inferência. Ela

tem com finalidade a coleta, redução, análise e modelagem dos dados, e em procedimento

a amostra.

O estudo a ser estudado no projeto terá com base alguns desses procedimentos que

foram abordados, para uma melhor aplicação nos trabalhos em que o pesquisador precisará observar a análise e o conjunto de dados.

1.1 O Que é Estatística

Ao longo do século XX, os métodos estatísticos foram desenvolvidos como uma mistura de ciência, tecnologia e lógica para a solução e investigação de problemas em várias áreas do conhecimento humano (Stigler, 1986). Ela foi reconhecida como um campo da ciência neste período, mas sua história tem início bem anterior a 1900. A estatística não é uma caixa-preta, nem bola de cristal, nem mágica. Tampouco é um conjunto de técnicas úteis para algumas áreas isoladas ou restritas da ciência. Por exemplo, ao contrário do que alguns imaginam, a estatística não é um ramo da matemática onde se investigam os processos de obtenção, organização e análise de dados sobre uma determinada população. A estatística também não se limita a um conjunto de elementos numéricos relativos a um fato social, nem a números, tabelas e gráficos usados para o resumo, à organização e apresentação dos dados de uma pesquisa, embora este seja um aspecto da estatística que pode ser facilmente percebido no cotidiano (basta abrir os jornais e revistas para ver o "bombardeio" de estatísticas). Ela é uma ciência multidisciplinar: um mesmo programa de computador que permite a análise estatística de dados de um físico poderia também ser usado por um economista, agrônomo, químico, geólogo, matemático, biólogo, sociólogo psicólogo e cientista político. Mesmo que as interpretações dessas análises sejam diferentes por causa das diferenças entre as áreas do conhecimento, os conceitos empregados, as limitações das técnicas e as conseqüências dessas interpretações são essencialmente as mesmas. Segundo Rao (1999), a estatística é uma ciência que estuda e pesquisa sobre: o levantamento de dados com a máxima quantidade de informação possível para um dado custo; o processamento de dados para a quantificação da quantidade de incerteza existente na resposta para um determinado problema; a tomada de decisões sob condições de incerteza, sob o menor risco possível. Finalmente, a estatística tem sido utilizada na pesquisa científica, para a otimização de recursos econômicos, para o aumento da qualidade e produtividade, na otimização em análise de decisões, em questões judiciais, previsões e em muitas outras áreas.

2.0 Resumo de Dados

2.1 Classificação de variáveis

Variável é a característica de interesse que é medida em cada elemento da amostra ou população. Como o nome diz, seus valores variam de elemento para elemento. As variáveis podem ter valores numéricos ou não numéricos.

Variáveis podem ser classificadas da seguinte forma:

Variáveis Quantitativas: são as características que podem ser medidas em uma escala quantitativa, ou seja, apresentam valores numéricos. Podem ser contínuas ou discretas.

Variáveis discretas: características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores e, assim, somente valores inteiros. Geralmente são o resultado de contagens. Exemplos: número de filhos, número de bactérias por litro de leite, número de cigarros fumados por dia.

Variáveis contínuas: características mensuráveis que assumem valores em uma escala contínua (na reta real), para as quais valores fracionais. Usualmente devem ser medidas através de algum instrumento. Exemplos: peso (balança), altura (régua), tempo (relógio), pressão arterial, idade.

Variáveis Qualitativas (ou categóricas): são as características que não possuem valores quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representam uma classificação dos indivíduos. Podem ser nominais ou ordinais.

Variáveis nominais: não existe ordenação dentre as categorias. Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio.

Variáveis ordinais: existe uma ordenação entre as categorias. Exemplos:

escolaridade (1º, 2º, 3º graus), estágio da doença (inicial, intermediário, terminal), mês

de observação (janeiro, fevereiro,

, dezembro).

Exemplo 1.0

Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos sócio econômico dos empregados da seção de orçamentos de uma companhia. Usando informações obtidas do departamento pessoal, ele elaborou a Tabela 1.0.

Tabela 1.0 Informações sobre estado civil, grau de instrução, número de filhos, salário (expresso como fração do salário mínimo), idade (medida em anos e meses) e procedência de 36 empregados da seção de orçamentos da Companhia.

Estado

Grau de

Nº de

Salário

Idade

Região de

Civil

Instrução

Filhos

Anos

Meses

Procedência

1

Solteiro

Fundamental

 

4,00

26

3

Interior

2

Casado

Fundamental

1

4,56

32

10

Capital

3

Casado

Fundamental

2

5,25

36

5

Capital

35

Casado

Médio

2

19,40

48

11

Capital

36

Casado

Superior

3

23,30

42

2

Interior

Fonte: Bussab e Morettin (2002)

Observações sobre a Tabela 1.0.

De modo geral, para cada elemento investigado numa pesquisa, tem-se associado um (ou mais de um) resultado correspondendo à realização de uma característica (ou características). Por exemplo, considerando a variável estado civil, para cada empregado pode-se associar um dos resultados, solteiro ou casado (note que poderia haver outras possibilidades, como separado, divorciado, mas somente as duas mencionadas foram consideradas no estudo).

Resumindo

Como as variáveis são classificadas e outros exemplos:

Qualitativa

Nominal

Sexo, Cor dos Olhos.

Ordinal

Classe social, grau de instrução.

Quantitativa

Discreta

Número de filhos, números de carros.

Contínua

Peso, altura.

Para cada tipo de variável existem técnicas apropriadas para resumir as informações dos dados obtidos da amostra. Por exemplo, a utilização de uma tabela é uma forma de escrever os dados de uma forma resumida. Em algumas situações podem-se atribuir valores numéricos às várias qualidades ou atributos de uma variável qualitativa e depois se proceder à análise como se esta fosse quantitativa, desde que o procedimento seja passível de interpretação. Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil:

a chamada variável dicotômica. Para essa variável podem ocorrer somente duas realizações, usualmente chamadas de sucesso e fracasso.

Exemplo 1.1: A variável Civil, Sexo, Hábito de Fumar, etc.

Como as Variáveis são classificadas e outros exemplos;

Uma variável originalmente quantitativa pode ser coletada de forma qualitativa.

Por exemplo, a variável idade, medida em anos completos, é quantitativa (contínua);

mas, se for informada apenas a faixa etária (0 a 5 anos, 6 a 10 anos, etc

(ordinal). Outro exemplo é o peso dos lutadores de boxe, uma variável quantitativa (contínua) se trabalha com o valor obtido na balança, mas á qualitativa (ordinal) se o classificarmos nas categorias do boxe (peso-pena, peso-leve, peso-pesado, etc.). Outro ponto importante é que nem sempre uma variável representada por números quantitativa. O número do telefone de uma pessoa, o número da casa, o número de sua identidade. Às vezes o sexo do indivíduo é registrado na planilha de dados como 1 se macho e 2 se fêmea, por exemplo. Isto não significa que a variável sexo passou a ser quantitativa!

), é qualitativa

é

2.2 Distribuição de Freqüência

Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o comportamento dessa variável, analisando a ocorrência de suas possíveis realizações. Veremos uma maneira de dispor uns conjuntos de realizações, para se ter uma idéia global sobre elas, ou seja, de sua distribuição.

Exemplo 1.2 A tabela apresenta a distribuição de freqüência da variável grau de instrução, usando os dados da tabela 1.0. Tabela 1.1. Freqüência e porcentagem dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução.

Grau de Instrução

Freqüência (n i )

Proporção (f i )

Porcentagem 100x (f i )

Fundamental

12

0,3333

33,33%

Médio

18

0,5000

50,00%

Superior

6

0,1667

16,67%

Total

36

1,0000

100,00%

Fonte: Bussab e Morettin (2002)

Observando os resultados da segunda coluna, vê-se que dos 36 empregados da Companhia, 12 têm o ensino fundamental, 18 o ensino médio e 6 possuem curso superior. Uma medida bastante útil na interpretação de tabelas de freqüências é proporção de cada realização em relação ao total. Assim 6/36-0,1667 dos empregados da companhia MB tem instrução superior.

2.3 Gráficos

A representação gráfica da distribuição de uma variável tem vantagem de rápida e

concisamente, informar sobre sua variabilidade. Existem vários gráficos que podem ser

utilizados e abordaremos aqui os mais simples para as variáveis quantitativas.

2.3.1 Gráficos para as Variáveis Qualitativas

A representação gráfica da distribuição de uma variável tem a vantagem de, rápida

e concisamente, informar sobre sua variabilidade. Existem vários tipos de gráficos para as variáveis Qualitativas. Aqui serão ilustrados dois deles: Gráficos em Barras e de Composição em Setores (“Pizza”).

(i) Gráfico em Barras

O gráfico em Barras consiste em construírem retângulos ou barras, em que uma

das dimensões é proporcional à magnitude a ser representada (n i ), sendo a outra arbitrária, porém igual para todas as barras. Essas barras são dispostas paralelamente

uma às outras, horizontalmente ou verticalmente. No exemplo a seguir temos o gráfico em barras (verticais) para a variável Grau de Instrução.

Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução.

Tabela 1.3.

Grau de Instrução

Freqüência (n i )

Proporção (f i )

Porcentagem (100 x f i )

Fundamental

12

0,3333

33,33%

Médio

18

0,5000

50,00%

Superior

6

0,1667

16,67%

Total

n = 36

1,0000

100,00%

Fonte: Bussab e Morettin (2002)

Figura 1.0 Gráfico em Barras para a variável Grau de Instrução

18 18 16 14 12 12 10 8 6 6 4 2 0 Fundamental Médio
18
18
16
14
12
12
10
8
6
6
4
2
0
Fundamental
Médio
Grau de Instrução
Superior
Freqüência (ni)

(ii) Gráfico de Composição em Setores (“Pizza”) O gráfico de composição em setores (“pizza”), destina-se a representar a composição, usualmente em porcentagem, de partes de um todo. Consiste num círculo de raio arbitrário, representando o todo, dividido em setores, que correspondem às partes de maneira proporcional. Para o exemplo anterior temos o seguinte gráfico:

Figura 1.1 Gráfico em Setores para a variável Grau de Instrução 50% 33% 17%
Figura 1.1
Gráfico em Setores para a variável Grau de Instrução
50%
33%
17%
Fundamental Médio Superior
Fundamental
Médio
Superior

2.3.2 Gráficos para as Variáveis Quantitativas

Para

variáveis

Quantitativas

representações gráficas.

podemos

considerar

uma

variedade

maior

de

(i) Gráfico em Barras

O gráfico em Barras para as variáveis Quantitativas é construído da mesma forma ao das variáveis Qualitativas. Como ilustração, considere a variável “Número de Filhos” dos empregados casados da seção de orçamentos da Companhia MB. A Tabela 7.2 apresenta os dados.

Tabela 1.4 Freqüências

Companhia MB, segundo o número de filhos.

e

Porcentagens

dos

empregados

da

seção

de

orçamentos

da

Números de Filhos (x i )

Freqüência (n i )

Porcentagem (100 x f i )

0

4

20

1

5

25

2

7

35

3

3

15

4

0

0

5

1

5

Total

n = 20

100

Fonte: Bussab e Morettin (2002)

Figura 1.2 Gráfico de Barra para a variável Números de Filhos

35 35 30 25 25 20 20 15 15 10 5 0 5 0 0
35
35
30
25
25
20
20
15
15
10
5
0
5
0
0
1
2
3
4
5
Porcentagem

Números de Filhos

(ii) Gráfico de Pontos (Dot-Plot)

Quando os dados consistem em um pequeno conjunto de números, estes podem ser representados traçando-se uma reta com uma escala que abranja todas as mensurações observadas e grafando-se as respectivas freqüências como pontos acima da reta. Por esse motivo, é também conhecido como gráfico de pontos.

Exemplo1.3: Considere a variável tempo, em segundos, entre carros que passam por um cruzamento, viajando na mesma direção.

6, 3, 5, 6, 4, 3, 5, 4, 6, 3, 4, 5, 2, 10.

Figura 1.3

Gráfico de Dispersão – Dot Plot 2 3 4 5 6 7 8 9 10
Gráfico de Dispersão – Dot Plot
2
3
4
5
6
7
8
9
10

(iii) Histograma

O Histograma é utilizado para representar a distribuição de freqüência. É um gráfico de barras contíguas, com bases proporcionais aos intervalos de classes e a área de cada retângulo proporcional à respectiva freqüência relativa. Indicaremos a amplitude do i-ésimo intervalo por a i . Para que a área do retângulo respectivo seja proporcional a f i , a sua altura deve ser proporcional a f i /a i , que é chamada de densidade de freqüência da i-ésima classe. Quanto mais dados tivermos em cada classe, mais alto deve ser o retângulo. Com essa convenção, a área total do histograma será 1 (um).

Exemplo: Considerando a variável Salário dos empregados da seção de orçamentos da Companhia MB, temos os seguintes dados:

Tabela 1.5 Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da companhia MB, por faixas de salário.

Classe de

Salário

Freqüência

(n

i )

Proporção

(f

i )

Porcentagem

(100 x f i )

Densidade de Freqüência

(f

i /a i )

04

|-- 08

10

0,2778

27,78

0,0695

08

|-- 12

12

0,3333

33,33

0,0833

12

|-- 16

8

0,2222

22,22

0,0556

16

|-- 20

5

0,1389

13,89

0,0347

20

|-- 24

1

0,0278

2,78

0,0070

Total

n = 36

1,0000

100,00

 

Fonte: Bussab e Morettin (2002)

Figura 1.4 Histograma da variável Salário

0,09 0,08 0,0833 0,07 0,0695 0,06 0,05 0,0556 0,04 0,03 0,0347 0,02 0,01 0,007 0
0,09
0,08
0,0833
0,07
0,0695
0,06
0,05
0,0556
0,04
0,03
0,0347
0,02
0,01
0,007
0
04 |-- 08
08 |-- 12
12 |-- 16
Classes de Salários
16 |-- 20
20 |-- 24
Densidade de Freqüência

(iv) Gráfico em Linhas

É um gráfico muito importante utilizado para representar observações feitas ao longo do tempo, em intervalos iguais ou não. Tais conjuntos de dados constituem as chamadas séries históricas, ou séries temporais. Traduzem o comportamento de um fenômeno em certo intervalo de tempo.

Tabela 1.6 Dívida Externa do Brasil de 1956 a 2006, em Milhões de Dólares.

Ano

Dívida

Ano

Dívida

Ano

Dívida

1956

2736

1973

14857

1990

123439

1957

2491

1974

20032

1991

123910

1958

2870

1975

25115

1992

135949

1959

3160

1976

32145

1993

145726

1960

3738

1977

37951

1994

148295

1961

3291

1978

52187

1995

159256

1962

3533

1979

55803

1996

179935

1963

3612

1980

64259

1997

199998

1964

3294

1981

73963

1998

241644

1965

3823

1982

85487

1999

241468

1966

3771

1983

93745

2000

236156

1967

3440

1984

102127

2001

226067

1968

4092

1985

105171

2002

227689

1969

4635

1986

111203

2003

235414

1970

6240

1987

121188

2004

220182

1971

8284

1988

113511

2005

187987

1972

11464

1989

115506

2006

191999

Fonte: IPEADATA

Figura 1.5 Gráfico de Linhas para a variável Dívida Externa do Brasil no período 1956 a 2006

250000 200000 150000 100000 50000 0 1956 1958 1960 1962 1964 1966 1968 1970 1972
250000
200000
150000
100000
50000
0
1956 1958 1960 1962 1964 1966 1968 1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006
Dívida em Milhões de Dólares

Ano

2.4

Ramo-e-Folhas

Tanto o histograma como os gráficos em barras dão uma idéia de forma da distribuição da variável sobre consideração. Por exemplo, saber que a renda per capita de um país é de tantos dólares pode ser um dado interessante, mas saber como esta renda se distribui é mais importante. Um procedimento alternativo para resumir um conjunto de valores, com o objetivo de se obter uma idéia da forma de sua distribuição, é o Ramo-e-Folhas. Uma vantagem desde diagrama sabre o histograma é que não perdermos (ou perdemos pouca) informação sobre os dados em si.

Exemplo 1.4

Os dados abaixo referem-se á dureza de 30 peças de alumínio (Hoaglin, Mosteller e Tukey, 1983)

53

70

84

69

77

87

53

82

67

54

70

71

95

51

74

55

63

85

53

64

82

78

55

69

72

59

55

73

52

50

Na figura 1.6: Temos o Ramo-e-Folhas correspondente.

Figura 1.6: Ramo-e-folhas para os dados de dureza de peças de alumínio.

5 0

1 2 3 3 3 4 5 5 5 9

6 3

4 7 9 9

7 0

0 1 2 3 4 7 8

8 2

2 4 5 7

9 5

2.5 Exercícios

1) Um questionário foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes informações:

ID:

Identificação do aluno;

Turma:

Turma a que o aluno foi alocado (A ou B);

Sexo:

Feminino (F) ou Masculino (M);

Idade:

Idade;

Alt:

Altura;

Peso:

Peso;

Filh:

Número de filhos na família;

Fuma:

Hábito de fumar (sim ou não);

Toler:

Tolerância ao cigarro: (I) Indiferente, (P) Incomoda Pouco e (M)

Incomoda Muito;

Exer:

Horas de atividade física, por semana;

Cine:

Número de vezes que vai ao cinema por semana;

OpCine:

Opinião a respeito das salas de cinema na cidade: (B) regular a boa e (M)

muito boa

TV:

Horas gastas assistindo TV, por semana

OpTV:

Opinião da programação na TV: (R) Ruim, (M) Média, (B) Boa e (N)

não sabe.

Tabela A

Informações do questionário estudantil. Dados brutos.

ID

Turma

Sexo

Idade

Alt

Peso

Filh

Fuma

Toler

Exer

Cine

Opcine

Tv

OpTV

1

A

F

17

1,60

60,5

2

Não

P

0

1

B

16,5

R

2

A

F

18

1,69

55,0

1

Não

M

0

1

B

7

R

3

A

M

18

1,85

72,8

2

Não

P

5

2

M

15

R

49

B

M

17

1,80

71,0

1

Não

P

7

0

M

14

R

50

B

M

18

1,83

86,0

1

Não

P

7

7

M

20

B

Fonte: Magalhães e Pedroso de Lima (2004).

Classifique as variáveis da Tabela A como:

Variável Qualitativa Nominal:

Resolução

ID, Turma, Sexo e Fuma.

Variável Qualitativa Ordinal:

Resolução

Toler, Opcione e Optv.

Variável Quantitativa Discreta:

Resolução Filho, Exer e Cine

Variável Quantitativa Contínua:

Resolução

Idade, Alt, Peso e Tv

2) Classifique as seguintes variáveis:

(a) Conceitos obtidos na Disciplina Estatística (R:Ruim, M:Médio, B:Bom e O:Ótimo);

Resolução

Variável Qualitativa Ordinal

(b) Bacias Hidrográficas (A: Amazônica, P:Platina, SF:São Francisco, N:do Nordeste, L:do Leste, S:do Sul); Resolução Variável Qualitativa Nominal

14

(c) Número de sementes germinadas (0, 1, 2, 3, 4, 5); Resolução Variável Quantitativa Discreta

Tabela B: Informações sobre estado civil, grau de instrução, numero de filhos, salário (expresso como fração do salário mínimo) e procedência de 36 empregados da seção de orçamento da Companhia MB.

Tabela B

Estado civil

Grau de

Nº de

Idade

Região de

Instruçaõ

Filhos

procedência

1

Solteiro

Ens.fundamental

0

26

Interior

2

Casado

Ens.Fundamental

1

32

Capital

3

Casado

Ens.Fundamental

2

36

Capital

4

Solteiro

Ens.Medio

0

40

Outra

5

Solteiro

Ens.Fundamental

0

28

Outra

6

Casado

Ens.Fundamental

0

41

Interior

7

Solteiro

Ens.Fundamental

0

40

Interior

Fonte: Bussab e Morettin (2002)

3)Usando os dados da tabela B, Construa a distribuição de freqüência das variáveis.

(a)Estado Civil

Resolução

Estado Civil

Freqüência n i

Porcentagem 100x f i

Solteiro

4

57,14

Casado

3

42,85

Total

7

100,00

(b) Região de procedência

Resolução

Região de Procedência

Freqüência n i

Porcentagem

f i

Capital

2

28,57

Interior

3

42,85

Outro

2

28,07

Total

7

100,00

c) Idade

 

Resolução

 

Idade

 

Freqüência n i

Porcentagem

f i

26

32

2

28,27

32

38

2

28,57

38

42

3

42,85

Total

 

7

100,00

4)

Contou-se o número de erros de impressão da primeira página de um jornal durante

50

dias, obtendo os resultados abaixo.

 

8

11

8

12

14

13

11

14

14

15

6

10

14

19

6

12

7

5

8

8

10

16

10

12

12

8

11

6

7

12

7

10

14

5

12

7

9

12

11

9

14

8

14

8

12

10

12

22

7

15

a)

Represente os dados graficamente

 

Resolução

Freqüência do Número de Erros na Primeira página de um Jornal

10 9 9 8 7 7 7 6 5 5 5 4 4 3 3
10
9
9
8
7
7
7
6
5
5
5
4
4
3
3
2
2
2
2
1
1
1
1
1
0
5
6
7
8
9
10
11
12
13
14
15
16
19
22
Freqüência

Número de Erros

3.0

Medidas - Resumo

3.1 Medida de Posição

Vimos que o resumo de dados por meio de tabelas de freqüências e Ramo-e- Folhas fornecem muito mais informações sobre o comportamento de uma variável do que a própria tabela original de dados. Muitas vezes, queremos resumir ainda mais estes dados apresentando um ou alguns valores que sejam representativos da série toda> Quando usamos um só valor, obtemos uma redução drástica dos dados usualmente, emprega-se uma das seguintes medidas e posição (ou localização) central: médio, mediana, máximo e mínimo.

Média

_

x , ela representa o ponto de

equilíbrio da distribuição de seus valores. Considere uma variável x com observações representadas, por x 1

n . A

média desse conjunto é a soma dos valores divididos pelo número total de observações. Isto é

A média é a medida mais popular e representada por

,x 2 ,

x

x =

x

1

+

x

2

+

x

3

+

+

x

n

 

n

 

=

n

i = 1

x

i

n

Mediana

A mediana representada por md obs

é o valor que ocupa a posição central dos

dados ordenados. É o valor que divide os dados, isto é, metade dos dados será maior que a mediana e metade será menor. Considere a seguinte série de valores: 5, 2, 6, 13, 9, 15, 10. De acordo com a definição de mediana, o primeiro passo a ser dado é ordenar o conjunto de valores: 2, 5, 6, 9, 10, 13, 15. O valor que divide a série em duas partes iguais é 9. Logo, a mediana é 9.

Moda

A moda é dada pelo valor mais freqüente do conjunto de dados.

Máximo e Mínimo

O máximo é o valor maior da observação do conjunto de dados, enquanto que o

mínimo é a menor observação.

3.2 Medidas de Dispersão

Apesar das medidas de tendência central fornecem uma idéia do comportamento das variáveis, elas podem esconder valiosas informações. Essas medidas podem não ser suficientes para descrever e discriminar diferentes conjuntos de dados. Vamos definir algumas medidas de dispersão.

Definição 1.0: Amplitude de uma variável em um conjunto de dados

A amplitude, referente, a uma variável, é definida como a diferença entre o maior

e o menor valor do conjunto de dados. Será denotada por A.

A amplitude só leva em conta dois valores de todo o conjunto e, assim, seria mais

conveniente considerarmos uma medida que utilizasse todas as observações. Uma idéia inicial é considerar o desvio de cada observação em relação a um ponto de referência e então tomar sua média. Caso a observação seja menor do que a referência, o desvio

seria negativo, caso seja maior seria positivo.

A soma de tais desvios fará com que termos de sinais diferentes se compensem

podendo ocultar o efeito da variabilidade.

Definição 1.1 : variância e desvio – padrão em conjuntos de dados.

A variância, referente á variável x de um conjunto de dados é definido por

s

2

=

(

x

1

x

)

2

+

(

x

2

x

)

2

+

(

x

3

x

)

2

+

+

(

x

n

x

)

2

n

1

=

n

i = 1

(

x

i

x

)

2

n

1

É conveniente definirmos o desvio padrão como sendo

s =

2 s
2
s

A expressão apresenta da definição Nº auxilia o leitor na interpretação da

variância como uma medida de variabilidade. Entretanto, é possível obter uma expressão alternativa que facilita os cálculos:

s

2

=

 

 

n

1

1

n

i = 1

x

i

2

 

n

(

x

)

2

Essa expressão evita a operação de subtração, que em muitos casos envolvem decimais e torna-se trabalhosa.

3.3 Quantis

Tanto a média como o desvio padrão podem não ser medidas adequadas para representar um conjunto de dados, pois:

São afetadas, de forma exagerada, pois valores extremos:

Apenas com estes dois valores não temos idéia da simetria ou assimetria da distribuição dos dados. Para contornar esses fatos, outras medidas têm de ser consideradas. Vimos que a medida é um valor que deixa metade dos dados abaixo dela e metade acima. De modo geral, podemos definir uma medida, chamada quantil de ordem p p-quantil, indicada por q(p), onde é uma proporção qualquer 0<p<1, tal que 100% das observações sejam menores do que q(p).

Indicamos, abaixo , alguns quantis e seus nomes particulares.

q(0,25):1° Quartil=25º Percentil

q(0,50):2ºQuartil=Mediana=50ºPercentil

q(0,75):3ºQuartil=75ºPercentil

Exemplo 1.3

Suponha que tenhamos os seguintes valores de uma variável x:

15,5,3,8,10,2,7,11,12

Ordenando os valores, obtemos as estatísticas de ordem x 1 =2, x 2 =3,

,x 9 =15, ou

seja, teremos 2<3 <5<7<8<10<11<12<15 Usando a definição de mediana dada, teremos que md=q(0,5)=x5=8 e o 1º Quartil

q(0,25)=3

3.4 Intervalo Interquartil

O intervalo interquartil é a diferencia entre o terceiro quartil (Q 3 ) e o primeiro

quartil (Q 1 ), ou seja, IQ=Q 3 -Q 1 Essa medida nos dá a informação de amplitude dos 50% centrais do conjunto de dados.

3.5 Exercícios

1) Quer se estudar o número de erros de impressão de um livro. Para isso escolheu –se uma amostra de páginas, encontrando – se o numero de erros por páginas da tabela abaixo.

a) Qual o número médio de erros por pagina?

Resolução

x =

25

x

0

+

20

x

1

+

3

x

2

+

1

x

3

+

1

x

4 =

50

0,66

b) Calcule a variância?

Var=

25(0

0,66)

2

+

20(1

0,66)

2

+

3(2

0,66)

2

+

1(3

0,66)

2

+

1(4

0,66)

2

50

c) Qual o desvio padrão?

Dp=

+ 1(3 0,66) 2 + 1(4 0,66) 2 50 c) Qual o desvio padrão? Dp= 0,704

0,704 =0,8392

=0,704

d) Se o livro tem 500 páginas, qual o número total de erros esperado no livro?

(Página)x(Média de erros por página) =500 x 0,66=330 erros

2) Medidas da pulsação de 15 índios nativos dos Alpes Peruanos estão apresentadas a seguir:

64

64

68

68

76

60

72

88

60

68

80

60

72

88

60

(a) Calcule: Média, Mediana. ; Resolução

Média=

2

x

64

+

3

x

68

+

1

x

76

+

4

x

60

+

2

x

72

+

2

x

72

+

2

x

88

+

1 80 =

x

 

15

 

69,86

Colocando em ordem

60,60,60,60,64,64,68,68,68,72,72,72,76,76,80,88,88

Mediana=68

(b) Calcule: Mínimo, Q 1 , Q 2 , Q 3 e Máximo; Resolução

Maximo=60

Mínimo=60

q(0,25) = Q 1 = 60 q(0,50) = Q 2 = 68 q(0,75) = Q 3 =76

4.0 Variáveis Bidimensionais

4.1 Introdução

Nos últimos capítulos estudamos o comportamento de apenas uma variável, neste capitulo estudaremos o comportamento do conjunto de dados de duas ou mais variáveis. Para trabalharmos com variáveis bidimensionais é muito simples, basta usarmos as tabelas de cada variável e construir um conjunto juntando cada x i com seu respectivo

y i e construir a tabela x/y. O principal objetivo das analises nessa situação é explorar relações (similaridades) entre as colunas, ou algumas vezes entre as linhas. Como no caso de apenas uma variável que estudamos, a distribuição conjunta das freqüências será uma instrumento poderoso para a compreensão do comportamento dos dados. Quando consideremos duas variáveis (ou dois conjunto de dados), podemos ter três situações. i) as duas variáveis são qualitativas:

ii) as duas variáveis são quantitativas: e iii) uma variável é qualitativa e a outra quantitativa.

As técnicas de analises dos conjuntos de dados nas três são diferentes.

4.2 Associação entre Variáveis Qualitativas

Um das principais objetivos de se construir uma distribuição conjunta de duas variáveis qualitativas é descrever a associação entre elas, isto é, queremos conhecer o grau de dependência entre elas de modo, que possamos prever melhor o resultado de uma delas quando conhecemos a realização da outra. Por exemplo, suponhamos que uma pessoa, seja sorteada ao acaso numa indústria siderúrgica, teríamos uma respostas mais provável que a pessoa sorteada é do sexo masculino por ter maior proporção.Ou seja há um grau de dependência grande entre sexo e ramo de atividade.

Exemplo 1.4 Queremos verificar se existe ou não associação entre o sexo e a carreira escolhida por 200 alunos de Economia e Administração.

Distribuição conjunta das freqüências e proporções (em porcentagem), segundo o sexo (x) e o curso escolhido (y).

x y
x
y

Economia

Administração

Total

Masculino

85(61%)

55(39%)

140(100%)

Feminino

35(58%)

25(42%)

60(100%)

Total

120(60%)

80(40%)

200(100%)

Fonte: Bussab e Morettin (2002)

A partir dessa tabela podemos observar que independentemente do sexo, 60% das pessoas preferem Economia a 40% preferem Administração ( observe na coluna de total)

Não havendo dependência entre as variáveis esperaríamos essas mesmas proporções para cada sexo. Observando a tabela, vemos que as proporções do sexo masculino (61% e 39%) e do sexo feminino (60% e 40%). Esses resultados parecem indicar não haver dependência entre que, neste caso, as variáveis sexo e escolha do curso parece ser não associados.

4.3

Medidas de Associação

Person definiu uma medida de associação chamada coeficiente de contingência, dada por

C =

2 X , 2 X + n
2
X
,
2
X
+
n

Que se interpreta de forma analógica ao coeficiente de correlação, a ser definido mais adiante. Contudo o coeficiente acima não varia entre 0 e 1. O valor máximo de C depende de r e s. Para evitar esse inconveniente, costuma-se definir um outro coeficiente, dado por

T =

2 X n ( r 1)( s 1)
2
X
n
(
r
1)(
s
1)

Que atinge o máximo igual a 1 se r = s.

4.4 Associação entre Variáveis Quantitativas

Quando as variáveis envolvidas são ambos do tipo quantitativas, pode usar o mesmo tipo de análise apresentado nas seções anteriores e exemplificado com variáveis qualitativas. Um dispositivo bastante útil para se verificar a associação entre duas variáveis quantitativas, ou entre dois conjuntos de dados, é o gráfico de dispersão, que vamos introduzir por meio exemplo.

Exemplo 1.5

Neste tipo de gráfico temos os possíveis pares de valores (x ,y), na ordem que aparecem. Para o exemplo, vemos que parece haver uma associação entre as variáveis, porque no conjunto a medida que aumenta o tempo de serviço, aumenta o numero de clientes.

Tabela1.5: Numero de anos de serviço (x) por numero de clientes (y) de agentes de uma Companhia de Seguros.

Tabela 1.5

Agente

Anos de Serviços(x)

Números de clientes (y)

A

2

48

B

3

50

C

4

56

D

5

52

E

4

43

F

6

60

G

7

62

Fonte: Bussab e Morettin (2002)

Figura1.7

Gráficos de dispersão para as variáveis (x) anos de serviços e (y): numero de clientes.

Gráfico de Dispersão

70 7 60 6 4 5 50 3 2 4 40 30 20 10 0
70
7
60
6
4
5
50
3
2
4
40
30
20
10
0
0
2
4
6
8
Numeros de clientes

Anos de Serviços

Gráfico de Dispersão

Gráfico de

Dispersão

Se por acaso os pontos dos gráficos estivessem disperso e sem ordem de crescimento ou de diminuição havendo acumulação entres eles, não haverá associação entre as variáveis.

4.5 Associação entre variáveis Qualitativas e Quantitativas.

È comum nessas situações analisar o que acontece com a variável quantitativa, entro de cada categoria da variável qualitativa.

Exemplo1.6

Na tabela 1.6 e temos os resultados as análises dos salários em função da região de procedência(v), que mostram a inexistência de uma relação melhor definida entre essas duas variáveis ou, ainda os salários estão mais relacionados com o grau de instrução do que com a região de procedência.

Tabela 1.6: Medida-resumo para a variável salário segundo a região de procedência, na Companhia MB.

Região de

 

Dp(s)

Var(s)

S(1)

q(1)

q(1)

q(1)

S(n)

Procedência

S

Capital

11

11,46

5,22

27,27

4,56

7,41

9,77

16,63

19,40

Interior

12

11,55

5,07

25,71

4,00

7,81

10,64

14,70

23,30

Outra

13

10,45

3,02

9,13

5,73

8,74

9,80

12,79

16,22

Todos

36

11,12

4,52

20,46

4,00

7,05

10,17

14,66

23,30

Fonte: Bussab e Morettin (2002)

È conveniente poder contar com uma medida que quantifique o grau de dependência entre as variáveis. Com esse intuito, convém observar que as variâncias podem ser usada como insumo para construir essa medida sem usar a informação da variável categorizada, a variância calculada para a variável quantitativa para todos os dados mede a dispersão dos dados globalmente. Se a variância dentro de cada categoria for pequena e menor do que a global, significa que a variável qualitativa cada categoria for pequena e menor do que a global significa que a variável qualitativa melhora a capacidade de previsão da quantitativa e por tanto existe uma relação entre as duas variáveis.

Dados n pares de valores (x 1 ,y 1 ), duas variáveis x e y a

Cov (x,y) =

n

i = 1

(

x

i

_

x

)(

y

i

_

y

)

n

,

,

(x n ,y n ), chamaremos de covariância entre as

Ou seja, a média dos produtos dos valores centrados das variáveis. Com essa definição, o coeficiente de correlação pode ser escrito como,

Corr (x, y) =

(

Cov x

,

y

)

dp x

(

).

dp

(

y

)

4.6 Exercícios

Com base na tabela abaixo, você concluiria que o tipo de atividade está relacionada ao fato de as embarcações serem de propriedades estatal ou particular ? Encontre uma medida de dependência entre as variáveis.

Propriedades

 

Atividades

Total

Costeira

Fluvial

Internacional

Estatal

5

141

51

197

Particular

92

231

48

371

Total

97

372

99

658

Resolução

Tabela de desvio

 

Propriedades

 

Atividades

Total

Costeira

Fluvial

Internacional

Estatal

5(33,64)

141(129,02)

51(34,34)

197

Particular

92(63,64)

231(242,98)

48(64,66)

371

Como X 2 = 51,09 pelo resultado existe associação entre o tipo de atividade e a propriedade das embarcações.

5.0

Probabilidade

5.1 Introdução

Denominamos fenômeno aleatório á situação ou acontecimento cujos resultados não podem ser previstos com certeza. Chamamos de espaço amostral ao conjunto de todos os resultados possíveis de certo fenômeno aleatório. Ele será representado pela letra grega (Omega). Os

subconjuntos de são denominados eventos e são representados pelas letras latinas

A,B,

A união de dois eventos A e B, denotada por AUB, representa a ocorrência de pelo menos um dos eventos A ou B. Dois eventos A e B são adjuntos ou mutuamente exclusivos quando não tem elementos em comum. Isto é A B = Ø. Dizemos que A e B são complementares se sua união é o espaço amostral e sua intersecção é vazia. O complemento de A será representado por A c e temos A A c =

O

conjunto vazio , como já é tradicional, será denominado por Ø.

e A A c = Ø.

Considera-se probabilidade como sendo uma função P(.) que atribui valores numéricos aos eventos do espaço amostral.

Definição: Probabilidade

Uma função P(.) é denominada probabilidade se satisfaz as condições:

i)0 P(A) 1,

A

ii)P()=1

iii)P

 

n

j = 1

Aj

=

n

j = 1

p

(

Aj

)

, com os Aj 's distintos

Pode-se atribuir probabilidade aos elementos do espaço amostral de duas maneiras, uma delas consiste na atribuição de probabilidade baseando=se em características teóricas da realização do fenômeno. Uma outra maneira de obter probabilidade é através das freqüências de ocorrências. Observando as diversas repetições do fenômeno em que ocorre a variável de interesse. Para um número grande de realizações, a freqüência relativa poderia ser usada como probabilidade. Por ora ,assumimos que á medida que o numero de repetições vai aumentando, as freqüências relativas se estabilizam em um numero que chamarmos de probabilidade. A probabilidade da união de eventos é calculada através da regra de adição de probabilidade.

Sejam A e B eventos de . Então P(A B) =P(A) +P(B)-P(A B)

5.2 Probabilidade Condicional e Independência

Definição: Probabilidade Condicional

Dado dois eventos A e B, a probabilidade condicional de A dado que ocorre b é

representada por P(A

B) e dada por P(A

B) =

P

(

A

B

)

P B

(

)

, P(B) >0.

Caso P(B)=0,P(A B ) pode ser definido arbitrariamente, neste texto usaremos

P(A B) =P(A).

Da

probabilidades.

definição

de

probabilidade

condicional,

deduzirmos

a

regra

do

produto

de

Sejam A e B eventos de . Então,

Com P(B)>0.

P(A

P(A B ) = P ( A B P B ) ( ),

B

)

= P

(

A

B P B

)

(

P(A B ) = P ( A B P B ) ( ),
P(A B ) = P ( A B P B ) ( ),

),

Definição: Independência de eventos

Dois eventos A e B são independentes se a afirmação da ocorrência ou não de B não altere a probabilidade de A. Isto é,

P(A

Ou ainda a seguinte forma equivalente:

P(A

B) = P( A), P(B) > 0,

B

)

= P

(

A

(

BP B

).

, c k Formem uma partipação de

e que suas probabilidades sejam conhecidas. Suponha ainda que para um evento A, se conheçam

as probabilidades P(A

Teorema de Bayes: Suponha os eventos c 1 , c 2 , c 3,

c i ) para todo i =1,2,

,k.

Então, para qualquer j,

P(C j

A ) =

P

(

A C

j

)

P C

(

j

)

k

i = 1

P

(

A C

i

)

P C

(

i

)

,

j

=

1,2,3,

,

k

.

5.3 Exercícios

As Preferências de homens e mulheres por cada gênero de filme alugado em uma locadora de vídeos estão apresentadas na próxima tabela.

Sexo Filme

Sexo Filme

Comédia

Romance

Policial

Homens

136

92

248

Mulheres

102

195

62

Sorteando-se ao caso uma dessas locações de vídeos, pergunta-se a probabilidade de:

Uma mulher ter alugado um filme de policial?

Resolução

62

835

O filme alugado ser uma comédia?

Resolução

P(C) = P (M) * P(C

P(C) =

102 +

835

136

835

M ) + P (H) * P(C H ) = P(C

= 238

835

H ) + P(C

H )

Um homem ter alugado ou o filme ser um romance?

Resolução

P(H

R)

=

P(H ) + P(R) P(H

 

R)

 

476

287

92

P(H

R) =

 

+

=

0,803

 

835

835

835

d)O filme ser policial dado que foi alugado por um homem?

Resolução

P(P H) =

P(P H) =

P ( P H ) P H ( ) 248 476 476 835
P (
P
H
)
P H
(
)
248
476
476
835

=

P(P

H ) = 0,91

Companhia MB

Os dados abaixo correspondem a uma pesquisa realizada na Cia MB. Foram selecionados 36 funcionários e observadas as seguintes variáveis:

estado civil, grau de instrução, número de filhos, salário(em nº de salários mínimos), idade (em anos) e região de procedência. Dados da Tabela 2.1. Pag 11 do livro.

No

Estado

Instrução

Número de

Salário

Idade

Procedência

Civil

Filhos

1

Solteiro

ensino fundamental

 

4,00

26

Interior

2

Casado

ensino fundamental

1

4,56

32

Capital

3

Casado

ensino fundamental

2

5,25

36

Capital

4

Solteiro

ensino médio

5,73

21

Outro

5

Solteiro

ensino fundamental

6,26

41

Outro

6

Casado

ensino fundamental

0

6,66

28

Interior

7

Solteiro

ensino fundamental

6,86

41

Interior

8

Solteiro

ensino fundamental

7,39

43

Capital

9

Casado

ensino médio

1

7,59

34

Capital

10

Solteiro

ensino médio

7,44

24

Outro

11

Casado

ensino médio

2

8,12

34

Interior

12

Solteiro

ensino fundamental

8,46

28

Capital

13

Solteiro

ensino médio

8,74

37

Outro

14

Casado

ensino fundamental

3

8,95

44

Outro

15

Casado

ensino médio

0

9,13

30

Interior

16

Solteiro

ensino médio

9,35

39

Outro

17

Casado

ensino médio

1

9,77

32

Capital

18

Casado

ensino fundamental

2

9,80

40

Outro

19

Solteiro

superior

10,53

26

Interior

20

Solteiro

ensino médio

10,76

37

Interior

21

Casado

ensino médio

1

11,06

31

Outro

22

Solteiro

ensino médio

11,59

34

Capital

23

Solteiro

ensino fundamental

12,00

41

Outro

24

Casado

superior

0

12,79

26

Outro

25

Casado

ensino médio

2

13,23

32

Interior

26

Casado

ensino fundamental

2

13,60

35

Outro

27

Solteiro

ensino médio

13,85

47

Outro

28

Casado

ensino médio

0

14,69

30

Interior

29

Casado

ensino médio

5

14,71

41

Interior

30

Casado

ensino médio

2

15,99

36

Capital

31

Solteiro

superior

16,22

31

Outro

32

Casado

ensino médio

1

16,61

36

Interior

33

Casado

superior

3

17,26

44

Capital

34

Solteiro

superior

18,75

34

Capital

35

Casado

2º grau

2

19,40

49

Capital

36

Casado

superior

3

23,30

42

Interior

Bibliografia

Wilton de O. Bussab, Pedro A. Morettin- Estatística Básica- São Paulo : Saraiva. 5º edição,

2005.