Vous êtes sur la page 1sur 58

Pol 1894 – Estatística Aplicada UNESA - Macaé

1- Conceitos Fundamentais da Estatística

1.1- Introdução

A Estatística trata dos métodos científicos para coleta, organização, resumo,


apresentação e análise de dados, visando também a tomada de decisões.

1.2- População e Amostra

Ao coletar dados sobre as características de um conjunto de elementos, como, por


exemplo, os brinquedos produzidos por uma indústria, os carros que passam por um
determinado farol ou as preferências da população sobre candidatos a uma determinada
eleição, nem sempre é possível considerar todos os elementos, ou seja, toda a população
ou universo. Considera-se, então, apenas uma pequena parte do todo, chamada amostra.
No caso da eleição, a população é formada por todos os cidadãos com direito a voto e a
amostra é formada pelos eleitores que serão entrevistados.

1.3- Estatística Descritiva

A parte da Estatística que apenas descreve e analisa um conjunto de dados é chamada


Estatística Descritiva. Nela não são tiradas conclusões.

1.4- Estatística Indutiva

Também chamada de Inferência Estatística. A partir da análise de dados são tiradas


conclusões. A Estatística Indutiva trata das inferências e conclusões.

1.5- Variáveis Contínuas e Discretas

Uma variável que pode assumir qualquer valor entre dois valores dados é uma variável
contínua. Se isto não for possível, a variável é chamada discreta.
Exemplos: 1) Os resultados do lançamento de um dado podem assumir os valores 1, 2,
4, etc., mas não os valores 2,3 ou 3,2. Logo, a variável é discreta.
2) Os pesos ou as alturas de um conjunto de pessoas podem assumir,
teoricamente, qualquer valor. Logo, a variável é contínua.

Nota: De forma geral as contagens resultam em variáveis discretas e as medições


em variáveis contínuas.

1.6- Gráficos

Os gráficos permitem a representação da relação entre variáveis e podem facilitar a


compreensão dos dados, se apresentados de forma clara e objetiva. Em Estatística são
usados os gráficos de linha (curvas), de barra e de setores, entre outros.

1 de 1
Pol 1894 – Estatística Aplicada UNESA - Macaé

1.6.1- Gráficos de Linha (curvas)

Os dados são colocados num sistema cartesiano ortogonal. Em geral representam


dados de uma tabela. Graficamente temos pontos que são ligados através de
segmentos de reta.

Exemplos:
1) Discos vendidos nos últimos anos (em milhões)

Ano Vendas
1995 76,6 Discos Vendidos nos Últimos Anos
1996 44,8
1997 44,3 90
80
1998 34,5 70
1999 44 60

Vendas
2000 60 50
40
30
20
10
1995 1996 1997 1998 1999 2000
Anos

2) Porcentagem de votos para presidente

Meses Candidato
A B Eleição para Presidente
4 (Abril) 31,7 20,2
5 (Maio) 38,3 23,5 50
45
6 (Junho) 37,9 22,8 40
Votos (%)

7 (Julho) 30,1 30,5 35


30
8 (Agosto) 27,6 36,3 25
9 (Setembro) 21 42,8 20
15
10 (Outubro) 22,8 43,5 10
4 5 6 7 8 9 10
Meses

Candidato A Candidato B

1.6.2- Gráficos de Barras

Nesse tipo de gráfico usamos retângulos com bases de mesma medida e


separados por distâncias iguais. As freqüências dos fatos observados são dadas
pelas alturas dos retângulos, anotadas no eixo y, se as barras forem verticais. Se
as barras forem horizontais, ocorre o contrário.

Exemplos:
2 de 2
Pol 1894 – Estatística Aplicada UNESA - Macaé

1) Porcentuais de reprovação de uma determinada disciplina no ano letivo:

Bim estres %
1 45
Porcentual de Reprovação
2 35
60
3 55

Porcentagens
50
4 15 40
30 55
20 45 35
10 15
0
1 2 3 4
Bim estres

2) Avaliação dos estudantes, em porcentual, com relação ä UNE

Avaliação-UNE (%)
Ótimo 4 Avaliação UNE
Bom 25 Não Avaliaram 22
Regular 27
Péssimo 13
Ruim 9
Avaliação

Péssimo 13 Ruim 9
Não Avaliaram 22 Regular 27

Bom 25

Ótimo 4

0 10 20 30
Porcentagens

3) Podemos também usar os gráficos de barras de forma comparativa ou


apresentando dois ou mais conjuntos de dados.

Unidades Vendidas
Meses 1993 1994 Unidades Vendidas
Unidades Vendidas

Janeiro 15 12 30 25
Fevereiro 10 18 25 18 20 18
20 15 1993
Março 12 20 12 10 12
15
Abril 18 25 10 1994
5
0
i ro
iro

ri l
ç

Ab
re
ne

ar
ve

M
Ja

Fe

Meses

Nota: Os dados nos gráficos de barras podem ser representados por diferentes
formas de figura, tais como pessoas, objetos, etc. Estes gráficos
recebem o nome de pictóricos.
3 de 3
Pol 1894 – Estatística Aplicada UNESA - Macaé

1.6.3- Gráficos de Setor

Os dados são apresentados em setores circulares que são proporcionais aos


valores. Fazemos corresponder a uma volta do círculo (360º.) o total (100%) dos
dados e estabelecemos através de uma regra de três o ângulo relativo ao setor
circular de acordo com cada valor.

Exemplo: Construir o gráfico de setores para os dados da tabela:


Produto A: 720 – 360º.
60 ∗ 360 0
60 – A ⇒ A = ⇒ A = 30 0
720

Produto B: 720 – 360º.


120 ∗ 360 0
120 – B ⇒ B= ⇒ B = 60 0
720

Produto C: 720 – 360º.


240 ∗ 360 0
240 – C ⇒ C= ⇒ C = 120 0
720

Produto D: 720 – 360º.


300 ∗ 360 0
300 – D ⇒ D= ⇒ D = 150 0
720

Produtos Quantidade Vendida


A 60 Produtos Vendidos
B 120
C 240
60
D 300 120 A
Total 720 300
B
C
D
240

2- Somatório

Para indicar um conjunto de N dados X1, X2, X3, ... , XN é usual tomarmos o símbolo Xi, onde
i, denominado índice, representa quaisquer dos número 1, 2, 3, ..., N e indica o número de
ordem dos diferentes valores.
Assim, por exemplo, se tivermos os números 4, 28, 13, 18 e 10, a notação X4 representa o
quarto deles, ou seja, X4 = 18.

4 de 4
Pol 1894 – Estatística Aplicada UNESA - Macaé

Se, no entanto, quisermos representar a soma dos Xi valores, isto é, X1 + X2 + X3 + ... + XN ,


podemos lançar mão da letra grega Σ (sigma) correspondente ao nosso S maiúsculo e
indicativo de soma.
N
Por definição, temos: ∑Xi =1
i = X 1 + X 2 + X 3 + ... + X N
N
A indicação ∑ Xi ordena a soma dos Xi valores desde i=1 até i=N.
i =1
Nota: Com a finalidade de simplificar ainda mais a notação somatório, vamos substituí-la
(onde não houver possibilidades de dúvidas) por ∑ Xi ou ainda por ∑ X .

Exemplos:
a) Sendo F uma variável, temos:

∑F = F 1 + F2 + F3 + ... + FN

b) Sendo F e X variáveis, temos:

∑ FX = F X 1 1 + F2 X 2 + F3 X 3 + ... + FN X N

c) Sendo h uma constante, temos:

∑ h = h + h + h + ... + h = N .h
Ou seja, a soma de uma constante que se repete N vezes é igual ao produto da constante
por esse número N.

d) Sendo h uma constante e F uma variável, temos:

∑ hF = h∑ F = h( F 1 +F2 + F3 + ... + FN )

Ou seja, o somatório do produto de uma constante por uma variável é igual ao produto da
constante pelo somatório da variável.

e) Sendo X, Y, Z e F variáveis ligadas pela equação X = Y – Z + F , temos:

∑ X = ∑ (Y − Z + F ) = ∑ Y − ∑ Z + ∑ F

Ou seja, o somatório é distributivo em relação ä adição algébrica.

5 de 5
Pol 1894 – Estatística Aplicada UNESA - Macaé

Nota: Para complementar a simbologia usada nas fórmulas estatísticas, apresentamos a


seguir aquela que indica produto.
N
Por definição, ∏X
i =1
i = X 1 ⋅ X 2 ⋅ X 3 ⋅ ... ⋅ X N

∏ (pi) é uma letra grega maiúscula e indica produto.


N
O símbolo ∏ i =1
ordena um produto de Xi valores desde i=1 até i=N.

Podemos simplificar a notação de produto, substituindo-a (onde não houver


possibilidade de dúvidas) por ∏ X i ou simplesmente por ∏ X .
Para nós, então:
∏X = X 1 ⋅ X 2 ⋅ X 3 ⋅ ... ⋅ X N

Exemplo: Se h for constante, teremos: ∏ h = h ⋅ h ⋅ h ⋅ ... ⋅ h = h N

6 de 6
Pol 1894 – Estatística Aplicada UNESA - Macaé

3- Progressão Aritmética (PA) e Progressão Geométrica (PG).


3.1- Progressões Aritméticas
Progressão aritmética (P.A.) é uma seqüência (finita ou infinita) onde cada termo, a
partir do segundo, é igual ao termo precedente mais uma mesma constante, chamada
razão da progressão r.

Representa-se uma seqüência em P..A. por a1, a2, a3, ... , an , ..., se ela tiver infinitos
termos; ou por a1, a2, a3, ... , an, se ela tiver um número finito (e igual a n) de termos.

Na notação acima, o elemento a1 chama-se primeiro termo da P.A., an é o termo de


ordem n da P.A. e, de acordo com a definição, temos:

a2 = a1 + r
a3 = a2 + r
. . .
. . .
. . .
an = an-1 + r

Exemplos: 1- Os primeiros cinco termos de uma P.A. infinita de primeiro termo igual
a 2 e razão igual a 3 são: 2, 5, 8, 11, 14.
2- A seqüência 2, 0, -2, -4, ... é uma P.A. infinita de razão r = -2.

3.1.1- Classificação das progressões aritméticas

Quanto à razão, as progressões aritméticas classificam-se em:

a) Crescentes: r>0
Exemplo: 3, 4, 5, 6 (r = 1)

b) Decrescente: r<0
Exemplo: 3, 2, 1, 0 (r = -1)

c) Constante ou Estacionária: r = 0
Exemplo: 3, 3, 3, 3

3.1.2- Fórmula do termo geral de uma progressão aritmética

Dada uma P.A. a1, a2, a3, ... , an , ... de razão r, podemos escrever as n-1
igualdades seguintes:
a2 = a1 + r
a3 = a2 + r
. . .
. . .
. . .
an = an-1 + r

7 de 7
Pol 1894 – Estatística Aplicada UNESA - Macaé

Somando-as membro a membro, temos: an = a1 + (n - 1) r

Esta fórmula permite determinar um termo qualquer an de uma P.A.,


conhecendo-se o primeiro termo a1, a razão r e a ordem n do termo procurado.
Exercícios resolvidos:
1) Determinar o oitavo termo da P.A. -1, 3,. ..
Solução: Temos a1 = -l, r = a2- a1 = 3 - (-1) = 4 e n = 8, pois queremos
determinar o oitavo termo.
Então: a8 = a1 + (8 -1) . r = -1 + 7 . 4
Ou seja, o oitavo termo da P.A. vale 27.

2) Numa P.A. em que a razão é -3 e o quinto termo vale 10, quanto vale o
primeiro termo?
Solução: Temos r = -3, a5 = 10 e, como a5 = a1 + (n-1)r, segue-se que:
10 = a1 + (5 -1) . (-3), ou seja: a1 = 22

3) Existe uma P .A. finita de razão 4, primeiro termo -7 e último termo 36 ?


Solução: Supondo que exista tal P.A., devemos ter:
a1 = -7 , r = 4 e an = 36.
Como an = a1 + (n -l)r, concluímos que 36 = -7 + (n-1) . 4 e daí
resulta 4n = 47.
Como a última igualdade não admite solução inteira, concluímos
que não existe P.A. nas condições exigidas.

3.1.3- Termos eqüidistantes dos extremos de uma P.A finita

Consideremos uma seqüência finita (a1, a2, ... , an-1, an), onde a1 e an são seus
termos extremos.

Diremos que dois termos ap e aq (1 ≤ p, q ≤ n) são eqüidistantes dos extremos se,


e somente se, o número de termos que precedem um deles é igual ao número de
termos que sucedem o outro. Por exemplo, a3 e an-2 são eqüidistantes dos
extremos, assim como os termos a2 e an-1 .

Consideremos dois termos ap e aq eqüidistantes dos extremos e suponhamos


1 ≤ p ≤ q ≤ n para fixar idéias.

a1, ..., ap-1, ap, ... , aq, aq+1, …, an


p-1 termos p-1 termos

Existem p -1 termos que precedem ap e, portanto, o número de termos que


sucedem aq também é igual a p -1.

Notemos que, se p = q, teremos:


8 de 8
Pol 1894 – Estatística Aplicada UNESA - Macaé

a1, ..., ap-1, ap, ... , aq, aq+1, …, an


p-1 termos p-1 termos

Então, n = (p-l) + 1 + (p-l) = 2p-l, isto é, o número de termos da seqüência é


ímpar; diremos, nesse caso, que ap é o termo médio da seqüência.

Consideremos, agora, uma P.A. finita a1, a2, a3, ... , an de razão r e sejam ap e aq
dois termos eqüidistantes dos extremos a1 e an. Pela fórmula do termo geral,
sabemos que:

ap = a1 + (p-l)r (I)
Entretanto, aq, aq+1, …, an também é uma P.A. de razão r, primeiro termo aq e
cujo número de termos é 1 + (p -1) = p, já que, por hipótese, há p -1 termos que
sucedem aq. Então, an = aq + (p-l)r.
Ou seja: ap = a1 + (p-l)r ( II )

Somando membro a membro as igualdades I e II, temos:

ap + aq = a1 + an

Assim, acabamos de demonstrar que:

Numa P.A. finita, a soma de dois termos eqüidistantes dos extremos é igual à
soma dos extremos.

Exemplos: 1- Na P.A. 2, 4, 6, 8, 10, 12, os termos 4 e 10, 6 e 8 são


eqüidistantes dos extremos 2 e 12 e temos:
4 + 10 = 2 + 12, 6 + 8 = 2 + 12.

2- Na P.A. 0, 3, 6, 9, 12, 15, 18, os termos 3 e 15, 6 e 12, 9 e 9 (9


é o termo médio) são eqüidistantes dos extremos 0 e 18 e temos:
3 + 15 = 0 + 18,6 + 12 = 0 + 18,9 + 9 = 0 +18

3.1.4- Interpolação aritmética

Dados dois números reais a e b e um número natural m, podemos construir uma


P.A. finita de m + 2 termos, de modo que a seja seu primeiro termo e b seu
último termo.
a......................b

m meios
aritméticos

P.A. de m + 2 termos

Esse processo chama-se interpolação aritmética. Para resolver esse problema,


basta acharmos a razão r da P.A. resultante, em função de a, b e m.
9 de 9
Pol 1894 – Estatística Aplicada UNESA - Macaé

Conforme a fórmula do termo geral, temos:


b = a + [(m + 2) -1] .r

b−a
Disso resulta: r=
m +1

Exercício resolvido:
Interpolar 8 meios aritméticos entre 3 e 84.
Solução: Temos a = 3, b = 4 e m = 8.
 84 − 3 81 
A razão da P.A. será: r = = = 9 ;
 8 +1 9 
a P.A. será, então: 3,12,21; 30,39,48,57,66,75.84.

Exercícios de Aprendizagem:
1) Numa P.A. a razão é igual ao número de termos, o primeiro termo é 3 e o último 23. O
terceiro termo da P.A. vale:
a) 5 c) 13 e) n.r.a
b) 18 d) 20
1
2) Se em uma P.A. o primeiro termo vale 2.048 e a razão vale − , o valor do décimo
3
termo é:
a) 2.045 c) 2.018 e) n.r.a
2010
b) d) 2.043
5
3) Numa P.A. de n termos, a soma do primeiro com o último é 120. A soma do sexto com
o de ordem n – 5 é:
a) 100 c) 110 e) n.r.a
b) 60 d) 50

4) Os números 2x-3, 2x+1 e 3x+1 constituem, nessa ordem, uma P.A. O valor de x deve
ser:
a) 0 c) 1 e) n.r.a
b) -4 d) 4

10 de 10
Pol 1894 – Estatística Aplicada UNESA - Macaé

3.2- Progressões Geométricas


Progressão aritmética (P.G.) é uma seqüência (finita ou infinita) onde cada termo, a
partir do segundo, é igual ao termo precedente multiplicado por uma mesma constante,
chamada razão da progressão q.

Representa-se uma seqüência em P.G. por a1, a2, a3, ... , an , ..., se ela tiver infinitos
termos; ou por a1, a2, a3, ... , an, se ela tiver um número finito (e igual a n) de termos.

De acordo com a definição, temos:

a2 = a1 . q
a3 = a2 . q
. . .
. . .
. . .
an = an-1 . q

Exemplos: 1- Os primeiros cinco termos de uma P.G. infinita de primeiro termo igual
a 2 e razão igual a 3 são: 2, 6, 18, 54, 162.
1 1 1 1
2- A seqüência 1, , , , ... é uma P.G. infinita de razão q = .
2 4 8 2
3- A P.G. de cinco termos com primeiro termo igual a 1 e razão q = -2 é:
1, -2, 4, -8, 16.

3.2.1- Classificação das progressões geométricas

Seja a P.G. a1, a2, a3, ... , an de razão q. Então:

1) Se a1 = 0, teremos an = 0 para todo n e a P.G. será a seqüência constante:


0, 0, 0,...,

2) Se q = 0, teremos an = 0 para todo n > 1 e a P.G. será a seqüência: a1, 0, 0, ...,


sendo, então:
Crescente, se a1 < 0
Decrescente, se a1 > 0.

3) Se a1 > 0 e q ≠ 0, temos os casos:


a) a1 > 0 e q < 0
Os termos de ordem par serão negativos e os de ordem ímpar,
positivos. Neste caso diz-se que a P.G. é oscilante.

Exemplo: 3, -6, 12, -24, ... (q = -2)

b) a1 > 0 e q > 0
Todos os termos da P.G. serão positivos. A P.G. será:

Crescente, se q > 1
11 de 11
Pol 1894 – Estatística Aplicada UNESA - Macaé

Decrescente, se 0 < q < 1


Constante, se q = 1.

Exemplos: 3, 6, 12 é uma P.G. crescente de razão q = 2


1 1 1
1, , é uma P.G. decrescente de razão q =
3 9 3
2, 2, 2, 2 é uma P.G. constante de razão q = 1

4) Se a1 > 0 e q ≠ 0, temos os seguintes casos:


a) a1 < 0 e q < 0
Os termos de ordem par serão positivos e os de ordem ímpar,
negativos. E mais uma vez temos uma P.G. oscilante.

b) a1 < 0 e q > 0
Todos os termos da P.G. serão negativos. A P.G. será:

Crescente, se 0 < q < 1


Decrescente, se q > 1
Constante, se q = 1.
1 1
Exemplos: -2, -1, - é uma P.G. crescente de razão q =
2 2
-2, -4, -8 é uma P.G. decrescente de razão q = 2
-2, -2, -2, -2 é uma P.G. constante de razão q = 1

3.2.2- Fórmula do termo geral de uma progressão geométrica

Dada uma P.G. a1, a2, a3, ... , an , ... de razão q, podemos escrever as n - 1
igualdades seguintes:
a2 = a1 . q
a3 = a2 . q
. . .
. . .
. . .
an = an-1 . q

Multiplicando-as membro a membro, temos: an = a1 . q(n - 1)


Esta fórmula permite determinar um termo qualquer an de uma P.G.,
conhecendo-se o primeiro termo a1, a razão q e a ordem n do termo procurado.
Exercícios resolvidos:
1) Determinar o quinto termo da P.G. 2, 3 , . ..
3
Solução: Temos a1 = 2, q =
2
4
 3 9
(5 - 1)
Então: a5 = a1 . q = 2 .   =
 8
 2 
12 de 12
Pol 1894 – Estatística Aplicada UNESA - Macaé

9
Ou seja, o quinto termo da P.G. vale .
8

2) Numa P.G. de termos negativos sabe-se que: a3 = -8 e a7 = -128. Determinar


o primeiro termo e a razão da progressão.

Solução: Como a3 = a1 . q2, e a7 = a1 . q6


Segue-se que: a1 . q2,= -8 e a1 . q6 = - 128
Dividindo a segunda igualdade acima pela primeira, membro a
membro, obtemos q4 = 16 e, portanto, q = ±2
Como a P.G. é de termos negativos, tomamos q = 2, obtemos
a1 . 22,= -8 e, portanto, a1 = -2.

3.2.3- Termos eqüidistantes dos extremos de uma P.G. finita

A mesma tese que já provamos para os termos eqüidistantes dos extremos de


uma P.A. finita pode ser reformulada para uma P.G. finita, obtendo-se a
propriedade análoga:

Consideremos uma seqüência finita (a1, a2, ... , an-1, an), onde a1 e an são seus
termos extremos.

Diremos que dois termos ap e aq (1 ≤ p, q ≤ n) são eqüidistantes dos extremos se,


e somente se, o número de termos que precedem um deles é igual ao número de
termos que sucedem o outro. Por exemplo, a3 e an-2 são eqüidistantes dos
extremos, assim como os termos a2 e an-1 .

Consideremos dois termos ap e aq eqüidistantes dos extremos e suponhamos


1 ≤ p ≤ q ≤ n para fixar idéias.

a1, ..., ap-1, ap, ... , aq, aq+1, …, an


p-1 termos p-1 termos

Existem p -1 termos que precedem ap e, portanto, o número de termos que


sucedem aq também é igual a p -1.

Notemos que, se p = q, teremos:


a1, ..., ap-1, ap, ... , aq, aq+1, …, an
p-1 termos p-1 termos

Então, n = (p-l) + 1 + (p-l) = 2p-l, isto é, o número de termos da seqüência é


ímpar; diremos, nesse caso, que ap é o termo médio da seqüência.
Consideremos, agora, uma P.G. finita a1, a2, a3, ... , an de razão q e sejam ap e aq
dois termos eqüidistantes dos extremos a1 e an. Pela fórmula do termo geral,
sabemos que:
13 de 13
Pol 1894 – Estatística Aplicada UNESA - Macaé

ap = a1 .q(p – 1) (I)

Entretanto, aq, aq+1, …, an também é uma P.G. de razão q, primeiro termo aq e


cujo número de termos é 1 + (p -1) = p, já que, por hipótese, há p -1 termos que
sucedem aq. Então, an = aq .q(p – 1).
a
Ou seja: aq = (pn−1) ( II )
q
Multiplicando membro a membro as igualdades I e II, temos:

ap . aq = a1 . an

Assim, acabamos de demonstrar que:

Numa P.A. finita, o produto de dois termos eqüidistantes dos extremos é


igual ao produto dos extremos.

Exemplos: 1- Na P.G. 4, -8, 16, -32, 64, -128 os termos -8 e 64, 16 e -32 são
eqüidistantes dos extremos 4 e -128 e temos:
(-8) . 64 = -512 = 4 . (-128)
16 . (-32) = -512 = 4 . (-128)
2- Na P.G. 3, 6, 12, 24, 48, os termos 6 e 24, 12 e 12 (12 é o termo
médio) são eqüidistantes dos extremos 3 e 48 e temos:
6 x 24 = 144 = 3 x 48
12 x 12 = 144= 3 x 48

3.2.4- Interpolação geométrica

Dados dois números reais a e b e um número natural m, podemos construir uma


P.G. finita de m + 2 termos, de modo que a seja seu primeiro termo e b seu
último termo, analogamente ao que consideramos para as P.A.s.
a......................b

m meios
geométricos

P.G. de m + 2 termos

Esse processo chama-se interpolação geométrica. Para resolver esse problema,


basta acharmos a razão q da P.G. resultante, em função de a, b e m.

Conforme a fórmula do termo geral, temos:


b = a . q[(m + 2) – 1] = a. q(m + 1)
b
Disso resulta: q (m +1) =
a
Esta última equação na incógnita q pode ter duas, uma ou nenhuma solução real,
conforme os exemplos abaixo.
14 de 14
Pol 1894 – Estatística Aplicada UNESA - Macaé

Exercícios resolvidos:
1) Interpolar três meios geométricos entre 4 e 64.
64
Solução: Temos q (3+1) = ⇒ q 4 = 16
4
Ocorrem, então, duas soluções para a incógnita q:
q = 2 e temos a P.G. 4, 8, 16, 32, 64
q = -2 e temos a P.G. 4, -8, 16, -32, 64

2) Interpolar quatro meios geométricos entre 1 e 32.


32
Solução: Temos q (4+1) = ⇒ q 5 = 32
1
Logo: q = 2 e temos a P.G. 1, 2, 4, 8, 64

3) Interpolar cinco meios geométricos entre 1 e -16.


− 16
Solução: Temos q (5+1) = ⇒ q 6 = −16
1
E esta equação não tem soluções reais, ou seja, não é possível
interpolar cinco meios geométricos (reais) entre 1 e -16.

Exercícios de Aprendizagem:
5) Numa P.G. em que o sexto termo vale 162 e o quarto termo, 18, o primeiro termo vale:
3 2
a) ± c) ± e) n.r.a
2 3
2 2
b) d)
3 5
1
6) O número de termos de uma P.G. cujo primeiro termo é , a razão é 2 e o último
2
termo vale 128 é:
a) 8 c) 10 e) n.r.a
b) 9 d) 7
7) A seqüência (x, x + 9, x + 45) é uma P.G. . O valor de x é:
a) 10 c) indeterminado e) n.r.a
b) +/- 3 d) 3
8) O número que se deve acrescentar aos termos da seqüência (-1, 3, 15) para se obter
uma P.G. é:
a) 3 c) 7 e) n.r.a
15 de 15
Pol 1894 – Estatística Aplicada UNESA - Macaé

b) 2 d) 4
1
9) Numa P.G. o primeiro termo é e o último, 27. Se a razão da P.G. é 3, o número de
9
termos é:
a) 5 c) 7 e) n.r.a
b) 6 d) 4

4- Distribuição de Freqüências

Entre as séries estatísticas, merece referência especial, a distribuição de freqüência.


Enquanto as apurações das demais séries – temporal, geográfica e especificativa – não
oferecem dificuldades, a distribuição de freqüência requer uma característica específica de
apuração, pois ela resulta de informações numéricas, bem mais diversificadas do que as
informações literais.

4.1- Dados Brutos (rol)

Vamos considerar as notas de 40 alunos de uma classe do ensino médio:

1 8 4 9 6,5 6 9 10 2 3
8,5 4 9 6 5 5,5 6,5 9 8 7
4,5 6 6,5 7,5 5 6 5,5 8 9 8
6 7 8 9 10 3 2,5 1,5 4 7

Colocando estes dados em ordem crescente, vamos obter uma nova tabela denominada
rol:

1 1,5 2 2,5 3 3 4 4 4 4,5


5 5 5,5 5,5 6 6 6 6 6 6,5
6,5 6,5 7 7 7 7,5 8 8 8 8
8 8,5 9 9 9 9 9 9 10 10

Podemos agora estabelecer a amplitude do rol, que é a diferença entre o maior e o menor
valor. No caso, temos 10 – 1 = 9 como amplitude do rol.
O número de vezes que um determinado valor se repete é denominado como freqüência
deste valor. Podemos então formular uma nova tabela onde a cada valor associamos a
sua freqüência:
Notas Freqüência
1 1
1,5 1
2 1
2,5 1
3 2
4 3
4,5 1
16 de 16
Pol 1894 – Estatística Aplicada UNESA - Macaé

5 2
5,5 2
6 5
6,5 3
7 3
7,5 1
8 5
8,5 1
9 6
10 2

A tabela continua ainda muito extensa. Vamos agrupar as notas de 0 a 2 (0 2,


fechado em 0 e aberto em 2, pois o mesmo não pertence ao intervalo), de 2 a 4 (2 4),
de 4 a 6 (4 6), 6 a 8 (6 8) e de 8 a 10 (8 10). Assim, temos:

Notas Freqüências
0 2 2
2 4 4
4 6 8
6 8 12
8 10 14

A esta tabela chamamos de distribuição de freqüências com intervalos de classe.


Podemos observar que esta última distribuição pode ser feita sem passar pela
distribuição intermediária.

Na distribuição feita temos cinco intervalos de classe (0 2, ..., 8 10). Cada


intervalo de classe tem amplitude 2 (2 – 0 = 4 – 2 = ... = 10 – 8).

Aos extremos de cada classe chamamos de limites, que podem ser inferior ou superior.
Assim, 0, 2, 4, 6 e 8 são limites inferiores, enquanto que 2, 4, 6, 8 e 10 são limites
superiores.

O ponto médio de cada intervalo de classe é obtido pela média aritmética dos limites
inferior e superior da classe. São pontos médios os valores 1, 3, 5, 7 e 9.

Temos também a freqüência relativa ou percentual (Fr), onde à freqüência de cada


classe associa-se o percentual que esta representa em relação à freqüência total.

Já a freqüência acumulada (Fa) de cada classe é dada pela soma das freqüências de
todas as classes desde a primeira até a classe considerada.

Exercício resolvido:=============================================

Sejam as alturas (em centímetros) de 25 alunos de uma determinada classe:

17 de 17
Pol 1894 – Estatística Aplicada UNESA - Macaé

150 159 157 151 152


156 153 163 159 175
162 162 164 158 159
164 168 166 160 162
170 169 174 165 167

a) Dispor os dados em ordem crescente.


b) Calcular a amplitude do rol.
c) Calcular a amplitude para cada intervalo de classe.
d) Achar a distribuição de freqüências com intervalos de classe, a freqüência relativa ou
percentual (Fr) e a freqüência acumulada (Fa).

Resolução:
a)
150 151 152 153 156
157 158 159 159 159
160 162 162 162 163
164 164 165 166 167
168 169 170 174 175

b) Amplitude do rol = 175 – 150 = 25 (diferença entre o maior e o menor valor)

c) Procuramos estabelecer um número razoável de classes, considerando que a


amplitude total é 25. Assim, podemos formar 5 classes (25 : 5 ). Embora o número
i de intervalos seja dado por i = 1 + 3,3 . log n, o aluno pode usar o bom senso para
cada caso. Temos então os intervalos de classe 150 155, 155 160,
160 165, 165 170 e 170 175.
d)
Alturas (cm) Freqüências
150 155 4
155 160 6
160 165 7
165 170 5
170 175 3
Freqüência relativa (%).
- de 150 155, vem:
25 – 100%
4 ⋅ 100
4 – x x= ⇒ x = 16%
25

- de 155 160, vem:


25 – 100%
6 ⋅ 100
6 – x x= ⇒ x = 24%
25

- de 160 165, vem:


18 de 18
Pol 1894 – Estatística Aplicada UNESA - Macaé

25 – 100%
7 ⋅ 100
7 – x x= ⇒ x = 28%
25

- de 165 170, vem:


25 – 100%
5 ⋅ 100
5 – x x= ⇒ x = 20%
25

- de 170 175, vem:


25 – 100%
3 ⋅ 100
3 – x x= ⇒ x = 12%
25

Freqüência acumulada.
- de 150 155, temos: 4
- de 155 160, temos: 4 + 6 = 10
- de 160 165, temos: 4 + 6 + 7 = 17
- de 165 170, temos: 4 + 6 + 7 + 5 = 22
- de 170 175, temos: 4 + 6 + 7 + 5 + 3 = 25
Logo:
Alturas (cm) Freqüências Fr (%) Fa
150 155 4 16 4
155 160 6 24 10
160 165 7 28 17
165 170 5 20 22
170 175 3 12 25

4.2- Histograma, Polígono de freqüências e Ogiva

O histograma e o polígono de freqüências são algumas das formas de se representar uma


distribuição de freqüências.

4.2.1- Histograma

O histograma é formado por retângulos justapostos, sendo o número de


retângulos igual ao número de intervalos de classe. A largura de cada retângulo é
igual à amplitude do intervalo de classe, enquanto sua altura representa a
freqüência do intervalo de classe.
A área do histograma é proporcional à soma das freqüências.
Vejamos o histograma para a distribuição de freqüências que segue:

19 de 19
Pol 1894 – Estatística Aplicada UNESA - Macaé

Pesos (kg) Freqüências


40 50 6
50 60 10
60 70 18
70 80 12
80 90 4

18 Frequência
40
16 6
50
14 10
60
12 18
70
10 12
80 4
8
90
6
4
2
0
40 50 60 70 80 90 Peso

4.2.2- Polígono de Freqüências

Trata-se de um gráfico de linha onde cada ponto é obtido considerando-se como


valor de x o ponto médio do intervalo de classe e como valor de y a respectiva
freqüência do intervalo. Consideramos também uma classe anterior à primeira e
outra posterior à última. Ligando todos os pontos temos o polígono de
freqüências.

Vamos observar o polígono de freqüências para a distribuição anterior, onde os


pontos médios dos intervalos são dados por 45, 55, 65, 75 e 85. Acrescentamos
os valos 35 e 95 para as classes anterior à primeira e posterior à última, com
freqüência nula.

f
18
35 0
16
45 6
14
55 10
12
65 18
10
75 12
8
85 4
6
95 0
4
2
x
0
5 15 25 35 45 55 65 75 85 95 105

20 de 20
Pol 1894 – Estatística Aplicada UNESA - Macaé

Da mesma forma que o histograma, o polígono de freqüências também apresenta


área proporcional à soma das freqüências.

O polígono de freqüências também pode ser obtido através dos pontos médios
das bases superiores dos retângulos do histograma, unidos aos pontos anterior à
primeira classe e posterior à última:

18 Frequência
40
16 6
50
14 10
60
12 18
70
10 12
80 4
8
90
6
4
2
0
40 50 60 70 80 90 Peso

4.2.3- Ogiva

Trata-se de um gráfico de linha, da mesma forma que o polígono de freqüências,


onde são consideradas as freqüências acumuladas. Veja o exemplo para a
distribuição dada:

Pesos (kg) Freqüências Fa


40 50 6 6
50 60 10 16
60 70 18 34
70 80 12 46
80 90 4 50
f
60
40 0
50 6
50
60 16
40
70 34
80
30 46
90 50
20

10
x
0
0 10 20 30 40 50 60 70 80 90 100

21 de 21
Pol 1894 – Estatística Aplicada UNESA - Macaé

Nas ogivas, por indicarem a freqüência acumulada, é anotada a freqüência nula


para o limite inferior da primeira classe e anotamos os limites superiores de todas
as classes, em ordem crescente, da primeira à última.

Exercícios de Aprendizagem:
10) Construa o histograma para as distribuições de freqüências a seguir:
a) b)
Pesos (kg) Freqüências Pesos (kg) Freqüências
0 10 3 100 120 3
10 20 8 120 140 5
20 30 11 140 160 10
30 40 7 160 180 12
40 50 3 180 200 8
200 220 7
220 240 5

11) Efetue os polígonos de freqüência para as distribuições do exercício anterior.

12) Construa as ogivas crescentes para as distribuições do exercício 10.

13) A representação gráfica de uma distribuição de freqüências, sem intervalos de classe, é


feita através de um gráfico onde cada valor da variável é anotado um segmento de reta
vertical a partir do eixo x e de comprimento proporcional à freqüência. Desta forma,
para a distribuição abaixo, temos:
Valor Freqüência
10 3
20 5
30 8
40 4
50 2
f
810 3
20 5
630 8
40 4

450 2

valor
0
0 10 20 30 40 50 60

Construa a representação gráfica das distribuições sem intervalo de classe:


22 de 22
Pol 1894 – Estatística Aplicada UNESA - Macaé

a) b)
Valor Freqüência Valor Freqüência
3 1 100 10
6 3 200 15
9 6 300 30
12 8 400 25
15 4 500 20
18 2 600 10

23 de 23
Pol 1894 – Estatística Aplicada UNESA - Macaé

5- Separatrizes

Separatriz (S) de uma série de N termos, X1, X2, X3, ..., XN, colocados em ordem crescente
(ou decrescente) de valor, é o termo da série que a divide em duas ou mais partes iguais.

As principais separatrizes são a mediana (que estudaremos a seguir), os quartis, os decis e os


percentis (ou centis). Outras separatrizes poderiam ser deduzidas, porém estas são as usuais.

Uma separatriz genérica é camada quantil.

Os quartis, decis e percentis são as separatrizes que dividem a série, respectivamente, em


quatro, dez e cem partes iguais.

Quartis: São representados por Q1, Q2 e Q3, sendo chamados, respectivamente, primeiro,
segundo e terceiro quartil.
Primeiro quartil (Q1) de uma série ordenada de modo crescente (ou decrescente), é
o termo da série que é precedido por 25% dos termos (N/4) e seguido pelos
restantes 75% (3N/4).

Decis: São representados por D1, D2 , ... , D9, sendo chamados, respectivamente, primeiro,
segundo, ... , nono decil.
Primeiro decil (D1) de uma série ordenada de modo crescente (ou decrescente), é o
termo da série que é precedido por 10% dos termos (N/10) e seguido pelos restantes
90% (9N/10).

Percentis: São representados por P1, P2 , ... , P99, sendo chamados, respectivamente, primeiro,
segundo, ... , nonagésimo nono percentil.
Primeiro percentil (P1) de uma série ordenada de modo crescente (ou decrescente),
é o termo da série que é precedido por 1% dos termos (N/100) e seguido pelos
restantes 99% (99N/100).

Cálculo das Separatrizes para Dados Agrupados em Classes de Freqüência

A fórmula geral de cálculo, semelhante à fórmula da mediana, é:

P −' Fa
S = Li + ⋅h
F

Onde: S = separatriz desejada (mediana, quartil, decil ou percentil)


Li = limite inferior da classe que contém a separatriz
P = posição da separatriz
‘Fa= freqüência acumulada da classe vizinha anterior à classe que contém a
separatriz
F = freqüência da classe que contém a separatriz
h = amplitude da classe que contém a separatriz

Determinamos a posição (P) de uma separatriz como se segue:


24 de 24
Pol 1894 – Estatística Aplicada UNESA - Macaé

Para os quatis: primeiro quartil (Q1): P = N/4


segundo quartil (Q1): P = 2N/4
terceiro quartil (Q1): P = 3N/4
N
Genericamente para um quartil de ordem i, temos: P = i ⋅
4
Onde: i = 1, 2 ou 3, conforme se tratar, respectivamente, do primeiro,
segundo ou terceiro quartil.

Para os decis: Genericamente para um decil de ordem i, similar ao apresentado para o


N
quartil, temos: P = i ⋅
10
Onde: i = 1, 2, ... , 9, conforme se tratar, respectivamente, do primeiro,
segundo, ... , nono decil.

Para os percentis:Genericamente para um percentil de ordem i, similar ao apresentado para o


N
quartil, temos: P = i ⋅
100
Onde: i = 1, 2, ... , 99, conforme se tratar, respectivamente, do primeiro,
segundo, ... , nonagésimo nono percentil.

Para facilitar o cálculo analítico de uma separatriz, apresentamos como roteiro:


a) Compor coluna auxiliar de freqüência acumulada (Fa);
b) Determinar a posição (P) da separatriz usando uma das fórmulas acima, no caso de
calcularmos, respectivamente, quartis, decis, percentis ou a mediana;
c) Com o auxílio dos itens anteriores, localizar a classe que contém a separatriz;
d) Usar a fórmula geral, observando que:
- não é recomendável usar aproximações numéricas para o valor da posição (P) da
separatriz;
- quando a separatriz se situar na primeira classe, a freqüência acumulada da classe
anterior à mesma será nula, isto é, ‘Fa= 0.

Ordem Percentílica(OP)

Chama-se ordem percentílica (OP) o índice do percentil. É um número que indica o


percentual de elementos de uma série ordenada de modo crescente, que é inferior à separatriz
correspondente. Assim, por exemplo, se para uma distribuição de ganhos horários,
encontramos: Me = R$ 18,50/h, Q3 = R$ 12,50/h, P84 = R$ 11,71/h e D7 = R$ 18,67/h, temos,
para as separatrizes, ordens percentílicas, respectivamente iguais a, 50, 75, 84 e 70, o que nos
permite afirmar:
- que 50% dos empregados percebem salários inferiores (ou superiores) a R$ 18,50/h;
- que 75% dos empregados ganham menos de R$ 12,50/h (ou que 25% deles recebem mais
que esse valor);
- que 84% dos empregados ganham menos de R$ 11,71/h (ou que 16% deles recebem mais
que esse valor);
- que 70% dos servidores ganham menos de R$ 18,67/h (ou que 30% deles recebem mais
que esse valor);
25 de 25
Pol 1894 – Estatística Aplicada UNESA - Macaé

6- Medidas de Tendência Central

Dentre as medidas de uma distribuição, a média aritmética (Ma), a mediana (Md) e a moda
(Mo) ocupam especial posição. Em aplicações específicas podemos também utilizar a média
geométrica (Mg). São medidas de tendência central, devido ao fato de ocuparem posições
centrais numa distribuição.

6.1- Média aritmética (Ma)

É o quociente da divisão da soma dos valores pelo número de elementos.


Se x1, x2, x3, ..., xn são elementos, então:

∑x i
Ma = i =1

A média aritmética para dados não agrupados é a média aritmética simples dos
elementos.

Exemplo: Para os elementos 1, 3, 4, 6, 7 e 9, temos:

1 + 3 + 4 + 6 + 7 + 9 30
Ma = = =5
6 6

Às vezes, determinados valores de uma série são mais importantes que os demais,
merecendo, por isso mesmo, um tratamento especial.
Assim sendo, média aritmética ponderada (Map) de uma série de valores x1, x2, x3, ...,
xn é, por definição, a relação entre a soma dos produtos de cada valor da série pelo
respectivo peso (p) e a soma dos pesos, ou seja:

∑p x i i
M ap = i =1
n

∑p
i =1
i

Exemplo: Para os elementos 4, 2 e 5 com pesos respectivos de 3, 2 e 4, temos:

M ap =
(3 × 4) + (2 × 2) + (4 × 5) = 36 = 4
3+ 2+ 4 9

Exercícios resolvidos:=============================================
a) Com a finalidade de obrigar sua turma a resolver exercícios, um professor de
Estatística propõe um trabalho para ser feito em casa, trabalho esse que deverá ser
anexado à prova do mês. Se a prova e trabalho tiverem pesos 4 e 1,
26 de 26
Pol 1894 – Estatística Aplicada UNESA - Macaé

respectivamente, e se um aluno tirar grau 7 na prova e 9 no trabalho, qual será a


nota mensal desse aluno?

p1 x 1 + p 2 x 2 (4 × 7 ) + (1 × 9 ) 28 + 9 37
Resolução: M ap = = = = = 7, 4
p1 + p 2 4 +1 5 5
Devemos notar que a nota mensal (7,4) se aproximou da nota da
prova (7), porque esta recebeu o maior peso.

b) Suponhamos um caso semelhante ao do exercício anterior: prova com peso 4 e


trabalho com peso 1.
Se o aluno tirar 4 no trabalho mas desejar elevar a média mensal para 8 pontos, que
grau ele precisará tirar na prova?
p1 x 1 + p 2 x 2 (4 × x 1 ) + (1 × 4)
Resolução: M ap = ⇒8= ⇒ 8 × 5 = 4x 1 + 4 ⇒ x 1 = 9
p1 + p 2 4 +1
Logo, se o aluno tirar 9 na prova, conseguirá grau 8 na média
mensal.

Média Aritmética para uma Distribuição de Freqüências

• Sem intervalos de classe

Se os elementos x1, x2, ..., xn apresentam, respectivamente, freqüências f1, f2, ..., fn ,
então:
n

∑f x i i
Ma = i =1
n

∑f
i −1
i

Trata-se da média aritmética ponderada.

Exemplo:
Notas Freqüências (fi)
2 4
3 5
6 8
7 8
8 6

∑f x
i =1
i i
(2 ⋅ 4) + (3 ⋅ 5) + (6 ⋅ 8) + (7 ⋅ 8) + (8 ⋅ 6) = 175 ⇒ M
Temos: Ma = = a = 5,64
n
4+5+8+8+6 31
∑f
i =1
i

27 de 27
Pol 1894 – Estatística Aplicada UNESA - Macaé

• Com intervalo de classe

Neste caso, consideramos todos os valores de um determinado intervalo como


coincidentes com o ponto médio (mi) do intervalo.

∑f m i i
Temos então: Ma = i =1
n

∑f i =1
i

Exemplo:

Notas Freqüências (fi) Ponto médio (mi) fi . mi


0 2 3 1 3
2 4 5 3 15
4 6 18 5 90
6 8 14 7 98
8 10 10 9 90
∑ f i = 50 ∑ f i m i = 296
n

∑f m i i
296
Assim: Ma = i =1
n
= ⇒ M a = 5,92
50
∑f i =1
i

6.2- Média geométrica (Mg)

Média geométrica (Mg) de uma série de valores x1, x2, x3, ..., xn é, por definição, a raiz
do índice n do produto desses valores, ou seja:
n
M g = n x 1 ⋅ x 2 ⋅ ... ⋅ x n ⇒ M g = n ∏x
i =1
i

Ou simplesmente :
Mg = n ∏X

Exemplo: Calcular a média geométrica dos números:


a) 1 e 4
M g = 1× 4 = 2

28 de 28
Pol 1894 – Estatística Aplicada UNESA - Macaé

b) 4 e 16
M g = 4 × 16 = 8
c) 1, 9 e 81

M g = 3 1 × 9 × 81 = 3 729 = 9

Devemos notar que, no exemplo, apresentamos números que propositadamente nos


conduziram à extração de raízes bem simples. No entanto, em grande parte de exercícios
sobre o cálculo da média geométrica (principalmente quando tivermos três ou mais
valores), somos induzidos a utilizar logaritmos*, o que não faremos para não nos
afastarmos de nossa finalidade.
Como aplicações importantes da média geométrica, podemos citar a estimativa do
crescimento demográfico e o cálculo do índice do custo de vida.

(*) Apenas como informação, apresentamos a fórmula da média geométrica para logaritmos:

Se M g = n ∏ X , então :
log ∏ X = log(x ⋅ x 2 ⋅ ... ⋅ x n )
log M g = log n ∏X = n
1
n
=

log x 1 + log x 2 + ... + log x n 1


=
n
⇒ log M g =
n ∑ log X ⇒

1
⇒ M g = ant. log
n ∑ log X

6.3- Mediana (Md)

Mediana para dados não agrupados

Dispondo os elementos em ordem crescente, a mediana é o valor intermediário ou a


média aritmética dos valores intermediários.

Exemplos: a) A mediana para o conjunto de valores 2, 3, 4, 5, 7, 8 e 10 é Md = 5, pois


teremos três valores menores que 5 e três maiores que 5.

b) A mediana para o conjunto de valores 2, 3, 4, 5, 6, 7, 8 e 9 é Md = 5,5 ,


ou seja, a média aritmética dos dois valores intermediários (5 e 6).

Observações:
Se o número de elementos é ímpar, existe um único valor intermediário, que é a
mediana.

29 de 29
Pol 1894 – Estatística Aplicada UNESA - Macaé

Se o número de elementos é par, existem dois valores intermediários. Neste caso,


convencionou-se calcular a média aritmética dos dois valores centrais para a
determinação da mediana.

Só devemos aplicar o que foi dito acima para a posição da mediana, seja o número de
elementos par ou ímpar, no caso de séries constituídas de dados isolados ou de dados
repetidos, o mesmo não acontecendo para o caso de dados agrupados em classes,
conforme veremos adiante.

Mediana para uma distribuição de freqüências

• Sem intervalos de classe

Basta considerar a freqüência acumulada e localizar o elemento intermediário.

Exemplo: Observe a distribuição abaixo:

Salários fi Fa
100 15 15
120 12 27
150 10 37
180 8 45
200 6 51
∑f
∑f
i
Como i = 51, então := 25,5
2
Assim, a mediana é um valor entre o 25º e o 26º elementos. Estes valores
ocorrem com o salário 12.
Portanto: Md = 120

• Com intervalos de classe

Devemos inicialmente localizar a classe mediana, ou seja, a que contém o elemento


∑ f i . Em seguida, calculamos seu valor utilizando a fórmula:
2
 ∑ fi 
 − Fant 
 2 
Md = ld +   ⋅h
d
fd

onde:
ld : limite inferior da classe mediana
Fant: soma das freqüências das classes anteriores à classe mediana
hd: amplitude da classe mediana
fd: freqüência da classe mediana

30 de 30
Pol 1894 – Estatística Aplicada UNESA - Macaé

Exercício resolvido:==============================================

Calcular a mediana para a seguinte distribuição:

Salários fi Fa
100 120 30 30
120 140 28 58
140 160 22 80
160 180 14 94
180 200 6 100

Resolução:

Temos:
∑f i = 30 + 28 + 22 + 14 + 6 ⇒ ∑ f i = 100

Como:
∑f i
=
100
= 50 , então a classe mediana é a segunda.
2 2
Assim:
ld : 120
Fant: 30
hd: 20
fd: 28
 ∑ fi 
 − Fant 
 2 
M = l +   ⋅ h ⇒ M = 120 + (50 − 30) ⋅ 20 ⇒ M = 134,28
Logo: d d d d d
fd 28

6.4- Moda (Mo)

A moda de um conjunto de elementos é o elemento que ocorre com maior freqüência.

Um conjunto de elementos pode ter uma moda, mais de uma ou não ter moda.

Exemplos: a) A moda do conjunto de números 2, 3, 4, 4, 5, 6, 6, 6, 7 e 8 é Mo = 6, que


ocorre com freqüência 3.

b) No conjunto 2, 3, 3, 4, 5, 5, 6, 7, 7 e 8, temos os números 3, 5 e 7 com


freqüência 2. Temos, portanto, três modas, que são 3, 5 e 7.

c) O conjunto de números 2, 3, 4, 6, 8 e 9 não tem nenhum elemento com


freqüência maior que os demais. Portanto, não tem moda.

Moda para uma distribuição de freqüências

31 de 31
Pol 1894 – Estatística Aplicada UNESA - Macaé

A classe modal é a classe que apresenta maior freqüência. Consideramos como moda de
uma distribuição de freqüências o valor compreendido entre os limites da classe modal.
Tal valor, pelo processo de Czuber, é dado por:

∆1
Mo = lo + ⋅h
(∆ 1 + ∆ 2 ) o
onde:
lo : limite inferior da classe modal
ho: amplitude da classe mediana
∆1: freqüência da classe modal menos freqüência da classe anterior à modal
∆2: freqüência da classe modal menos freqüência da classe posterior à modal

Exercício resolvido:==============================================

Calcular a moda para a distribuição de freqüências que apresenta tempos gastos por
jogadores de um clube para percorrer uma distância:

Tempos (s) fia


10 12 3
12 14 4
14 16 7
16 18 12
18 20 6

Resolução:

A classe modal é a quarta classe, pois tem maior freqüência, logo:


- l.o = 16 (limite inferior da classe modal)
- ∆1 = 12 – 7 = 5 (freqüência da classe modal menos a freqüência anterior)
- ∆2 = 12 – 6 = 6 (freqüência da classe modal menos a freqüência posterior)
- ho = 18 – 16 = 2 (amplitude da classe modal)
∆1 ⋅ h o 5⋅2
Então: M o = l o + ⇒ M o = 16 + ⇒ M o = 16 + 0,91 ⇒ M o = 16,91
(∆1 + ∆ 2 ) (5 + 6)

Exercícios de Aprendizagem:
14) Um jogador de futebol controlou a bola com os pés sem derrubá-la, conseguindo os
seguintes números de vezes: 23, 43, 16, 26, 49, 15, 58, 68, 71 e 114. Determine:
a) a amplitude do rol
b) a média aritmética
c) a mediana
32 de 32
Pol 1894 – Estatística Aplicada UNESA - Macaé

d) a moda

15) A distribuição dada apresenta os pares de calçados vendidos numa loja em um


determinado dia, de acordo com o número usado de uma certa marca. Calcule a média
aritmética, moda e mediana.
Número Usado Freqüência
36 1
37 2
38 5
39 9
40 11
41 8
42 4
43 1

16) Calcule a média, moda e mediana para as notas da distribuição dada:

Notas Freqüências
0 2 2
2 4 5
4 6 15
6 8 12
8 10 6

17) Calcule a média e a mediana para a distribuição que apresenta os salários de uma
empresa:

Salários fi
100 150 13
150 200 10
200 250 8
250 300 5
300 350 3
350 400 2

18) A tabela abaixo apresenta a duração, em horas, de uma determinada lâmpada. Calcule a
média, moda e mediana.

Número de horas fi
100 200 15
200 300 25
300 400 40
400 500 32
500 600 8
33 de 33
Pol 1894 – Estatística Aplicada UNESA - Macaé

19) A distribuição de freqüência nos fornece, por faixa etária, a freqüência com que ocorre
determinada doença, para um grupo de 100 pessoas estudadas, com idade entre 16 e 48
anos. Calcule a média, moda e mediana.

Idade fi
16 20 9
20 24 18
24 28 26
28 32 14
32 36 10
36 40 9
40 44 8
44 48 9
∑ f i = 100

34 de 34
Pol 1894 – Estatística Aplicada UNESA - Macaé

7- Medidas de Dispersão

A média, a mediana e a moda são valores centrais de uma distribuição de freqüências.


Sejam quatro grupos de alunos com as seguintes notas:

Grupo A: 7, 7, 7, 7 e 7.
Grupo B: 5, 6, 7, 8 e 9.
Grupo C: 4, 5, 7, 9 e 10
Grupo D: 0, 5, 10, 10 e 10.

Para representarmos cada grupo, podemos calcular a sua respectiva média aritmética,
encontrando:

Ma(A) = Ma(B) = Ma(C) = Ma(D) = 7

Vemos assim que apesar de constituídos de valores diferentes, os grupos revelam uma mesma
média aritmética.
Observando-os mais detalhadamente, notamos que em cada grupo as notas se distribuem
diferentemente em relação à sua média 7. Necessitamos assim de uma medida estatística
complementar para melhor caracterizar cada conjunto apresentado.

As medidas estatísticas responsáveis pela variação ou dispersão dos valores de uma série são
as chamadas medidas de dispersão, que nos mostram como se distribuem os dados em torno
de um valor central. A amplitude total, o desvio médio, o desvio padrão, a variância e o
coeficiente de variação são as medidas de dispersão mais usadas. Em princípio, diremos que
entre duas ou mais séries, a mais dispersa (ou menos homogênea) é aquela que tem a maior
medida de dispersão.

7.1- Amplitude Total

A amplitude ou intervalo total (It) é definida como a diferença entre o maior e o menor
valor ocorridos numa determinada série .
A amplitude nos dá idéia do campo de variação dos valores da série.
Para os grupos de notas apresentados anteriormente, temos:

Grupo A: It = 7 – 7 = 0
Grupo B: It = 9 – 5 = 2
Grupo C: It = 10 – 4 = 6
Grupo D: It = 10 – 0 = 10

Se considerarmos uma distribuição de freqüências com os seguintes intervalos:

160 170
170 180
180 190
190 200

35 de 35
Pol 1894 – Estatística Aplicada UNESA - Macaé

A amplitude total é igual a 200 – 160 = 40, ou seja, a diferença entre o maior limite
superior e o menor limite inferior.

7.2- Desvio Médio (dm)

Para um conjunto de números x1, x2, ... , xn, de média aritmética Ma, definimos o desvio
médio (dm) por:

dm =
∑x i − Ma
n

E para uma distribuição de freqüências de média aritmética Ma, definimos o desvio


médio (dm) por:

dm =
∑f i mi − Ma
∑f i

Exercícios resolvidos:==============================================

a) Calcular o desvio médio para os números 2, 3, 4, 5, 7, 8 e 13.

Solução:

Ma =
∑x i
⇒ Ma =
2 + 3 + 4 + 5 + 7 + 8 + 13
⇒ Ma =
42
⇒ Ma = 6
n 7 7

Mas:
∑ x i − M a = 2 − 6 + 3 − 6 + 4 − 6 + 5 − 6 + 7 − 6 + 8 − 6 + 13 − 6 ⇒
⇒ ∑ x i − M a = 4 + 3 + 2 + 1 + 1 + 2 + 7 ⇒ ∑ x i − M a = 20

Logo:
20
dm = ⇒ d m = 2,87
7

b) Calcular o desvio médio para a duração de uma determinada lâmpada:

Número de horas fi
100 200 15
200 300 25
300 400 40
400 500 32
500 600 8

Solução:
36 de 36
Pol 1894 – Estatística Aplicada UNESA - Macaé

Para calcularmos a média aritmética, precisamos encontrar os valores médios (mi)


e os produtos (fimi). Assim:

Número de horas fi mi fi.mi


100 200 15 150 2 250
200 300 25 250 6 250
300 400 40 350 14 000
400 500 32 450 14 400
500 600 8 550 4 400
∑f i = 120 ∑f m i i = 41300

Então:

Ma =
∑f mi i
⇒ Ma =
41300
⇒ M a = 344,17
∑f i 120

Para calcularmos o desvio médio, precisamos de mais duas colunas:


mi − Ma e fi mi − Ma

No. de horas fi mi fi.mi mi − Ma fi mi − Ma


100 200 15 150 2 250 194,17 2912,55
200 300 25 250 6 250 94,17 2354,25
300 400 40 350 14 000 5,83 233,20
400 500 32 450 14 400 105,83 3386,56
500 600 8 550 4 400 205,83 1646,64
∑f i = 120 ∑f m i i = 41300 10 533,20

∑f i mi − M a 10533,20
Logo: d m = ⇒ dm = ⇒ d m = 87,78
∑f i 120

7.3- Desvio Padrão (σ)

É a mais usada e também a mais importante das medidas de dispersão. Assim como o
desvio médio, o desvio padrão, representado por σ (letra grega sigma, minúscula),
determina a dispersão dos valores em torno da média.
O desvio padrão facilita a interpretação dos dados, pois é expresso na mesma unidade
dos valores observados. É dado pela seguinte fórmula:

∑ (d )
2
i
σ= , onde : d i = x i - M a
n

37 de 37
Pol 1894 – Estatística Aplicada UNESA - Macaé

Ou seja: di é o desvio de cada elemento de uma série em relação à média aritmética


da série considerada.

Para uma distribuição de freqüências, seguimos o mesmo raciocínio já desenvolvido


anteriormente, ou seja, utilizamos o desvio do valor médio de cada intervalo em relação
à média aritmética da distribuição considerada. Assim, a fórmula do desvio padrão para
uma distribuição de freqüências será:

∑ (d )
2
i
σ= , onde : d i = f i m i - M a
∑f i

∑ f (m )  ∑ fimi
2
2

− 
i i
σ=
Logo: ∑f i
 ∑f
 i

Exercício resolvido ==============================================

Calcular o desvio padrão da distribuição dada:

Custo fi
50 60 3
60 70 5
70 80 8
80 90 4

Solução:
Vamos precisar das colunas mi, fimi e fi(mi)². Assim:

Custo fi mi f im i fi(mi)²
50 60 3 55 165 9075
60 70 5 65 325 21125
70 80 8 75 600 45000
80 90 4 85 340 .28900
∑ f i m i = 1430 ∑ f i (m i ) 2 = 104100

∑ f (m )  ∑ fimi
2
2
 2

σ=
i i
−  ⇒ σ = 104100 −  1430  ⇒ σ = 5204 − 5112,25 ⇒
∑f i
 ∑f
 i

 20  20 
⇒ σ = 92,75 ⇒ σ = 9,63

Obs.: A distribuição dada tem média Ma = 71,50.

38 de 38
Pol 1894 – Estatística Aplicada UNESA - Macaé

Estudos mostram que, para determinadas distribuições chamadas normais,


entre os valores Ma – σ e Ma + σ temos 68,26% dos elementos da
distribuição.

7.4- Variância (σ²)

Variância de uma série é o quadrado do desvio padrão dessa série.

A idéia básica da variância é tomar os desvios dos valores xi em relação à média


aritmética (xi – Ma). Como a soma dos desvios é igual a zero (por uma propriedade da
média), uma opção possível, então, é considerar o total dos quadrados dos desvios e
expressar a variância como a média dos quadrados dos desvios, ou seja:

∑ (x i − M a )2
n

A variância é representada por σ² e suas fórmulas de cálculo são as mesmas vistas


anteriormente para o desvio padrão, porém elevadas ao quadrado, isto é:

∑ f (m )  ∑ fimi
2
2

− 
i i
σ 2
=
∑f i
 ∑f
 i

Em outras palavras, a variância exige o mesmo cuidado observado para o cálculo do


desvio padrão, dispensando a extração da raiz quadrada, o que vem abreviar um pouco a
exaustão de operações.

Embora a variância seja suficiente para diferenciar a dispersão de uma série, não é
possível expressá-la na mesma unidade dos valores da variável, uma vez que os desvios
são elevados ao quadrado.

Exemplos: a) Se o desvio padrão de uma série for 8cm, sua variância será igual a
(8cm).(8cm) = 64 cm².
b) Se o desvio padrão de uma série for 18 ≅ 4,2kg , sua variância será
igual a 18 kg² ( e não 4,2kg × 4,2kg ≅ 17,6kg 2 ) .

7.5- Coeficiente de Variação (V)

Até o momento estudamos medidas absolutas de dispersão cujas unidades de medida,


com exceção da variância, são as mesmas dos termos da série.

Sejam as distribuições de pesos e estaturas com as seguintes características:

Distribuição de pesos: Ma = 57,7 kg e σ = 7,5 kg


39 de 39
Pol 1894 – Estatística Aplicada UNESA - Macaé

Distribuição de estaturas: Ma = 170,0 cm e σ = 7,1 cm.

Como não há muito sentido no fato de compararmos unidades diferentes, como, por
exemplo, kg com cm, definimos o coeficiente de variação, que é uma medida relativa de
dispersão. O coeficiente de variação (V) mede percentualmente a relação entre o desvio
padrão e a média aritmética, sendo, pois, uma medida adimensional.

σ
Sua expressão de cálculo é: V = 100 ⋅
Ma

Onde: V = coeficiente de variação (%);


σ = desvio padrão;
Ma = média aritmética (diferente de zero).

Para as distribuições de pesos e estaturas acima, temos:

7,5
Distribuição de pesos: V = 100 ⋅ ⇒ V = 12,99 ⇒ V ≅ 13,0 %
57,7
7 ,1
Distribuição de estaturas: V = 100 ⋅ ⇒ V = 4 ,17 ⇒ V ≅ 4 , 2 %
170

Vemos, assim, que a distribuição de estatura é mais homogênea (menos dispersa) que a
de pesos.

Como desvantagem, podemos citar a impossibilidade de usarmos o coeficiente de


variação em séries com médias nulas, e sua inconveniência quando as médias das séries
são próximas de zero (quando ele se altera enormemente).

40 de 40
Pol 1894 – Estatística Aplicada UNESA - Macaé

Exercícios de Aprendizagem:
20) Calcule o desvio médio e o desvio padrão para as seguintes distribuições:
a)
Salários fi
100 150 13
150 200 10
200 250 8
250 300 5
300 350 3
350 400 2
b)
Notas fi
0 2 2
2 4 5
4 6 15
6 8 12
8 10 6

c)
Número de horas fi
100 200 15
200 300 25
300 400 40
400 500 32
500 600 8

21) Para a distribuição das notas abaixo, determine:


a) O histograma e o polígono se freqüências;
b) A média aritmética;
c) A moda;
d) A mediana;
e) O desvio médio;
f) O desvio padrão;
g) Ma – σ e Ma + σ

Notas fi
0 2 2
2 4 3
4 6 8
6 8 5
8 10 2

22) Para a distribuição das freqüências a seguir, determine:


a) O histograma e o polígono de freqüências;
41 de 41
Pol 1894 – Estatística Aplicada UNESA - Macaé

b) A média aritmética;
c) A moda;
d) A mediana;
e) O desvio médio;
f) O desvio padrão;
g) Ma – σ e M a + σ

Intervalos Frequência
1 5 3
5 9 5
9 13 8
13 17 15
17 21 11
21 25 8

23) Determine a média aritmética, a mediana, a moda, os desvios médio e padrão para a
distribuição abaixo:
Custo fi
10 20 3
20 30 8
30 40 12
40 50 7

24) Calcular o desvio médio dos números:


a) 1, 3, 4 e 8.
b) 12, 10, 20, 13 e 15
c) 9, 9, 9, 9, 9, 9 e 9

25) Calcular o desvio padrão dos números correspondentes ao exercício anterior:

26) Calcular o desvio padrão dos seguintes dados de pesos em quilogramas, de dois grupos
(A e B) de alunas, dizendo, ainda com base no cálculo, qual o grupo mais homogêneo
(ou menos disperso).
Grupo A: 43, 45, 52, 54 e 56 Grupo B: 46, 53, 58, 60 e 66

27) Calcular o desvio padrão para as seguintes distribuições:


a) Notas obtidas na prova P:
Notas fi
0 2 4
2 4 13
4 6 17
6 8 18
8 10 8
∑ f i = 60

b) Notas obtidas na prova P:


42 de 42
Pol 1894 – Estatística Aplicada UNESA - Macaé

Notas fi
0 1 1
1 2 3
2 3 7
3 4 6
4 5 7
5 6 10
6 7 8
7 8 10
8 9 6
9 10 2
∑ f i = 60
c) Número de alunos da turma por classe de notas:
Notas fi
40 50 3
50 60 9
60 70 9
70 80 10
80 90 10
90 100 5
100 110 6
110 120 4
120 130 3
130 140 1
∑ f i = 60

28) Dados de peso de 140 universitários, separados por sexo, revelaram após tabulação e
cálculos:
Grupo 1 Grupo 2
(sexo masculino) (sexo feminino)
- número de componentes: 50 90
- peso médio: 65,4 kg 52,6 kg
- desvio padrão: 8,9 kg 6,2 kg

Pede-se o peso médio e o desvio padrão das duas distribuições consideradas em


conjunto.

29) Calcular a variância das distribuições que revelaram os seguintes desvios padrões:

a) 8,9 kg b) 6,2 kg c) 2,2 d) 5,4 cm

30) Calcule o coeficiente de variação para as distribuições do exercício 27.

43 de 43
Pol 1894 – Estatística Aplicada UNESA - Macaé

8- Relação Entre Duas ou Mais Variáveis

Tudo o que se move é movido por outro.


São Tomáz de Aquino

8.1- Introdução

Na prática, quase sempre interessa-nos estudar muito mais do que uma simples
característica isolada de uma variável, como, por exemplo, sua média. O que queremos
saber é como a variável está relacionada com outras variáveis: é isto o que os estatísticos
chamam de regressão.

Por exemplo: Os pesos dos adultos do sexo masculino dependem, em certo grau, de
suas alturas; as circunferências de círculos dependem de seus raios; a
pressão de uma determinada massa de gás depende de sua temperatura e
de seu volume. Podemos ainda, através de uma pesquisa de clima em uma
determinada empresa, relacionar o grau de satisfação dos empregados
com os níveis salariais, benefícios oferecidos pela empresa, etc.

Deseja-se, frequentemente, expressar essa relação sob forma matemática, por meio do
estabelecimento de uma equação que ligue as variáveis.

A título de ilustração, consideremos como a safra de trigo depende da quantidade de


fertilizante.
O gráfico da safra Y correspondente às várias quantidades de fertilizante X aplicadas dá
um diagrama como o da figura a seguir. Por ali se vê que a quantidade de fertilizante
realmente afeta a produção. Pode-se, além disso, descrever como afeta, ajustando a
curva ao diagrama.

Neste caso mais simples, a variável Y está relacionada com uma única variável X por
uma linha reta – é a chamada regressão simples de Y sobre X.

Como a safra Y depende do fertilizante, é chamada variável dependente, ou variável


resposta. E como a aplicação de fertilizante não depende da safra, sendo, ao contrário,
determinada pelo pesquisador, ela é chamada variável independente, ou fator, ou
regressor X. O exemplo abaixo ilustra a situação.

Exemplo 1:Em um estudo sobre como a safra de trigo depende do fertilizante,


suponhamos que dispomos de fundos para apenas sete observações
experimentais. O pesquisador fixa então X em sete níveis diferentes, fazendo
apenas uma observação Y em cada caso, conforme a seguir:

a) Faça o gráfico desses pontos e ajuste a olho uma curva.


b) Use esta curva para prever a safra, no caso de aplicação de 400 kg de
fertilizante.

Observações sobre Fertilizantes e Safra (1 Ha = 10.000 m2)


44 de 44
Pol 1894 – Estatística Aplicada UNESA - Macaé

X Y
Fertilizante Safra
(kg/Ha) (ton./Ha)
100 40
200 50
300 50
400 70
500 65
600 65
700 80

X Y
Fertilizante Safra Observações sobre Fertilizante e Safra
(kg/Ha) (ton./Ha)
100 40 90
200 50 80

Y Safra (ton./Ha)
300 50 70
400 70 60
500 65 50
600 65
40
700 80
30
0 100 200 300 400 500 600 700 800
X Fertilizante (kg/Ha)

Solução:a) A figura acima apresenta o diagrama das observações. A reta


ajustada a olho deve aproximar-se da reta ali traçada.

b) Com uma aplicação de X = 400 kg de fertilizante, a safra


prevista é a altura Y’ = 60 ton. exibida na reta da figura. Tem
especial interesse o desvio do valor efetivo de Y em relação ao
valor previsto Y’. Denotando-o por d, podemos escrever:

d = Y – Y’

A grosso modo procuramos manter todos esses desvios tão


pequenos quanto possível ao escolher a olho a nossa reta.

Até que ponto é válido um ajustamento a olho tal como o utilizado no exemplo anterior?

Se todos os pontos estivessem exatamente sobre uma reta, poderíamos traçar a reta
ajustada com precisão total. Mas, ao considerarmos o caso de maior dispersão exibido
no exemplo anterior, precisamos achar um novo método – mais objetivo e de cálculo
fácil, ou seja, estabelecermos fórmulas algébricas para o ajustamento de uma reta.

45 de 45
Pol 1894 – Estatística Aplicada UNESA - Macaé

8.2- Ajustamento de Uma Reta de Mínimos Quadrados

8.2.1- O critério dos mínimos quadrados

Nosso objetivo é ajustar algebricamente uma reta, cuja equação é da forma:

Y = a + bX

Ou seja, devemos encontrar uma expressão para o coeficiente angular b e para o


intercepto a. Ao ajustar esta reta, um objetivo razoável é manter os desvios d “tão
pequenos quanto possível”. Como alguns pontos estão acima da reta e outros
abaixo dela, alguns desvios d serão positivos e outros negativos, fazendo com
que o Σ d seja praticamente zero. Para superar este problema, elevamos
estes desvios ao quadrado, tornando-os todos positivos, e somamo-los em
seguida, obtendo o critério dos mínimos quadrados:

minimizar ∑d 2
= ∑ (Y − Y) 2

Este critério permite selecionar uma reta única de ajustamento, chamada reta de
mínimos quadrados.

8.2.2- Fórmulas de mínimos quadrados

A fórmula de mínimos quadrados para o coeficiente angular b é extremamente


simples:

b=
∑ ( X − X) ⋅ ( Y − Y )
∑ ( X − X) 2
Como os desvios ( X − X) e ( Y − Y ) aparecem com grande frequência, convém
representá-los por notações abreviadas:

( X − X) = x
(Y − Y) = y

Com esta notação podemos simplificar a fórmula de b acima:

b=
∑ xy
∑x 2

Calculado b, podemos obter o intercepto a mediante outra fórmula simples:

a = Y − bX

46 de 46
Pol 1894 – Estatística Aplicada UNESA - Macaé

Ajustamento de uma Reta de Mínimos Quadrados aos dados do exemplo anterior

Dados Forma do Desvio Produtos


X Y x = ( X − X) y = (Y − Y) xy x2
100 40 -300 -20 6000 90000
200 50 -200 -10 2000 40000
300 50 -100 -10 1000 10000
400 70 0 10 0 0
500 65 100 5 500 10000
600 65 200 5 1000 40000
700 80 300 20 6000 90000
X = 400 Y = 60 ∑= 0 ∑= 0 ∑ = 16500 ∑ = 280000
Com os valores de xy e x2 da tabela acima, podemos calcular b:

b=
∑ xy ⇒ b = 16500 ⇒ b = 0,059
∑x 2
280000

Com o auxílio do valor de b (juntamente com X e Y calculados nas duas


primeiras colunas da tabela acima), calculamos o intercepto a:

a = Y − b X ⇒ a = 60 − 0,059(400) ⇒ a = 36,4

Logo, a equação da reta de mínimos quadrados será: Y = 36,4 + 0,059X

Podemos traçar o gráfico da equação acima e verificarmos que a reta obtida está
tão próxima da traçada a olho que mal se discerne qualquer diferença.

Y = 36,4 + 0,059X
X Y Observações sobre Fertilizante e Safra
0 36,4
100 42,3 80
Y Safra (ton./Ha)

200 48,2 70
300 54,1 60
400 60 50
500 65,9 40
600 71,8
30
700 77,7
0 100 200 300 400 500 600 700
X Fertilizante (kg/Ha)

8.2.3- Significado do coeficiente angular b

47 de 47
Pol 1894 – Estatística Aplicada UNESA - Macaé

Por definição, o coeficiente angular de uma reta é a variação da altura Y quando


caminhamos uma unidade para a direita na direção X. Isto é:

Coeficiente angular b = variação de Y correspondente a uma variação unitária de X

Suponhamos, por exemplo, na equação da reta anterior, que X tenha sido


aumentado de 75 para 76 kg. Então:

Y inicial = 36,4 + 0,059 (75)


Novo Y = 36,4 + 0,059 (75 + 1) = 36,4 + 0,059 (75) + 0,059
Novo Y = Y inicial + 0,059

Ou seja, Y aumentou de 0,059 (que é o coeficiente angular b) quando X


aumentou de 1.

Exercícios de Aprendizagem:
31) Suponhamos quatro tipos de fertilizante aplicados a quatro lotes escolhidos
arbitrariamente, com os seguintes resultados:
Safra Y
(1000kg/Ha) (ton./Ha)
1 70
2 70
4 80
5 100
a) Calcule a reta de regressão da safra sobre o fertilizante.
b) Grafe os quatro pontos e a reta de regressão, verificando que a reta se ajusta
razoavelmente bem aos dados.
c) Use a regressão para predizer:
- A safra, no caso de aplicação de 3000kg de fertilizante por Ha.
- A safra, no caso de aplicação de 4000kg de fertilizante por Ha.
- O aumento da safra para cada aumento de 1000kg/Ha no fertilizante. Faça o
gráfico.

32) Suponha que uma amostra aleatória de cinco famílias acuse as seguintes cifras de rendas
anuais e economias (em milhares de reais):
Renda X Economia S
A 16 1,2
B 22 2,4
C 18 2,0
D 12 1,4
E 12 0,6
Calcule a reta de regressão de S sobre X.

48 de 48
Pol 1894 – Estatística Aplicada UNESA - Macaé

8.3- Regressão Múltipla

A verdade quase nunca é pura, e nunca é simples.


Oscar Wilde

A regressão múltipla nada mais é que a regressão simples, quando se tem em conta mais
de um fator X. É, sem dúvida, a técnica adequada quando desejamos pesquisar o efeito
simultâneo de vários fatores sobre Y. Mesmo assim, embora interessados no efeito de
apenas um dos fatores, é essencial aplicarmos os métodos de regressão múltipla, quando
os dados provêm de um estudo observacional. A regressão múltipla reduz a
tendenciosidade que se verificaria no caso de uma regressão simples que não levasse em
conta fatores estranhos. Este aspecto se tornará claro no exemplo a seguir.

Exemplo 2: Suponhamos que as observações sobre fertilizante a safra (exemplo 1)


tivessem sido feitas em sete postos agrícolas diferentes em todo o país.
Mantidas que fossem as condições do solo e a temperatura, ainda
poderíamos perguntar se parte da flutuação de Y não seria explicada pela
variação do nível pluviométrico nas diferentes áreas. Poderemos fazer
melhor previsão se levarmos em conta tanto o fertilizante como o nível
pluviométrico. Assim é que a tabela abaixo dá os níveis pluviométricos
observados, juntamente com as observações originais sobre safra e
fertilizante.

Observações sobre Fertilizantes, Safra e Nível Pluviométrico

X Y Z
Fertilizante Safra Nível Pluviométrico
(kg/Ha) (ton./Ha) (cm3)
100 40 10
200 50 20
300 50 10
400 70 30
500 65 20
600 65 20
700 80 30

a) Trace novamente o diagrama relativo às observações acima, atribuindo


a cada ponto seu nível pluviométrico Z. Então, considerando apenas os
pontos com baixo nível pluviométrico (Z = 10). Ajuste a olho uma reta.
Repita então o experimento para os pontos com nível moderado (Z =
20), e finalmente para os pontos com alto nível pluviométrico (Z = 30).
b) Supondo agora constante o nível pluviométrico, estime qual seria o
coeficiente angular da safra em relação ao fertilizante. Ou seja, qual
seria o aumento de safra por kg adicional de fertilizante?
c) Mantido constante o fertilizante, estime o aumento de safra por cm3
adicional de nível pluviométrico.

49 de 49
Pol 1894 – Estatística Aplicada UNESA - Macaé

d) Estime a safra no caso de o nível fertilizante ser de 400 kg e o nível


pluviométrico de 10 cm3.

Solução:
a)
X Y Z
Fertilizante Safra Nível Pluviométrico
3
(kg/Ha) (ton./Ha) (cm )
100 40 10
200 50 20
300 50 10
400 70 30
500 65 20
600 65 20
700 80 30

Observações sobre Fertilizante e Safra

90
80 Z = 30
Y Safra (ton./Ha)

70
60 Z = 20
50
40 Z = 10
30
0 100 200 300 400 500 600 700 800
X Fertilizante (kg/Ha)

b) Note-se que o maior coeficiente angular na figura é 10/200 = 0,05 para


a reta Z = 10, enquanto que o menor coeficiente angular é 10/300 =
0,033 para a reta Z = 30: em média, tais coeficientes são de cerca de
0,04 ton. por kg de fertilizante.

c) Mantenhamos constante o fertilizante, no centro dos dados, por


exemplo onde X = 400. A reta tracejada mostra a distância vertical entre
a reta correspondente ao nível pluviométrico Z = 10 e a reta
correspondente a Z = 30 – cerca de 15 ton. Como este aumento de 15
ton. decorre de um aumento de 20 cm3 de nível pluviométrico, isto
significa que a chuva aumenta a safra em cerca de 15/20 = 0,75 ton. por
cm3 de nível pluviométrico.

d) Na figura acima utilizamos a reta correspondente a Z = 10, no ponto


onde X = 400, obtendo uma safra = 55 ton.

O exemplo 2 mostra claramente porque, acrescentando-se uma variável Z, obtemos uma


idéia melhor do efeito do fertilizante sobre a safra.
Desprezando-se o nível pluviométrico, obtemos o coeficiente angular do exemplo 1 –
que é maior porque um nível pluviométrico elevado tende a acompanhar um nível
50 de 50
Pol 1894 – Estatística Aplicada UNESA - Macaé

elevado de fertilizante. O coeficiente angular do exemplo 1 é, assim, desprezado, porque


erroneamente atribuímos ao fertilizante os efeitos tanto do fertilizante como do nível
pluviométrico.

Devemos admitir que o ajustamento a olho do exemplo 2 foi demasiadamente


simplificado. Para estabelecermos um método mais objetivo e fácil que abranja casos
mais complicados, deveremos considerar equações de curvas do 2º, 3º, 4º graus, etc.
Estes modelos, no entanto, por sua complexidade, foge ao objetivo de nosso curso,
sendo objeto de um estudo mais aprofundado.

A título de referência, relacionamos abaixo vários tipos comuns de curvas de


ajustamentos e suas equações:

1) Y = a 0 + a1 X
2) Y = a0 + a1X + a2X2 Curva do 2º grau
3) Y = a0 + a1X + a2X2 + a3X3 Curva do 3º grau
4) Y = a0 + a1X + a2X2 + a3X3 + ... + anXn Curva do n.º grau

Outras equações possíveis (entre muitas), usadas na prática, mencionam-se as seguites:


- Hipérbole
- Curva exponencial
- Curva geométrica

Exercícios de Aprendizagem:
33) Suponhamos uma amostra aleatória de cinco famílias com os dados abaixo (S e X
avaliados em milhares de dólares por ano):

Família Economia S Renda X Filhos N


A 2,1 15 2
B 3,0 28 4
C 1,6 20 4
D 2,1 22 3
E 1,2 10 2

a) Calcule a equação de regressão simples de S sobre X.

b) A equação de regressão múltipla de S sobre X e N é:


S = 0,77 + 0,148X – 0,52N.
Grafe no plano (S,X):
- Os cinco pontos dados (rotulando cada com o correspondente valor de N).
- A reta de regressão mais simples.
- As três retas obtidas da regressão múltipla, fazendo N = 2, 3 e 4.

c) Para uma família F, com quatro filhos e uma renda anual de 25.000 dólares,
preveja a poupança utilizando o gráfico. Verifique a sua resposta utilizando a
equação.
51 de 51
Pol 1894 – Estatística Aplicada UNESA - Macaé

d) Suponha que uma família G tenha o mesmo número de filhos da família F, porém
mais 1.000 dólares de renda. Estime o aumento de poupança da família G.

34) As regressões simples e múltipla da safra sobre o fertilizante e a precipitação


pluviométrica (chuva) são:

SAFRA = 36 + 0,059 FERT


SAFRA = 30 + 1,50 CHUVA
SAFRA = 28 + 0,038 FERT + 0,83 CHUVA

a) Se um fazendeiro acrescenta 100 kg de fertilizante por Ha, qual o aumento de safra


que pode esperar?
b) Se ele irriga com 3cm3 de água, qual o aumento de safra que pode esperar?
c) Se ele acrescenta 100 kg de fertilizante por Ha e, simultaneamente, irriga com 3
cm3 de água, qual o aumento de safra que pode esperar?

52 de 52
Pol 1894 – Estatística Aplicada UNESA - Macaé

8.4- Correlação

O coeficiente de correlação está estritamente relacionado com o coeficiente de


regressão.

O coeficiente de regressão simples b mostrou-nos como uma variável Y se relacionava


com outra variável X (ou como podia ser predita a partir dela). O coeficiente de
correlação mostra-nos quão estreitamente duas variáveis estão relacionadas.

Recordemos como se calcula o coeficiente de regressão de Y sobre X: primeiro


exprimimos X e Y em forma de desvios (x e y) e em seguida calculamos

b=
∑ xy
∑x 2

O coeficiente de correlação r utiliza as mesmas quantidades e, ainda, Σy2:

Correlação de X e Y r=
∑ xy
∑x ⋅ ∑y
2 2

Qualquer que seja a forma como x comparece nesta fórmula, agora y comparece
simetricamente na mesma forma. Assim, o coeficiente de correlação r não faz distinção
entre a resposta y e o regressor x, como fazia o coeficiente de regressão b.

Nota de Matemática (X) e Nota correspondente de Aptidão Verbal (Y) em uma


Amostra de Oito Vestibulandos
Dados Forma do Desvio Produtos
X Y x = ( X − X) y = (Y − Y) xy x2 y2
80 65 20 15 300 400 225
50 60 -10 10 -100 100 100
36 35 -24 -15 360 576 225
58 39 -2 -11 22 4 121
72 48 12 -2 -24 144 4
60 44 0 -6 0 0 36
56 48 -4 -2 8 16 4
68 61 8 11 88 64 121
X = 60 Y = 50 ∑= 0 ∑= 0 ∑ = 654 ∑ = 1304 ∑ = 836
Para ilustrar, qual o relacionamento entre as notas de matemática e de aptidão verbal?
As duas primeiras colunas da tabela acima dão uma amostra de oito vestibulandos. Nas
colunas subsequentes, calculamos os desvios e, em seguida, as somas Σxy, Σx2 e Σy2. Se
quiséssemos predizer Y a partir de X, calcularíamos o coeficiente de regressão:

53 de 53
Pol 1894 – Estatística Aplicada UNESA - Macaé

b=
∑ xy ⇒ b = 654 ⇒ b = 0,50
∑x 2
1304

Por outro lado, se quiséssemos medir o grau de relacionamento de X e Y, calcularíamos


o coeficiente de correlação:

r=
∑ xy =
654
⇒ r = 0,63
∑x ⋅ ∑y
2 2
1304 ⋅ 836

r Mede o Grau de Relacionamento

Dissemos que o coeficiente de correlação r indica como X e Y estão relacionados.


Vamos corroborar esta afirmação, analisando o que a fórmula apresentada realmente
significa. Recordemos primeiro como interpretamos um desvio a contar da média:
x = ( X − X)
Já vimos que o desvio x nos diz quão afastados estamos da média X . Da mesma forma,
o desvio y nos diz quão afastados estamos da média Y . Quando grafamos, portanto, o
par (x,y) em duas dimensões, vemos quão afastados estamos do centro dos dados
( X , Y ). Isto é ilustrado na figura a seguir para as notas de Matemática e Aptidão
Verbal.

Dados y=Y-Y'
X Y 80
80 65 70 20 P1
P2
60 10
50 60 x=X-X'
36 35 50 Y
40 10 20
58 39
30
72 48
20
60 44
10
56 48 X
0
68 61 0 10 20 30 40 50 60 70 80 90

No gráfico acima, podemos observar:


- O ponto P1 é dado na primeira linha da tabela anterior. Note que o ponto xy é positivo
(+300).
- Para o ponto P2, o produto xy é negativo (-100).
- Para qualquer observação tal como P1 no primeiro ou terceiro quadrante, x e y têm o
mesmo sinal, de modo que seu produto xy é positivo.
- Reciprocamente, para qualquer observação como P2 no segundo ou quarto quadrante, x
e y têm sinais distintos, de modo que seu produto xy é negativo.

54 de 54
Pol 1894 – Estatística Aplicada UNESA - Macaé

Suponha que multipliquemos os valores de x e y para cada estudante e somemos os


resultados obtendo Σxy. Isto nos dá uma boa medida de quanto as notas de Matemática e
Aptidão Verbal tendem a caminhar juntas.

Se X e Y caminham juntos, a maioria das observações cairá no primeiro e no terceiro


quadrante: consequentemente, a maioria dos produtos xy será positiva, bem como sua
soma – um reflexo do relacionamento positivo entre X e Y.
Mas, se X e Y estão relacionados negativamente (isto é, quando um aumenta, outro
diminui), a maioria das observações cairá no segundo e no quarto quadrante, dando um
valor negativo para o Σxy.
Concluímos, que, como índice de correlação, Σxy pelo menos tem o sinal correto. Além
disso, quando não há relacionamento entre X e Y, com as observações distribuídas
regularmente pelos quatro quadrantes, os termos positivos e negativos se cancelarão e o
valor de Σxy será zero.
Para dar mais uma idéia do significado de r, observemos os diagramas de dispersão
abaixo com seus respectivos coeficientes de correlação:

(a) r = 0,6
30 (b) r = 1 20
80 65 35 25
8050 60 80 40 30
36 35 45 35
58
6072
39 50 40
48 60 55 45
55 44 60 50
4056 48 40 65 55
68 61 70 60
55 40 75 65
2064 55 20 80 70
70 55 63 53
065 38 0 68 58
76 55 73 63
40
0 10 20 4530 40 50 60 70 80 90 0 58
10 20 30 4840 50 60 70 80 90
45 60 53 43
50 34 48 38
80 36 35 68
76 (c) r 32
= - 0,6 38 d) r = - 1 65
8072
70
40
33
80 40
43
63
60
68 42 60
45 58
6065 50 48 55
64 55 50 53
4058
56
48
46 40 53
55
50
48
55 55 58 45
2055 59 20 60 43
50 67 63 40
050 57 0
65 38
45 70 68 35
40
0 10 20 5530 40 50 60 70 80 90 0 70
10 20 30 3340 50 60 70 80 90
36 65 73 30
75 28

e) r = 0
80
35 45
38 59
70 40 44
60
43 30
45 50
50 48 65
40
50 44
53 58
30 55 58
58 70
20 60 66
10 63 47
65 58
0 68 27
0 70
10 20 3044
73 6040 50 60 70 80 90
75 28

No painel (b), há uma associação positiva perfeita, de modo que o produto xy é sempre
positivo. Consequentemente, r toma seu valor máximo, que é +1.
55 de 55
Pol 1894 – Estatística Aplicada UNESA - Macaé

Da mesma forma, no painel (d), onde há uma associação negativa perfeita, r toma o
maior valor negativo possível, que é –1.

Concluímos, portanto: −1≤ r ≤ 1

Correlação e Regressão

Podemos estabelecer uma relação entre o coeficiente de regressão b e o coeficiente de


correlação r, pois, conforme vimos anteriormente, b e r são bastante semelhantes.
Pode-se mostrar facilmente que b se escreve explicitamente em termos de r como:

σy
b=r
σx

Assim, se um dos dois é zero, o outro também o será.

Consideremos um exemplo, para ver como provar este relacionamento:

Verifique, para os dados da tabela anterior, a fórmula de relacionamento entre o coeficiente de


regressão e o coeficiente de correlação acima. Utilize b = 0,50 e r = 0,63 já calculados
anteriormente.

Solução:

Cálculo do desvio padrão de X e Y da tabela anterior:

σx =
∑ ( X − X) 2

⇒ σx =
∑x 2

⇒ σx =
1304
⇒ σ x = 186,3
n−1 n−1 8−1

σy =
∑ (Y − Y) 2

⇒ σy =
∑y 2

⇒ σy =
836
⇒ σ y = 119,4
n −1 n −1 8−1

σy 119,4
b=r ⇒ b = 0,63 ⇒ b = 0,50
σx 186,3 c.q.d.

Exercícios de Aprendizagem:
35) Uma amostra aleatória de seis países acusou as seguintes cifras para X = consumo anual
de cigarros per capita e Y = taxa anual de mortalidade por 100.000 em consequência de
câncer no pulmão. Calcule o coeficiente amostral de correlação r.

Países X Y
A 3400 24
B 2600 20
56 de 56
Pol 1894 – Estatística Aplicada UNESA - Macaé

C 2200 17
D 2400 19
E 2900 26
F 2100 20
Médias 2600 21

36) Com base na amostra aleatória de cinco pares pai-e-filho abaixo:


a) Calcule r
b) Calcule a regressão da altura dos filhos para a altura dos pais.
c) Faça o gráfico dos cinco pares e da reta de regressão estimada.

Altura do Filho Altura do Pai


(cm) (cm)
173 163
168 168
183 180
185 178
168 175
Média = 175 Média = 173

37) Uma amostra aleatória de sete mulheres acusou os seguintes dados relativos a X (idade
em anos) e Y (concentração de colesterol no sangue em gramas por litro). A correlação é
0,693. Calcule a reta de regressão de Y sobre X (sugestão: é mais fácil utilizar a eq. que
relaciona b e r). Faça o gráfico da reta de regressão, juntamente com o dos sete pontos.

X Y
30 1,6
60 2,5
40 2,2
20 1,4
50 2,7
50 1,6
30 2,0
Média 40 2,0
Variação 1200 1,46
Variância 200 0,243
Desvio Padrão 14,1 0,493

57 de 57
Pol 1894 – Estatística Aplicada UNESA - Macaé

38) Repita o problema anterior para a amostra abaixo, onde r = 0,690.

X Y
60 2,9
20 2,0
50 1,7
20 1,5
50 2,4
Média 40 2,1
Variação 1400 1,26
Variância 350 0,315
Desvio Padrão 18,7 0,561

58 de 58

Vous aimerez peut-être aussi