Vous êtes sur la page 1sur 43

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos

Sumrio
Sumrio __________________________________________________________________________1
1. Introduo ______________________________________________________________________3
1.1. Generalidades_______________________________________________________________________ 3
1.2. Alguns motivos para o seu uso _________________________________________________________ 3
1.3. Algumas restries ao seu uso__________________________________________________________ 3
1.4. A escolha do teste estatstico ___________________________________________________________ 3
1.5. Mensurao ________________________________________________________________________ 4
1.5. A distribuio amostral _______________________________________________________________ 5
1.6. Etapas do teste de hipteses ___________________________________________________________ 5
1.7. Tipos de testes no-paramtricos _______________________________________________________ 6

2. Testes para uma amostra __________________________________________________________7


2.1. O teste Qui-Quadrado ________________________________________________________________ 7
2.1.1. Funo __________________________________________________________________________________ 7
2.1.2. Mtodo __________________________________________________________________________________ 7
2.1.3. Pequenas Freqncias Esperadas ______________________________________________________________ 8
2.1.4. O teste qui-quadrado relacionado com outros testes _______________________________________________ 8

2.2. O teste K-S (Kolmogorov-Smirnov)_____________________________________________________ 9


2.2.1. Funo e fundamentos lgicos ________________________________________________________________ 9
2.2.2. Mtodo __________________________________________________________________________________ 9

3. Testes para duas amostras relacionadas _____________________________________________11


3.1. O teste de McNemar para a Significncia de Mudanas ___________________________________ 11
3.1.1. Funo _________________________________________________________________________________ 11
3.1.2. Mtodo e fundamentos lgicos_______________________________________________________________ 11
3.1.3. Correo de continuidade ___________________________________________________________________ 11
3.1.4. Pequenas freqncias esperadas______________________________________________________________ 12

3.2. O teste de Wilcoxon _________________________________________________________________ 12


3.2.1. Funo _________________________________________________________________________________ 12
3.2.2. Fundamentos lgicos e mtodo ______________________________________________________________ 13
3.2.3. Empates ________________________________________________________________________________ 13
3.2.4. Pequenas Amostras________________________________________________________________________ 13
3.2.5. Grandes Amostras ________________________________________________________________________ 14

4. Testes para duas amostras independentes ____________________________________________15


4.1. O teste Qui-Quadrado _______________________________________________________________ 15
4.1.1. Funo _________________________________________________________________________________ 15
4.1.2. Mtodo _________________________________________________________________________________ 15
4.1.3. Tabelas de Contingncia 2X2________________________________________________________________ 16
4.1.4. Quando usar o teste _______________________________________________________________________ 17

4.2. O teste U de Mann-Whitney __________________________________________________________ 17


4.2.1. Funo _________________________________________________________________________________ 17
4.2.2. Mtodo _________________________________________________________________________________ 18
4.2.3. Amostras muito pequenas __________________________________________________________________ 18
4.2.4. Amostras mdias (n entre 9 e 20) _____________________________________________________________ 19
4.2.5. Grande amostras (n > 20) ___________________________________________________________________ 20
4.2.6. Empates ________________________________________________________________________________ 20
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos

4.3. O teste de Kolmogorov-Smirnov ______________________________________________________ 21


4.3.1. Funo e fundamentos lgicos _______________________________________________________________ 21
4.3.2. Mtodo _________________________________________________________________________________ 21
4.3.3. Pequenas amostras ________________________________________________________________________ 21
4.3.4. Grandes amostras: prova bilateral ____________________________________________________________ 22
4.3.5. Grandes amostras: prova unilateral ___________________________________________________________ 23

5. Testes para k amostras relacionadas ________________________________________________25


O teste de Friedman (Anlise de varincia de dupla classificao por postos)_____________________ 25
5.1. Funo____________________________________________________________________________ 25
5.2. Fundamentos lgicos do mtodo_______________________________________________________ 25

6. Testes para k amostras independentes _______________________________________________28


6.1. O teste qui-quadrado ________________________________________________________________ 28
6.1.1. Funo _________________________________________________________________________________ 28
6.1.2. Mtodo _________________________________________________________________________________ 28
6.1.3. Quando usar a prova do qui-quadrado _________________________________________________________ 29

6.2. O teste de Kruskal-Wallis (Anlise de varincia de uma classificao por postos)______________ 29


6.2.1. Funo _________________________________________________________________________________ 29
6.2.2. Mtodo _________________________________________________________________________________ 29
6.2.3. Empates ________________________________________________________________________________ 31

7. Medidas de correlao e seus testes de significncia____________________________________32


7.1. O coeficiente de contingncia: C_______________________________________________________ 32
7.1.1. Funo _________________________________________________________________________________ 32
7.1.2. Mtodo _________________________________________________________________________________ 32
7.1.3. A prova de significncia do coeficiente de contingncia ___________________________________________ 33
7.1.4. Limitaes do coeficiente de contingncia _____________________________________________________ 33

7.2. O coeficiente V de Cramer ___________________________________________________________ 34


7.3. O coeficiente de correlao de Postos de Spearman: rs ____________________________________ 35
7.3.1. Funo _________________________________________________________________________________ 35
7.3.2. Fundamentos lgicos ______________________________________________________________________ 35
7.3.3. Observaes empatadas ____________________________________________________________________ 37
7.3.4. Teste de significncia para o coeficiente de correlao de Spearman _________________________________ 37

7.4. O coeficiente de concordncia de Kendall: W____________________________________________ 38


7.4.1. Funo _________________________________________________________________________________ 38
7.4.2. Fundamentos lgicos ______________________________________________________________________ 38
7.4.3. Mtodo _________________________________________________________________________________ 39
7.4.4. Empates ________________________________________________________________________________ 39
7.4.4. Teste de significncia para W _______________________________________________________________ 40
7.4.5. Interpretao de W ________________________________________________________________________ 41

7.5. Concluso _________________________________________________________________________ 41

8. BIBLIOGRAFIA ________________________________________________________________42

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos

1. Introduo
1.1. Generalidades
Um dos principais assuntos da Estatstica moderna a inferncia estatstica. A inferncia estatstica
dividida em dois grandes tpicos: a estimao de parmetros de uma populao e os testes de hipteses.
No desenvolvimento dos mtodos da estatstica moderna, as primeiras tcnicas de inferncia que apareceram foram as que faziam diversas hipteses sobre a natureza da populao da qual se extraam os dados.
Como os valores relacionados com a populao so denominados parmetros, tais tcnicas estatsticas foram denominadas de paramtricas.
A Estatstica No-Paramtrica to recente, que o aparecimento dos primeiros testes, neste rea,
datam do incio do sculo. O seu maior crescimento ocorreu nos ltimos 40 anos. Um teste no-paramtrico
aquele cujo modelo no especifica condies sobre os parmetros da populao da qual a amostra foi obtida.
Mesmo quando existem certas pressuposies, estas so mais brandas do que aquelas associadas ao testes
paramtricos.

1.2. Alguns motivos para o seu uso


O uso freqente dos testes no-paramtricos dar ao pesquisador outras vantagens, alm das seguintes:
So menos exigentes do que os paramtricos. Dispensam, por exemplo, a normalidade dos dados.
Em geral, as probabilidades das afirmativas obtidas na maioria dos testes no-paramtricos, so exatas,
salvo quando se usam aproximaes para grandes amostras.
Independem da forma da populao da qual a amostra foi obtida.
So, em geral, de mais fcil aplicao e exigem, quase sempre, menor volume de clculos.
Existem testes no-paramtricos que nos permitem trabalhar com dados de diferentes populaes, o que
no possvel com os paramtricos.
So teis nos casos em que difcil estabelecer uma escala de valores quantitativos para os dados. o pesquisador pode apenas dizer que um dado tem mais ou menos da caracterstica que est sendo analisada,
sem poder precisar ou quantificar as diferenas. Os dados se encontram numa certa ordem de classificao: mais ou menos; melhor ou pior; maior ou menor; etc.
So mais eficientes do que os paramtricos, quando os dados da populao no tm uma distribuio normal. E quando a populao normalmente distribuda, sua eficincia, em alguns casos, levemente inferior
dos concorrentes.

1.3. Algumas restries ao seu uso


Em geral no levam em considerao a magnitude dos dados. muito comum transformar os dados, de valores para simples ordem ou sinais. Em muitos casos isso se traduz num desperdcio de informaes.
Quando todas as exigncias do modelo estatstico esto satisfeitas, o teste paramtrico tem mais poder. Para se obter a mesma eficincia com um teste no-paramtrico necessrio um amostra maior.
Em, geral, no permitem testar interaes, exceto a aditividade em condies especiais. Isto restringe a sua
aplicao aos modelos mais simples.
A obteno, utilizao e interpretao das tabelas (distribuies de probabilidade) so em geral, mais complexas.

1.4. A escolha do teste estatstico


Existem inmeros testes estatsticos tanto paramtricos quanto no paramtricos. Alguns itens devem
ser levados em conta na escolha da prova estatstica para determinada situao. A maneira como a amostra foi
obtida, a natureza da populao da qual se extraiu a amostra e o tipo de mensurao ou escala empregado

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


nas definies operacionais das variveis envolvidas, isto , o conjunto de valores numricos e ainda o tamanho da amostra disponvel.
Uma vez determinados a natureza da populao e o mtodo de amostragem ficar estabelecido o
modelo estatstico. Associado a cada teste estatstico tem-se um modelo estatstico e condies de mensurao, o teste vlido sob as condies especificadas no modelo e pelo nvel da escala de mensurao. Nem
sempre possvel verificar se todas as condies do modelo foram satisfeitas e neste caso tem-se que admitir
que estas condies foram satisfeitas. Estas condies do modelo estatstico so denominadas suposies ou
hipteses do teste. Qualquer deciso tomada atravs de um teste estatstico somente ter validade se as condies do modelo forem vlidas.
bvio que quanto mais fracas forem as suposies do modelo mais gerais sero as concluses. No
entanto, as provas mais poderosas, isto , apresentam maior probabilidade de rejeitar H0 quando for falsa, so
as que exigem as suposies mais fortes ou mais amplas.

1.5. Mensurao
O processo de selecionar um modelo matemtico ou estatstico a ser utilizado com uma dada tcnica
de pesquisa envolve algumas decises importantes. A escolha do modelo a ser aplicado precedida pela
mensurao do fenmeno envolvido. E a primeira dificuldade surge j na necessidade de definirmos o que
mensurao. Se ela se referir somente aqueles tipos de medidas comumente utilizados em cincias tais como
a Fsica (por exemplo: medidas de comprimento, massa ou tempo) no haver muitos problemas na escolha
do sistema matemtico. Agora se o conceito de medida for ampla o suficiente para incluir certos procedimentos
de categorizao, normalmente utilizados em Cincias Sociais, ento o problema torna-se mais complexo. Pode-se distinguir diversos nveis de mensurao e, para cada um, existem diferentes modelos estatsticos apropriados. As operaes possveis em um determinado conjunto numrico dependem do nvel de mensurao atingido.
As quatro formas de mensurao ou tipos de medidas so: nominal, ordinal, intervalar e de razo.
Nvel nominal. Os termos nvel nominal de
medida ou escala nominal so utilizadas para se referir
Tabela 1.1 - Exemplo de uma varivel nominal
a queles dados que s podem ser categorizados. No
sentido estrito, no existe uma medida ou escala enEstado civil
Nmero de pessoas
volvida, o que existe apenas uma contagem. VariCasados
340
veis que podem ser ditas nominais so: a classificao
Solteiros
250
das pessoas quanto religio, sexo, estado civil, etc.
Vivos
40
No existe uma ordem particular entre as categorias
Divorciados
50
ou grupos e alm disso duas categorias quaisquer so
Total
700
mutuamente excludentes, isto , uma pessoa no pode ser ao mesmo tempo catlico e protestante. Alm
disso as categorias so exaustivas, significando que um determinado elemento deve aparecer em uma e somente uma das categorias. Veja-se um exemplo na tabela 1.1.
Na classificao os nomes das categorias so atribudos arbitrariamente, como rtulos de convenincia. Por exemplo, colocam-se catlicos e protestantes em categorias diferentes, mas isto no significa que uma
melhor ou maior que a outra. Como as categorias so exaustivas (incluem todos os casos) e mutuamente exclusivas (no h sobreposio, um elemento pertence a uma e somente uma categoria) tm-se as condies
mnimas para a aplicao de procedimentos estatsticos. O termo escala nominal utilizado para indicar o nvel
mais baixo de mensurao.
Tabela 1.2 - Exemplo de uma varivel ordinal
Conceitos
A
B
C
D
E
Total

Nmero de alunos
4
6
14
3
2
30

As estatsticas possveis de serem calculadas


quando se tem uma escala nominal so: a moda e a contagem de freqncias. Sob certas condies, pode-se comprovar hipteses utilizando-se o teste 2 (qui-quadrado). A
medida de associao mais comum para dados nominais
o coeficiente de contingncia C.
Nvel ordinal. O nvel (ou escala) ordinal o tipo
(ou escala) nominal em que se pode ordenar as categorias.
A nica diferena entre os dois nveis a relao de ordem
que se pode estabelecer entre as categorias. No entanto,

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


no possvel afirmar o quanto uma categoria maior do que a anterior, isto , no se pode afirmar o quanto
uma categoria possui da caracterstica. A avaliao do desempenho escolar, atravs de conceitos, um exemplo de escala ordinal. No entanto, com este tipo de medida, no se pode afirmar que quem tirou A ou teve um
nmero de acertos duas vezes maior que quem tirou C. A nica coisa que se sabe que tem A acertou mais
questes do quem tem B e este de quem tem C e assim por diante.
A estatstica mais adequada para a descrio da tendncia central dos valores em uma escala ordinal
a mediana, pois ela no afetada por modificaes de quaisquer valores acima ou abaixo dela, desde que o
nmero de observaes acima ou abaixo permanea o mesmo. Numa escala ordinal pode ser utilizado qualquer teste que envolva ordenaes ou postos. So adequados os coeficientes de correlao baseados em
postos, como por exemplo: o coeficiente rs de Spearman. A tabela 1.2 apresenta um exemplo deste tipo de
medida.
Nvel intervalar. A escala de medida intervalar uma escala nominal em que a distncia entre as categorias ao contrrio da ordinal sempre a mesma. Ou seja ela possui todas as caractersticas da escala ordinal mais o fator de que a distncia entre as diversas categorias (ou valores) sempre constante. As escalas de
medir temperaturas como a Fahrenheit e a Centgrada so exemplos de escalas de intervalo. No entanto, no
se pode afirmar que uma temperatura de 40 graus duas vezes mais quente que uma de 20 graus, embora se
possa dizer que a diferena entre 20 graus e 40 graus a mesma que entre 75 graus e 95 graus. Isto porque
este tipo de escala no possui um zero absoluto .Ou seja o valor zero na escala apenas um ponto de referncia e no significa a ausncia de calor.
A escala de intervalo a primeira verdadeiramente qualitativa encontrada at agora. Todas as estatsticas paramtricas comuns como: mdias, desvios-padro, correlao de Pearson, etc. so aplicveis a dados nesta escala, assim como os testes paramtricos comuns como o t e o F.
Nvel de razo. Este o mais alto nvel de medida. caracterizado por apresentar todas as propriedades da escala intervalar mais um zero absoluto. Isto , aqui o zero pode e deve ser entendido como a ausncia da caracterstica e as comparaes de valor (razo) tem sentido. Um exemplo de varivel deste tipo o
peso. Um valor igual a zero significa ausncia de peso e um valor de 20 kg o duas vezes mais pesado que
um de 10 kg. Os valores de uma escala de razo so nmeros verdadeiros e com um zero verdadeiro (absoluto), ento qualquer estatstica aplicvel a este tipo de escala.

1.5. A distribuio amostral


A distribuio amostral uma distribuio de probabilidade, isto , uma distribuio terica que
descreve o comportamento de uma determinada estatstica ou estimador. As principais estatsticas utilizadas
nos testes de hipteses possuem modelos conhecidos. Tm-se a distribuio normal, a distribuio t (de Student) a distribuio 2 (qui-quadrado), a distribuio F (de Snedkor) como as principais.

1.6. Etapas do teste de hipteses


Qualquer teste de hipteses no-paramtrico segue os seguintes passos:
1. Formular as hipteses. Estabelecer as hipteses nula e alternativa. A construo de um teste de hipteses
pode ser colocado de forma geral do seguinte modo. Toma-se uma amostra da varivel (ou das variveis) X
(no caso) de uma dada populao, de onde se tem uma hiptese sobre um determinado parmetro, por exemplo: . Esta hiptese a hiptese nula ou hiptese de igualdade:
H0: = 0
Tendo formulado a hiptese nula conveniente determinar qual ser a hiptese aceita caso a hiptese nula seja rejeitada, isto , convm explicitar a hiptese alternativa. A hiptese alternativa vai depender de
cada situao mas de forma geral tem-se:
H1: = 1 (hiptese simples), ou ento o que mais comum, hipteses compostas:
H1: > 0 (teste unilateral ou unicaudal direita)
< 0 (teste unilateral ou unicaudal esquerda)
0 (teste bilateral ou bicaudal)

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


2. Estabelecer a estatstica (estimador ) a ser utilizado. Aps fixar as hipteses necessrio determinar se
a diferena entre a estatstica amostral e o suposto valor do parmetro da populao suficiente para rejeitar a
hiptese. A estatstica utilizada deve ser definida e sua distribuio terica determinada.
3. Fixar o nvel de significncia do teste. Fixar a probabilidade de ser cometer erro do tipo I, isto , estabelecer o nvel de significncia do teste. Fixado o erro do tipo I, possvel determinar o valor crtico, que um valor
lido na distribuio amostral da estatstica considerada (tabela). Este valor vai separar a regio de crtica (de
rejeio) da regio de aceitao.
4. Calcular a estatstica teste (a estimativa). Atravs da amostra obtida calcular a estimativa que servir para
aceitar ou rejeitar a hiptese nula. Dependendo do tipo de hiptese alternativa este valor servir para aceitar ou
rejeitar H0.
5. Tomar a deciso. Se o valor da estatstica observada na amostra estiver na regio crtica rejeitar Ho, caso
contrrio aceitar H0.
6. Concluso. Enunciar a tomada da deciso em termos do problema sendo testado.

1.7. Tipos de testes no-paramtricos


Os testes no-paramtricos podem ser divididos em testes para:
Uma amostra
Duas amostras emparelhadas (dependentes)
Duas amostras independentes
Vrias amostras emparelhadas (dependentes)
Vrias amostras independentes
Abaixo segue um resumo dos principais testes estatsticos no-paramtricos classificados de acordo
com o nvel de medida utilizado e de acordo com o(s) tipo(s) de amostra utilizados.
Tabela 1.3 - Resumo dos testes no-paramtricos
TESTES ESTATSTICOS NO-PARAMTRICOS
Nvel de
mensurao

Caso de uma
amostra

Nominal

Binomial e 2

Ordinal

KolmogorovSmirnov
Iteraes

Intervalar

Caso de duas Amostras


Amostras reAmostras indepenlacionadas
dentes
McNemar
Fisher e 2
Sinais
Wilcoxon

Mediana
U de Mann-Withney
Kolmogorov-Smirnov
Iteraes de WaldWolfowitz
Moses

Walsh
Aleatoriedade

Aleatoriedade

Caso de k amostras
Amostras reAmostras indelacionadas
pendentes
Q de Cochram
2
Friedman

Extenso da
mediana
Kruskal-Wallis

Medidas de
correlao noparamtricas
De contingncia
Por postos de Spearmann
Por postos de Kendall
Parcial de postos de
Kendall
Concordncia de Kendall

Alguns destes testes sero vistos na disciplina. Para os demais recomenda-se o livro do Siegel citado na bibliografia.

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos

2. Testes para uma amostra


2.1. O teste Qui-Quadrado
2.1.1. Funo
A prova de uma amostra aplicada quando o pesquisador est interessado no nmero de indivduos, objetos ou respostas que se enquadram em vrias categorias que podem ser duas ou mais. Usa-se a
tcnica do tipo de prova de aderncia, ou seja, deve comprovar se existe diferena significativa entre o nmero
observado de indivduos, ou de respostas, em determinada categoria, e o respectivo nmero esperado, baseado na hiptese de nulidade.
2.1.2. Mtodo
O mtodo usado o da comparao, ou seja, comparar um grupo observado com um grupo esperado de freqncias. Mas antes deve-se determinar as freqncias esperadas. Para isso, usa-se a hiptese
de nulidade, que dar a proporo de indivduos, ou objetos, que se enquadram em cada uma das diferentes
categorias em que a populao est presumidamente classificada. A hiptese de nulidade pode ser testada
por:
k

(Oi Ei)2

i=1

Ei

2 =

, onde:

Oi = nmero de casos observados classificados na categoria i.


Ei = nmero de casos esperados na categoria i sob Ho, onde k = nmero de categorias.
Se h concordncia entre os valores observados e os esperados, as diferenas (Oi - Ei) sero pequenas e, conseqentemente, 2 ser tambm pequeno. Se as divergncias, entretanto, forem grandes, o valor de
2, ser tambm grande. Pode-se mostrar que a distribuio amostral de 2, sob Ho, calculada pela frmula acima, segue a distribuio qui-quadrado com um nmero de graus de liberdade igual a k-1 onde k igual ao
nmero de categorias em que a varivel foi classificada.
Existem muitas distribuies qui-quadrado diferentes, uma para cada grau de liberdade. O grau de liberdade, anotado por gl reflete o nmero de observaes livres (que podem variar) aps feitas certas restries
sobre os dados. Por exemplo, se forem classificados em duas categorias dados relativos a 50 casos, to logo
se saiba que, digamos, 35 casos se enquadram em uma das categorias, automaticamente fica-se sabendo que
15 casos se enquadraro na outra. Tem-se, ento que gl = 1, porque com duas categorias e qualquer n fixo,
to logo se conhea o nmero de casos em uma categoria a outra estar automaticamente determinada. Em
geral, no caso de uma amostra, quando Ho especifica plenamente os valores esperados o nmero de graus de
liberdade ser: gl = k - 1, onde k representa o nmero de categorias usadas na classificao dos dados.
Para empregar a prova 2 na comprovao de uma hiptese, deve-se enquadrar cada observao em
uma das k clulas. O nmero total dessas observaes deve ser n (nmero de elementos da amostra considerada). Isto , cada observao deve ser independente de qualquer outra. No se pode, portanto, fazer vrias
observaes sobre o mesmo indivduo e consider-las como sendo independentes. Deve-se tambm determinar a freqncia esperada para cada uma das k clulas. Se Ho especificar que a proporo de elementos em
cada categoria seja a mesma, ento Ei = n / k.
Exemplo:
Em corridas de cavalos ponto de vista comum entre os apostadores que, em uma pista circular, as
chances so mais favorveis a cavalos em determinadas posies (raias. A raia 1 a mais prxima do lado interno da pista, e a 8 o mais afastada (numa corrida com 8 cavalos). Pode-se comprovar os efeitos das raias,
analisando-se os resultados das corridas, dados em funo das raias. No exemplo, coletou-se os resultados do
primeiro ms da temporada de 1955 (conforme o New York Post, Ago. 30, 1955, pg. 42) em uma pista circular.

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


Tabela 2.2 - Nmero de vitrias de cavalos e seus respectivos postos.
1
Nmero de vitrias 29

2
19

3
18

Posto
4
5
25 17

6
10

7
15

8 Total
11 144

1. Hipteses: Ho: No h diferena entre o nmero esperado de ganhadores em relao a cada posto. H1: Existe diferena entre o nmero de ganhadores de cada posto.
2. Prova Estatstica. Como se est comparando os dados de uma populao presumida, usa-se uma
prova unilateral. Emprega-se a prova 2 porque a hiptese em estudo se refere comparao de freqncias
observadas e esperadas em categorias discretas. (As categorias so os oito postos).
3. Distribuio amostral. A distribuio amostral de 2 tal como calculada, pela expresso dada acima, segue a distribuio qui-quadrado com gl = k - 1.
4. Regio de Rejeio. Ho ser rejeitada se o valor observado de 2, calculado pela expresso acima, for maior que o valor tabelado, a um nvel de significncia dado .
5. Deciso. A amostra de 144 ganhadores forneceu os dados exibidos na tabela 2.2 acima. O clculo
do valor observado do qui-quadrado dado por:
k

(Oi Ei)2

i=1

Ei

2 =

= 16,30

A tabela fornece um valor 2 igual a 18,475 para gl = 7 e um nvel de significncia de 1%. Neste caso,
no possvel rejeitar H0, isto , no possvel afirmar a 1% de significncia que o nmero de vitrias dependa do posto.
2.1.3. Pequenas Freqncias Esperadas
Quando gl = 1, isto , quando k = 2, cada freqncia esperada no deve ser inferior a 5. Quando o
grau de liberdade for maior do que um, isto , quando k > 2, a prova 2 no deve ser usada se mais de 20%
das freqncias esperadas forem inferiores a 5 ou se qualquer freqncia esperada inferior a 1. As freqncias esperadas podem eventualmente ser aumentadas combinando-se categorias adjacentes. Isto naturalmente s deve ser feito se as combinaes forem significativas.
Por exemplo, pode-se classificar um grupo de pessoas quanto sua atitude em relao a determinada opinio em: "apoia fortemente", "apoia", indiferente", contra e fortemente contra. Como forma de
aumentar as freqncias esperadas as categorias poderiam ser reclassificadas em: apoia, indiferente e
contra.
2.1.4. O teste qui-quadrado relacionado com outros testes
A tabela 2.3, relaciona o teste 2 com outros testes no paramtricos e paramtricos.
Tabela 2.3 - Relacionamento entre testes paramtricos e no-paramtricos

Uma amostra

Teste no-paramtrico
Dados nominais
Dados ordinais
Qui-quadrado de aderncia

Duas amostras independentes


Duas amostras relacionadas

Qui-quadrado de homogeneidade

k amostras

Qui-quadrado de homogeneidade

Teste de Mc-Nemar

Teste paramtrico

Teste da mediana e
Teste Mann-Whitney
Teste de Wilcoxon
Teste
Wallis

de

Kruskal-

Teste z de H0: P = a
Teste t de H0: = a
Teste z de H0: P1 = P2
Teste t de H0: 1 = 2
Teste z de H0: P1 = P2
Teste t de H0: d = 0
ANOVA de uma classificao

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos

2.2. O teste K-S (Kolmogorov-Smirnov)


2.2.1. Funo e fundamentos lgicos
A prova de Kolmogorov-Smirnov (K-S) uma prova de aderncia. Isto , avalia o grau de concordncia entre a distribuio de um conjunto de valores amostrais (valores observados) e determinada distribuio
terica especfica. A prova testa se os valores amostrais podem provavelmente serem considerados como oriundos de uma populao com uma suposta distribuio terica.
A prova utiliza as distribuies acumuladas, isto , ela compara a distribuio de freqncias acumulada que deveria ocorrer sob a suposta distribuio (sob H0) com a distribuio de freqncias acumuladas dos
valores observados (amostrais). A estatstica teste o ponto de maior diferena (em valor absoluto) entre as
duas distribuies.
2.2.2. Mtodo
A distribuio terica acumulada (sob H0) representada por F0(x) e a distribuio de freqncias dos
valores amostrais por Sn(x). Como H0 supe que a amostra tenha sido obtida da distribuio F0(x) razovel
esperar que, para cada valor de x, Sn(x) esteja prximo de F0(x), isto , sob H0, espera-se que as diferenas
entre Sn(x) e F0(x) sejam pequenas. O teste K-S toma a maior destas diferenas em mdulo que denominada
de desvio mximo e anotada por D.
Assim:
D = |F0(x) - Sn(x)|
A distribuio amostral de D, sob H0, conhecida e se encontra tabelada (tabela E, Siegel, pg. 282)
em funo de n.
Exemplo:
Suponha que um dado jogado 150 vezes e que o nmero obtido de cada face seja anotado e forneam os resultados apresentados na tabela 2.3. Testar ao nvel de 1% de significncia a hiptese de que o dado
eqilibrado.
Tabela 2.3 - Nmero de faces na jogada de um dado 150 vezes.
Faces
Nmero de vezes que a face apareceu

1
29

2
19

3
19

4
27

5
26

6
30

Hipteses: Ho: O dado eqilibrado.


H1: O dado no eqilibrado.
Prova Estatstica. Emprega-se a prova K-S porque o pesquisador deseja comparar uma distribuio
observada de escores em escala ordinal com uma distribuio terica.
Nvel de significncia. Seja = 0,01.
Distribuio amostral. A tabela E (Siegel, pg. 282) apresenta vrios valores crticos de D (valores da
distribuio amostral) com as respectivas probabilidades de ocorrncia sob H0.
Regio de Rejeio. A regio de rejeio consiste de todos os valores de D to grandes que a probabilidade associada sua ocorrncia, sob Ho, seja menor ou igual a 0,01.
Neste caso, F0(x) a distribuio acumulada terica, sob H0, onde H0 a hiptese de que cada uma
das cinco cpias tenha precisamente 1 / 6 = 16,67% das preferncias. S10(x) a distribuio acumulada das
freqncias observadas dos 150 lanamentos realizados. A ltima linha da tabela 2.4 fornece o valor absoluto
do desvio de cada valor amostral em relao ao correspondente valor terico.

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


Tabela 2.4 - Clculos ilustrando a obteno da estatstica de K-S.
Faces
Nmero de vezes
F0(x)
S10(x)
|F0(x) - S10(x)|

1
29
1/6
29/150
0,0267

2
19
2/6
48/150
0,0133

3
19
3/6
67/150
0,0533

4
27
4/6
94/150
0,0400

5
26
5/6
120/150
0,0333

6
30
1
1
0

Observando-se a ltima linha da tabela 2.4, tem-se que D = 0,053. Observando-se a tabela E (Siegel,
pg. 282), a = 1%, verifica-se que o valor de D 1,630/ 150 = 0,133. Como o D calculado no maior que o
valor tabelado a concluso : aceitar H0 ao nvel de significncia de 1%, isto , no se pode afirmar que o dado
desequilibrado.

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos

3. Testes para duas amostras relacionadas


3.1. O teste de McNemar para a Significncia de Mudanas
3.1.1. Funo
O teste de McNemar para a significncia de mudanas particularmente aplicvel aos experimentos
do tipo "antes e depois" em que cada sujeito utilizado como seu prprio controle e a medida efetuada em
escala nominal ou ordinal.
3.1.2. Mtodo e fundamentos lgicos
Para testar a significncia de qualquer mudana observvel, atravs deste mtodo, necessrio
construir uma tabela de freqncias dois por dois para representar o primeiro e o segundo conjunto de respostas dos mesmos indivduos. As caractersticas gerais de tal tabela encontram-se ilustradas abaixo, onde os
valores + e - so utilizados para representar respostas diferentes.
Tabela 3.1 - Tabela 2x2 utilizada para testar a significncia de mudanas no teste de McNemar
Depois
+
Antes
+
A
B
C
D
Note-se que aqueles casos que mostram mudanas entre a primeira e a segunda resposta aparecem
nas clulas A e D. Um sujeito contado na clula A se ele muda de + para - e contado na D se ele muda de para +. Se nenhuma mudana ocorre ele contado nas clulas A (resposta + antes e depois) e C (resposta antes e depois).
Como A + D representa o nmero total de elementos que acusaram alguma modificao, a expectativa, sob a hiptese de nulidade, de que 1/2 (A + D) acuse modificaes em um sentido e 1/2 (A + D) no outro
sentido.
Do teste qui-quadrado tem-se que:
(Oi Ei)2

2 =

, onde Oi o nmero observado de casos na categoria i e Ei o nmero esperado


Ei
de casos nesta mesma categoria.
i=1

Neste teste, as clulas de interesse so somente a A e a D. Desta forma, se A o nmero de casos


observados na clula A e D o nmero observado de casos na clula D e (A + D) / 2 o nmero esperado de
casos em cada uma das clulas, ento vem:
k

(Oi Ei)

i=1

Ei

2 =

2 =

A +D 2
A +D 2
)
(D
)
2
2
+
. Simplificando, vem:
A +D
A+D
2
2

(A

( A D ) 2
com grau de liberdade (isto , linha da tabela) igual a 1.
A+D

3.1.3. Correo de continuidade


A aproximao da distribuio acima pela distribuio qui-quadrado torna-se excelente, se for executada uma correo de continuidade. A correo torna-se necessria porque uma distribuio contnua, no caso,
o qui-quadrado est sendo usada para aproximar uma distribuio discreta. Quando todas as freqncias esperadas so pequenas, esta aproximao pode no ser boa. A correo de continuidade (de Yates) uma tentativa de remover esta fonte de erro. A expresso acima incluindo a correo de Yates fica:

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos

2 =

(| A D|1)2
A +D

Exemplo:
Um psiclogo infantil est interessado em observar a iniciao de contatos sociais em crianas. Ele
observou que crianas que so novas em uma escola maternal estabelecem contatos interpessoais com adultos ao invs de com outras crianas. Ele prev que medida que se familiarizam com o ambiente as crianas
estabelecem contatos interpessoais com outras crianas ao invs de com adultos. Para testar esta hiptese ele
observa 25 crianas nos seus primeiros dias em uma escola maternal e ento categoriza suas primeiras iniciaes de contatos sociais em: se foi dirigido a um adulto ou se foi dirigido a outra criana. Ele, ento, observa
cada uma das 25 crianas depois de elas estarem na escola por um ms, fazendo a mesma classificao. Os
dados esto colocados na tabela 3.2 abaixo.
Tabela 3.2 - Tipo de iniciao social de crianas de uma escola maternal
Objeto de
iniciao no
primeiro dia

Objeto de iniciao no trigsimo dia


Criana
Adulto
Adulto
14
4
Criana
3
4

Hipteses: Ho: Para aquelas crianas que mudam, a probabilidade de que uma criana mude o seu
objeto de iniciao de um adulto para criana (isto , PA) igual a probabilidade que ela mude seu objeto de iniciao de criana para adulto (isto , PB) e igual a 50%, ou seja: PA = PB = 1/2.
H1: PA > PB
Prova Estatstica. Prova de McNemar para a significncia de mudanas porque o estudo utiliza duas
amostras relacionadas e utiliza mensurao nominal.
Nvel de significncia. Sejam = 0,05 e n = 25, o nmero de crianas observadas no primeiro e no
trigsimo dia na escola maternal.
Distribuio amostral. Qui-quadrado com 1 grau de liberdade.
Regio de Rejeio. Consiste de todos os valores da distribuio 2 obtidos dos dados tal que a probabilidade de ocorrncia de um valor mais extremo menor que 0,05.
Deciso. Os dados hipotticos do exemplo esto mostrados na tabela 3.2 acima. De acordo com eles
o valor de qui-quadrado calculado :
2 =

(| A D|1)2
(|14 4|1)2
=
= 4,50
A +D
14 + 4

Uma consulta tabela mostra que o valor da distribuio qui-quadrado com um grau de liberdade e
com probabilidade de 5% 3,84. Como o valor calculado maior do que o valor tabelado rejeita-se H0, isto ,
pode-se afirmar que as crianas apresentam tendncia significativa para mudar o objeto de seu interesse, de
adulto para outra criana, aps 30 dias de freqncia escola maternal.
3.1.4. Pequenas freqncias esperadas
Se a freqncia esperada, isto , 1/2 (A + D) muito pequena (menor do que 5), deve ser usada a
prova Binomial no lugar da prova de McNemar. Para o teste Binomial n = A + D e x = menor das duas freqncias observadas A ou D.

3.2. O teste de Wilcoxon


3.2.1. Funo
O teste de Wilcoxon o mais poderoso para o pesquisador do comportamento. Com dados comportamentais no de todo incomum que o pesquisador possa: (a) dizer qual membro do par maior, isto , determinar o sentido da diferena dentro do par e (b) ordenar estas diferenas no sentido de seu valor absoluto.

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


3.2.2. Fundamentos lgicos e mtodo
Seja di = valor da diferena dentro do par i. Para realizar o teste de Wilcoxon deve-se:
Atribuir postos a cada di, independentemente de sinal. Ao menor di, atribuir o posto 1; ao prximo o
posto 2 e assim por diante.
A cada posto deve-se atribuir o sinal da diferena, isto , indique quais postos decorrem de diferenas negativas e quais de diferenas positivas.
Se as duas classificaes so equivalentes, isto se Ho verdadeira, de se esperar que algumas
das maiores diferenas sejam positivas e outras negativas. Desta forma, se forem somados os postos com sinal mais e os postos com sinal menos, deve-se esperar somas aproximadamente iguais. Se houver diferena
entre estas duas somas sinal de que as duas classificaes (ou tratamentos) no se equivalem e deve-se ento rejeitar a hiptese nula.
3.2.3. Empates
Eventualmente os escores de dois pares sero iguais. Neste caso eles so excludos da anlise. o
mesmo procedimento adotado no teste dos sinais. Da mesma forma o valor de n ser reduzido na mesma
quantidade de valores em que a diferena for nula.
Pode ocorrer, ainda, um outro tipo de empate. Duas ou mais diferenas podem ter o mesmo valor absoluto. Neste caso, atribu-se o mesmo posto aos empates. Este posto a mdia dos postos que teriam sido
atribudos se as diferenas fossem diferentes. Por exemplo, se trs pares acusam as diferenas: -1, -1 e +1, a
cada par ser atribudo o posto 2, que a mdia entre 1, 2 e 3. O prximo valor, pela ordem, receberia o valor
4, porque j teriam sido utilizados os postos 1, 2 e 3.
3.2.4. Pequenas Amostras
Seja T a menor soma dos postos de mesmo sinal (negativos ou positivos), isto , ou a soma dos postos positivos ou a soma dos postos negativos (a que for menor). A tabela G (Siegel, pg. 285) fornece vrios valores de T com os respectivos nveis de significncia. Se um T observado no supera o valor dado na tabela G
sob determinado nvel de significncia para uma amostra de tamanho n, rejeita-se a hiptese de nulidade quele nvel.
A tabela G pode ser usada tanto para testes unilaterais quanto bilaterais. Utiliza-se uma prova unilateral se o pesquisador pode predizer, antes de examinar os dados, o sinal da menor soma de postos. Isto , tal
como no caso de todas as provas unilaterais, ele deve poder predizer o sentido da diferena.
Exemplo:
Suponha-se que um psiclogo est interessado em testar se a freqncia a uma escola maternal tem
algum efeito sobre os escores de perceptividade social das crianas. Oito pares de gmeos so os objetos da
sua observao. Um dos gmeos freqentar a escola por um perodo e o outro permanecer em casa. Ele
classifica a percepo atravs da atitude da criana em relao a um conjunto de figuras que ilustram uma diversidade de situaes sociais, formulando um grupo padro de perguntas sobre cada figura. Assim ele pode
obter um escore entre 0 e 100 para cada criana. Ao fim do perodo escolar, as 16 crianas so submetidas
ao teste de perceptividade social.
Hiptese de nulidade: H0: No h diferena entre os graus de perceptividade das crianas que ficaram em casa e das que freqentaram a escola, ou seja, a soma dos postos negativos igual a soma dos postos positivos.
H1: Os graus de perceptividade social dos dois grupos de crianas so diferentes, isto , a soma dos
postos negativos diferente da soma dos postos positivos.
Prova Estatstica: Escolhe-se a prova de Wilcoxon, pois um caso de duas amostras relacionadas e
proporciona escores de diferenas que podem ser ordenados segundo seus valores absolutos.
Nvel de significncia: Sejam = 0,05 e n = nmero de pares (8) menos o nmero em que eventualmente se tenha d = 0.

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


Regio de rejeio. bilateral, pois no se prev o sentido da diferena. A regio de rejeio consiste de todos os valores de T to pequenos que a probabilidade de ocorrncia, sob Ho, no seja superior a =
0,05 para uma prova bilateral. .
Deciso: Neste caso, os 8 pares de crianas de casa e da escola so submetidos ao teste aps o
segundo grupo ter permanecido na escola durante um perodo escolar. A tabela 3.5 apresenta os escores obtidos.
Tabela 3.5 - Escores de perceptividade social de 8 pares de crianas.
Pares
a
b
c
d
e
f
g
h

Escola
82
69
73
43
58
56
76
85

Casa
63
42
74
37
51
43
80
82

d
19
27
-1
6
7
13
-4
3

Posto de d
7
8
-1
4
5
6
-3
2

Apenas 2 pares apresentam diferena no sentido de maior perceptividade das crianas que ficaram
em casa. E estas diferenas de escore esto entre os menores. e sua soma T = 1 + 3 = 4. A tabela G (Siegel,
pg. 285) mostra que para n = 8 um valor de T igual a 4 permite rejeitar a hiptese ao nvel de significncia de
5% para um teste bilateral. Desta forma, pode-se concluir que a escola maternal afeta a perceptividade social
das crianas.
3.2.5. Grandes Amostras
Quando n maior do que 25 a tabela G no pode ser utilizada. No entanto, pode ser mostrado que a
soma dos postos, T, aproximadamente normal, com
Mdia = T = n(n + 1) / 4 e desvio padro T =

Desta forma, Z =

T T
T

n(n + 1)(2n + 1)
24

n(n + 1)
4
aproximadamente N(0, 1).
n(n + 1)(2n + 1)
24
T

Para mostrar que a aproximao excelente, mesmo para pequenas amostras, considere o caso anterior em que n = 8 e T = 4. Colocando estes valores na expresso acima tem-se:
8.9
4 = -1,96
8.917
.
24

4
z=

Pela tabela da normal, pode-se verificar que a significncia deste valor p = 5% para um teste bilateral. Este mesmo valor encontrada na tabela G (Siegel, pg. 285).

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos

4. Testes para duas amostras independentes


4.1. O teste Qui-Quadrado
4.1.1. Funo
Utiliza-se esta prova quando os dados da pesquisa se apresentam sob forma de freqncias em categorias discretas. Pode aplicar a prova 2 para determinar a significncia de diferenas entre dois grupos independentes e conseqentemente, com respeito a freqncias relativas com que os componentes do grupo se
enquadram nas diversas categorias.
4.1.2. Mtodo
A hiptese da nulidade pode ser testada mediante:
r k

(Oij Eij)2

i=1 j=1

Eij

2 =

onde:

Oij = n de casos observados na linha i da coluna j.


Eij = n de casos esperados, sob H0, na linha i da coluna j.
r k

indica somatrio sobre todas as r linhas e todas as k colunas.


i=1 j=1

Os valores de 2 obtidos pela frmula acima, tem distribuio aproximadamente qui-quadrado com
gl = (r - 1)(k - 1), onde r = nmero de linhas e k o nmero de colunas.
Para obter a freqncia esperada Eij em cada clula, multiplicam-se os totais marginais comuns a
uma determinada clula e divide-se produto por n = total de casos.
Exemplo:
Pode-se ilustrar o mtodo mediante um exemplo simples, com dados fictcios. Suponha-se que se
deseje comprovar se existe diferena de qualidade de liderana entre pessoas altas e pessoas baixas. A tabela
4.6 mostra os resultados da classificao de 95 pessoas, que foram divididos entre altos e baixos de um lado e por outro lado como lderes, liderados e no-classificveis. A hiptese de nulidade de que a altura
independente da classificao como lder ou liderado, isto , a proporo de lderes altos e a mesma que a de
lderes baixos e o mesmo se verificando entre os liderados.
Tabela 4.6 - Altura e liderana

Lder
Liderado
No-classificvel
Total

Baixo
12
22
9
43

Alto
32
14
6
52

Total
44
36
15
95

Se as freqncias observadas esto prximas das freqncias esperadas o valor do 2 tambm ser
pequeno. Com um pequeno valor de 2 no podemos rejeitar a hiptese de nulidade, de que os dois conjuntos
de caractersticas sejam independentes um do outro. Todavia, se algumas ou muitas das diferenas so grandes, o valor de 2 ser tambm grande. Quanto maior o valor de 2, tanto maior a probalidade de que os dois
grupos difiram em relao as classificaes adotadas. Pode-se mostrar que a distribuio de 2, tal como definida pela frmula acima, tem distribuio aproximadamente qui-quadrado com:
gl = (r - 1)(k - 1)
A tabela 4.7 ilustra o clculo das freqncias esperadas para os dados da tabela 4.6. Assim, por exemplo, a freqncia esperada para a clula 3x2, isto , E32 : (52.15) / 95 = 8,2.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


Tabela 4.7 - Altura e liderana
Baixo
12 (19,9)
22 (16,3)
9 (6,8)
43

Lder
Liderado
No-classificvel
Total

Alto
32 (24,1)
14 (19,7)
6 (8,2)
52

Total
44
36
15
95

O valor do 2 dado por:


r k

2 =

(Oij Eij)2

= (12 - 19,9)2 / 19,9 + (32 - 24,1)2 / 24,1 + (22 - 16,3)2 / 16,6 + (14 - 19,7)2 / 19,7 +
Eij
(9 - 6,8)2 / 6,8 + (6 - 8,2)2 / 8,2 = 3,14 + 2,59 + 1,99 + 1,65 + 0,71 + 0,59 = 10,67
i=1 j=1

Para determinar a significncia de 2 = 10,67, quando gl = (3 - 1).(2 - 1) = 2, utiliza-se a tabela 3 que


mostra que este valor significativo alm do nvel = 0,01. Portanto, pode-se rejeitar a hiptese de nulidade
ao nvel de 1%. De fato, neste caso, seria possvel rejeitar tambm ao nvel de 0,5%.
4.1.3. Tabelas de Contingncia 2X2
Talvez a aplicao mais comum do teste 2 consista em comprovar se uma distribuio de valores em
uma tabela de contingncia 2x2 pode ter ocorrido sob H0. Neste caso, a frmula acima assume a seguinte expresso particular:

2 =

n | AD BC|

( A + B)(C + D)( A + C)(B + D)

com gl = 1

Esta expresso um pouco mais simples de aplicar do que a frmula anterior, pois requer apenas
uma diviso. Tem ainda a vantagem de incorporar uma correo de continuidade que melhora sensivelmente a
aproximao do 2 calculado pela distribuio qui-quadrado.
Exemplo:
Adams estudou a relao entre os interesses vocacionais e a escolha do currculo com a taxa de desistncia do curso universitrio por parte de estudantes superdotados. Os indivduos observados eram estudantes classificados no percentil 90 nos teste de admisso e que haviam resolvido mudar de carreira aps a
matrcula. O pesquisador comparou os estudantes destacados cuja escolha curricular se manteve na linha
considerada desejvel vista do resultado obtido no teste vocacional de Strong (tais casos sendo considerados como "positivos") com os estudantes destacados cuja escolha curricular se processou em sentido diverso
do indicado pelo T teste de interesses. A hiptese do pesquisador e que os estudantes cuja escolha foi considerada "positiva" acusam maior freqncia de permanncia na faculdade ou curso universitrio inicialmente
escolhido.
Hipteses: Ho: No h diferena entre os dois grupos (escolha "positiva" e escolha "negativa" de
currculo) no que diz respeito a proporo dos estudantes que permanecem na faculdade.
H1: A porcentagem de permanncia na faculdade e maior entre os estudantes cuja escolha de currculo foi considerada "positiva".
Prova Estatstica. Escolhe-se a prova 2 para duas amostras independentes porque os dois grupos
considerados "positivo" e "negativo" so independentes e porque os escores que esto sendo estudados consistem de freqncias em categorias discretas (permanncia na faculdade ou afastamento dela).
Nvel de Significncia. Sejam = 0,05 e n = nmero de estudantes na amostra = 80.
Distribuio Amostral. 2 tal como calculado pela frmula do exemplo tem distribuio amostral aproximadamente qui-quadrado com gl = 1. A tabela 3 d os valores crticos do qui-quadrado.
Regio de Rejeio. A regio de rejeio consiste de todos os valores de 2 que so to grandes
que a probabilidade associada sua ocorrncia, sob H0, no supere = 0,05. Como H1 prev o sentido da diMat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


ferena entre os dois grupos, a regio de rejeio unilateral. A tabela 3 indica que, uma prova unilateral,
quando gl = 1, 2 = 3,84. Portanto, a regio de rejeio consiste de todos os 2 > 3,84 se o sentido dos resultados o previsto em H1.
Deciso. A tabela d os resultados obtidos por Adams. Por ali se v que de 56 estudantes superdotados que fizeram escolha "positiva", 10 se afastaram da universidade, e 46 permaneceram nela. Dos 24, que
fizeram escolha "negativa", 11 se afastaram da universidade e 13 permaneceram nela.
Tabela 4.8 - Escolha de currculo e afastamento da Universidade entre os estudantes super dotados
Sentido da escolha curricular
Afastamento
Permanncia
Total

Positivo
10
46
56

Negativo
11
13
24

Total
21
59
80

O valor do 2 para este dados :

2 =

n | AD BC|

( A + B)(C + D)( A + C)(B + D)

80

80 |10.13 1146
. |

( 21)( 59 )( 56)(24)

= 5,42

A probabilidade de ocorrncia, sob Ho, de 2 = 5,42 com gl = 1 menor que 5%. Como este valor
superior ao valor tabelado, a deciso rejeitar Ho em favor de H1. Conclui-se , pois que os estudantes superdotados cuja a escolha de currculo foi considerado "positiva" acusam maior freqncia de permanncia na universidade do que estudantes superdotados cuja escolha foi considerada "negativa".
4.1.4. Quando usar o teste
A prova 2 exige que as freqncias esperadas em cada clula no sejam muito pequenas. Quando
elas so inferiores ao mnimo exigido, a aplicao da prova pode se tornar inadequada ou mesmo intil.
O caso 2x2. Se as freqncias se dispem em uma tabela de contingncia 2x2 a deciso quanto ao
uso da prova 2 deve basear-se nas seguintes consideraes:
Quando n > 40 utilizar a prova com correo de continuidade.
Quando 20 n 40 a prova pode ser aplicada desde que nenhuma das freqncias esperadas seja inferior a 5. Se a menor freqncia esperada for inferior a 5, utilizar a prova de Fisher (SIE56).
Quando n < 20 utilizar a prova de Fisher em qualquer caso.
Tabelas de contingncia com gl superior a um. Quando k > 2 (e conseqentemente gl > 1), a prova 2 pode ser aplicada somente se o nmero de clulas com freqncia esperada inferior a 5 inferior a 20%
do total de clulas e se nenhuma clula tem freqncia esperada inferior a 1. Se essas condies no so satisfeitas pelos dados da forma em que foram coletados originalmente, o pesquisador deve combinar categorias
adjacentes de modo a aumentar as freqncias esperadas nas diversas clulas. Somente aps feita a combinao de categorias de forma a satisfazer as exigncias acima que a prova 2 pode ser validamente aplicada.
Quando gl > 1 a prova 2 insensvel ao efeito de ordem. Por isso, quando determinada hiptese leva em conta a ordem, a prova qui-quadrado pode no ser a melhor opo.

4.2. O teste U de Mann-Whitney


4.2.1. Funo
Desde que o grau de mensurao seja pelo menos ordinal, pode-se aplicar a prova U de MannWhitney para comprovar se dois grupos independentes foram ou no extrados da mesma populao. Trata-se
de uma das mais poderosas provas no-paramtricas e constitu uma alternativa extremamente til da prova

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


paramtrica t, quando se deseja evitar as hipteses exigidas por ela ou quando a mensurao exigida inferior
de escala de intervalos.
Suponha-se que existam duas amostras extradas das populaes A e B. A hiptese de nulidade
que A e B tenham a mesma distribuio. A hiptese alternativa, H1, que A maior do que B (teste unilateral).
Pode-se rejeitar H0 se a probabilidade de um escore de A ser maior do que um escore de B maior do que 1/2.
Isto , se a uma observao da populao A e b uma observao da populao B, ento a hiptese alternativa que P(a > b) > 1/2. Se a evidncia apia H1, isto implica que o grosso da populao A superior ao
grosso da populao B. Para uma prova bilateral, H1 seria que P(a > b) 1/2.
4.2.2. Mtodo
Seja n1 = nmero de casos no menor dos dois grupos independentes e n2 = nmero de casos no
maior grupo. Para aplicar o teste U, primeiramente combinam-se as observaes ou escores de ambos os grupos, relacionando-os por ordem ascendente. Nessa ordenao ascendente, consideram-se os valores algbricos, isto , os postos mais baixos so atribudos aos maiores nmeros negativos (se houver).
Focaliza-se agora um dos grupos, seja o grupo que apresentar n1 casos. O valor de U (a estatstica
utilizada na prova) obtido pelo nmero de vezes que um escore no grupo com n2 casos precede um escore
no grupo com n1 casos no grupo ordenado crescentemente.
Por exemplo, suponha-se um grupo experimental com 3 casos e um grupo de controle com 4 casos.
Aqui n1 = 3 e n2 = 4. Admita-se que os escores sejam os seguintes:
Escores E
Escores C

9
6

11
8

15
10

13

Para determinar U, ordenam-se primeiro os escores em ordem crescente, tendo o cuidado de identificar a qual grupo cada um pertence (E ou C):
6
C

8
C

9
E

10
C

11
E

13
C

15
E

Considera-se agora o grupo de controle, C, e conta-se o nmero de escores E que precedem cada
escore deste grupo. Nenhum escore E precede o escore C igual a 6. Isto tambm verdade para o escore C =
8. O prximo escore C 10 e precedido por um escore E. O ltimo escore C, o 13, antecedido por dois escores E. Assim, U = 0 + 0 + 1 + 2 = 3. O nmero de vezes que um escore E vem antes de um escore C igual
a 3, isto , U = 3.
A distribuio amostral de U, sob H0, conhecida e pode-se ento determinar-se a probabilidade associada ocorrncia, sob H0, de qualquer valor de U to extremo quanto o valor observado.
4.2.3. Amostras muito pequenas
Quando nem n1 e nem n2 so superiores a 8, pode-se utilizar a tabela J (Siegel, pg. 302-04) para determinar a probabilidade exata associada ocorrncia, sob H0, de qualquer U to extremo quanto o valor observado.
A tabela J constituda de 6 subtabelas separadas, uma para cada valor de n2, de n2 = 3, a n2 = 8.
Para determinar a probabilidade, sob H0, associada aos dados necessrio saber o valor de n1, de n2 e de U.
No exemplo acima, tem-se: n1 = 3, n2 = 4 e U = 3. A subtabela para n2 = 4 da tabela J mostra que
U 3 tem probabilidade de ocorrncia, sob H0, de p = 0,20 = 20%.
As probabilidades fornecidas na tabela J so unilaterais. Para um teste bilateral, deve-se duplicar o
valor de p constante na tabela.
Caso o valor observado de U seja grande e no conste da tabela, existe a possibilidade de ter-se tomado o grupo errado para a determinao de U. Neste caso, usa-se a transformao:
U = n1.n2 - U, onde U o valor no encontrado na tabela.

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


Exemplo:
Solomon e Coles 1 estudaram se os ratos seriam capazes de generalizar uma imitao aprendida,
quando colocados sob nova impulso (drive) e em nova situao. Cinco ratos foram treinados para imitar ratos
lderes em um labirinto T. Foram treinados para seguir seus lderes quando estivessem com fome, a fim de atingir o alimento. Em seguida, os cinco ratos foram transferidos para uma nova situao de esquiva ao choque
eltrico. Seu comportamento na situao de esquiva ao choque foi ento comparado ao de quatro controles
que no tinham nenhum treinamento prvio para seguir seus lderes. A hiptese era de que os 5 ratos que j
tinham sido treinados para imitar seus lderes transfeririam este treinamento para a nova situao e, assim, aprenderiam a evitar o choque mais depressa do que os 4 ratos de controle. A comparao se fez em termos de
quantas tentativas foram precisas para cada rato atingir um critrio de 10 respostas corretas em 10 tentativas.
Hipteses: Ho: O nmero de tentativas para atingir o critrio desejado na situao de esquiva ao
choque o mesmo tanto para os ratos previamente treinados a seguir um lder na busca do alimento, quanto
para os ratos sem nenhum treinamento prvio. H1: Os ratos com treinamento prvio para seguir um lder na
busca de alimento atingiro o critrio desejado na nova situao de esquiva ao choque mais rapidamente que
os ratos no treinados.
Prova Estatstica. Escolhe-se a prova U de Mann-Whitney porque o estudo utiliza duas amostras independentes, pequenas e mensurao (nmero de tentativas para atingir o critrio desejado como ndice de
velocidade de aprendizagem) provavelmente em escala ordinal, na melhor das hipteses.
Nvel de Significncia. Sejam = 0,05 e n1 = 4 = ratos de controle e n2 = 5 = ratos experimentais.
Distribuio Amostral. A tabela J (Siegel, pg. 302-04) fornece as probabilidades associadas ocorrncia, sob H0, de valores to pequenos quanto determinado U observado para n1, n2 8.
Regio de Rejeio. Como H1 prediz o sentido da diferena, a regio de rejeio ser unilateral.
Consiste de todos os valores de U to pequenos que a probabilidade associada a sua ocorrncia, sob H0, no
supera = 0,05.
Deciso. Foram os seguintes os nmeros de tentativas necessrias para os ratos E = experimental e
C = controle atingirem o critrio desejado:
Ratos E
Ratos C

78
110

64
70

75
53

45
51

82

Dispondo os escores em ordem crescente e mantendo a identidade de cada um, vem:


45
E

51
C

53
C

64
E

70
C

75
E

78
E

82
E

110
C

Obtm-se o valor de U, contando o nmero de escores E que precedem cada escore C. Assim:
U= 1+ 1+2+ 5= 9
Na tabela J verifica-se que na subtabela para n2 = 5, U 9, quando n2 = 4 tem probabilidade de ocorrncia, sob H0, de p = 0,452. A deciso que os dados no mostram evidncia que justifique a rejeio de H0,
ao nvel dado. Assim, no possvel afirmar que o treinamento prvio para imitar se generalize atravs de novas situaes e novas impulses.
4.2.4. Amostras mdias (n entre 9 e 20)
Se n2 representar o tamanho da maior das duas amostras e for maior do que 8, a tabela J no poder
mais ser utilizada. Quando 9 n2 20, pode-se aplicar a prova de Mann-Whitney utilizando a tabela K (Siegel,
pg. 305-08) que fornece valores crticos de U para os nveis de significncia de 0,001, 0,01, 0,025 e 0,05 para
um teste unilateral. Para um teste bilateral, os nveis de significncia so dados por: 0,002, 0,02, 0,05 e 0,10.
Note-se que este conjunto de tabelas fornece valores crticos de U e no probabilidades exatas (como as tabelas J). Isto , se um valor observado de U, para um dado n1 20 e n2 entre 9 e 20, no supera o valor dado na
tabela, pode-se rejeitar H0, a um dos nveis de significncia indicados no cabealho da tabela.
1

SOLOMON, R. L., COLES, M. R. A case of failure of generalization of imitation across drives and across situations. J. Abnorm. Soc. Psychol., 49, 7-13, 1954.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


Por exemplo, se n1 = 6 e n2 = 13, um valor de U = 12 permite rejeitar H0 ao nvel de = 0,01 em uma
prova unilateral e rejeitar H0 ao nvel = 0,02 em uma prova bilateral.
Determinao do valor U. Para valores razoavelmente grandes de n1 e n2, o mtodo para determinar o valor de U pode ser bastante trabalhoso. Um processo alternativo, que d resultados idnticos, consiste
em atribuir posto 1 ao mais baixo escore do grupo combinado de (n1 + n2) escores, o posto 2 ao escore seguinte, etc. Ento:
U = n1n2 +

n1 (n1 + 1)
n (n + 1)
R1 ou, de forma equivalente U = n1n2 + 2 2
R2
2
2

onde R1 = soma dos postos atribudos ao grupo cujo tamanho de amostra n1,
R2 = soma dos postos atribudos ao grupo cujo tamanho de amostra n2.
Por exemplo, poder-se-ia ter
utilizado este processo para determinar o valor de U no caso de pequenas
amostras tratado acima. Os escores E
e C, bem como seus postos, so apresentados novamente na tabela 4.12.
Aplicando a frmula acima
vem:
U = 4.5 + 5.(5 + 1) / 2 - 26 =

Tabela 4.12 - Tentativas dos ratos para atingir o critrio desejado


Escore E
78
64
75
45
82
Soma

Posto
7
4
6
1
8
R2 = 26

Escore C
110
70
53
51

Posto
9
5
3
2

Soma

R1 = 19

9
O menor dos dois valores de U aquele cuja distribuio amostral constitu a base da tabela K (Siegel, pg. 305-08).
4.2.5. Grande amostras (n > 20)
Nem a tabela J e nem a K podem ser utilizadas quando n2 > 20. Todavia, Mann e Whitney mostraram
(1947), que medida que n1 e n2 aumentam, a distribuio amostral de U tende rapidamente para a distribuio normal, com:
Mdia = U = (n1n2) / 2
e desvio padro

U =

U U
n1 n2 (n1 + n2 + 1)
, isto , quando n2 > 20, o valor de:Z =
=
12
U

n n
U 1 2
2
tem disn1n2 (n1 + n2 + 1)
12

tribuio aproximadamente N(0, 1).


4.2.6. Empates
A prova de Mann-Whitney supe que os escores representem uma distribuio basicamente contnua. Numa distribuio contnua a probabilidade de um empate zero. Todavia, como a mensurao tem uma
preciso limitada, os empates podem ocorrer. Admite-se que as observaes que estejam empatadas, tenham,
na realidade, escores diferentes, e que esta diferena muita pequena para ser detectada pelo instrumento de
medida.
Quando ocorrem empatem atribu-se a cada um dos valores empatados a mdia dos postos que lhes
seriam atribudas se no houvesse empate.
Se os empates ocorrem entre dois ou mais valores do mesmo grupo, o valor de U no afetado. Mas
se os empates ocorrem entre duas ou mais observaes envolvendo os dois grupos, ento o valor de U afetado. Embora, os efeitos prticos dos empates sejam desprezveis existe uma correo para empates que deve
ser utilizada com a aproximao normal para grandes amostras. O efeito dos postos empatados modifica a variabilidade do conjunto de postos. Assim, a correo deve ser aplicada ao desvio padro da distribuio amostral de U. Com esta correo o desvio padro dado por:
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos

n1 n2 n3 n
T , onde n = n1 + n2 e T = (t3 - t) / 12 (t = nmero de escores empatados

n(n 1) 12

para um determinado posto).


U =

Pode-se verificar que no houver empates a expresso acima se reduz a anterior.

4.3. O teste de Kolmogorov-Smirnov


4.3.1. Funo e fundamentos lgicos
A prova de Kolmogorov-Smirnov (K-S) de duas amostras comprova se elas foram extradas da mesma populao (ou de populaes com a mesma distribuio). A prova bilateral sensvel a qualquer diferena
nas distribuies das quais se extraram as amostras - diferenas na posio central, na disperso, na assimetria, etc. A prova unilateral utilizada para determinar se os valores da populao da qual se extraiu uma das
amostras so, ou no, estocasticamente maiores do que os valores da populao que originou a outra amostra,
por exemplo, para testar a hiptese de que os escores de um grupo experimental sero melhores do que os
escores do grupo de controle.
Tal como a prova de K-S para uma amostra (item 2.3) o teste utiliza as distribuies acumuladas. A
prova de uma amostra se refere a concordncia entre a distribuio de um conjunto de valores amostrais e determinada distribuio terica. A prova de duas amostras visa a concordncia entre dois conjuntos de valores
amostrais.
Se as duas amostras foram extradas da mesma populao, ento de se esperar que as distribuies acumuladas das duas amostras sejam bastante prximas uma da outra, acusando apenas desvios casuais em relao distribuio da populao. Se as distribuies acumuladas so diferentes ou distantes uma
da outra em qualquer ponto, isto sugere que as amostras provenham de populaes tambm distintas. Assim
um desvio grande pode levar a rejeio da hiptese de nulidade.
4.3.2. Mtodo
Para aplicar a prova de Kolmogorov-Smirnov de duas amostras, constri-se a distribuio das freqncias acumuladas relativas de cada uma das amostras, utilizando os mesmos intervalos (amplitude de
classes) para cada uma delas. Em cada intervalo subtra-se uma funo da outra. A prova utiliza como estatstica o maior destas diferenas.
Sejam Sn1(x) = funo acumulada observada para a primeira amostra, isto , Sn1(x) = k / n1, onde k =
nmero de escores no superiores a x. Seja Sn2(x) = funo acumulada observada da segunda amostra, isto ,
Sn2(x) = k / n2. O teste K-S toma a maior destas diferenas em mdulo que denominada de desvio mximo e
anotada por D. Assim:
D = [Sn1(x) - Sn2(x)] para uma prova bilateral e D = |Sn1(x) - Sn2(x)| para uma prova unilateral.
A distribuio amostral de D, sob H0, para uma prova bilateral conhecida (Smirnov, 1948, Massey,
1951) e se encontra tabelada.
4.3.3. Pequenas amostras
Quando n1 = n2 e no so superiores a 40, ento pode-se utilizar a tabela L (Siegel, pg. 309) para
comprovar a hiptese de nulidade. O corpo da tabela fornece vrios valores da quantidade K D, que definida
como o numerador da maior diferena entre as duas distribuies acumuladas, isto , o numerador D. Para ler
um valor nesta tabela, deve-se conhecer o valor de n = n1 = n2 e o valor de K D. Por exemplo, em uma prova
unilateral com n = 14, se kD 8, pode-se rejeitar H0 ao nvel de = 0,01.

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


Exemplo:
Lepley 2 comparou o aprendizado serial de 10 alunos da stimo grau com o aprendizado serial de 10 alunos
do dcimo primeiro grau, para comprovar a hiptese de que
o efeito de primazia menos predominante no aprendizado
de estudantes mais jovens. O efeito de primazia a tendncia para reter a matria aprendida no comeo de determinada srie mais facilmente do que a matria aprendida no fim daquela srie. Lepley comprovou sua hiptese
comparando a percentagem de erros cometidos pelos dois
grupos na primeira metade da srie, prevendo que o grupo
mais velho (alunos do dcimo primeiro grau) cometeria relativamente menos erros do que o grupo mais jovem, ao
evocar a primeira metade da srie.

Tabela 4.14 - Percentagem de erros totais


Alunos do 7 grau
39,1
41,2
45,2
46,2
48,4
48,7
55,0
40,6
52,1
47,2

Alunos do 11 grau
35,2
39,2
40,9
38,1
34,4
29,1
41,8
24,3
32,4
32,6

Hipteses: Ho: No h diferena na proporo


de erros cometidos ao evocar a primeira metade da srie, entre os alunos dos dois graus.
H1: Os alunos do dcimo primeiro grau cometem relativamente menos erros do que os de stimo grau
ao evocarem a primeira metade da srie.
Prova Estatstica. Emprega-se a prova K-S porque o pesquisador deseja comparar duas amostras
pequenas e independentes, de mesmo tamanho.
Nvel de significncia. Sejam = 0,01 e n1 = n2 = n = nmero de indivduos em cada grupo = 10.
Distribuio amostral. A tabela L (Siegel, pg. 309) apresenta vrios valores crticos de kD para n1 =
n2 quando n1 e n2 so inferiores a 40.
Regio de Rejeio. Como H1 prediz o sentido da diferena, a regio de rejeio unilateral. H0 ser
rejeitada se o valor de kD do maior desvio na direo prevista for to grande que a probabilidade associada
sua ocorrncia, sob H0, no seja superior a 0,01.
Deciso. A tabela 4.14 fornece a percentagem dos erros cometidos por cada aluno ao evocar a primeira metade da srie. Para anlise pela prova K-S os dados foram dispostos em duas distribuies de freqncias acumuladas, apresentadas na tabela 4.15.
Note-se que a maior diferena entre as duas sries 7/10. Assim kD = 7, que o numerador desta diferena mxima. Utilizando a tabela L, para n = 10, v-se que este valor significativo ao nvel = 1% para
uma prova unilateral. A deciso , portanto, rejeitar H0 em favor de H1. Conclu-se que os alunos do dcimo
primeiro grau comentem proporcionalmente menos erros do que os do stimo grau, ao evocar a primeira metade da srie.
Tabela 4.15 - Distribuies acumuladas dos dados da tabela 4.14
Classes
Sn1(x)
Sn2(x)
Sn1(x) - Sn2(x)

% erros na primeira metade da srie


24-27
28-31
32-35
36-39
40-43
1/10
2/10
5/10
7/10
10/10
0/10
0/10
0/10
0/10
3/10
1/10
2/10
5/10
7/10
7/10

44-47
10/10
5/10
5/10

48-51
10/10
8/10
2/10

52-55
10/10
10/10
0

4.3.4. Grandes amostras: prova bilateral


Quando tanto n1 quanto n2 so maiores do que 40, pode-se utilizar a tabela M (Siegel, pg. 310) para
realizar o teste K-S de duas amostras independentes. Neste caso, no necessrio que n1 seja igual a n2.
Para utilizar a tabela M, determina-se o valor de D para os dados observados, por meio da expresso
D = [Sn1(x) - Sn2(x)]. Compara-se ento esse valor observado com o valor crtico que se obtm substituindo os
valores observados de n1 e n2 na expresso dada pela tabela M. Se o D observado no mnimo igual ao calcu-

EPLEY, W. M., Serial reactions considered as considered as reactions. Psychol. Monogr., 46, n. 205, 1934
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


lado por esta expresso, ento, ele pode ser rejeitado ao nvel de significncia (bilateral) associado quela expresso.
Por exemplo, suponha-se que n1 = 55 e n2 = 60 e que se queira uma prova bilateral ao nvel de 5%.
Na coluna da tabela M correspondente a = 5%, ser encontrado o valor de D que os dados devem pelo menos igualar, para que se possa rejeitar a hiptese de nulidade. Efetuando os clculos, verifica-se que D deve
ser maior ou igual a 0,254 para a rejeio de H0, pois:
136
,

55 + 60
n1 + n2
= 136
,
= 0,254
(
55)( 60 )
n1 n2

4.3.5. Grandes amostras: prova unilateral


Quando n1 e n2 so grandes e independentemente de ser n1 = n2, no se pode aplicar uma prova unilateral considerando D = [Sn1(x) - Sn2(x)].
Neste caso deve ser utilizada a expresso:
2 = 4 D2

n1 n2
n1 + n2

Goodman (1954) mostrou que esta expresso tem uma distribuio amostral aproximadamente quiquadrado com gl = 2. Ou seja, pode-se determinar a significncia de um valor observado D, tal como calculado
pela expresso de D acima, aplicando esta expresso em relao aos valores observados de D, n1 e n2 e recorrendo a tabela do qui-quadrado, ao invs da tabela L ou M.
Exemplo:
Em um estudo dos corrrelatos
Tabela 4.16 - N de fotos identificadas por 98 universitrias
da estrutura da personalidade autorit3
ria formulou-se a hiptese de que as
Escores baixos
Escores altos
N de fotos identificadas
pessoas com alto grau de autoritarismo
0-2
11
1
apresentariam maior tendncia para
3-5
7
3
possuir esteretipos sobre membros de
6-8
8
6
diversos grupos nacionais e tnicos, do
9 - 11
3
12
que pessoas com baixo grau de autorita12 - 14
5
12
rismo. A hiptese foi comprovada em um
15 - 17
5
14
grupo de 98 estudantes universitrias
18
20
5
6
selecionadas ao acaso. Cada uma recebeu 20 fotografias e foi solicitada a identificar aquelas cuja nacionalidade reconhecia, casando a fotografia apropriada com o nome do grupo nacional. No havia restrio quanto ao nmero de fotos que pudessem identificar pelo processo descrito. Acontece que (sem que as estudantes soubessem) todas as fotos eram de pessoas de nacionalidade mexicana - ou
candidatos legislatura mexicana ou vencedoras de um concurso de beleza mexicana; e como a lista de 20
nacionalidades no inclua a nacionalidade mexicana, o nmero de fotos que cada um identificasse constituiria
um ndice de sua tendncia estereotipia. O grau de autoritarismo, medido pela escala F (de Adorno et al.,
1950), foi classificado como alto ou baixo. Escores considerados altos foram os situados acima da mediana
e baixos os situados abaixo da mediana.
Hipteses: Ho: As universitrias com baixo grau de autoritarismo identificariam tantos fotos quanto
as universitrias com alto grau de autoritarismo.
H1: As universitrias com alto grau de autoritarismo identificariam maior nmero de fotos do que as
universitrias com baixo grau.
Prova Estatstica. Como a prova envolve amostras independentes foi escolhida o teste K-S.
Nvel de significncia. Seja = 0,01. Os tamanhos de n1 e n2 s podem ser determinados aps a
coleta dos dados, pois as pessoas sero agrupadas conforme o escore esteja acima ou abaixo do escore mediano do grupo todo.
3

SIEGEL, S. Certain determinants and correlates of authoritarianism. Genet. Psychol. Monogr., 49, 187-229, 1954.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


Distribuio amostral. Para grandes amostras a distribuio adequada a qui-quadrado.
Regio de Rejeio. Como H1 no prev o sentido da diferena entre os dois grupos, utiliza-se uma
prova unilateral.
Deciso. Para aplicar a prova K-S os dados so reagrupados nas distribuies de freqncias acumuladas conforme tabela 4.17. A maior das diferenas que se pode verificar 0,41 (coluna 4), isto , D = 0,41.
Tabela 4.17 - Dados da tabela 4.16 dispostos para aplicao da prova K-S
Classes
Sn1(x)
Sn2(x)
Sn1(x) - Sn2(x)

Nmero de fotos identificadas


0-2
3-5
6-8
9 - 11
11/44
18/44
26/44
29/44
1/54
4/54
10/54
22/54
0,23
0,34
0,41
0,25

12 - 14
34/44
34/54
0,14

15 - 17
39/44
48/54
-0,03

18 - 20
44/44
54/54
0

O valor do qui-quadrado ento obtido por:


2 = 4 D2

n1 n2
= 4.(0,41)2[44.54 / (44 + 54)] = 15,97
n1 + n2

A tabela do qui-quadrado indica que a probabilidade associada a 2 = 15,97 para gl = 2 p = 0,005


(prova unilateral). Como este valor inferior a = 0,01, pode
se rejeitar H0. Conclu-se que as mulheres universitrias com alto grau de autoritarismo acusam maior tendncia estereotipia do que as com baixo grau de
autoritarismo.

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos

5. Testes para k amostras relacionadas


O teste de Friedman (Anlise de varincia de dupla classificao por postos)
5.1. Funo
Quando os dados de k amostras correspondentes se apresentam pelo menos em escala ordinal, a
prova de Friedman til para comprovar a hiptese de nulidade, de que as k amostras tenham sido extradas
da mesma populao. Como as k amostras esto em correspondncia, o nmero de casos o mesmo para
cada uma delas. A correspondncia pode ser estabelecida, quando se estuda o mesmo grupo de indivduos
sob cada uma das k condies. Ou pode-se obter vrios conjuntos, cada um deles com k indivduos em correspondncia, associado-se, em seguida, aleatoriamente, um indivduo em cada conjunto primeira condio,
um indivduo em cada conjunto segunda condio, etc. Por exemplo, desejando estudar as diferenas no aprendizado sob quatro mtodos de ensino, pode-se obter n conjuntos de k = 4 alunos, cada conjunto constitudo de alunos que se correspondem segundo variveis relevantes (idade, aprendizado prvio, inteligncia, situao scio-econmica, etc.) associando-se em seguida, aleatoriamente, um aluno de cada um dos n conjuntos
ao mtodo de ensino A, outro de cada conjunto ao mtodo B, outro ao mtodo C e o quarto ao mtodo D.

5.2. Fundamentos lgicos do mtodo


Para a prova de Friedman, os dados se dispem em uma tabela de dupla entrada com n linhas e k
colunas. As linhas representam os vrios indivduos ou conjuntos correspondentes de indivduos, e as colunas
representam as diversas condies. Se esto sendo estudados os escores de indivduos observados sob todas
as condies, ento cada linha d os escores de um indivduo sob as k condies.
Os dados da prova so postos. Aos escores de cada linha atribuem-se postos separadamente. Isto ,
com k condies em estudo, os postos em qualquer linha vo de 1 a k. A prova de Friedman determina se
provvel que as diferentes colunas de postos (amostras) provenham da mesma populao. Por exemplo, suponha-se que se queira estudar os escores de 3 grupos sob 4 condies. Aqui k = 4 e n = 3. Cada grupo contm 4 indivduos correspondentes, um associado a cada uma das 4 condies. Suponha-se que os escores obtidos sejam os da tabela 5.1.
Tabela 5.1 - Escores de trs grupos correspondentes sob quatro condies
Condies
Grupo A
Grupo B
Grupo C

I
9
6
9

II
4
5
1

III
1
2
2

IV
7
8
6

Para aplicar a prova de Friedam a estes dados, primeiro atribu-se postos aos escores em cada linha.
Ao mais baixo escore em cada linha pode-se atribuir o posto 1, ao seguinte em cada linha o posto 2, etc. Obtm-se assim os dados mostrados na tabela 5.2. Note-se que os postos em cada linha da tabela vo de 1 a k =
4.
Tabela 5.2 - Postos de trs grupos correspondentes sob quatro condies
Condies
Grupo A
Grupo B
Grupo C
Ri

I
4
3
4
11

II
2
2
1
5

III
1
1
2
4

IV
3
4
3
10

Se a hiptese de nulidade (de que todas as amostras - colunas - provenham da mesma populao) ,
de fato, verdadeira, ento a distribuio de postos em cada coluna ser aleatria, sendo ento de se esperar
que os postos 1, 2, 3 e 4 apaream em todas as colunas com freqncias aproximadamente igual. Isto indica
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


que, para qualquer grupo, uma questo de acaso sob que condio ocorre o menor escore, o que seria o caso se as condies realmente no diferissem entre si. Se os escores fossem dependentes das condies (isto
, se H0 fosse falsa), ento os totais de postos variariam de uma coluna para outra. Como as colunas contm,
todas elas, o mesmo nmero de casos, uma afirmativa equivalente seria que, sob H0, os postos mdios das vrias colunas seriam aproximadamente iguais.
A prova de Friedman determina se os totais dos postos (Rj) diferem significativamente. Para aplicar o
teste, calcula-se o valor de uma estatstica que Friedman representou por r2.
Quando o nmero de linhas e/ou colunas no muito pequeno, pode-se mostrar (Friedman, 1937)
que r2 tem uma distribuio aproximadamente qui-quadrado, com gl = k - 1, sendo:
2 =

k
12
R2j 3n(k + 1) , onde
nk (k + 1) i=1

n = nmero de linhas,
k = nmero de colunas,
Rj = soma dos postos da coluna j
Note-se que 2 tem distribuio aproximadamente qui-quadrado com gl = k - 1 somente quando o
nmero de linhas e/ou colunas no muito pequeno. Quando o nmero de linhas ou de colunas inferior ao
mnimo, existem tabelas com as probabilidades exatas que devem ser utilizadas. A tabela N (Siegel, pg. 31112) d as probabilidades exatas associadas a valores to grandes quanto um 2. observado, para k = 3 e n variando de 2 a 9 e k = 4 e n variando de 2 a 4. Se os valores de n e k so superiores aos valores fornecidos na
tabela N, pode-se ento utilizar a expresso acima e utilizar a tabela do qui-quadrado.
Para ilustrar o uso da tabela N, considere-se os valores do exemplo acima. Aplicando a expresso
tem-se:
r2.=

k
12
12
R2j 3n(k + 1) =
112 + 52 + 4 2 + 10 2 3.3.( 4 + 1) = 7,40
nk (k + 1) i=1
3.4(4 + 1)

Pode-se determinar a probabilidade


nece a probabilidade exata, associada a valores to grandes quanto um r2 observado
para k = 4, que, neste caso, p = 0,033.
Pode-se, portanto, com tais dados, rejeitar a
hiptese de nulidade de que as 4 amostras
tenham sido extradas da mesma populao
com respeito locao (postos mdios) ao
nvel de significncia de 3%.
Exemplo: (para n e k grandes)
Em um estudo do efeito de trs
padres diferentes de reforo sobre a extenso do aprendizado discriminativo entre ratos, treinaram-se trs amostras correspondentes (k = 3) de 18 ratos (n = 18) sob trs
tipos de reforo. Estabeleceu-se a correspondncia utilizando-se 18 conjuntos de ratos de mesma cria, trs em cada conjunto.
Conquanto todos os 54 ratos tenham recebido a mesma quantidade de reforo (recompensa), o modo de administrar esse reforo foi diferente para cada um dos grupos.
Um grupo foi treinado com 100% de reforo
(RR), outro grupo foi treinado sob um reforo parcial em que cada seqncia de tentativas terminava com uma tentativa no re-

ocorrncia, sob H0, de r2 7,40, verificado a tabela NII que forTabela 5.34 - Postos de dezoito grupos correspondentes no
estudo de transferncia de aprendizado aps treinamento
sob trs condies diferentes de reforo

Grupo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Rj

RR
1
2
1
1
3
2
3
1
3
3
2
3
3
2
2,5*
3
3
2
39,5

Tipo de reforo
RU
3
3
3
2
1
3
2
3
1
1
3
2
2
3
2,5*
2
2
3
42,5

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

UR
2
1
2
3
2
1
1
2
2
2
1
1
1
1
1
1
1
1
26,0

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


compensada (RU) e o terceiro grupo foi treinado sob recompensa parcial, cada seqncia de tentativas terminando com uma tentativa recompensada (UR).
Ao cabo desse treinamento, mediu-se a extenso do aprendizado pela rapidez com que os diversos
ratos adquiriram um hbito "oposto': embora treinados para correrem em direo ao branco, eram agora estimulados a correr me direo do preto. Quanto melhor tivesse sido o aprendizado inicial, mais lenta deveria ser
essa transferncia de aprendizado. Predio: os diferentes tipos de reforo (recompensa) utilizados resultariam
em diferentes graus de capacidade de transferncia de aprendizado.
Hipteses: Ho: Os diversos tipos de reforo no tm efeito diferencial.
H1: Os diversos tipos de reforo tm efeito diferencial.
Prova estatstica: Como o nmero de erros na transferncia de aprendizado no provavelmente
uma medida intervalar da fora do aprendizado original, escolheu-se a prova de Friedman (no-paramtrica) ao
invs da prova paramtrica correspondente (anlise de varincia). Alm disso, no se pode utilizar a anlise
de varincia porque os escores acusaram possvel falta de homogeneidade de varincia, e, desta forma, os
dados indicam que uma das suposies bsicas para aplicao da prova F (de Snedcor) no foi satisfeita.
Nvel de significncia: Sejam = 0,05 e n = 18 = nmero de ratos em cada um dos 3 grupos correspondentes.
Distribuio Amostral: A distribuio qui-quadrado com gl = k -1.
Regio de rejeio Consiste de todos os valores 2 tais que a probabilidade de sua ocorrncia, sob
H0, no supere = 0,05.
Deciso: Determinou-se o nmero de erros cometidos por cada rato na situao de transferncia de
aprendizado, dispondo-se os escores em postos para cada um dos 18 conjuntos de 3 ratos correspondentes. A
tabela 5.3 fornece estes postos.
Note-se que a soma dos postos para o grupo RR 39,5, a soma dos postos para o grupo RU 42,5
e a soma dos postos para o grupo UR 26,0. Um posto baixo indica elevado nmero de erros na transferncia
, isto , forte fixao do aprendizado original. Pode-se calcular 2 substituindo os valores observados na expresso:
2 =

k
12
12
R2j 3n(k + 1) =
39,52 + 42,52 + 262 3.18.(3 + 1) = 8,40
nk (k + 1) i=1
18.3(4 + 1)

A tabela qui-quadrado indica que 2 = 8,40 quando gl = k - 1 = 3 - 1 = 2 significativo entre os nveis


0,025 e 0,01. Como p < 0,02 inferior ao nvel de significncia = 0,05, rejeita-se Ho, concluindo que os escores de transferncia de aprendizado dos ratos dependem do tipo de reforo (recompensa) utilizado nas tentativas de aprendizado original.
Empates: No grupo 15, assinalado com asterisco na tabela 5.3, os animais RR e RU obtiveram escores iguais, empatando nos postos dois e trs. Neste caso, foi atribudo a ambos o posto 2,5 (mdia daqueles
postos). Friedman afirma que a substituio de valores empatados pelo seu valor mdio no afeta a validade
do teste.

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos

6. Testes para k amostras independe ntes


6.1. O teste qui-quadrado
6.1.1. Funo
Quando os dados de um levantamento consistem de freqncias em categorias discretas (nominais e
ordinais), pode-se usar a prova 2 para determinar a significncia das diferenas entre k grupos independentes.
A prova 2 para k amostras independentes uma extenso direta da prova qui-quadrado para duas amostras
independentes. Em geral, o teste o mesmo, tanto para duas, como para k amostras independentes.
6.1.2. Mtodo
Dispem-se as freqncias em uma tabela kxr. A hiptese de nulidade que as k amostras de freqncia ou propores provenham da mesma populao ou de populaes idnticas. Esta hiptese, de que as
k amostras no difiram entre si, pode ser comprovada aplicando-se a seguinte expresso:
2

(Oij Eij)

r k

i=1 j=1

Eij

, onde:

Oij = nmero de casos observados classificados na linha i da coluna j e


Eij = nmero de casos esperados, sob H0, na linha i da coluna j,
Sob H0, pode-se mostrar que a distribuio amostral de 2, tem distribuio aproximadamente quiquadrado com gl = (k - 1)(r - 1), onde k = nmero de colunas e r = nmero de linhas. Assim, a probabilidade associada ocorrncia de valores to grandes quanto um valor observado de 2 igual a, ou maior do que, o valor dado na tabela do qui-quadrado, para determinado nvel de significncia e gl = (k - 1)(r - 1), ento H0, pode
ser rejeitada quele nvel.
Exemplo:
Em uma investigao da natureza e conseqncias da estratificao social em uma pequena comunidade do Oeste Mdio americano,4 Hollingshead constatou que os membros da comunidade se dividiam entre
si em cinco classes sociais, I, II, III, IV e V. Sua pesquisa centrou-se nos correlatos dessa estratificao entre
os jovens da comunidade. Uma de suas predies era que os adolescentes de diferentes classes sociais se
matriculariam em diferentes cursos (preparatrio para a universidade, comercial ou geral) no ensino de segundo grau de Elmtown. Hollingshead testou sua hiptese identificando a classe social de 390 alunos e determinando o curso em cada um se havia matriculado.
Hipteses: Ho: A proporo de estudantes matriculados nos trs diferentes a mesma em todas as
classes sociais. H1: A proporo de estudantes matriculados nos cursos distintos difere de classe para classe.
Prova estatstica: Como os grupos em estudo so independentes e em nmero superior a 2, emprega-se uma prova estatstica para k amostras independentes. E como os dados se apresentam em categorias
discretas, a prova 2 a prova arqueada.
Nvel de significncia: Sejam = 0,01 e n = 390 = nmero de estudantes cujas classes sociais e tipos de cursos foram estudados.
Distribuio Amostral: A distribuio qui-quadrado com gl = (k -1)(r - 1).
Regio de rejeio: Consiste de todos os valores 2 tais que a probabilidade de sua ocorrncia, sob
H0, no supere = 0,01.
Deciso: A tabela 6.1 fornece as matrculas por curso dos 390 alunos de Elmtown estudados por
Hollingshead. As classes sociais I e II foram agrupadas em razo do pequeno nmero de componentes de cada uma delas, particularmente na classe I. A tabela 6.1 fornece, tambm, em itlico, o nmero de jovens cuja
matrcula em cada um dos trs cursos era esperada sob H0, ou seja, as matrculas esperadas se no houvesse
4

HOLLINGSHEAD, A. B. Elmtowns youth: The impact of social classes on adolescents. New York: Willey, 1949.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


realmente diferena nas preferncias entre as diversas classes sociais. Por exemplo, enquanto que a matrcula
efetiva no curso preparatrio para a universidade, nas classes I e II, foi de 23, a matrcula esperada seria de
apenas 7,3.
Tabela 6.1 - Freqncia de matrcula de jovens de Elmtown de 5 classes sociais em 3 cursos
Classe
Curso
Preparatrio para a universidade
Geral
Comercial
Total

I e II
23
7,2692
11
18,5769
1
9,1538
35

III
40
30,2330
75
77,4923
31
38,1846
146

IV
16
38,0076
107
97,1307
60
47,8615
183

V
2
5,4000
14
13,8000
10
6,8000
26

Total
81
207
102
390

O tamanho de 2 reflete a magnitude da discrepncia ente os valores observados e os esperados em


cada uma clulas da tabela. Pode-se calcular 2 para os valores da tabela 6.1, atravs da expresso definida
anteriormente:
2

(Oij Eij)

r k

i=1 j=1

Eij

= 33,8 + 3,1 + 12,7 + 2, 1+ 3,1 + 0,08 + 1,0 + 0,003 + 7,3 + 1,4 + 3,1 + 1,5 = 69,2

Assim, para estes dados o valor do 2 = 69,2 com gl = (k - 1)(r - 1) = (4 - 1)(3 - 1) = 6


Verificando uma tabela do qui-quadrado, pode-se constatar que este valor significativo muito alm
do nvel de 0,005. Como p < 0,005 inferior ao nvel de significncia estabelecido (de 1%) a deciso rejeitar
H0. Conclu-se, pois que a escolha da matrcula pelos alunos de Elmtown no independente das respectivas
classes sociais.
6.1.3. Quando usar a prova do qui-quadrado
A prova do qui-quadrado exige que as freqncias esperadas (Eij) em cada clula no sejam muito
pequenas. Quando tal exigncia no cumprida, os resultados do teste no so vlidos. Cochran (1954) recomenda que, quando k ou r maior do que 2, ou seja, no caso de testes onde o grau de liberdade superior
a um, o teste qui-quadrado somente seja aplicado se pelo menos 80% das clulas tenham freqncia esperada
superior a 5 e nenhuma das clulas tenha freqncia esperada inferior a 1 (um).

6.2. O teste de Kruskal-Wallis (Anlise de varincia de uma classificao por postos)


6.2.1. Funo
O teste de Kruskal-Wallis, uma prova til para decidir se k amostras independentes provm de populaes diferentes. Os valores amostrais quase que invariavelmente diferem entre si e o problema decidir se
essas diferenas entre as amostras significam diferenas efetivas entre as populaes, ou se representam apenas variaes casuais, que podem ser esperadas entre amostras aleatrias de uma mesma populao. O
teste supe que a varivel em estudo tenha distribuio contnua e exige mensurao no mnimo ao nvel ordinal.
6.2.2. Mtodo
No clculo da prova de Kruskal-Wallis cada uma das n observaes substituda por um posto. Isto
, todos os escores de todas as k amostras combinadas so dispostos em uma nica srie de postos. Ao menor escore atribu-se o posto 1, ao seguinte o posto 2 e assim sucessivamente at o maior posto que n, onde
n = nmero total de observaes independentes nas k amostras.
Feito isso, determina-se a soma dos postos em cada amostra (coluna). A prova ento testa se estas
somas so to diferentes entre si que no seja provvel que tenham sido todas retiradas de uma mesma populao.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


Pode-se mostrar que se as k amostras forem efetivamente retiradas de uma mesma populao, isto
, se H0 verdadeira, ento H (estatstica de Kruskal-Wallis calculada abaixo) tem uma distribuio quiquadrado
com
gl = k - 1, desde que os tamanhos das k amostras no sejam muito pequenos. Isto :
2
12 k Rj
H=
3(n + 1) , onde

n(n + 1) i=1 n j

k = nmero de amostras,
nj = nmero de elementos na amostra j,
Rj = soma dos postos na amostra (coluna) j,
n = nj = nmero total de elementos em todas as amostras combinadas,
tem distribuio aproximadamente qui-quadrado com gl = k - 1, para tamanhos de amostras (nj) suficientemente grandes.
Quando existem mais de cinco elementos em cada amostra, isto , nj > 5, a probabilidade associada
ocorrncia, sob H0, de valores to grandes quanto um H observado pode ser determinada com o auxlio da
tabela qui-quadrado, para um nvel de significncia fixado e para gl = k - 1, ento H0 pode ser rejeitada a este
nvel.
Quando k = 3 e o nmero de casos em cada uma das 3 amostras 5 ou menos, a aproximao pelo
qui-quadrado da distribuio de H no boa. Para tais casos, deve ser utilizado a tabela O (Siegel, pg. 31314). A primeira coluna desta tabela fornece o nmero de elementos em cada uma das 3 amostras, isto , os diversos valores possveis para n1, n2 e n3. A segunda coluna fornece diversos valores de H, calculados pela expresso acima. A terceira fornece a probabilidade associada ocorrncia, sob H0, de valores to grandes
quanto um H observado.
Por exemplo, se H 5,83 quando as 3 amostras contm 4, 3 e 1 elementos, a tabela O mostra que a
hiptese de nulidade pode ser rejeitada ao nvel de significncia de 0,021.
Exemplo: (para pequenas amostras)
Suponha que se deseje comprovar a hiptese de que administradores escolares so tipicamente
mais autoritrios do que os professores. Sabe-se, no entanto, que os dados para testar esta hiptese podem
ser tendenciosos, pois vrios professores tem aspiraes administrativas. Para evitar esta tendenciosidade,
planeja-se dividir os 14 valores em 3 grupos: professores (professores que pretendem continuar nesta posio)
professores/administradores (professores que tem aspiraes administrativas) e administradores. O autoritarismo medido atravs da escala F 5 e a hiptese de que os trs grupos vo diferir quanto as mdias na escala F.
Hipteses: Ho: No existe diferena nos escores F entre os trs grupos.
H1: Os trs grupos diferem quantos as escores F (de autoritarismo).
Prova estatstica: Como so trs grupos sendo estudados, um teste para k amostras adequado. A
escala F (de autoritarismo) pode ser considerado uma medida pelo menos ordinal, tornado o teste de KruskallWallis adequado.
Nvel de significncia: Sejam = 0,05 e n = 14 = nmero total de educadores testados, n1 = 5 (professores), n2 = 5 (professores/administradores) e n3 = 4 (administradores).
Distribuio Amostral: Para k = 3 e ni pequenos a tabela O d a probabilidade associada com a ocorrncia, sob H0, para valores to grandes quanto um H observado.
Regio de rejeio: A regio de rejeio consiste de todos os valores de H to grandes que a probabilidade associada com sua ocorrncia sob H0, igual ou menor que = 0,05.
Deciso: Os escores F so apresentados na tabela 6.2.

Apresentada em: ADORNO, T. W. et al. The authoritarian personality. New York, Harper, 1950.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


Tabela 6.2 - Escores de autoritarismo de 3 grupos de educadores
Professores
96
128
83
61
101

Professores/Administradores
82
124
132
135
109

Administradores
115
149
166
147

Se estes dados forem colocados em postos e estes postos ordenados de forma crescente ento se
ter a tabela 6.3. Estes postos so somados e os resultados (Ri) esto no final da tabela.
Tabela 6.3 - Postos de autoritarismo de 3 grupos de educadores
Professores
4
9
3
1
5
R1 = 22

Professores/Administradores
2
8
10
11
6
R2 = 37

Administradores
7
13
14
12
R3 = 46

Agora possvel, ento, determinar o valor da estatstica H:


2
12 k Rj
12
H=
3(n + 1) =

14(14 + 1)
n(n + 1) i=1 n j

222 372 462

+
+
3(14 + 1) = 6,40
5
4
5

Observando a tabela O para os valores 5, 5 e 4, tem-se que H 6,4, tem probabilidade de ocorrncia,
sob H0, de p < 0,049. Como este valor menor que = 0,05, a deciso rejeitar H0. Pode-se concluir, ento,
que os 3 grupos de educadores diferem quanto ao grau de autoritarismo.
6.2.3. Empates
Quando ocorrem empates entre dois ou mais escores, cada escore recebe a mdia dos postos que
deveriam receber se no houvesse empate. Como o valor de H afetado pelos empates, uma correo deve
ser feita na expresso do clculo de H, que consiste em dividi-la pelo fator:
T
1-
, onde T = t3 - t (onde t o nmero de valores empatados) e n = nj.
3 n
n

Deste modo, a expresso geral para o clculo de H, com a correo para empates dada por:
2

12 k R j
3(n + 1)

n(n + 1) i=1 n j
H=
T
1 -
3 n
n

O efeito da correo para empates aumentar o valor de H e assim tornar o resultado mais significativo do que seria se a correo no fosse realizada. Em muitas casos esta correo to pequena que pode
ser desprezada. Se no mais do que 25% das observaes estiverem empatadas, a probabilidade associada
com um H calculado sem correo para empates raramente alterada em mais de 10% por cento do que
quando calculada com a corrigida.

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos

7. Medidas de correlao e seus testes de significncia


Em muitas situaes necessrio saber se dois conjuntos de dados esto de alguma forma relacionados e com que intensidade ocorre esta relao. Medidas destinadas a determinar o grau de relacionamento
entre duas ou mais variveis so denominadas medidas de correlao. Estas medidas so expressas atravs
de um nmero, que geralmente varia no intervalo de -1 a 1 e so denominados de coeficientes de correlao.

7.1. O coeficiente de contingncia: C


7.1.1. Funo
O coeficiente de contingncia C uma medida correlao entre dois conjuntos de atributos. til
quando se dispem apenas de dados apresentados em escala nominal em um ou nos dois conjuntos de atributos. Para determinar esta medida no necessrio dispor as variveis em uma determinada maneira. No importa quem seja linha e quem seja coluna, o valor obtido ser o mesmo.
7.1.2. Mtodo
Para calcular o coeficiente de contingncia C os dados devem ser apresentados em uma de contingncia como a ilustrada em 7.1. Os dados podem ser divididos em qualquer nmero de categorias, isto , a tabela pode ser do tipo Kr, onde k = nmero de colunas e r = nmero de linhas.
Tabela 7.1 - Tabela de contingncia para o clculo do coeficiente C

B1
B2
...
Br
Total

A1

A2

...

kA

A1B1
A1B2
...
A1Br

A2B1
A2B2
...
A2Br

...
...
...
...
...

AkB1
AkB2
...
AkBr

Total

...
n

O coeficiente de contingncia pode, ento, ser obtido atravs da seguinte expresso:

C=

2
n + 2

, onde

(Oij Eij)
=
r k

i=1 j=1

Eij

e o qui-quadrado calculado, conforme j visto.

Exemplo:
Considere-se os valores apresentados na prova do qui-quadrado para k amostras independentes,
onde foi testado se os cursos universitrios escolhidos pelos jovens de Elmtown dependiam das classes sociais
a que estes jovens pertenciam. Aqui, se tem uma associao entre uma varivel nominal (curso) e uma varivel ordinal (classe social). Os dados so repetidos na tabela 7.2.
Tabela 7.2 - Freqncia de matrcula de jovens de Elmtown de 5 classes sociais em 3 cursos

Curso
Preparatrio para a universidade
Geral
Comercial
Total

I e II
23
11
1
35

Classe
III
IV
40
16
75
107
31
60
146
183

V
2
14
10
26

Total
81
207
102
390

O valor do 2 calculado para estes dados foi de 69,20.


O valor do coeficiente de contingncia ser ento:

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos

C=

2
n+

69,2
= 0,39
390 + 69,2

Logo a correlao entre a escolha do curso de nvel e a classe social entre os jovens de Elmtown
de 0,39.
7.1.3. A prova de significncia do coeficiente de contingncia
Uma vez observado uma correlao entre dois conjuntos de atributos em amostras, quer-se determinar se plausvel concluir pela associao desses mesmos atributos na populao de onde foram retiradas as
amostras.
Ao se testar a significncia de uma medida de associao, est-se na realidade testando a hiptese
de nulidade de que no existe correlao na populao, isto , que o valor da medida de associao observada
poderia ter ocorrida aleatoriamente entre as amostras se as populaes no apresentam correlao.
Para testar a hiptese de nulidade, determina-se a distribuio amostral da estatstica, neste caso, a
medida de associao, sob H0. Utiliza-se, ento, uma prova estatstica adequada para determinar, a um nvel
de significncia pr-fixado, se o valor observado pela estatstica considerada pode ter provavelmente ocorrido
sob H0.
Embora, muitas estatsticas de associao possam ser determinadas por este mtodo o coeficiente
de contingncia C, constitui um caso especial. Uma das razes por que no se pode utilizar a distribuio amostral de C para testar um determinado valor observado, reside na considervel complexidade matemtica de
tal procedimento. Outra razo que no desenvolvimento do clculo de C, j se calcula de forma intermediria
uma estatstica que constitu uma indicao simples e adequada da significncia de C. Tal estatstica o 2.
Pode-se determinar se um valor de C difere significativamente de um valor causal simplesmente determinando
se um valor de 2 significativo.
Para qualquer tabela de contingncia kxr pode-se determinar a significncia do grau de associao
pela estatstica C, determinando a probabilidade de ocorrncia, sob H0, de valores to grandes quanto o valor
observado de 2, com gl = (k - 1)(r - 1). Se essa probabilidade no supera , pode-se rejeitar a hiptese de nulidade, quele nvel. A tabela do qui-quadrado. Se o qui-quadrado baseado nos valores amostrais significativo, pode-se concluir que, na populao, a associao entre os dois conjuntos diferente de zero.
Exemplo:
No exemplo acima foi mostrado que o coeficiente de correlao C entre as variveis: classe social e
opo curricular C = 0,39. Para chegar a este valor foi utilizado o valor 2 = 69,20. este valor que vai ser
usado para testar a significncia de C. Verificando uma tabela qui-quadrado v-se que 2 69,20 com gl = (4 1)(3 - 1) = 6 tem probabilidade de ocorrncia, sob H0, inferior a 0,001. Pode-se, assim, rejeitar a hiptese de
nulidade, ao nvel de 0,001 e concluir que o estatus social e a opo curricular acusam relacionamento na populao da qual o grupo de Elmtown constitui uma amostra. Isto , conclu-se que C = 0,39 significativamente
diferente de zero.
7.1.4. Limitaes do coeficiente de contingncia
A grande aplicabilidade e a determinao relativamente fcil de C podem dar a entender que se trata
de uma medida ideal de associao. Este no o caso, no entanto, em razes das limitaes desta estatstica.
Em geral, pode-se dizer que os coeficientes de correlao devem apresentar pelo menos as seguintes caractersticas:
Onde houver completa falta de associao o coeficiente deve dar zero.
Quando as variveis so completamente dependentes entre si, isto , esto perfeitamente correlacionadas o coeficiente deve ser igual a 1.
O coeficiente C tem a primeira destas caractersticas, mas no a segunda. Ele zero quando no existe associao, mas no atinge o valor um, quando a correlao perfeita, sendo esta a primeira limitao do
coeficiente de contingncia C.

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


O limite superior de C funo do nmero de categorias. Quando k = r, o limite superior de C, isto ,
o valor que deveria ocorrer se as variveis tivessem correlao perfeita :
Por exemplo, o limite superior de C para uma tabela 2x2
ximo que C pode atingir

1 = 0,71. Para uma tabela 3x3, o m2

3 = 0,82. O fato de o valor mximo de C, depender de k e r constitu uma segun-

da limitao de C, pois dois coeficientes de contingncia s sero comparveis se provierem de tabelas com o
mesmo nmero de linhas e colunas.
Uma terceira limitao de C que os dados devem se prestar para o clculo do 2 antes que C possa
ser convenientemente utilizado, isto , o clculo de C sofre das mesmas limitaes do clculo do qui-quadrado.
Uma ltima limitao de C e que ele no diretamente comparvel com nenhuma outra medida de
correlao, como por exemplo, o coeficiente de Pearson ou o de Spearman.
A despeito destas limitaes o coeficiente de contingncia uma medida til pela sua larga aplicabilidade, pois no exige suposies sobre a forma da populao de escores, no exige continuidade da varivel
em estudo e requer apenas mensurao nominal. Isto faz do C uma medida que pode ser aplicada em situaes em que nenhuma outra possa ser aplicada.

7.2. O coeficiente V de Cramer


Apesar de sua popularidade o coeficiente de contingncia tem a desvantagem de que o nmero de linhas e colunas influencia o resultado. A alternativa utilizar o coeficiente V (de Cramer), definido por:
V=

2
, onde:
n.(k 1)

n = tamanho da amostra e k = min {nmero de linhas, nmero de colunas}.


Exemplo:
Consumo de drogas
Alto
Moderado
Baixo
Total

Alto
5
10
15
30

Consumo de lcool
Moderado
Baixo
7
20
8
15
6
14
21
49

Total
32
33
35
n = 100

Considerando a tabela acima que cruza o consumo de lcool com o consumo de drogas, determine o
coeficiente V (de Cramer).
A tabela abaixo mostra os clculos dos valores esperados:
Consumo de drogas
Alto
Moderado
Baixo
Total

Alto
9,60
9,90
10,50
30,00

Consumo de lcool
Moderado
Baixo
6,72
15,68
6,93
16,17
7,35
17,15
21,00
49,00

Total
30,00
33,00
35,00
100,00

O valor do 2 calculado para os valores da tabela acima ser:


2 = (5 - 9,60)2/9,60 + (7 - 6,72)2/6,72 + (20 - 15,80)2/15,80 + (10 - 9,90)2/9,90 + (8 - 6,93)2/6,93 +
(15 - 16,67)2/16,57 + (15 - 10,50)2/10,50 + (6 - 7,35)2/7,35 + (14 - 17,15)2/17,15 = 6, 41

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos

7.3. O coeficiente de correlao de Postos de Spearman: rs


7.3.1. Funo
Dentre todas as estatsticas com base em postos, o coeficiente de correlao por postos de
Spearman foi a que surgiu primeiro e talvez a mais conhecida hoje. Esta estatstica, por vezes designada
rho (), representada, aqui por rs. uma medida de associao que exige que as duas variveis tenham
mensurao a nvel pelo menos ordinal, para que se possa ordenar, isto , determinar seus postos.
7.3.2. Fundamentos lgicos
Suponha-se que n indivduos ordenados em postos segundo duas variveis. Por exemplo, um grupo
de estudantes ordenado de acordo com suas notas no vestibular de uma universidade e tambm de acordo
com sua classificao escolar ao fim do primeiro ano. Denotando os escores do vestibular por:
X1, X2, ..., Xn, e os escores da classificao escolar ao fim do primeiro ano por:
Y 1, Y 2, ..., Y n, pode-se utilizar uma medida de correlao por postos para determinar o relacionamento
entre as duas variveis.
A correlao entre a classificao no vestibular e a classificao ao fim do primeiro ano seria perfeita
se e somente se Xi = Y i para todo i. Portanto, parece lgico usar as diversas diferenas: di = Xi - Yi. como indicativo da diferena entre os dois conjuntos de postos. Suponha-se que o aluno A tenha obtido o primeiro lugar
no vestibular, mas ao fim do primeiro ano esteja em 6 lugar. Neste caso, d = 1 - 6 = - 5. Um aluno B, por outro
lado, ficou em nono lugar no vestibular e agora, ao final do primeiro ano, o segundo colocado. O valor de d
para ele ento: d = 9 - 2 = 7. O valor das diversas diferenas d fornece uma idia do relacionamento entre a
classificao no vestibular e no fim do primeiro ano escolar. Se a relao entre os dois conjuntos de postos
fosse perfeita, todos os valores de d seriam zero. Quanto maiores os diversos valores de d, menor ser a
associao entre as duas variveis.
A utilizao direta dos valores das diferenas (d) para o clculo do coeficiente de correlao acarreta
dificuldades. Por exemplo, os valores negativos se cancelam com os positivos se fosse somados para fornecer
a diferena total. Por isso utilizado o valor de d ao quadrado, d2, para eliminar esta dificuldade.
A obteno da expresso para o clculo do coeficiente de correlao de Spearman baseada no clculo do coeficiente de Pearson (estatstica paramtrica) r, onde:
r=

xy
x2 y2

, onde x = X - X e y = Y - Y

Mas quando X e Y so postos, r = rs, e a soma de n inteiros: 1, 2, ..., n :


X =

n(n 1)
n(n 1)( 2n + 1)
e a soma de seus quadrados, 11, 22, ..., n2 : X 2 =
2
6
2

Como x = ( X X ) = X 2
x2 =

( X )2
n

vem:

n(n + 1)( 2n + 1) n2 (n + 1)2


n3 n
n3 n

=
e de forma anloga segue que y 2 =
6
4
12
12

Mas d = x - y = , ento d2 = (x - y)2 = x2 + y2 - 2xy e d2 = x2 + y2 - 2xy.


Pela expresso do clculo do coeficiente de correlao de Pearson, tem-se:
r=

xy
x2 y2

= rs, quando as observaes so medidas em postos. Portanto

d2 = x2 + y2 - 2xy = x2 + y2 - 2rs x2 y2 e assim:

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


x2 + y 2 d2
rs =
. Substituindo x2 e y2 pe2
2
2 x y
los seus valores em termos de postos e fazendo as simplificaes necessrias vem:

rs = 1 -

d2

n3 n

, que a expresso mais conveni-

Tabela 7.3 - Escores de autoritarismo e aspirao de estatus social

Estudante

Escore
Autoritarismo
Aspirao

A
B
C
D
E
F
G
H
I
J
K
L

ente para o clculo do coeficiente rs de Spearman.


Exemplo:

82
98
87
40
116
113
111
83
85
126
106
117

42
46
39
37
65
88
86
56
62
92
54
81

Em um estudo sobre o efeito das presses grupais sobre um indivduo para uma atitude conformista em
uma situao que envolva risco monetrio, os pesquisadores6 aplicaram a 12 estudantes universitrios a escala F
(medida de autoritarismo) e uma escala destinada a medir
as aspiraes de estatus social. Desejava-se uma informao sobre a correlao entre os escores relativos ao autoritarismo e os escores referentes s aspiraes de estatus
social. (Tais aspiraes foram definidas de acordo com os pontos de vista O indivduo no deve casar-se com
pessoa de nvel social inferior ao seu, ou Para um encontro, melhor uma demonstrao eqestre do que um
jogo de baseball, ou ainda, interessante verificar sua genealogia. A tabela 7.3 fornece os escores de cada
um dos 12 estudantes nas duas escalas.
Para calcular o coeficiente de correlao por postos, de Spearman, para estes dois conjuntos de valores necessrio coloc-los, inicialmente em duas sries de postos. Estes postos so apresentados na tabela
7.4, juntamente com as diferenas entre eles e as diferenas ao quadrado.
Atravs destes dados ento, pode-se calcular o coeficiente de correlao rs, atravs da expresso
mostrada acima. Assim:
rs = 1 -

6 d2
n3 n

=1-

6.52
123 12

= 0,82.

Tabela 7.4 - Postos referentes a autoritarismo e aspirao de estatus social

Estudante
A
B
C
D
E
F
G
H
I
J
K
L

Escore
Autoritarismo (Posto)
Aspirao (Posto)
2
6
5
1
10
9
8
3
4
12
7
11

3
4
2
1
8
11
10
6
7
12
5
9

di

di2

-1
2
3
0
2
-2
-2
-3
-3
0
2
2

1
4
9
0
4
4
4
9
9
0
4
4
2
di = 52

SIEGEL, S., FAGAN, Joen. The Asch effect under conditions of risk. Dados extrados de um estudo piloto, no publicado.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


7.3.3. Observaes empatadas
Ocasionalmente podem ocorrer empates entre os escores de dois indivduos na mesma varivel.
Quando isto ocorre, a cada um deles atribudo a mdia dos postos que seriam atribudos caso o empate no
ocorresse, isto , adota-se o procedimento usual.
Se a proporo de empates no grande seu efeito sobre o coeficiente de correlao desprezvel.
Quando a proporo de empates grande torna-se necessrio a utilizao de um fator de correo.
O efeito de postos empatados na varivel X, consiste em reduzir a soma dos quadrados. Portanto,
quando houver empates em X necessrio corrigir a soma dos quadrados pelo fator:
T=

t3 t
, onde t = nmero de observaes empatadas em determinado posto.
12

A soma dos quadrados corrigida ser ento:


x2 =

n3 n
- T, onde a soma de T, indica o somatrio sobre os vrios valores de T para todos os
12

grupos de observaes empatadas.


Assim se o nmero de empates for considervel o clculo do coeficiente de correlao de Spearman
deve ser realizado atravs de:
x2 + y 2 d2
n3 n
n3 n
rs =
, onde x2 =
- Tx e y2 =
- Ty.
12
12
2 x2 y 2

7.3.4. Teste de significncia para o coeficiente de correlao de Spearman


Se as amostras utilizadas no clculo do coeficiente de correlao de Spearman so selecionadas aleatoriamente, ento pode-se utilizar os seus valores para testar se as variveis correspondentes esto associadas na populao, isto se rs pode ser considerado diferente de zero.
Pequenas amostras. Suponha-se verdadeira a hiptese de nulidade, isto , suponha-se que no exista relacionamento na populao de onde foram extradas as amostras. Se so extradas uma amostras de
escores X e uma de escores Y ao acaso desta populao, ento para uma dada ordem dos escores de X, todas as ordens possveis dos escores Y tem a mesma probabilidade. Para n indivduos existe n! ordenaes
possveis dos escores X que podem ocorrer com qualquer ordenao dos escores Y. Como esses so igualmente provveis, a probabilidade de ocorrncia de determinada ordenao dos escores X conjuntamente com
dada ordenao dos escores Y 1/n!.
A cada uma das possveis ordenaes de Y est associado um valor de rs. A probabilidade de ocorrncia, sob H0, de qualquer valor particular de rs assim, proporcional ao nmero de permutaes que originam
aquele valor.
Aplicando a frmula do clculo de rs pode ver que:
Se n = 2, ento rs s pode assumir os valores -1 e +1. Cada um destes valores tem probabilidade 1/2.
Se n = 3, ento os possveis valores de rs so -1, -1/2, +1/2 e +1. Cada um destes valores tem probabilidade de ocorrncia, sob H0, respectivamente de: 1/6, 1/3, 1/3 e 1/6.
A tabela P (Siegel, pg. 315) fornece os valores crticos de rs, obtidos por este mtodo. Para n variando
de 4 a 30, a tabela fornece o valor de rs com probabilidade associada, sob H0, p = 0,05, e o valor de rs com
probabilidade associada, sob H0, p = 0,01. A tabela unilateral.
Exemplo:
No exemplo anterior o coeficiente de correlao foi determinado como sendo igual a rs = 0,82, para
um valor de n = 12. Pela tabela P v-se que um valor to grande quanto este significativo ao nvel p < 0,01
(teste unilateral). Se poderia ento rejeitar a hiptese ao nvel de 1% de significncia, concluindo que, na populao estudada, o autoritarismo e as aspiraes de estatus social esto associados.

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


Grandes amostras. Quando n igual ou superior a 10, a significncia de um valor obtido de rs sob a
hiptese de nulidade pode ser comprovado atravs de (Kendall, 1948):
t = rs

n 2
1 r 2s

Quer dizer, que para n grande, o valor de rs, tem distribuio t com gl = n -2.

7.4. O coeficiente de concordncia de Kendall: W


7.4.1. Funo
As medidas anteriores consideravam a correlao entre dois conjuntos de postos de n elementos.
Agora ser considerada uma medida de relao entre vrios conjuntos de postos de n elementos. Quando se
tem k conjuntos de postos pode-se determinar a associao entre eles utilizando o coeficiente de concordncia
de Kendall, W. Enquanto que rs exprime o grau de associao entre duas variveis transformadas em postos,
W exprime o grau de associao dentre k destas variveis. Tal medida pode ser especialmente til em estudos
de fidedignidade relativos a julgamentos ou testes e tem tambm aplicaes no estudo de conglomerados de
variveis.
7.4.2. Fundamentos lgicos
Como soluo do problema da determinao da concordncia global entre k conjuntos de postos,
poderia ser razovel determinar os rss (ou rs) entre todos os pares possveis de postos e ento calcular a mdia desses coeficientes para determinar a associao global. Se tal procedimento fosse adotado, seria necessrio calcular k coeficientes de correlao de postos e a menos que k seja pequeno, o processo se torna im 2

praticvel.
O clculo de W muito simples e W tem uma relao linear com o valor mdio de rs relativo a todos
os grupos. Denotando por rsav o valor mdio dos coeficientes de correlao por postos de Spearman entre os
k

2

pares possveis de postos, Kendall mostrou que:


rsav = (kW - 1) / (k - 1)

Outro processo consiste em imaginar como se apresentariam os dados caso no houvesse concordncia alguma entre os conjuntos de postos, e em seguida, como se apresentariam se houvesse concordncia
perfeita. O coeficiente de concordncia seria ento um ndice de divergncia entre a concordncia efetiva acusada pelos dados e a concordncia mxima possvel (perfeita). De modo aproximado, W um coeficiente desta natureza.
Suponha-se que trs chefes de pessoal sejam encarregados de entrevistar seis candidatos a emprego e de classific-los em postos, separadamente, segundo a capacidade de cada um para preencher a vaga. A
tabela 7.9 fornece os 3 conjuntos independentes de postos atribudos pelos chefes X, Y, Z aos candidatos de
a a f. A ltima linha da tabela d as somas (Rj) dos postos atribudos a cada candidato.
Tabela 7.6 - Postos atribudos a seis candidatos a emprego por trs chefes de pessoal.

Chefe X
Chefe Y
Chefe Z
Rj

a
1
1
6
8

b
6
5
3
14

Candidato
c
d
3
2
6
4
2
5
11
11

e
5
2
4
11

f
4
3
1
8

Se todos os chefes de pessoal apresentassem perfeita concordncia em seus julgamentos, isto , se


tivessem atribudo postos aos candidatos na mesma ordem, ento um candidato teria recebido trs postos 1 e
assim sua soma de postos, Rj, seria: 1 + 1 + 1 = 3 = k. O candidato que os chefes tivessem considerado em

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


segundo lugar receberia Rj = 2 + 2 + 2 = 6 = 2 k. E o menos promissor dos candidatos teria: Rj = 6 + 6 + 6 = 18
= nk.
Na tabela acima, percebe-se que no houve concordncia perfeita entre os trs chefes, v-se que o
grau de concordncia entre os k julgadores refletido pelo grau de varincia entre as n somas de postos.
7.4.3. Mtodo
Para determinar W, determina-se a soma dos postos, Rj, em cada coluna de uma tabela kxn. Em seguida, soma-se os Rj e divide-se a soma por n, obtendo a mdia dos Rj. Cada Rj, pode ento ser expresso
como um desvio a contar da mdia (quanto maior for este desvio, maior a associao entre os k conjuntos de
postos). Por fim, determina-se a soma dos quadrados desses desvios. Conhecidos estes valores, pode-se calcular W, como sendo:
W=

s
, onde
1 2 3
(n n)
k
12

R j
s = soma dos quadrados dos desvios observados a contar da mdia dos Rj, isto , s = Rj

k = nmero de conjunto de postos, neste exemplo nmero de julgadores.


n = tamanho da amostra
1 2 3
k (n n) = valor mximo da soma dos quadrados dos desvios, isto , o valor de s que ocorreria
12

no caso de concordncia perfeita entre os k conjuntos de postos.


Para os valores da tabela 7.9 os totais de postos foram: 8, 14, 11, 11, 11 e 8. A mdia destes valores
10,5. Para determinar s eleva-se ao quadrado o valor de cada desvio de destes valores em relao a mdia e
soma-se, isto :
s = (8 - 10,5)2 + (14 - 10,5)2 + (11-10,5)2 + (11-10,5)2 + (11-10,5)2. + (8 - 10,5)2 = 25,5
Conhecendo s, pode-se determinar W para os dados da tabela 7.9:
W=

s
25,5
=
= 0,16
1 2 3
1 2 3
(

n
)
(

6
)
k n
3 6
12
12

W = 0,16 exprime o grau de concordncia entre os trs chefes ao atriburem postos aos seis candidatos a emprego.
7.4.4. Empates
Quando ocorrem empates atribui-se a cada valor empatado a mdia dos postos que lhes caberia se
no houvesse empates. o tratamento usual que se d aos escores empatados em postos. O efeito dos empates reduzir o valor de W. Se a proporo de empates pequena, o efeito pode ser desprezado. Se, no entanto, esta proporo for grande, deve-se utilizar uma correo que aumenta o valor de W. A correo utilizada
a mesma utilizada no coeficiente de correlao de Spearman:
T=

) , onde: t= numero de valores empatados em um grupo em relao a um determinado

t3 t
12

posto.
Com a correo de empates a expresso para o clculo de W fica:
W =

s
, onde: T indica somatrio sobre todos os valores de T para todos os k
1 2 3
T
(n n) k T
k
12
T

conjuntos de postos.

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


Exemplo (com empates):
A tabela 7.7 mostra a classificao de 10 objetos em relao as variveis X, Y e Z.
Tabela 7.7 - Postos de 10 objetos em relao a trs variveis
Varivel
a
1
2,5
2
5,5

X
Y
Z
Rj

b
4,5
1
1
6,5

c
2
2,5
4,5
9

d
4,5
4,5
4,5
13,5

Objeto
e
f
3
7,5
4,5
8
4,5 4,5
12
20

g
6
9
8
23

h
i
j
9
7,5
10
6,5
10
6,5
8
8
10
23,5 22,5 26,5

A mdia dos Rj 16,5. Para obter s, somam-se os quadrados dos desvios de cada Rj em relao a
mdia:
s = (5,5-16,5) + (6,5-16,5) + (9-16,5) + ... + (26,5-16,5) = 591.
Como a proporo de empates nos postos grande, deve-se introduzir a correo para empates no
clculo de W. Nos postos de X existem dois conjuntos de empates: 2 objetos acham-se empatados em 4,5 e
dois em 7,5. Para os dois grupos, t = nmero de valores empatados em um dado posto = 2. Desta forma:
TX =

t3 t
12

(23 2) ( 23 3)
+
=1
12
12

Nos postos de Y, existem trs conjuntos de empates e cada conjunto contm duas observaes. Aqui
t = 2 em cada caso e:
TY =

t3 t
12

(23 2) ( 23 3) (23 3)
+
+
= 1,5
12
12
12

Nos postos de Z, existem dois conjuntos de empates. Um deles empatado em 4,5, consiste de 4 valores e t = 4. O outro, empatado no posto 8, consiste de 3 valores e t = 3. Assim:
TZ =

t3 t
12

(4 3 2) (323 3 )
+
=7
12
12

Conhecidos os valores de T para os conjuntos de postos de X, Y, e Z, pode-se calcular W com a correo para empates:
W=

s
591
=
= 0,83
1 2 3
1 2
(n n) k T
(10 3 10) 3.9,5
k
3
12
12
T

Se os empates no tivessem sido considerados o valor de W seria 0,80 ao invs do 0,83 obtido.
7.4.4. Teste de significncia para W
Pequenas amostras. Pode-se comprovar a significncia de qualquer valor observado de W determinando a probabilidade associada ocorrncia, sob Ho, de um valor to grande quanto o s que est associado.
Se for determinado a distribuio amostral de s para todas as permutaes nos n postos em todas as maneiras
possveis nos k conjuntos, ter-se- (n!)k conjuntos de postos possveis. Fazendo uso destes postos pode-se
comprovar a hiptese de nulidade, de que os k conjuntos de postos so independentes, obtendo desta distribuio a probabilidade associada ocorrncia, sob Ho, de um valor to grande quanto um s observado.
Por este mtodo que foi determinada a distribuio de s sob Ho e foram tabelados certos valores
crticos. A tabela R (Siegel, pg. 317) fornece estes valores. Esta tabela aplicvel para k de 3 a 20 e n de 3 a
7. Se um valor observado de s igual ou superior ao valor exibido na tabela R, para um dado nvel de significncia, ento Ho pode ser rejeitada quele nvel.
Por exemplo, viu-se que quando k = 3 chefes de pessoal classificaram n = 6 candidatos a emprego, a
concordncia dos julgamentos foi W = 0,16. A tabela R, indica que o s associado quele valor W (s = 25,5) no
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos


significativo. Para que a associao fosse significativa ao nvel de 0,05, o valor de s deveria ser no mnimo
igual a 103,9.
Grandes amostras. Quando n maior que 7, ento a probabilidade associada ocorrncia sob Ho,
de qualquer valor to grande quanto um W observado tem distribuio aproximadamente qui-quadrado com gl
= n - 1. Neste caso a significncia pode ser determinada atravs da tabela do qui-quadrado.
Note-se que:

s
= k(n -1)W e, portanto, 2 = k(n -1)W
1 2 3
k (n n)
12

Pode-se, ento, utilizar esta expresso para determinar a probabilidade associada ocorrncia sob
H0, de qualquer valor to grande quanto um W observado, que muito mais simples de calcular.
7.4.5. Interpretao de W
Um valor elevado ou significativo de W pode ser interpretado como indicando que os observadores ou
juizes esto aplicando essencialmente os mesmos padres ao atriburem postos aos n elementos em estudo.
No entanto, isto no significa dizer que as ordenaes feitas sejam corretas. Na realidade, elas podem ser todas incorretas em relao a algum critrio externo. possvel que diversos julgadores concordem quanto a ordenao ou classificao de indivduos porque todos empregam o mesmo critrio errado. Em tal caso, um valor alto de W significaria concordncia na escolha do critrio errado.

7.5. Concluso
Foram apresentadas trs tcnicas no-paramtricas para medir o grau de correlao entre variveis
amostrais. E para cada uma delas foi apresentado o respectivo teste de significncia da associao observada.
Uma destas tcnicas, o coeficiente de contingncia, especialmente aplicvel quando os dados se
apresentam em escala nominal. Isto , se a mensurao to elementar que as classificaes em jogo no se
apresentam relacionadas dentro de qualquer conjunto e assim no podem ser ordenadas.
Se as variveis em estudo forem mensuradas no mnimo em escala ordinal, pode-se ainda empregar
o coeficiente de contingncia, mas um mtodo adequado de correlao por postos utilizar melhor as informaes contidas nos dados, sendo, por isso, prefervel.
Para o caso bivariado foi apresentado o coeficiente rs de Spearman. Este coeficiente simples de
calcular e tem a vantagem de estar linearmente relacionado com o coeficiente de concordncia W.
O coeficiente de concordncia de Kendall, W, mede a extenso da associao entre vrios (k) conjuntos de postos de N entidades. til para determinar a concordncia entre diversos julgamentos a respeito
de associao entre trs ou mais variveis. Tem aplicao especial como mtodo-padro de ordenao de elementos de acordo com o consenso, quando no se dispe de uma ordem objetiva dos mesmos. A tabela 7.8
mostra uma matriz relacionando os coeficientes de correlao e a escala de medida apropriada para as variveis X e Y.
Tabela 7.8 - Coeficientes de correlao e escalas de medidas para as variveis X e Y.
Varivel X
Nominal
Nominal

(1) a. Phi () b. Coeficiente C

Ordinal

Intervalar/Razo

(4)

(6)

c. V de Kramer d. e V
Varivel Y

Ordinal

(4) Biserial por postos

(2) a. Tetrachoric
b. de Spearman

(5)

Intervalar/Razo

(6) Biserial por ponto

(5) Biserial

(3) r de Pearson

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Mat02282

A n l i s e E s t a t s t i c a N o P a r a m t r i c a

Apostila de Testes de Hipteses No Paramtricos

8. BIBLIOGRAF IA
BLALOCK, Hubert M. Jr. Social Statistics. Tokio: McGraw-Hill Kogakusha, 1972, 583 p.
GIBBONS, Jean Dickinson. Nonparametric Statistical Inference. New York: McGraw-Hill, 1971, 306 p.
GIBRA, Isaac N. Probability and Statistical Inference for Scientists and Engineers. Englewood Cliffs (NJ): Prentice-Hall, 1973, p. 596.
HINKLE, Dennis E., WIERSMA, William, JURS, Stephen G. Applied Statistics for the Behavioral Sciences.
Boston: Hougthon Mifflin Co. 1988, p. 682.
LEVIN, Jack Estatstica Aplicada a Cincias Humanas. So Paulo: Harbra, 1985, 392 p.
NOETHER, Gottfried E. Introduction to Statistics: A Nonparametric Approach. Boston: Houghton Mifflin, 1976,
292 p.
ROSCOE, John T. Fundamental Research Statistics for the Behavioral Sciences. New York: Holt, Rinehart and
Wiston, 1975, 483 p.
SIEGEL, Sidney. Nonparametric Statistics for the Behavioral Sciences. New York: McGraw-Hill Book Company, Inc., 1956, 312 p.
WELKOWITZ, Joan, EWEN, Robert B., COHEN, Jacob. Introductory Statistics for the Behavioral Sciences. Orlando (FL): Harcourt Brace Jovanovich, 1982, 269 p.

Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.

Vous aimerez peut-être aussi