Académique Documents
Professionnel Documents
Culture Documents
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
Sumrio
Sumrio __________________________________________________________________________1
1. Introduo ______________________________________________________________________3
1.1. Generalidades_______________________________________________________________________ 3
1.2. Alguns motivos para o seu uso _________________________________________________________ 3
1.3. Algumas restries ao seu uso__________________________________________________________ 3
1.4. A escolha do teste estatstico ___________________________________________________________ 3
1.5. Mensurao ________________________________________________________________________ 4
1.5. A distribuio amostral _______________________________________________________________ 5
1.6. Etapas do teste de hipteses ___________________________________________________________ 5
1.7. Tipos de testes no-paramtricos _______________________________________________________ 6
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
8. BIBLIOGRAFIA ________________________________________________________________42
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
1. Introduo
1.1. Generalidades
Um dos principais assuntos da Estatstica moderna a inferncia estatstica. A inferncia estatstica
dividida em dois grandes tpicos: a estimao de parmetros de uma populao e os testes de hipteses.
No desenvolvimento dos mtodos da estatstica moderna, as primeiras tcnicas de inferncia que apareceram foram as que faziam diversas hipteses sobre a natureza da populao da qual se extraam os dados.
Como os valores relacionados com a populao so denominados parmetros, tais tcnicas estatsticas foram denominadas de paramtricas.
A Estatstica No-Paramtrica to recente, que o aparecimento dos primeiros testes, neste rea,
datam do incio do sculo. O seu maior crescimento ocorreu nos ltimos 40 anos. Um teste no-paramtrico
aquele cujo modelo no especifica condies sobre os parmetros da populao da qual a amostra foi obtida.
Mesmo quando existem certas pressuposies, estas so mais brandas do que aquelas associadas ao testes
paramtricos.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
1.5. Mensurao
O processo de selecionar um modelo matemtico ou estatstico a ser utilizado com uma dada tcnica
de pesquisa envolve algumas decises importantes. A escolha do modelo a ser aplicado precedida pela
mensurao do fenmeno envolvido. E a primeira dificuldade surge j na necessidade de definirmos o que
mensurao. Se ela se referir somente aqueles tipos de medidas comumente utilizados em cincias tais como
a Fsica (por exemplo: medidas de comprimento, massa ou tempo) no haver muitos problemas na escolha
do sistema matemtico. Agora se o conceito de medida for ampla o suficiente para incluir certos procedimentos
de categorizao, normalmente utilizados em Cincias Sociais, ento o problema torna-se mais complexo. Pode-se distinguir diversos nveis de mensurao e, para cada um, existem diferentes modelos estatsticos apropriados. As operaes possveis em um determinado conjunto numrico dependem do nvel de mensurao atingido.
As quatro formas de mensurao ou tipos de medidas so: nominal, ordinal, intervalar e de razo.
Nvel nominal. Os termos nvel nominal de
medida ou escala nominal so utilizadas para se referir
Tabela 1.1 - Exemplo de uma varivel nominal
a queles dados que s podem ser categorizados. No
sentido estrito, no existe uma medida ou escala enEstado civil
Nmero de pessoas
volvida, o que existe apenas uma contagem. VariCasados
340
veis que podem ser ditas nominais so: a classificao
Solteiros
250
das pessoas quanto religio, sexo, estado civil, etc.
Vivos
40
No existe uma ordem particular entre as categorias
Divorciados
50
ou grupos e alm disso duas categorias quaisquer so
Total
700
mutuamente excludentes, isto , uma pessoa no pode ser ao mesmo tempo catlico e protestante. Alm
disso as categorias so exaustivas, significando que um determinado elemento deve aparecer em uma e somente uma das categorias. Veja-se um exemplo na tabela 1.1.
Na classificao os nomes das categorias so atribudos arbitrariamente, como rtulos de convenincia. Por exemplo, colocam-se catlicos e protestantes em categorias diferentes, mas isto no significa que uma
melhor ou maior que a outra. Como as categorias so exaustivas (incluem todos os casos) e mutuamente exclusivas (no h sobreposio, um elemento pertence a uma e somente uma categoria) tm-se as condies
mnimas para a aplicao de procedimentos estatsticos. O termo escala nominal utilizado para indicar o nvel
mais baixo de mensurao.
Tabela 1.2 - Exemplo de uma varivel ordinal
Conceitos
A
B
C
D
E
Total
Nmero de alunos
4
6
14
3
2
30
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
Caso de uma
amostra
Nominal
Binomial e 2
Ordinal
KolmogorovSmirnov
Iteraes
Intervalar
Mediana
U de Mann-Withney
Kolmogorov-Smirnov
Iteraes de WaldWolfowitz
Moses
Walsh
Aleatoriedade
Aleatoriedade
Caso de k amostras
Amostras reAmostras indelacionadas
pendentes
Q de Cochram
2
Friedman
Extenso da
mediana
Kruskal-Wallis
Medidas de
correlao noparamtricas
De contingncia
Por postos de Spearmann
Por postos de Kendall
Parcial de postos de
Kendall
Concordncia de Kendall
Alguns destes testes sero vistos na disciplina. Para os demais recomenda-se o livro do Siegel citado na bibliografia.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
(Oi Ei)2
i=1
Ei
2 =
, onde:
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
2
19
3
18
Posto
4
5
25 17
6
10
7
15
8 Total
11 144
1. Hipteses: Ho: No h diferena entre o nmero esperado de ganhadores em relao a cada posto. H1: Existe diferena entre o nmero de ganhadores de cada posto.
2. Prova Estatstica. Como se est comparando os dados de uma populao presumida, usa-se uma
prova unilateral. Emprega-se a prova 2 porque a hiptese em estudo se refere comparao de freqncias
observadas e esperadas em categorias discretas. (As categorias so os oito postos).
3. Distribuio amostral. A distribuio amostral de 2 tal como calculada, pela expresso dada acima, segue a distribuio qui-quadrado com gl = k - 1.
4. Regio de Rejeio. Ho ser rejeitada se o valor observado de 2, calculado pela expresso acima, for maior que o valor tabelado, a um nvel de significncia dado .
5. Deciso. A amostra de 144 ganhadores forneceu os dados exibidos na tabela 2.2 acima. O clculo
do valor observado do qui-quadrado dado por:
k
(Oi Ei)2
i=1
Ei
2 =
= 16,30
A tabela fornece um valor 2 igual a 18,475 para gl = 7 e um nvel de significncia de 1%. Neste caso,
no possvel rejeitar H0, isto , no possvel afirmar a 1% de significncia que o nmero de vitrias dependa do posto.
2.1.3. Pequenas Freqncias Esperadas
Quando gl = 1, isto , quando k = 2, cada freqncia esperada no deve ser inferior a 5. Quando o
grau de liberdade for maior do que um, isto , quando k > 2, a prova 2 no deve ser usada se mais de 20%
das freqncias esperadas forem inferiores a 5 ou se qualquer freqncia esperada inferior a 1. As freqncias esperadas podem eventualmente ser aumentadas combinando-se categorias adjacentes. Isto naturalmente s deve ser feito se as combinaes forem significativas.
Por exemplo, pode-se classificar um grupo de pessoas quanto sua atitude em relao a determinada opinio em: "apoia fortemente", "apoia", indiferente", contra e fortemente contra. Como forma de
aumentar as freqncias esperadas as categorias poderiam ser reclassificadas em: apoia, indiferente e
contra.
2.1.4. O teste qui-quadrado relacionado com outros testes
A tabela 2.3, relaciona o teste 2 com outros testes no paramtricos e paramtricos.
Tabela 2.3 - Relacionamento entre testes paramtricos e no-paramtricos
Uma amostra
Teste no-paramtrico
Dados nominais
Dados ordinais
Qui-quadrado de aderncia
Qui-quadrado de homogeneidade
k amostras
Qui-quadrado de homogeneidade
Teste de Mc-Nemar
Teste paramtrico
Teste da mediana e
Teste Mann-Whitney
Teste de Wilcoxon
Teste
Wallis
de
Kruskal-
Teste z de H0: P = a
Teste t de H0: = a
Teste z de H0: P1 = P2
Teste t de H0: 1 = 2
Teste z de H0: P1 = P2
Teste t de H0: d = 0
ANOVA de uma classificao
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
1
29
2
19
3
19
4
27
5
26
6
30
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
1
29
1/6
29/150
0,0267
2
19
2/6
48/150
0,0133
3
19
3/6
67/150
0,0533
4
27
4/6
94/150
0,0400
5
26
5/6
120/150
0,0333
6
30
1
1
0
Observando-se a ltima linha da tabela 2.4, tem-se que D = 0,053. Observando-se a tabela E (Siegel,
pg. 282), a = 1%, verifica-se que o valor de D 1,630/ 150 = 0,133. Como o D calculado no maior que o
valor tabelado a concluso : aceitar H0 ao nvel de significncia de 1%, isto , no se pode afirmar que o dado
desequilibrado.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
2 =
(Oi Ei)
i=1
Ei
2 =
2 =
A +D 2
A +D 2
)
(D
)
2
2
+
. Simplificando, vem:
A +D
A+D
2
2
(A
( A D ) 2
com grau de liberdade (isto , linha da tabela) igual a 1.
A+D
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
2 =
(| A D|1)2
A +D
Exemplo:
Um psiclogo infantil est interessado em observar a iniciao de contatos sociais em crianas. Ele
observou que crianas que so novas em uma escola maternal estabelecem contatos interpessoais com adultos ao invs de com outras crianas. Ele prev que medida que se familiarizam com o ambiente as crianas
estabelecem contatos interpessoais com outras crianas ao invs de com adultos. Para testar esta hiptese ele
observa 25 crianas nos seus primeiros dias em uma escola maternal e ento categoriza suas primeiras iniciaes de contatos sociais em: se foi dirigido a um adulto ou se foi dirigido a outra criana. Ele, ento, observa
cada uma das 25 crianas depois de elas estarem na escola por um ms, fazendo a mesma classificao. Os
dados esto colocados na tabela 3.2 abaixo.
Tabela 3.2 - Tipo de iniciao social de crianas de uma escola maternal
Objeto de
iniciao no
primeiro dia
Hipteses: Ho: Para aquelas crianas que mudam, a probabilidade de que uma criana mude o seu
objeto de iniciao de um adulto para criana (isto , PA) igual a probabilidade que ela mude seu objeto de iniciao de criana para adulto (isto , PB) e igual a 50%, ou seja: PA = PB = 1/2.
H1: PA > PB
Prova Estatstica. Prova de McNemar para a significncia de mudanas porque o estudo utiliza duas
amostras relacionadas e utiliza mensurao nominal.
Nvel de significncia. Sejam = 0,05 e n = 25, o nmero de crianas observadas no primeiro e no
trigsimo dia na escola maternal.
Distribuio amostral. Qui-quadrado com 1 grau de liberdade.
Regio de Rejeio. Consiste de todos os valores da distribuio 2 obtidos dos dados tal que a probabilidade de ocorrncia de um valor mais extremo menor que 0,05.
Deciso. Os dados hipotticos do exemplo esto mostrados na tabela 3.2 acima. De acordo com eles
o valor de qui-quadrado calculado :
2 =
(| A D|1)2
(|14 4|1)2
=
= 4,50
A +D
14 + 4
Uma consulta tabela mostra que o valor da distribuio qui-quadrado com um grau de liberdade e
com probabilidade de 5% 3,84. Como o valor calculado maior do que o valor tabelado rejeita-se H0, isto ,
pode-se afirmar que as crianas apresentam tendncia significativa para mudar o objeto de seu interesse, de
adulto para outra criana, aps 30 dias de freqncia escola maternal.
3.1.4. Pequenas freqncias esperadas
Se a freqncia esperada, isto , 1/2 (A + D) muito pequena (menor do que 5), deve ser usada a
prova Binomial no lugar da prova de McNemar. Para o teste Binomial n = A + D e x = menor das duas freqncias observadas A ou D.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
Escola
82
69
73
43
58
56
76
85
Casa
63
42
74
37
51
43
80
82
d
19
27
-1
6
7
13
-4
3
Posto de d
7
8
-1
4
5
6
-3
2
Apenas 2 pares apresentam diferena no sentido de maior perceptividade das crianas que ficaram
em casa. E estas diferenas de escore esto entre os menores. e sua soma T = 1 + 3 = 4. A tabela G (Siegel,
pg. 285) mostra que para n = 8 um valor de T igual a 4 permite rejeitar a hiptese ao nvel de significncia de
5% para um teste bilateral. Desta forma, pode-se concluir que a escola maternal afeta a perceptividade social
das crianas.
3.2.5. Grandes Amostras
Quando n maior do que 25 a tabela G no pode ser utilizada. No entanto, pode ser mostrado que a
soma dos postos, T, aproximadamente normal, com
Mdia = T = n(n + 1) / 4 e desvio padro T =
Desta forma, Z =
T T
T
n(n + 1)(2n + 1)
24
n(n + 1)
4
aproximadamente N(0, 1).
n(n + 1)(2n + 1)
24
T
Para mostrar que a aproximao excelente, mesmo para pequenas amostras, considere o caso anterior em que n = 8 e T = 4. Colocando estes valores na expresso acima tem-se:
8.9
4 = -1,96
8.917
.
24
4
z=
Pela tabela da normal, pode-se verificar que a significncia deste valor p = 5% para um teste bilateral. Este mesmo valor encontrada na tabela G (Siegel, pg. 285).
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
(Oij Eij)2
i=1 j=1
Eij
2 =
onde:
Os valores de 2 obtidos pela frmula acima, tem distribuio aproximadamente qui-quadrado com
gl = (r - 1)(k - 1), onde r = nmero de linhas e k o nmero de colunas.
Para obter a freqncia esperada Eij em cada clula, multiplicam-se os totais marginais comuns a
uma determinada clula e divide-se produto por n = total de casos.
Exemplo:
Pode-se ilustrar o mtodo mediante um exemplo simples, com dados fictcios. Suponha-se que se
deseje comprovar se existe diferena de qualidade de liderana entre pessoas altas e pessoas baixas. A tabela
4.6 mostra os resultados da classificao de 95 pessoas, que foram divididos entre altos e baixos de um lado e por outro lado como lderes, liderados e no-classificveis. A hiptese de nulidade de que a altura
independente da classificao como lder ou liderado, isto , a proporo de lderes altos e a mesma que a de
lderes baixos e o mesmo se verificando entre os liderados.
Tabela 4.6 - Altura e liderana
Lder
Liderado
No-classificvel
Total
Baixo
12
22
9
43
Alto
32
14
6
52
Total
44
36
15
95
Se as freqncias observadas esto prximas das freqncias esperadas o valor do 2 tambm ser
pequeno. Com um pequeno valor de 2 no podemos rejeitar a hiptese de nulidade, de que os dois conjuntos
de caractersticas sejam independentes um do outro. Todavia, se algumas ou muitas das diferenas so grandes, o valor de 2 ser tambm grande. Quanto maior o valor de 2, tanto maior a probalidade de que os dois
grupos difiram em relao as classificaes adotadas. Pode-se mostrar que a distribuio de 2, tal como definida pela frmula acima, tem distribuio aproximadamente qui-quadrado com:
gl = (r - 1)(k - 1)
A tabela 4.7 ilustra o clculo das freqncias esperadas para os dados da tabela 4.6. Assim, por exemplo, a freqncia esperada para a clula 3x2, isto , E32 : (52.15) / 95 = 8,2.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
Lder
Liderado
No-classificvel
Total
Alto
32 (24,1)
14 (19,7)
6 (8,2)
52
Total
44
36
15
95
2 =
(Oij Eij)2
= (12 - 19,9)2 / 19,9 + (32 - 24,1)2 / 24,1 + (22 - 16,3)2 / 16,6 + (14 - 19,7)2 / 19,7 +
Eij
(9 - 6,8)2 / 6,8 + (6 - 8,2)2 / 8,2 = 3,14 + 2,59 + 1,99 + 1,65 + 0,71 + 0,59 = 10,67
i=1 j=1
2 =
n | AD BC|
com gl = 1
Esta expresso um pouco mais simples de aplicar do que a frmula anterior, pois requer apenas
uma diviso. Tem ainda a vantagem de incorporar uma correo de continuidade que melhora sensivelmente a
aproximao do 2 calculado pela distribuio qui-quadrado.
Exemplo:
Adams estudou a relao entre os interesses vocacionais e a escolha do currculo com a taxa de desistncia do curso universitrio por parte de estudantes superdotados. Os indivduos observados eram estudantes classificados no percentil 90 nos teste de admisso e que haviam resolvido mudar de carreira aps a
matrcula. O pesquisador comparou os estudantes destacados cuja escolha curricular se manteve na linha
considerada desejvel vista do resultado obtido no teste vocacional de Strong (tais casos sendo considerados como "positivos") com os estudantes destacados cuja escolha curricular se processou em sentido diverso
do indicado pelo T teste de interesses. A hiptese do pesquisador e que os estudantes cuja escolha foi considerada "positiva" acusam maior freqncia de permanncia na faculdade ou curso universitrio inicialmente
escolhido.
Hipteses: Ho: No h diferena entre os dois grupos (escolha "positiva" e escolha "negativa" de
currculo) no que diz respeito a proporo dos estudantes que permanecem na faculdade.
H1: A porcentagem de permanncia na faculdade e maior entre os estudantes cuja escolha de currculo foi considerada "positiva".
Prova Estatstica. Escolhe-se a prova 2 para duas amostras independentes porque os dois grupos
considerados "positivo" e "negativo" so independentes e porque os escores que esto sendo estudados consistem de freqncias em categorias discretas (permanncia na faculdade ou afastamento dela).
Nvel de Significncia. Sejam = 0,05 e n = nmero de estudantes na amostra = 80.
Distribuio Amostral. 2 tal como calculado pela frmula do exemplo tem distribuio amostral aproximadamente qui-quadrado com gl = 1. A tabela 3 d os valores crticos do qui-quadrado.
Regio de Rejeio. A regio de rejeio consiste de todos os valores de 2 que so to grandes
que a probabilidade associada sua ocorrncia, sob H0, no supere = 0,05. Como H1 prev o sentido da diMat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
Positivo
10
46
56
Negativo
11
13
24
Total
21
59
80
2 =
n | AD BC|
80
80 |10.13 1146
. |
( 21)( 59 )( 56)(24)
= 5,42
A probabilidade de ocorrncia, sob Ho, de 2 = 5,42 com gl = 1 menor que 5%. Como este valor
superior ao valor tabelado, a deciso rejeitar Ho em favor de H1. Conclui-se , pois que os estudantes superdotados cuja a escolha de currculo foi considerado "positiva" acusam maior freqncia de permanncia na universidade do que estudantes superdotados cuja escolha foi considerada "negativa".
4.1.4. Quando usar o teste
A prova 2 exige que as freqncias esperadas em cada clula no sejam muito pequenas. Quando
elas so inferiores ao mnimo exigido, a aplicao da prova pode se tornar inadequada ou mesmo intil.
O caso 2x2. Se as freqncias se dispem em uma tabela de contingncia 2x2 a deciso quanto ao
uso da prova 2 deve basear-se nas seguintes consideraes:
Quando n > 40 utilizar a prova com correo de continuidade.
Quando 20 n 40 a prova pode ser aplicada desde que nenhuma das freqncias esperadas seja inferior a 5. Se a menor freqncia esperada for inferior a 5, utilizar a prova de Fisher (SIE56).
Quando n < 20 utilizar a prova de Fisher em qualquer caso.
Tabelas de contingncia com gl superior a um. Quando k > 2 (e conseqentemente gl > 1), a prova 2 pode ser aplicada somente se o nmero de clulas com freqncia esperada inferior a 5 inferior a 20%
do total de clulas e se nenhuma clula tem freqncia esperada inferior a 1. Se essas condies no so satisfeitas pelos dados da forma em que foram coletados originalmente, o pesquisador deve combinar categorias
adjacentes de modo a aumentar as freqncias esperadas nas diversas clulas. Somente aps feita a combinao de categorias de forma a satisfazer as exigncias acima que a prova 2 pode ser validamente aplicada.
Quando gl > 1 a prova 2 insensvel ao efeito de ordem. Por isso, quando determinada hiptese leva em conta a ordem, a prova qui-quadrado pode no ser a melhor opo.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
9
6
11
8
15
10
13
Para determinar U, ordenam-se primeiro os escores em ordem crescente, tendo o cuidado de identificar a qual grupo cada um pertence (E ou C):
6
C
8
C
9
E
10
C
11
E
13
C
15
E
Considera-se agora o grupo de controle, C, e conta-se o nmero de escores E que precedem cada
escore deste grupo. Nenhum escore E precede o escore C igual a 6. Isto tambm verdade para o escore C =
8. O prximo escore C 10 e precedido por um escore E. O ltimo escore C, o 13, antecedido por dois escores E. Assim, U = 0 + 0 + 1 + 2 = 3. O nmero de vezes que um escore E vem antes de um escore C igual
a 3, isto , U = 3.
A distribuio amostral de U, sob H0, conhecida e pode-se ento determinar-se a probabilidade associada ocorrncia, sob H0, de qualquer valor de U to extremo quanto o valor observado.
4.2.3. Amostras muito pequenas
Quando nem n1 e nem n2 so superiores a 8, pode-se utilizar a tabela J (Siegel, pg. 302-04) para determinar a probabilidade exata associada ocorrncia, sob H0, de qualquer U to extremo quanto o valor observado.
A tabela J constituda de 6 subtabelas separadas, uma para cada valor de n2, de n2 = 3, a n2 = 8.
Para determinar a probabilidade, sob H0, associada aos dados necessrio saber o valor de n1, de n2 e de U.
No exemplo acima, tem-se: n1 = 3, n2 = 4 e U = 3. A subtabela para n2 = 4 da tabela J mostra que
U 3 tem probabilidade de ocorrncia, sob H0, de p = 0,20 = 20%.
As probabilidades fornecidas na tabela J so unilaterais. Para um teste bilateral, deve-se duplicar o
valor de p constante na tabela.
Caso o valor observado de U seja grande e no conste da tabela, existe a possibilidade de ter-se tomado o grupo errado para a determinao de U. Neste caso, usa-se a transformao:
U = n1.n2 - U, onde U o valor no encontrado na tabela.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
78
110
64
70
75
53
45
51
82
51
C
53
C
64
E
70
C
75
E
78
E
82
E
110
C
Obtm-se o valor de U, contando o nmero de escores E que precedem cada escore C. Assim:
U= 1+ 1+2+ 5= 9
Na tabela J verifica-se que na subtabela para n2 = 5, U 9, quando n2 = 4 tem probabilidade de ocorrncia, sob H0, de p = 0,452. A deciso que os dados no mostram evidncia que justifique a rejeio de H0,
ao nvel dado. Assim, no possvel afirmar que o treinamento prvio para imitar se generalize atravs de novas situaes e novas impulses.
4.2.4. Amostras mdias (n entre 9 e 20)
Se n2 representar o tamanho da maior das duas amostras e for maior do que 8, a tabela J no poder
mais ser utilizada. Quando 9 n2 20, pode-se aplicar a prova de Mann-Whitney utilizando a tabela K (Siegel,
pg. 305-08) que fornece valores crticos de U para os nveis de significncia de 0,001, 0,01, 0,025 e 0,05 para
um teste unilateral. Para um teste bilateral, os nveis de significncia so dados por: 0,002, 0,02, 0,05 e 0,10.
Note-se que este conjunto de tabelas fornece valores crticos de U e no probabilidades exatas (como as tabelas J). Isto , se um valor observado de U, para um dado n1 20 e n2 entre 9 e 20, no supera o valor dado na
tabela, pode-se rejeitar H0, a um dos nveis de significncia indicados no cabealho da tabela.
1
SOLOMON, R. L., COLES, M. R. A case of failure of generalization of imitation across drives and across situations. J. Abnorm. Soc. Psychol., 49, 7-13, 1954.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
n1 (n1 + 1)
n (n + 1)
R1 ou, de forma equivalente U = n1n2 + 2 2
R2
2
2
onde R1 = soma dos postos atribudos ao grupo cujo tamanho de amostra n1,
R2 = soma dos postos atribudos ao grupo cujo tamanho de amostra n2.
Por exemplo, poder-se-ia ter
utilizado este processo para determinar o valor de U no caso de pequenas
amostras tratado acima. Os escores E
e C, bem como seus postos, so apresentados novamente na tabela 4.12.
Aplicando a frmula acima
vem:
U = 4.5 + 5.(5 + 1) / 2 - 26 =
Posto
7
4
6
1
8
R2 = 26
Escore C
110
70
53
51
Posto
9
5
3
2
Soma
R1 = 19
9
O menor dos dois valores de U aquele cuja distribuio amostral constitu a base da tabela K (Siegel, pg. 305-08).
4.2.5. Grande amostras (n > 20)
Nem a tabela J e nem a K podem ser utilizadas quando n2 > 20. Todavia, Mann e Whitney mostraram
(1947), que medida que n1 e n2 aumentam, a distribuio amostral de U tende rapidamente para a distribuio normal, com:
Mdia = U = (n1n2) / 2
e desvio padro
U =
U U
n1 n2 (n1 + n2 + 1)
, isto , quando n2 > 20, o valor de:Z =
=
12
U
n n
U 1 2
2
tem disn1n2 (n1 + n2 + 1)
12
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
n1 n2 n3 n
T , onde n = n1 + n2 e T = (t3 - t) / 12 (t = nmero de escores empatados
n(n 1) 12
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
Alunos do 11 grau
35,2
39,2
40,9
38,1
34,4
29,1
41,8
24,3
32,4
32,6
44-47
10/10
5/10
5/10
48-51
10/10
8/10
2/10
52-55
10/10
10/10
0
EPLEY, W. M., Serial reactions considered as considered as reactions. Psychol. Monogr., 46, n. 205, 1934
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
55 + 60
n1 + n2
= 136
,
= 0,254
(
55)( 60 )
n1 n2
n1 n2
n1 + n2
Goodman (1954) mostrou que esta expresso tem uma distribuio amostral aproximadamente quiquadrado com gl = 2. Ou seja, pode-se determinar a significncia de um valor observado D, tal como calculado
pela expresso de D acima, aplicando esta expresso em relao aos valores observados de D, n1 e n2 e recorrendo a tabela do qui-quadrado, ao invs da tabela L ou M.
Exemplo:
Em um estudo dos corrrelatos
Tabela 4.16 - N de fotos identificadas por 98 universitrias
da estrutura da personalidade autorit3
ria formulou-se a hiptese de que as
Escores baixos
Escores altos
N de fotos identificadas
pessoas com alto grau de autoritarismo
0-2
11
1
apresentariam maior tendncia para
3-5
7
3
possuir esteretipos sobre membros de
6-8
8
6
diversos grupos nacionais e tnicos, do
9 - 11
3
12
que pessoas com baixo grau de autorita12 - 14
5
12
rismo. A hiptese foi comprovada em um
15 - 17
5
14
grupo de 98 estudantes universitrias
18
20
5
6
selecionadas ao acaso. Cada uma recebeu 20 fotografias e foi solicitada a identificar aquelas cuja nacionalidade reconhecia, casando a fotografia apropriada com o nome do grupo nacional. No havia restrio quanto ao nmero de fotos que pudessem identificar pelo processo descrito. Acontece que (sem que as estudantes soubessem) todas as fotos eram de pessoas de nacionalidade mexicana - ou
candidatos legislatura mexicana ou vencedoras de um concurso de beleza mexicana; e como a lista de 20
nacionalidades no inclua a nacionalidade mexicana, o nmero de fotos que cada um identificasse constituiria
um ndice de sua tendncia estereotipia. O grau de autoritarismo, medido pela escala F (de Adorno et al.,
1950), foi classificado como alto ou baixo. Escores considerados altos foram os situados acima da mediana
e baixos os situados abaixo da mediana.
Hipteses: Ho: As universitrias com baixo grau de autoritarismo identificariam tantos fotos quanto
as universitrias com alto grau de autoritarismo.
H1: As universitrias com alto grau de autoritarismo identificariam maior nmero de fotos do que as
universitrias com baixo grau.
Prova Estatstica. Como a prova envolve amostras independentes foi escolhida o teste K-S.
Nvel de significncia. Seja = 0,01. Os tamanhos de n1 e n2 s podem ser determinados aps a
coleta dos dados, pois as pessoas sero agrupadas conforme o escore esteja acima ou abaixo do escore mediano do grupo todo.
3
SIEGEL, S. Certain determinants and correlates of authoritarianism. Genet. Psychol. Monogr., 49, 187-229, 1954.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
12 - 14
34/44
34/54
0,14
15 - 17
39/44
48/54
-0,03
18 - 20
44/44
54/54
0
n1 n2
= 4.(0,41)2[44.54 / (44 + 54)] = 15,97
n1 + n2
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
I
9
6
9
II
4
5
1
III
1
2
2
IV
7
8
6
Para aplicar a prova de Friedam a estes dados, primeiro atribu-se postos aos escores em cada linha.
Ao mais baixo escore em cada linha pode-se atribuir o posto 1, ao seguinte em cada linha o posto 2, etc. Obtm-se assim os dados mostrados na tabela 5.2. Note-se que os postos em cada linha da tabela vo de 1 a k =
4.
Tabela 5.2 - Postos de trs grupos correspondentes sob quatro condies
Condies
Grupo A
Grupo B
Grupo C
Ri
I
4
3
4
11
II
2
2
1
5
III
1
1
2
4
IV
3
4
3
10
Se a hiptese de nulidade (de que todas as amostras - colunas - provenham da mesma populao) ,
de fato, verdadeira, ento a distribuio de postos em cada coluna ser aleatria, sendo ento de se esperar
que os postos 1, 2, 3 e 4 apaream em todas as colunas com freqncias aproximadamente igual. Isto indica
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
k
12
R2j 3n(k + 1) , onde
nk (k + 1) i=1
n = nmero de linhas,
k = nmero de colunas,
Rj = soma dos postos da coluna j
Note-se que 2 tem distribuio aproximadamente qui-quadrado com gl = k - 1 somente quando o
nmero de linhas e/ou colunas no muito pequeno. Quando o nmero de linhas ou de colunas inferior ao
mnimo, existem tabelas com as probabilidades exatas que devem ser utilizadas. A tabela N (Siegel, pg. 31112) d as probabilidades exatas associadas a valores to grandes quanto um 2. observado, para k = 3 e n variando de 2 a 9 e k = 4 e n variando de 2 a 4. Se os valores de n e k so superiores aos valores fornecidos na
tabela N, pode-se ento utilizar a expresso acima e utilizar a tabela do qui-quadrado.
Para ilustrar o uso da tabela N, considere-se os valores do exemplo acima. Aplicando a expresso
tem-se:
r2.=
k
12
12
R2j 3n(k + 1) =
112 + 52 + 4 2 + 10 2 3.3.( 4 + 1) = 7,40
nk (k + 1) i=1
3.4(4 + 1)
ocorrncia, sob H0, de r2 7,40, verificado a tabela NII que forTabela 5.34 - Postos de dezoito grupos correspondentes no
estudo de transferncia de aprendizado aps treinamento
sob trs condies diferentes de reforo
Grupo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Rj
RR
1
2
1
1
3
2
3
1
3
3
2
3
3
2
2,5*
3
3
2
39,5
Tipo de reforo
RU
3
3
3
2
1
3
2
3
1
1
3
2
2
3
2,5*
2
2
3
42,5
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
UR
2
1
2
3
2
1
1
2
2
2
1
1
1
1
1
1
1
1
26,0
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
k
12
12
R2j 3n(k + 1) =
39,52 + 42,52 + 262 3.18.(3 + 1) = 8,40
nk (k + 1) i=1
18.3(4 + 1)
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
(Oij Eij)
r k
i=1 j=1
Eij
, onde:
HOLLINGSHEAD, A. B. Elmtowns youth: The impact of social classes on adolescents. New York: Willey, 1949.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
I e II
23
7,2692
11
18,5769
1
9,1538
35
III
40
30,2330
75
77,4923
31
38,1846
146
IV
16
38,0076
107
97,1307
60
47,8615
183
V
2
5,4000
14
13,8000
10
6,8000
26
Total
81
207
102
390
(Oij Eij)
r k
i=1 j=1
Eij
= 33,8 + 3,1 + 12,7 + 2, 1+ 3,1 + 0,08 + 1,0 + 0,003 + 7,3 + 1,4 + 3,1 + 1,5 = 69,2
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
n(n + 1) i=1 n j
k = nmero de amostras,
nj = nmero de elementos na amostra j,
Rj = soma dos postos na amostra (coluna) j,
n = nj = nmero total de elementos em todas as amostras combinadas,
tem distribuio aproximadamente qui-quadrado com gl = k - 1, para tamanhos de amostras (nj) suficientemente grandes.
Quando existem mais de cinco elementos em cada amostra, isto , nj > 5, a probabilidade associada
ocorrncia, sob H0, de valores to grandes quanto um H observado pode ser determinada com o auxlio da
tabela qui-quadrado, para um nvel de significncia fixado e para gl = k - 1, ento H0 pode ser rejeitada a este
nvel.
Quando k = 3 e o nmero de casos em cada uma das 3 amostras 5 ou menos, a aproximao pelo
qui-quadrado da distribuio de H no boa. Para tais casos, deve ser utilizado a tabela O (Siegel, pg. 31314). A primeira coluna desta tabela fornece o nmero de elementos em cada uma das 3 amostras, isto , os diversos valores possveis para n1, n2 e n3. A segunda coluna fornece diversos valores de H, calculados pela expresso acima. A terceira fornece a probabilidade associada ocorrncia, sob H0, de valores to grandes
quanto um H observado.
Por exemplo, se H 5,83 quando as 3 amostras contm 4, 3 e 1 elementos, a tabela O mostra que a
hiptese de nulidade pode ser rejeitada ao nvel de significncia de 0,021.
Exemplo: (para pequenas amostras)
Suponha que se deseje comprovar a hiptese de que administradores escolares so tipicamente
mais autoritrios do que os professores. Sabe-se, no entanto, que os dados para testar esta hiptese podem
ser tendenciosos, pois vrios professores tem aspiraes administrativas. Para evitar esta tendenciosidade,
planeja-se dividir os 14 valores em 3 grupos: professores (professores que pretendem continuar nesta posio)
professores/administradores (professores que tem aspiraes administrativas) e administradores. O autoritarismo medido atravs da escala F 5 e a hiptese de que os trs grupos vo diferir quanto as mdias na escala F.
Hipteses: Ho: No existe diferena nos escores F entre os trs grupos.
H1: Os trs grupos diferem quantos as escores F (de autoritarismo).
Prova estatstica: Como so trs grupos sendo estudados, um teste para k amostras adequado. A
escala F (de autoritarismo) pode ser considerado uma medida pelo menos ordinal, tornado o teste de KruskallWallis adequado.
Nvel de significncia: Sejam = 0,05 e n = 14 = nmero total de educadores testados, n1 = 5 (professores), n2 = 5 (professores/administradores) e n3 = 4 (administradores).
Distribuio Amostral: Para k = 3 e ni pequenos a tabela O d a probabilidade associada com a ocorrncia, sob H0, para valores to grandes quanto um H observado.
Regio de rejeio: A regio de rejeio consiste de todos os valores de H to grandes que a probabilidade associada com sua ocorrncia sob H0, igual ou menor que = 0,05.
Deciso: Os escores F so apresentados na tabela 6.2.
Apresentada em: ADORNO, T. W. et al. The authoritarian personality. New York, Harper, 1950.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
Professores/Administradores
82
124
132
135
109
Administradores
115
149
166
147
Se estes dados forem colocados em postos e estes postos ordenados de forma crescente ento se
ter a tabela 6.3. Estes postos so somados e os resultados (Ri) esto no final da tabela.
Tabela 6.3 - Postos de autoritarismo de 3 grupos de educadores
Professores
4
9
3
1
5
R1 = 22
Professores/Administradores
2
8
10
11
6
R2 = 37
Administradores
7
13
14
12
R3 = 46
14(14 + 1)
n(n + 1) i=1 n j
+
+
3(14 + 1) = 6,40
5
4
5
Observando a tabela O para os valores 5, 5 e 4, tem-se que H 6,4, tem probabilidade de ocorrncia,
sob H0, de p < 0,049. Como este valor menor que = 0,05, a deciso rejeitar H0. Pode-se concluir, ento,
que os 3 grupos de educadores diferem quanto ao grau de autoritarismo.
6.2.3. Empates
Quando ocorrem empates entre dois ou mais escores, cada escore recebe a mdia dos postos que
deveriam receber se no houvesse empate. Como o valor de H afetado pelos empates, uma correo deve
ser feita na expresso do clculo de H, que consiste em dividi-la pelo fator:
T
1-
, onde T = t3 - t (onde t o nmero de valores empatados) e n = nj.
3 n
n
Deste modo, a expresso geral para o clculo de H, com a correo para empates dada por:
2
12 k R j
3(n + 1)
n(n + 1) i=1 n j
H=
T
1 -
3 n
n
O efeito da correo para empates aumentar o valor de H e assim tornar o resultado mais significativo do que seria se a correo no fosse realizada. Em muitas casos esta correo to pequena que pode
ser desprezada. Se no mais do que 25% das observaes estiverem empatadas, a probabilidade associada
com um H calculado sem correo para empates raramente alterada em mais de 10% por cento do que
quando calculada com a corrigida.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
B1
B2
...
Br
Total
A1
A2
...
kA
A1B1
A1B2
...
A1Br
A2B1
A2B2
...
A2Br
...
...
...
...
...
AkB1
AkB2
...
AkBr
Total
...
n
C=
2
n + 2
, onde
(Oij Eij)
=
r k
i=1 j=1
Eij
Exemplo:
Considere-se os valores apresentados na prova do qui-quadrado para k amostras independentes,
onde foi testado se os cursos universitrios escolhidos pelos jovens de Elmtown dependiam das classes sociais
a que estes jovens pertenciam. Aqui, se tem uma associao entre uma varivel nominal (curso) e uma varivel ordinal (classe social). Os dados so repetidos na tabela 7.2.
Tabela 7.2 - Freqncia de matrcula de jovens de Elmtown de 5 classes sociais em 3 cursos
Curso
Preparatrio para a universidade
Geral
Comercial
Total
I e II
23
11
1
35
Classe
III
IV
40
16
75
107
31
60
146
183
V
2
14
10
26
Total
81
207
102
390
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
C=
2
n+
69,2
= 0,39
390 + 69,2
Logo a correlao entre a escolha do curso de nvel e a classe social entre os jovens de Elmtown
de 0,39.
7.1.3. A prova de significncia do coeficiente de contingncia
Uma vez observado uma correlao entre dois conjuntos de atributos em amostras, quer-se determinar se plausvel concluir pela associao desses mesmos atributos na populao de onde foram retiradas as
amostras.
Ao se testar a significncia de uma medida de associao, est-se na realidade testando a hiptese
de nulidade de que no existe correlao na populao, isto , que o valor da medida de associao observada
poderia ter ocorrida aleatoriamente entre as amostras se as populaes no apresentam correlao.
Para testar a hiptese de nulidade, determina-se a distribuio amostral da estatstica, neste caso, a
medida de associao, sob H0. Utiliza-se, ento, uma prova estatstica adequada para determinar, a um nvel
de significncia pr-fixado, se o valor observado pela estatstica considerada pode ter provavelmente ocorrido
sob H0.
Embora, muitas estatsticas de associao possam ser determinadas por este mtodo o coeficiente
de contingncia C, constitui um caso especial. Uma das razes por que no se pode utilizar a distribuio amostral de C para testar um determinado valor observado, reside na considervel complexidade matemtica de
tal procedimento. Outra razo que no desenvolvimento do clculo de C, j se calcula de forma intermediria
uma estatstica que constitu uma indicao simples e adequada da significncia de C. Tal estatstica o 2.
Pode-se determinar se um valor de C difere significativamente de um valor causal simplesmente determinando
se um valor de 2 significativo.
Para qualquer tabela de contingncia kxr pode-se determinar a significncia do grau de associao
pela estatstica C, determinando a probabilidade de ocorrncia, sob H0, de valores to grandes quanto o valor
observado de 2, com gl = (k - 1)(r - 1). Se essa probabilidade no supera , pode-se rejeitar a hiptese de nulidade, quele nvel. A tabela do qui-quadrado. Se o qui-quadrado baseado nos valores amostrais significativo, pode-se concluir que, na populao, a associao entre os dois conjuntos diferente de zero.
Exemplo:
No exemplo acima foi mostrado que o coeficiente de correlao C entre as variveis: classe social e
opo curricular C = 0,39. Para chegar a este valor foi utilizado o valor 2 = 69,20. este valor que vai ser
usado para testar a significncia de C. Verificando uma tabela qui-quadrado v-se que 2 69,20 com gl = (4 1)(3 - 1) = 6 tem probabilidade de ocorrncia, sob H0, inferior a 0,001. Pode-se, assim, rejeitar a hiptese de
nulidade, ao nvel de 0,001 e concluir que o estatus social e a opo curricular acusam relacionamento na populao da qual o grupo de Elmtown constitui uma amostra. Isto , conclu-se que C = 0,39 significativamente
diferente de zero.
7.1.4. Limitaes do coeficiente de contingncia
A grande aplicabilidade e a determinao relativamente fcil de C podem dar a entender que se trata
de uma medida ideal de associao. Este no o caso, no entanto, em razes das limitaes desta estatstica.
Em geral, pode-se dizer que os coeficientes de correlao devem apresentar pelo menos as seguintes caractersticas:
Onde houver completa falta de associao o coeficiente deve dar zero.
Quando as variveis so completamente dependentes entre si, isto , esto perfeitamente correlacionadas o coeficiente deve ser igual a 1.
O coeficiente C tem a primeira destas caractersticas, mas no a segunda. Ele zero quando no existe associao, mas no atinge o valor um, quando a correlao perfeita, sendo esta a primeira limitao do
coeficiente de contingncia C.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
da limitao de C, pois dois coeficientes de contingncia s sero comparveis se provierem de tabelas com o
mesmo nmero de linhas e colunas.
Uma terceira limitao de C que os dados devem se prestar para o clculo do 2 antes que C possa
ser convenientemente utilizado, isto , o clculo de C sofre das mesmas limitaes do clculo do qui-quadrado.
Uma ltima limitao de C e que ele no diretamente comparvel com nenhuma outra medida de
correlao, como por exemplo, o coeficiente de Pearson ou o de Spearman.
A despeito destas limitaes o coeficiente de contingncia uma medida til pela sua larga aplicabilidade, pois no exige suposies sobre a forma da populao de escores, no exige continuidade da varivel
em estudo e requer apenas mensurao nominal. Isto faz do C uma medida que pode ser aplicada em situaes em que nenhuma outra possa ser aplicada.
2
, onde:
n.(k 1)
Alto
5
10
15
30
Consumo de lcool
Moderado
Baixo
7
20
8
15
6
14
21
49
Total
32
33
35
n = 100
Considerando a tabela acima que cruza o consumo de lcool com o consumo de drogas, determine o
coeficiente V (de Cramer).
A tabela abaixo mostra os clculos dos valores esperados:
Consumo de drogas
Alto
Moderado
Baixo
Total
Alto
9,60
9,90
10,50
30,00
Consumo de lcool
Moderado
Baixo
6,72
15,68
6,93
16,17
7,35
17,15
21,00
49,00
Total
30,00
33,00
35,00
100,00
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
xy
x2 y2
, onde x = X - X e y = Y - Y
n(n 1)
n(n 1)( 2n + 1)
e a soma de seus quadrados, 11, 22, ..., n2 : X 2 =
2
6
2
Como x = ( X X ) = X 2
x2 =
( X )2
n
vem:
=
e de forma anloga segue que y 2 =
6
4
12
12
xy
x2 y2
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
rs = 1 -
d2
n3 n
Estudante
Escore
Autoritarismo
Aspirao
A
B
C
D
E
F
G
H
I
J
K
L
82
98
87
40
116
113
111
83
85
126
106
117
42
46
39
37
65
88
86
56
62
92
54
81
Em um estudo sobre o efeito das presses grupais sobre um indivduo para uma atitude conformista em
uma situao que envolva risco monetrio, os pesquisadores6 aplicaram a 12 estudantes universitrios a escala F
(medida de autoritarismo) e uma escala destinada a medir
as aspiraes de estatus social. Desejava-se uma informao sobre a correlao entre os escores relativos ao autoritarismo e os escores referentes s aspiraes de estatus
social. (Tais aspiraes foram definidas de acordo com os pontos de vista O indivduo no deve casar-se com
pessoa de nvel social inferior ao seu, ou Para um encontro, melhor uma demonstrao eqestre do que um
jogo de baseball, ou ainda, interessante verificar sua genealogia. A tabela 7.3 fornece os escores de cada
um dos 12 estudantes nas duas escalas.
Para calcular o coeficiente de correlao por postos, de Spearman, para estes dois conjuntos de valores necessrio coloc-los, inicialmente em duas sries de postos. Estes postos so apresentados na tabela
7.4, juntamente com as diferenas entre eles e as diferenas ao quadrado.
Atravs destes dados ento, pode-se calcular o coeficiente de correlao rs, atravs da expresso
mostrada acima. Assim:
rs = 1 -
6 d2
n3 n
=1-
6.52
123 12
= 0,82.
Estudante
A
B
C
D
E
F
G
H
I
J
K
L
Escore
Autoritarismo (Posto)
Aspirao (Posto)
2
6
5
1
10
9
8
3
4
12
7
11
3
4
2
1
8
11
10
6
7
12
5
9
di
di2
-1
2
3
0
2
-2
-2
-3
-3
0
2
2
1
4
9
0
4
4
4
9
9
0
4
4
2
di = 52
SIEGEL, S., FAGAN, Joen. The Asch effect under conditions of risk. Dados extrados de um estudo piloto, no publicado.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
t3 t
, onde t = nmero de observaes empatadas em determinado posto.
12
n3 n
- T, onde a soma de T, indica o somatrio sobre os vrios valores de T para todos os
12
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
n 2
1 r 2s
Quer dizer, que para n grande, o valor de rs, tem distribuio t com gl = n -2.
praticvel.
O clculo de W muito simples e W tem uma relao linear com o valor mdio de rs relativo a todos
os grupos. Denotando por rsav o valor mdio dos coeficientes de correlao por postos de Spearman entre os
k
2
Outro processo consiste em imaginar como se apresentariam os dados caso no houvesse concordncia alguma entre os conjuntos de postos, e em seguida, como se apresentariam se houvesse concordncia
perfeita. O coeficiente de concordncia seria ento um ndice de divergncia entre a concordncia efetiva acusada pelos dados e a concordncia mxima possvel (perfeita). De modo aproximado, W um coeficiente desta natureza.
Suponha-se que trs chefes de pessoal sejam encarregados de entrevistar seis candidatos a emprego e de classific-los em postos, separadamente, segundo a capacidade de cada um para preencher a vaga. A
tabela 7.9 fornece os 3 conjuntos independentes de postos atribudos pelos chefes X, Y, Z aos candidatos de
a a f. A ltima linha da tabela d as somas (Rj) dos postos atribudos a cada candidato.
Tabela 7.6 - Postos atribudos a seis candidatos a emprego por trs chefes de pessoal.
Chefe X
Chefe Y
Chefe Z
Rj
a
1
1
6
8
b
6
5
3
14
Candidato
c
d
3
2
6
4
2
5
11
11
e
5
2
4
11
f
4
3
1
8
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
s
, onde
1 2 3
(n n)
k
12
R j
s = soma dos quadrados dos desvios observados a contar da mdia dos Rj, isto , s = Rj
s
25,5
=
= 0,16
1 2 3
1 2 3
(
n
)
(
6
)
k n
3 6
12
12
W = 0,16 exprime o grau de concordncia entre os trs chefes ao atriburem postos aos seis candidatos a emprego.
7.4.4. Empates
Quando ocorrem empates atribui-se a cada valor empatado a mdia dos postos que lhes caberia se
no houvesse empates. o tratamento usual que se d aos escores empatados em postos. O efeito dos empates reduzir o valor de W. Se a proporo de empates pequena, o efeito pode ser desprezado. Se, no entanto, esta proporo for grande, deve-se utilizar uma correo que aumenta o valor de W. A correo utilizada
a mesma utilizada no coeficiente de correlao de Spearman:
T=
t3 t
12
posto.
Com a correo de empates a expresso para o clculo de W fica:
W =
s
, onde: T indica somatrio sobre todos os valores de T para todos os k
1 2 3
T
(n n) k T
k
12
T
conjuntos de postos.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
X
Y
Z
Rj
b
4,5
1
1
6,5
c
2
2,5
4,5
9
d
4,5
4,5
4,5
13,5
Objeto
e
f
3
7,5
4,5
8
4,5 4,5
12
20
g
6
9
8
23
h
i
j
9
7,5
10
6,5
10
6,5
8
8
10
23,5 22,5 26,5
A mdia dos Rj 16,5. Para obter s, somam-se os quadrados dos desvios de cada Rj em relao a
mdia:
s = (5,5-16,5) + (6,5-16,5) + (9-16,5) + ... + (26,5-16,5) = 591.
Como a proporo de empates nos postos grande, deve-se introduzir a correo para empates no
clculo de W. Nos postos de X existem dois conjuntos de empates: 2 objetos acham-se empatados em 4,5 e
dois em 7,5. Para os dois grupos, t = nmero de valores empatados em um dado posto = 2. Desta forma:
TX =
t3 t
12
(23 2) ( 23 3)
+
=1
12
12
Nos postos de Y, existem trs conjuntos de empates e cada conjunto contm duas observaes. Aqui
t = 2 em cada caso e:
TY =
t3 t
12
(23 2) ( 23 3) (23 3)
+
+
= 1,5
12
12
12
Nos postos de Z, existem dois conjuntos de empates. Um deles empatado em 4,5, consiste de 4 valores e t = 4. O outro, empatado no posto 8, consiste de 3 valores e t = 3. Assim:
TZ =
t3 t
12
(4 3 2) (323 3 )
+
=7
12
12
Conhecidos os valores de T para os conjuntos de postos de X, Y, e Z, pode-se calcular W com a correo para empates:
W=
s
591
=
= 0,83
1 2 3
1 2
(n n) k T
(10 3 10) 3.9,5
k
3
12
12
T
Se os empates no tivessem sido considerados o valor de W seria 0,80 ao invs do 0,83 obtido.
7.4.4. Teste de significncia para W
Pequenas amostras. Pode-se comprovar a significncia de qualquer valor observado de W determinando a probabilidade associada ocorrncia, sob Ho, de um valor to grande quanto o s que est associado.
Se for determinado a distribuio amostral de s para todas as permutaes nos n postos em todas as maneiras
possveis nos k conjuntos, ter-se- (n!)k conjuntos de postos possveis. Fazendo uso destes postos pode-se
comprovar a hiptese de nulidade, de que os k conjuntos de postos so independentes, obtendo desta distribuio a probabilidade associada ocorrncia, sob Ho, de um valor to grande quanto um s observado.
Por este mtodo que foi determinada a distribuio de s sob Ho e foram tabelados certos valores
crticos. A tabela R (Siegel, pg. 317) fornece estes valores. Esta tabela aplicvel para k de 3 a 20 e n de 3 a
7. Se um valor observado de s igual ou superior ao valor exibido na tabela R, para um dado nvel de significncia, ento Ho pode ser rejeitada quele nvel.
Por exemplo, viu-se que quando k = 3 chefes de pessoal classificaram n = 6 candidatos a emprego, a
concordncia dos julgamentos foi W = 0,16. A tabela R, indica que o s associado quele valor W (s = 25,5) no
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
s
= k(n -1)W e, portanto, 2 = k(n -1)W
1 2 3
k (n n)
12
Pode-se, ento, utilizar esta expresso para determinar a probabilidade associada ocorrncia sob
H0, de qualquer valor to grande quanto um W observado, que muito mais simples de calcular.
7.4.5. Interpretao de W
Um valor elevado ou significativo de W pode ser interpretado como indicando que os observadores ou
juizes esto aplicando essencialmente os mesmos padres ao atriburem postos aos n elementos em estudo.
No entanto, isto no significa dizer que as ordenaes feitas sejam corretas. Na realidade, elas podem ser todas incorretas em relao a algum critrio externo. possvel que diversos julgadores concordem quanto a ordenao ou classificao de indivduos porque todos empregam o mesmo critrio errado. Em tal caso, um valor alto de W significaria concordncia na escolha do critrio errado.
7.5. Concluso
Foram apresentadas trs tcnicas no-paramtricas para medir o grau de correlao entre variveis
amostrais. E para cada uma delas foi apresentado o respectivo teste de significncia da associao observada.
Uma destas tcnicas, o coeficiente de contingncia, especialmente aplicvel quando os dados se
apresentam em escala nominal. Isto , se a mensurao to elementar que as classificaes em jogo no se
apresentam relacionadas dentro de qualquer conjunto e assim no podem ser ordenadas.
Se as variveis em estudo forem mensuradas no mnimo em escala ordinal, pode-se ainda empregar
o coeficiente de contingncia, mas um mtodo adequado de correlao por postos utilizar melhor as informaes contidas nos dados, sendo, por isso, prefervel.
Para o caso bivariado foi apresentado o coeficiente rs de Spearman. Este coeficiente simples de
calcular e tem a vantagem de estar linearmente relacionado com o coeficiente de concordncia W.
O coeficiente de concordncia de Kendall, W, mede a extenso da associao entre vrios (k) conjuntos de postos de N entidades. til para determinar a concordncia entre diversos julgamentos a respeito
de associao entre trs ou mais variveis. Tem aplicao especial como mtodo-padro de ordenao de elementos de acordo com o consenso, quando no se dispe de uma ordem objetiva dos mesmos. A tabela 7.8
mostra uma matriz relacionando os coeficientes de correlao e a escala de medida apropriada para as variveis X e Y.
Tabela 7.8 - Coeficientes de correlao e escalas de medidas para as variveis X e Y.
Varivel X
Nominal
Nominal
Ordinal
Intervalar/Razo
(4)
(6)
c. V de Kramer d. e V
Varivel Y
Ordinal
(2) a. Tetrachoric
b. de Spearman
(5)
Intervalar/Razo
(5) Biserial
(3) r de Pearson
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.
Mat02282
A n l i s e E s t a t s t i c a N o P a r a m t r i c a
8. BIBLIOGRAF IA
BLALOCK, Hubert M. Jr. Social Statistics. Tokio: McGraw-Hill Kogakusha, 1972, 583 p.
GIBBONS, Jean Dickinson. Nonparametric Statistical Inference. New York: McGraw-Hill, 1971, 306 p.
GIBRA, Isaac N. Probability and Statistical Inference for Scientists and Engineers. Englewood Cliffs (NJ): Prentice-Hall, 1973, p. 596.
HINKLE, Dennis E., WIERSMA, William, JURS, Stephen G. Applied Statistics for the Behavioral Sciences.
Boston: Hougthon Mifflin Co. 1988, p. 682.
LEVIN, Jack Estatstica Aplicada a Cincias Humanas. So Paulo: Harbra, 1985, 392 p.
NOETHER, Gottfried E. Introduction to Statistics: A Nonparametric Approach. Boston: Houghton Mifflin, 1976,
292 p.
ROSCOE, John T. Fundamental Research Statistics for the Behavioral Sciences. New York: Holt, Rinehart and
Wiston, 1975, 483 p.
SIEGEL, Sidney. Nonparametric Statistics for the Behavioral Sciences. New York: McGraw-Hill Book Company, Inc., 1956, 312 p.
WELKOWITZ, Joan, EWEN, Robert B., COHEN, Jacob. Introductory Statistics for the Behavioral Sciences. Orlando (FL): Harcourt Brace Jovanovich, 1982, 269 p.
Mat02282 (Anlise Estat st ica No Paramt rica) - Prof. Lor Via li, Dr.