Vous êtes sur la page 1sur 43

UNIVERSIDADE ESTADUAL DA PARABA

CENTRO DE CINCIAS E TECNOLOGIA

DEPARTAMENTO DE ESTATSTICA

REGINALDO FERREIRA NEVES

Anlise de agrupamento aplicado nas distncias das cidades do


agreste paraibano

CAMPINA GRANDE PB

OUTUBRO/2013
REGINALDO FERREIRA NEVES

Anlise de agrupamento aplicado nas distncias das cidades do


agreste paraibano

Trabalho de concluso de curso


apresentado ao curso de Estatstica da
Universidade Estadual da Paraba, em
cumprimento exigncia para obteno
da concluso da graduao em bacharel
em Estatstica.

Orientador: Prof. Dr. Edwirde Luiz Silva

CAMPINA GRANDE PB

OUTUBRO/2013
FICHA CATALOGRFICA ELABORADA PELA BIBLIOTECA CENTRAL UEPB

N518a Neves, Reginaldo Ferreira


Anlise de agrupamento aplicado nas distncias das cidades
do Agreste Paraibano [manuscrito] / Reginaldo Ferreira Neves.
2013.
42 f. : il. color.

Trabalho de Concluso de Curso (Graduao em Estatstica)


Universidade Estadual da Paraba, Centro de Cincias e
Tecnologia, 2013.
Orientao: Prof. Dr. Edwirde Luiz Silva, Departamento de
Estatstica.

1. Anlise de agrupamento. 2. Distncia. 3. Estatstica.


I. Ttulo.

21. ed. CDD 310


REGINALDO FERREIRA NEVES

Anlise de agrupamento aplicado nas distncias das cidades do


agreste paraibano

Trabalho de Concluso de Curso


apresentado ao Curso de Bacharelado em
Estatstica, do Departamento de Estatstica
do Centro de Cincias e Tecnologia da
Universidade Estadual da Paraba, em
cumprimento s exigncias legais para
obteno do ttulo de Bacharel em
Estatstica.
DEDICATRIA

A minha famlia, em especial minha esposa Glaucia e aos meus filhos Pmela,
Jonathan e Paola e a minha me Francisca, por sempre me incentivarem, apoiarem e
darem fora para seguir em busca dos meus ideais.
AGRADECIMENTOS

Agradeo ao Deus Altssimo criador de cus e terra pelas oportunidades e graa


que me permitiu concluir mas um desafio que a vida me proporcionou, a realizao
deste trabalho, agradeo as pessoas que colaboraram direta e indiretamente.
Por isso, tentarei agradecer a todos envolvidos na elaborao deste trabalho. A
minha esposa Glaucia, aos meus filhos Jonathan, Pmela e Paola a minha querida me
Francisca e Maria Elita minha sogra, e a minha tia Maria que hoje descansa em Deus.
Ao meu orientador Prof. Dr. Edwirde Luiz Silva, pela dedicao, praticidade,
honestidade e orientao na execuo deste trabalho; pela amizade e apoio durante todo
o curso e principalmente pela confiana em mim depositada.
Aos coordenadores e Professores do curso de Estatstica, professor Dr.
Gustavo Henrique Esteves e sua esposa Dra. Diana Esteves, Dr. Ricardo Alves de
Olinda, Prof. Me. Juarez Fernandes de Oliveira, Me. Silvio Fernando, Prof. Dr. Joo Gil
Luna, Dr. Tiago Almeida de Oliveira e sua esposa prof. Dra. Ana Patrcia Bastos
Peixoto, pela orientao, pela dedicao e esforo pelo curso. Meu respeito e gratido.
Especialmente ao professor Prof. Dr. Edwirde Luiz Silva, pelas sugestes na
elaborao do Trabalho de concluso de curso.
Aos colegas e amigos Giovanni Barbosa, Genilson, Ricardo, Saulo, Eder Cabral,
Priscila, Michele, Alessandra, por todo apoio nas horas difceis e tambm pelos timos
momentos vivenciados juntos.
A Universidade Estadual da Paraba, pela oportunidade da realizao da
graduao.
A todos que de alguma forma contriburam para o crescimento de cada momento
para realizao deste trabalho.
RESUMO

Anlise de agrupamento uma tcnica multivariada para formar grupos a partir de


caracterstica de similaridade ou dissimilaridade entre os objetos. Para melhor
visualizao do dendrograma aplicou-se a tcnica hierrquica do vizinho mais prximo,
em uma amostra aleatria de tamanho 12 do objeto distncia entre municpios do
agreste paraibano. O banco de dados entre as distncia das cidades do agreste paraibano,
foi criado atravs de pesquisados no Google maps, inseridos no software estatstico R
2.15.2. Conforme observado foi gerado uma matriz de similaridade ou distancia a partir
da varivel distncia entre municpio, logo aps uma nova matriz com valores
padronizados; em seguida os agrupamentos formados entre as cidades, tomando como
base a menor distncia entre os municpios do agreste paraibano. A validao dos
resultados da anlise de agrupamentos da varivel distncia entre as cidades do agreste
paraibano foi efetuado com o coeficiente de fuso e com o coeficiente de correlao
cofentico.

Palavras-chaves: Distncia, agrupamento e cidades.


ABSTRACT

Cluster analysis is a multivariate technique to form groups from feature similarity or


dissimilarity between objects . For better visualization of the dendrograma, we applied
the technique of hierarchical nearest neighbor in a random sample of size 12 from the
object distance between cities arid Paraba . The database distance between cities arid
Paraba , was created through researched on Google maps , inserted into the statistical
software R 2.15.2. As noted was generated a matrix of similarity or distance from the
variable distance between the municipality, after a new array with default values , then
the groups formed between the cities , based on the shortest distance between
municipalities arid Paraba . The validation of the results of cluster analysis of the
variable distance between cities arid Paraba was performed with the fusion coefficient
and the correlation coefficient cofentico

Keywords: Distance, grouping and cities.


SUMRIO

1. Introduo. 9
2. Reviso Bibliogrfica. 11
2.1 Analise de Agrupamento. 11
2.2 Mtodos de anlise de Agrupamento. 12
2.3 Definio de medidas de semelhana I distncia. 13
2.4 Coeficientes de correlao. 14
2.5 Medidas de distncia. 15
2.6 Medidas de semelhana probabilstica. 17
2.7 Critrios de agregao e desagregao dos casos. 17
2.8 Coeficiente de correlao cofentico. 19
2.9 Validao dos resultados obtidos. 23
3. Material e mtodo. 28
4. Resultado e discusses. 30
5. Concluses. 35
6. Referncias. 36
7. Apndice. 38
9

INTRODUO

A anlise de agrupamento designa uma srie de procedimentos estatsticos


sofisticados que podem ser usados para classificar objetos e pessoas, sem preconceitos,
isto , observando apenas as semelhanas ou dessemelhanas entre elas, sem definir
previamente critrios de incluso em qualquer agrupamento. Mais concretamente, os
mtodos de anlise de agrupamento so procedimento de estatstica multivariada que
tentam organizar um conjunto de indivduos, para os quais conhecida informao
detalhada, em grupos relativamente homogneos (clusters) (REIS, 2001).
A contribuio mais expressiva para a aplicao da anlise de agrupamento foi dada
por Sokal e Sneath em 1963 com o seu livro Principies ot Numerical Taxanamy. Sokal
e Sneath mostraram que um mtodo eficiente para se proceder classificao biolgica,
seria juntar toda a informao existente sobre um conjunto de organismos, determinar a
semelhana existente entre esses organismos e atravs de um mtodo de anlise de
agrupamento colocarem organismos relativamente semelhantes num mesmo grupo.
Uma vez agrupados os organismos, as caractersticas de cada grupo seriam analisadas
de modo a determinar se tratava ou no de espcies diferentes. O nmero de publicaes
sobre o assunto multiplicou-se depois deste livro e podem apontar-se duas razes para
isto ter acontecido; o desenvolvimento de computadores com elevado poder de clculo;
a importncia da classificao como mtodo cientfico (REIS, 2001).
A classificao de elementos a base de compreenso de cincias como a qumica
inorgnica e a teoria atmica da matria e, ao mesmo tempo, a classificao de doenas
fornece uma base estrutural em campos de estudo como a medicina. Nas cincias
sociais, os mtodos de anlise de clusters foram utilizados pelos antroplogos para
definirem reas culturais homogneas (DRIVER, 1965) e (JOHNSON, 1967), pelos
psiclogos e pelos estudiosos da cincia poltica e da economia e ainda pelos gegrafos.
Em marketing, a anlise de clusters tem sido aplicada para proceder segmentao de
mercados a partir das caractersticas geogrficas, demogrficas e psicogrficas dos
consumidores, para identificar mercados potenciais para determinados produtos,
determinar mercados idnticos em pases diferentes ou encontrar grupos de
consumidores que possam servir de referncia na previso de vendas.
Neste trabalho de concluso de curso (TCC) aplicou-se conceitos e tcnicas
cientfica de anlise de agrupamento da disciplina Multivariada, conhecimento
10

adquiridos no decorrer do curso de bacharel em Estatstica na Universidade Estadual da


Paraba. Os procedimentos de anlise de agrupamento com o mtodo do vizinho mais
prximo foram aplicados em uma amostra de 12 cidades do agreste paraibano, para
tornar a anlise grfica e interpretao dos resultados mais simples para qualquer leitor,
nas 66 cidades do que compem o agreste paraibano tambm foram efetuado a anlise
de agrupamento, com a finalidade de formar grupos de cidades que possuam a mnima
distncia entre si, a anlise de agrupamento utilizou-se em logstica para criar grupos de
cidades que apresente a menor distancias entre si, para distribuir recursos e matrias,
com a finalidade de otimizar os atendimento tcnico no agreste paraibano em diversos
clientes.
A partir de levantamento no google maps, construiu-se um banco de dados das
distncias entre as 66 cidades do agreste paraibano. Desenvolveu-se algoritmos no
software estatstico R, que realizou a anlise de agrupamento com o mtodo hierrquico
do vizinho mais prximo entre as distancias das cidades, que compe o agreste
paraibano. O algoritmo gera a matrizes distncia, e toma como base para medir a
dessemelhanas entre as cidades a distncia euclidiana, tambm forneceu informaes
dos agrupamentos atravs de um dendrograma, utilizou-se o coeficiente de correlao
cofentico (ccc) para validar os resultados dos dados da amostra e populao, o ponto
timo dos agrupamentos da amostra foi obtido pela anlise grfica do coeficiente de
fuso.
11

2 REVISO BIBLIOGRFICA

2.1 Anlise de Agrupamento

De modo sinttico, o mtodo pode ser descrito como se segue: dado um conjunto de
n indivduos para os quais existe informao sobre a forma de p variveis, o mtodo de
anlise de clusters procede ao agrupamento dos indivduos em funo da informao
existente, de tal modo que os indivduos pertencentes a um mesmo grupo sejam to
semelhantes quanto possvel e sempre mais semelhantes aos elementos do mesmo grupo
do que a elementos dos restantes grupos. Este mtodo tambm chamado de mtodo de
partio, classificao ou taxonomia, embora o termo partio seja mais utilizado para
uma das tcnicas especficas da anlise: aquela em que os indivduos so divididos por
um nmero preestabelecido de grupos (REIS, 2001).
Na anlise de agrupamento, fundamental ter particular cuidado na seleo das
variveis de partida que vo caracterizar cada indivduo ou caso, e determinar, em
ltima instncia, qual o grupo em que deve ser inscrito. Nesta anlise no existe
qualquer tipo de dependncia entre as variveis, isto , os grupos configuram-se por si
mesmo sem necessidade de ser definida uma relao causal entre as variveis utilizadas.
A anlise de clusters que aqui se apresenta no faz uso de modelos aleatrios, mas til
por fornecer um sumrio bem justificado de um conjunto de dados. Os mtodos so
exploratrios e a ideia sobre tudo gerar hipteses, mais do que testa-as, pelo que
necessria a validao posterior dos resultados encontrados atravs da aplicao de
outros mtodos estatsticos.
Uma dificuldade inicial a de no existir uma nica via de definio de grupos, isto
, um nico critrio de partio e/ou agrupamento dos indivduos ou casos com base
numa nica medida de dessemelhanas. Em todos eles se pretende que os grupos sejam
coerentes e que se distingam de maneira significativa uns dos outros genericamente, a
anlise de agrupamento compreende cinco etapas; a seleo de indivduos ou de uma
amostra de indivduos a serem agrupados; a definio de um conjunto de variveis a
partir das quais ser obtida a informao necessria ao agrupamento dos indivduos; a
definio de uma medida de semelhana ou distncia entre cada dois indivduos; a
escolha de um critrio de agregao ou desagregao dos indivduos, isto , a definio
12

de um algoritmo de partio / classificao; por ltimo, a validao dos resultados


encontrados.

Discutem-se nos pontos seguintes os aspectos fundamentais de cada uma destas


etapas ( exceo da primeira que, naturalmente, no diz respeito apenas ao mtodo,
dependendo de cada problema concreto de classificao) (REIS, 2001).

2.2 Mtodos de anlise de agrupamento

Anlise de agrupamento uma das tcnicas de anlise multivariada cujo propsito


primrio reunir objetos, baseando-se nas caractersticas dos mesmos. Ela classifica
objetos segundo aquilo que cada elemento tem de similar em relao a outro
pertencentes a determinado grupo, considerando, claro, um critrio de seleo
predeterminado. O grupo resultante dessa classificao deve ento exibir um alto grau
de homogeneidade interna (within-cluster) e alta heterogeneidade externa (between-
cluster) (CORRAR, 2007).

Na aplicao do mtodo, necessrio identificar a tcnica de anlise mais


apropriada. possvel dividir as tcnicas disponveis em vrios grupos (Hierrquica,
Optimizao, Densidade, outras), no entanto, fogem do objetivo deste trabalho as
demais tcnicas, logo, sero consideradas as tcnicas hierrquicas.

Mtodos hierrquicos

Estes mtodos conduzem a uma hierarquia de parties P1, P2, Pn, do conjunto
total dos n objetos em 1, 2.., n grupos. A denominao de hierrquicos advm do fato
de, para cada par de parties Pj e Pj+1, cada grupo da partio Pj+1 estar sempre includo
num grupo da partio Pj.
Este tipo de tcnica baseia-se na construo de uma matriz de semelhanas ou
diferenas em que cada elemento da matriz descreve o grau de semelhana ou diferena
entre cada dois casos com base nas variveis escolhidas. Os mtodos hierrquicos
dividem-se em aglomerativos e divisivos. Nos primeiros, parte-se, de n grupos de
apenas um indivduo cada, que vo sendo agrupados sucessivamente at se encontrar
13

apenas um grupo que incluir a totalidade dos n indivduos. O processo inverso


utilizado pelos mtodos divisivos, parte-se de um grupo que inclui todos os indivduos
em estudo e por um processo sistemtico de divises sucessivas obtm-se n grupos de 1
elemento cada.
Os mtodos de anlise de clusters mais divulgados e mais utilizados so os
hierrquicos aglomerativos, e isto porque os mtodos divisivos, tal como os de
optimizao, so extremamente pesados em termos de capacidade informtica.
O ponto de partida comum a todos os mtodos hierrquicos a construo de
uma matriz de semelhanas ou de distncias, sendo este o terceiro problema a
resolver em qualquer anlise de clusters (REIS, 2001).

2.3 Definio de medidas de semelhana/distncia

Segundo Tversky (1977), a anlise terica das relaes de semelhana tem sido
dominada pelos modelos geomtricos. Estes modelos representam os objetos como
pontos num qualquer espao de coordenadas de forma que as dissemelhanas
observadas entre objetos correspondam a distncias mtricas entre os respectivos
pontos. Os mtodos de classificao exigem que os ndices de semelhana respeitem as
propriedades das mtricas, dados por:

1. Simetria: dados dois objetos, x e y, a distncia entre eles verifica a propriedade


d(x,y) = d(y,x) 0
2. Desigualdade triangular: dados trs objetos, x, y e z, as distncias entre eles
satisfazem a propriedade:
d(x,y) d(x,z) + d(z,y)
3. Diferenciabilidade de no idnticos: dados dois objetos, x e y,
d(x, y ) 0 => x y
4. Indiferenciabilidade de idnticos: dados dois objetos idnticos, x e y
d (x, y) = 0
Os ndices de dessemelhanas mais comumente utilizados podem ser classificados em
quatro categorias (Aldenderfer e Blashfield, 1985); coeficientes de correlao; medidas
de distncia; coeficientes de associao; medidas de semelhana probabilstica.
Todas estas medidas tem vantagens e desvantagens, mas os mais utilizados nas
cincias sociais e demais reas so os dois primeiros tipos mencionados.
14

2.4 Coeficientes de Correlao

Estes coeficientes caracterizados por serem de fcil interpretao geomtrica,


so das medidas de semelhana mais utilizadas nas cincias sociais, em particular o
coeficiente de correlao de Pearson, assim definido para dois indivduos i e j,
caracterizados por um conjunto de p atributos:

rij =
(1)

Sendo
= valor da varivel v para o indivduo i, (v = 1, ...., p)
= valor da varivel v para o indivduo j
= mdia de todas as variveis para o indivduo i
= mdia de todas as variveis para o indivduo j
p = nmero total de variveis.

O valor do coeficiente varia entre - 1 e + 1, com o valor zero significando no


existir tendncia de correlao linear entre os indivduos. Este coeficiente
particularmente insensvel s diferenas de escala das variveis, uma vez que o clculo
da mdia de todas as variveis para cada indivduo impe a padronizao prvia dessas
variveis. No entanto, sensvel s diferenas de forma de cada indivduo e disperso
dos valores das variveis em torno das respectivas mdias. Segundo (REIS, 2001), outra
desvantagem do coeficiente de correlao reside no fato de uma mdia de valores de
diferentes variveis no ter um significado claro e da, calcular correlaes em algumas
situaes, pode no ter qualquer significado estatstico.
Alm de tudo isto, este coeficiente no satisfaz a propriedade de desigualdade
triangular das mtricas. No entanto, a seguinte transformao do coeficiente pode dar
lugar a uma mtrica:
dij = [ 0,5 (1 rij)]1/2 (2)
15

Resultando dij = 0 para rij = + 1 e dij = 1 para rij = - 1.

Apesar destas desvantagens, o coeficiente de correlao tem sido utilizado com sucesso,
precisamente quando se pretende que os resultados da classificao no sejam afetados
por diferenas de disperso e de escala das variveis (HAMER e CUNNINGHAM,
1981).

2.5 Medidas de distncia

Existem vrias medidas que podem ser utilizadas como medidas de distncia ou
dessemelhana entre os elementos de uma matriz de dados. Cormack (1971) descreve
uma srie de medidas possveis, de entre as quais, se podem destacar como mais
utilizadas:

1. Distncia Euclidiana: a distncia entre dois individuos (i e j) a raiz quadrada do


somatrio dos quadrados das diferenas entre valores de i e j para todas as
variveis (v = 1, 2, ..., p).

d x x
( 3)

2. Quadrado da Distncia Euclidiana: a distncia entre dois casos (i e j) para todas


as variveis (v = 1, 2, ..., p).

d 2 x x
( 4)

3. Distncia absoluta ou City - Block Metric: a distncia entre dois elementos (i e j)


a soma dos valores absolutos das diferenas entre os valores das variveis (v =
1, 2,., p) para aqueles dois casos:

d x x
( 5)
16

4. Distncia de Minkowskf: Definida a partir da medida anterior, pode ser


considerada como a generalizao da distncia Euclidiana (as duas coincidem
quando r = 2):

d x x ! (6)

5. Distncia de Mahalanobis: tambm chamada distncia generalizada. Esta


medida, ao contrrio das apresentadas anteriormente, considera o inverso da
matriz de covarincia 1 : para o clculo das distncias:

dij = x x % x x&
$
(7)

sendo ' e '& , respectivamente, os vetores de valores das das variveis para os
indivduos i e j, ) % a inversa da matriz de covarincia.

6. Distncia de Chebishev: a distncia entre dois indivduos i e j o valor mximo


para todas as variveis, das diferenas entre esses dois indivduos.

dij = max x (8)


xjv

A cada passo do processo aglomerativo, a matriz de semelhanas / distncias


recalculada de modo, a saber-se qual a relao entre os grupos j formados e os
elementos ainda no agrupados. De acordo com Johnson (1967), nesta altura, quando
se calcula a relao entre os grupos j formados e os casos restantes, que os mtodos
aglomerativo apresentam diferenas entre si. Mais precisamente, neste momento do
processo, dever ser satisfeita a seguinte frmula de recorrncia:

./ 0,2 30 . ./0 32 . ./2 5. .02 ./0 ./2 (9)


17

que dk(i, j) a distncia entre o grupo k e o grupo (i, j) formado pela fuso dos grupos (ou
elementos) i e j. Embora a frmula de recorrncia seja sempre a mesma, os coeficientes
i, j, e diferem conforme o mtodo aglomerativo escolhido.

Os valores dos parmetros da frmula de recorrncia para os mtodos de


agregao so os seguintes para ligao simples (Single linkage), i = ; j= ; =0; y =
-1/2.
Apesar da sua importncia, quer a distncia Euclidiana, quer outras medidas de
distncia, tem vrios problemas de utilizao, sendo o mais importante o efeito que as
diferenas de escala das variveis provocam sobre o valor das distncias. As variveis
que apresentam variaes e unidades de medida elevadas, facilmente anularo o efeito
das outras variveis. Para resolver este problema, como j se referiu anteriormente
comum a prtica de padronizao das variveis, de modo a tornar a sua mdia nula e o
seu desvio-padro unitrio.

2.6 Medidas de semelhana probabilstica.

A diferena entre este tipo de medidas de semelhana e todos os outros


anteriormente apresentados reside no fato de no se calcular propriamente um valor para
a semelhana entre os indivduos. Para se formarem clusters avalia-se o ganho
probabilstico da informao, a partir das variveis iniciais, e agrupam-se os dois
indivduos que menos ganho de informao provoquem.

2.7 Critrios de agregao e desagregao dos casos

Escolhida uma medida de distncia, surge o quarto problema a resolver em qualquer


anlise de clusters: a escolha do critrio de (des)agregao dos indivduos. Poder-se-
dizer que os vrios mtodos pretendem responder, de forma diferente, s seguintes
questes; distncia entre indivduos do mesmo grupo e distncia entre indivduos de
grupos diferentes; disperso dos indivduos dentro do grupo; densidade dos indivduos
dentro e fora dos grupos.
18

Os vrios mtodos de agregao dos indivduos diferem no modo como estimam


distncias entre grupos j formados e outros grupos ou indivduos por agrupar. O
processo de agrupamento de indivduos j agrupados depende da distncia entre os
grupos. Portanto, diferentes definies destas distncias podero resultar em diferentes
solues finais. ( REIS, 2001)
Segundo (REIS, 2001), no existe aquilo a que se possa chamar o melhor critrio
de (des)agregao dos casos em anlise de clusters. prtica comum utilizar vrios
critrios e fazer a comparao dos resultados. Se estes forem semelhantes, possvel
concluir que se obtiveram resultados com elevado grau de estabilidade e, portanto,
confiveis. Os critrios de agregao mais utilizados so os seguintes:

1. Single linkage ou critrio do vizinho mais prximo: Este mtodo tem sido
amplamente utilizado em diversas reas. Aponta como desvantagens a
incapacidade de no discernir grupos pobremente separados (Johnson e
Wichern, 1988). Este critrio define como semelhana entre dois grupos a
semelhana mxima entre quaisquer dois casos pertencentes a esses grupos, ou
dito de outro modo, dados dois grupos (i, j) e (k), a distncia entre os dois a
menor das distncias entre os elementos dos dois grupos:

d(i,j)k = min { dik; djk} ( 10 )

Ou seja, d(i,j)k dada pelo menor elemento do conjunto das distncias dos pares de
indivduos (i e k) e (j e k). A distncia entre dois grupos dada por:

d 78 min ;d 7 , d 8 , d 7 , d 8 }

logo, a distncia entre dois grupos formados, respectivamente, pelos indivduos (i e j) e


(k e l) dada pelo menor elemento do conjunto, cujos elementos so as distncias entre
os pares de indivduos (i e k), (i e l), (j e k) e (j e l). Na figura 1 ilustra o mtodo do
vizinho mais prximo.
19

Figura 1 - Mtodo do single linkage ou Vizinho mais prximo ( REIS, 2001)

Este mtodo torna-se, assim, um sistema contractor do espao uma vez que cada
caso ter mais tendncia para se agrupar a um grupo j definido do que para formar o
ncleo de um novo grupo (LANCE e WILLIAMS, 1967).
Esta caracterstica torna-se numa desvantagem do mtodo: a aptido para que os
agrupamentos finais se assemelhem a cadeias de elementos quando representados num
espao multidimensional, desvantagem esta que tem relegado para segundo plano a
utilizao do mtodo de single linkage como mtodo preferencial de agregao
(CORMACK, 1971; LANCE e WILLIAMS, 1967; SNEAATH e SOKAL, 1973).
A maior vantagem deste mtodo ser insensvel a transformaes montonas da matriz
de distncias e ainda por no ser afetado pela existncia de relaes nos dados iniciais.

2.8 Coeficiente de Correlao Cofentico (CCC)

Sokal e Rohlf (1962), definiram o coeficiente de correlao "cofentica" (CCC)


que ainda hoje a medida de validao mais utilizada pelos taxonomistas numricos.
Esta medida d-nos a relao entre cada valor da matriz de semelhanas e um valor
obtido a partir do dendrograma, significando, em ltima instncia, medida que o
dendrograma resultante da aplicao de um mtodo hierrquico, representa os valores
da matriz de semelhanas / distncias. Mais precisamente, a correlao cofentica a
correlao entre os elementos da matriz de distncia (ou semelhanas) e os
correspondentes coeficientes de fuso, ou seja, as distncias (ou semelhanas) a que os
indivduos se juntam pela primeira vez para formar grupos. Embora este mtodo de
validao seja apropriado sobre tudo quando se utiliza um mtodo hierrquico
aglomerativo, foi criticado por Farris (1969) que referiu a sua sensibilidade ao tamanho
dos grupos como razo suficiente para no ser aceite como justificao direta e final da
tcnica utilizada.
20

Com o objetivo de ilustrar esta tcnica considere seis grandes empresas


comerciais, para as quais foram medidas as seguintes dimenses estratgias (Reis,
2001):

X1: nmero de lojas


X2: dimenso mdia das lojas (m2)
X3: % da rea alimentar no total das vendas
X4: montante da rea alimentar no total de caixa (103 contos).
Os dados obtidos foram os seguintes:

Quadro 1 Caracterizao de seis empresas comerciais


Dimenso mdia % alimentar rea
Empresa N de lojas lojas nas vendas alimentar no
total de caixa
1. Modelo 42 830 95 12.000

2. Pingo Doce 33 1215 92 11.500

3. Feira Nova 1 6000 70 18.500

4. Supa/Jumbo 6 5675 63 21.400


5. Minipreo 31 288 98 870

6. Continente 4 885 65 23.100

Para obteno dos grupos estratgicos dever ser utilizada a distncia Euclidiana
ao quadrado e o critrio de agregao do vizinho mais prximo (single linkage).
Por estarmos em presena de variveis com escalas de medida e disperses
muito diferentes, optou-se
se por uma padronizao prvia das variveis e, a partir da,
calcular a matriz de distncias Euclidianas ao quadrado:

D=
21

O primeiro passo no processo de agrupamento consiste em encontrar a menor


das distncias entre cada par de empresas. Assim, o primeiro grupo ser formado pelas
empresas 1 e 2, ou seja, Modelo e Pingo Doce. Torna-se necessrio recalcular as
distncias entre este grupo e as restantes empresas
empresas utilizando o critrio do vizinho mais
prximo que define a distncia entre dois grupos como a menor das distncias entre os
seus elementos. Por exemplo, a distncia entre o grupo (1, 2) e a empresa 3 ser.

d(1, 2) 3 = min {d(1,3) ; d(2,3)} = min {12,2 ; 9,2} = 9,2

A nova matriz de distncias passar ento a ser.

As empresas mais semelhantes so agora a 3 (Feira Nova) e a 4 (Supra/Jumbo) que


passam a formar um grupo distncia de 0,4. Para o passo seguinte, a matriz de
distncia :

distncia de 1,9 a empresa 5 (Minipreo) junta-se


junta se ao grupo j formado no primeiro
passo e a matriz de distncia, depois deste passo, passa a ser;
22

A empresa 6 (Continente)
ontinente) se
s juntar ao grupo formado pela Feira
eira Nova e Supra/Jumbo
distncia 3,4. Por fim os dois grupos
grup (1,2,5) e (3, 4, 6) vo juntar-se
se distncia de 7,4.

Todo este processo de agrupamento pode ser resumido num quadro do seguinte tipo:

Quadro 2 - Processo de agrupamento das seis empresas segundo o critrio do single Iinkage
PASSO DISTNCIAS GRUPOS
1 d12 = 0,3 (1, 2) (3) (4) (5) (6)
2 d34 = 0,4 (1, 2) (3, 4) (5) (6)
3 d(1,2)5 = 1,9 (1, 2, 5) (3, 4) (6)
4 d(3,4) 6 = 3,4 (1, 2, 5) (3, 4, 6)
5 d(1,2,5) (3,4,6) = 7,4 (1, 2, 3, 4, 5, 6)

Uma mais rpida e fcil visualizao do processo de agrupamento possvel atravs de


uma representao grfica denominada de DENDROGRAMA:

Figura 2 - Dendrograma obtido pelo mtodo do vizinho mais prximo, a partir das medidas de
dissimilaridade entre as 6 empresas.

A observao do dendrograma sugere a existncia de dois grupos: um


m formado pelas
empresas Modelo, Pingo Doce e Minipreo, e outro pelas empresas Feira Nova,
Supa/Jumbo e Continente.
23

2. Complete Iinkage ou critrio do vizinho mais afastado: utiliza o procedimento


inverso ao anterior, uma vez que a distncia entre dois grupos agora definida
como sendo a distncia entre os seus elementos mais afastados ou menos
semelhantes.
Dados dois grupos (I, J) e (k), a distncia entre eles a maior das distncias entre os
seus elementos:
d(I j) k = max { dlk; djk } (10)

De acordo com esta estratgia cada grupo passa a ser definido como um conjunto de
elementos em que cada um mais semelhante a todos os restantes elementos do grupo
do que a qualquer dos elementos dos restantes grupos.

Figura 3 - Mtodo do Complete


omplete linkage ou critrio do vizinho mais afastado ( REIS, 2001)

Este mtodo tem tendncia para encontrar clusters compactos compostos de


indivduos muito semelhantes entre si. Embora os resultados da aplicao deste mtodo
deem uma viso ntida dos diferentes grupos encontrados, nem sempre apresentam um
elevado grau de concordncia com a estrutura inicial dos dados. Existem outros critrio
de agregao de casos como por ex: critrio da mdia dos grupos, critrio Ward.

2.9 Validao dos resultados obtidos

Uma vez que a anlise de agrupamento tem como objetivo criar grupos
homogneos, surge um problema que o da escolha do nmero adequado de
agrupamentos ou grupos. A aplicao de mtodos hierrquicos permite a apresentao
dos resultados
tados sob a forma de dendrograma ou de uma rvore de agrupamento.
agrupamento O
dendrograma mostra todas as fases do processo de agrupamento desde a separao total
dos indivduos at sua incluso num grupo apenas.
24

O problema que pe por onde cortar o dendrograma de modo a obter-se


se um nmero de
grupos timo. Infelizmente, este passo fundamental da anlise de clusters, no est
est
ainda completamente resolvido, sendo motivo de estudos ainda.

Na figura 4,, o corte do dendrograma a uma distncia de aproximadamente 3 revela


revel a
existncia de dois grupos:
upos: (2, 5, 3, 4) e (1, 6, 7)

Figura 4 Dendrograma com corte em aproximadamente na distncia 3 formando dois grupos (2,5,3,4) e
(1,6,7) (Fonte: Reis, 2001)

A rvore de agrupamento permite-nos


permite nos tambm ter uma visualizao, ao longo do
processo de agrupamento, de quais os grupos que se vo subdividindo e do
correspondente nmero de indivduos. Na figura 5 apresenta-se
se uma rvore
de
agrupamento de objetos hipotticos.
hipott

Figura 5 - rvore de agrupamento de objetos hipotticos) (Fonte: Reis, 2001)


25

Tal como acontece com os mtodos de otimizao em que necessrio definir


previamente o nmero de grupos desejados, por vezes existe o conhecimento, por parte
do investigador, do nmero aproximado de grupos em que a populao em estudo se
dever dividir. Este mtodo de escolha do nmero de grupos muito subjetivo e no
pode ser considerada satisfatria por se tornar enviesado pela necessidade de opinies
prvias quanto correta estrutura dos dados.
Um mtodo alternativo ser a comparao grfica do nmero de clusters com o
coeficiente de fuso, isto , o valor numrico (distncia ou semelhana) para o qual
vrios indivduos se une para formar um grupo.
Quando a diviso de um novo grupo no introduz alteraes significativas no
coeficiente de fuso poder tornar-se essa partio como sendo tima. Na figura 10, o
exemplo indicado sugere que a partir de 3 grupos, a curva se torna quase paralela a um
dos eixos, isto , os "saltos" mais significativos no coeficiente de fuso do-se quando
se passa de 1 para 2 grupos, donde se poder concluir que o agrupamento timo se
verificar na formao de 2 grupos.
Um problema com a utilizao deste mtodo surge quando a representao
grfica mostra apenas pequenos saltos e no existe nenhuma maneira de avaliar, atravs
da visualizao grfica, qual o melhor nmero de grupos. Par resolver este problema,
Mojena (1977) e Mojena e Wishart (1980) desenvolveram o mtodo no sentido de
encontrar uma partio tima.
Outros mtodos foram igualmente desenvolvidos, mas em qualquer deles,
necessrio um cuidado redobrado na sua utilizao que dever ser sempre acompanhada
por um processo de validao estatstica dos resultados encontrados.
26

Figura 6 - Coeficientes de fuso

O grfico do coeficiente de funo e traado a partir dos pontos entre o valor de


distncia que funde os grupos, cada valor de distncia de agregao pode ser observado
no dendrograma em cada grupo. Na figura 6, um nico
nico grupo atinge o valor mximo de
distncia, j formao de 2 grupos o salto estatisticamente considervel, nas
formaes a partir de 3 grupos as diferenas de distncia no apresentam valores
significativos.
A escolha de diferentes tcnicas de anlise de clusters pode produzir resultados
diferentes mesmo quando se utiliza uma mesma base de dados. Isto introduz outro
problema, que o da escolha do critrio de agrupamento mais apropriado. Muitos
estudos debruaram-se
se sobre a escolha do melhor mtodo de agrupamento
upamento e ao nmero
de grupos e, no de admirar, que os resultados a que chegaram sejam, por vezes,
contraditrios.
Para ajudar escolha do melhor mtodo, Sokal e Rohlf (1962) definiram o
coeficiente de correlao "cofentica" (rc) que ainda hoje a medida de validao mais
utilizada pelos taxonomistas numricos. Esta medida d-nos
d nos a relao entre cada valor
da matriz de semelhanas e um valor obtido a partir do dendrograma, significando, em
ltima instncia, medida que o dendrograma resultante da aplicao
aplicao de um mtodo
hierrquico, representa os valores da matriz de semelhanas / distncias. Mais
precisamente, a correlao cofentica a correlao entre os elementos da matriz de
distncia (ou semelhanas) e os correspondentes coeficientes de fuso, ou seja, as
distncias (ou semelhanas) a que os indivduos se juntam pela primeira vez para formar
grupos. Embora este mtodo de validao seja apropriado sobre tudo quando se utiliza
um mtodo hierrquico aglomerativo, foi criticado por Farris (1969) que referiu a sua
27

sensibilidade ao tamanho dos grupos como razo suficiente para no ser aceite como
justificao direta e final da tcnica utilizada.
28

3 MATERIAL E MTODOS.

Atravs da tcnica multivariada anlise de agrupamento, aplica-se o mtodo


hierrquico vizinho mais prximo para agrupar as cidades do agreste paraibano em
agrupamento com a caracterstica de menor distncia entre elas. O banco de dados das
distncias das 66 cidades que compe o agreste paraibano foi criado a partir de
informaes coletadas no google maps.
As informaes foram colhidas no perodo de 20 de setembro de 2012 a 15 de
outubro de 2012. O algoritmo de programao e a montagem do banco de dados foram
concludos em dezembro de 2012.
Os municpios cruzam-se entre si formando uma matriz de 66 linhas por 66 colunas,
o que nos fornece 4.356 valores de distncia entre os municpios.
Para melhor visualizao do dendrograma obteve-se uma AAS (amostra aleatria
simples) de tamanho 12, com a populao em estudo possvel obter mais de 4 bilhes
de amostra diferentes. Aplicou-se anlise descritiva da amostra antes da anlise de
agrupamento, atravs de um algoritmo criado no software R 2.15.1, de forma randmica
foi sorteado 12 cidades conforme a listagem. No Quadro 3 tem-se os municpios do
agreste paraibano em estudo.
29

Quadro 3 - Cidades do Agreste Paraibano


1 Alagoa Grande 23 Cuit 45 Natuba
2 Alagoa Nova 24 Cuitegi 46 Nova Floresta
3 Alagoinha 25 Damio 47 Olivedos
4 Algodo de Jandaira 26 Dona Ins 48 Piles
5 Araagi 27 Esperana 49 Pilezinhos
6 Arara 28 Fagundes 50 Pirpirituba
7 Araruna 29 Frei Martinho 51 Pocinhos
8 Areia 30 Gado Bravo 52 Puxinan
9 Aroeiras 31 Guarabira 53 Queimadas
10 Areial 32 Gurinhm 54 Remigio
11 Bananeiras 33 Ing 55 Riach. do Bacamart
12 Barra de Santa Rosa 34 Itabaiana 56 Salg. So Felix
13 Belm 35 Itatuba 57 Santa Cecilia
14 Boa Vista 36 Jurez Tvora 58 So Sebast. L. Roa
15 Borborema 37 Lagoa de Dentro 59 Serra da Raiz
16 Cacimba de Dentro 38 Lagoa Seca 60 Serra Redonda
17 Caiara 39 Logradouro 61 Serraria
18 Caldas Brando 40 Massaranduba 62 Sertozinho
19 Campo de Santana 41 Matinhas 63 Solnea
20 Campina Grande 42 Mogeiro 64 Sossgo
21 Casserengue 43 Montadas 65 Tacima
22 Cubati 44 Mulungu 66 Umbuzeiro

(Fonte: http://pt.wikipedia.org/wiki/Mesorregi%C3%A3o_do_Agreste_Paraibano)
30

4 RESULTADOS E DISCUSSES

Neste momento, antes de processar a anlise, convm estabelecer um nmero de


cidades julgada adequada, tendo em vista os objetivos da pesquisa e o conhecimento
que se tem do universo das distancias entre as cidades paraibanas. Para os fins deste
trabalho, estabelece-se como soluo final desejada um nmero de dois clusters: um
estariam as cidades que apresentam pequenas distancias uma da outra, e no outro,
estariam aqueles grupos de cidades mais distante uma da outra.

A matriz distncia no Quadro 4 abaixo, exibe valores que correspondem as


distncias entre as primeiras cidades (Alagoa Nova e Campina Grande), por exemplo a
distncia entre elas 27 km. A cidade de Alagoinha e Alagoa Nova a distncia
corresponde a 42 km e assim sucessivamente para todos os valores. Observou-se que a
menor distncia entre a cidade de Belm e Bananeiras, apenas 13 km. Em
contrapartida as mais distantes apresentaram 118 km de distncia, o caso das cidades
de Natuba e Montadas.

Quadro 4 - Matriz distncia da AAS de 12 cidades.


C.Gra Alnov Alagoi Araa Banan Belm Cacim Cassse Ing Itabai Mont
Alnov 27
Alagoi 74 42
Araa 92 67 25
Banan 72 55 42 42
Belem 86 69 30 28 13
Cacim 84 64 64 63 22 35
Casse 75 121 133 91 60 62 58
Inga 37 56 48 74 84 77 93 96
Itabai 77 89 59 81 99 85 120 126 35
Mont 27 50 63 88 59 72 67 69 72 104
Natub 96 103 109 131 148 135 158 160 66 49 118
C.Gra - Campina Grande, Alnov - Alagoa Nova, Alagoi-Alagoinha, Araa-Araagi, Banan-Bananeiras, Belm,
Cacim - Cacimba de Dentro, Casse-Casserengue, Itabai-Itabaiana, Mont-Montadas, Natub-Natuba

Pela distncia euclidiana e o mtodo do vizinho mais prximo. Obtm-se a formao


do primeiro grupo que ser entre a cidade de Belm e Bananeiras, pois apresenta a
menor distncia entre as cidades na matriz (d5,6 =13).
31

O Quadro 5, apresenta a formao de grupos com os valores de distncia


padronizada da matriz de similaridade, os grupos so formados a partir da menor
distncia entre as cidades, formando dois ou mais grupos, at que todas as cidades
formem um nico grupo.

Quadro 5 - Formao de grupos


Passo Distncia (Padronizada) Grupos
1 D56 = 48,97 (1)(2) (3) (4) (5 6) (7) (8) (9) (10) (11) (12)
2 D(56) 7= 57,9 (1) (2) (3) ( 4) (5 6 7) (8) (9) (10) (11) (12)
3 D34 = 67,95 (1)(2) (3 4) (5 6 7) (8) (9) (10) (11)(12)
4 D34 = 67,95 (1 11) (5 6 7) (3 4) (2) (8) (9) (10) (12)
5 D1 11 = 72,47 (1 11 ) (2) (5 6 7) (3 4) (8) (9) (10) (12)
6 D(1 11) 2 = 92,37 (1 2 11) (5 6 7) (3 4) (8) (9 10) (12)
7 D9 10 = 92,4 (1 2 11) (5 6 7 )(3 4) (8) (9 10) (12)
8 D(3 4 5 6 7) = 97 ,39 (1 2 11) (8) (9 10) (3 4 5 6 7) (12)
9 D(1 2 9 10 11) = 100,07 (1 2 11 8) (9 10 ) (3 4 5 6 7) (12)
10 D(1 2 8 9 10 11 )= 103,57 (1 2 8 9 10 11) (3 4 5 6 7) (12)
11 D(1 2 3 4 5 6 7 8 9 10 11) 12 = 136,53 (1 2 3 4 5 6 7 8 9 10 11) (12)
12 D(1 2 3 4 5 6 7 8 9 10 11 12) = 137,9 (1 2 3 4 5 6 7 8 9 10 11 12)

O dendrograma apresentado na Figura 7, foi construido pelo metodo hierarquico


do vizinho mais proximo representando a aglomerao feita em uma escala de 40 a 140.
A base do dendrograma representa as variveis (cidades) que foram associadas, no
entanto, este grfico no imprime as distncias que dariam uma informao sobre a
homogeneidade dos cluster associados.
32

Figura 7. Dendrograma das 12 cidades da amostra do agreste paraibano.

O dendrograma resultante do Quadro 6, ou seja, o dendrograma da AAS


formada pela distncia entre 12 cidades, a linha vermelha separa o agrupamento
agrupamento em dois
grupos A e B, que possuem distncias at 100km, o grupo A formado pelas cidades de
Cacimba de Dentro, Bananeiras, Belem, Alagoinha e Araagi, o grupo B formados pelas
cidades de Alagoa Nova, Campina Grande, Montadas, Inga e Itabaiana.
A primeira formao de grupos por media ocorre a distncia inferior a 50.
visto que as cidade formado pelo grupo A (Cacimba de Dentro, Bananeiras,Belem,
Alagoinha e Araagi) esto mais associadas. As cidades de Bananeiras e Belem
apresenta uma grande homogeneidade.
homogeneidade. As cidades de Casserengue e Natuba apresenta
uma certa distncia das demais, ambas esto associadas a uma grande distncia dos
grupos A e B.
Os grupos A e B apresentam caractersticas internas homogneas e entre si
caracterstica heterogneas. O dendrograma um grfico em forma de uma rvore, onde
podemos averiguar alteraes dos nveis de similaridade, para as sucessivas etapas do
agrupamento das cidades do agreste paraibano, no eixo vertical o nvel de
similaridade(distncias) e no eixo horizontal as cidades, as linhas verticais partindo dos
33

indivduos (cidades) agrupados tem altura correspondente ao nvel que as cidades so


considerados semelhantes. Um
m mtodo alternativo ser a comparao grfica do nmero
de cluster com o coeficiente de fuso, isto , o valor numrico (distncia ou semelhana)
para o qual vrios casos se unem para formar um grupo.

Figura 8. Grfico do coeficiente de fuso

Observa-se na Fgura 8 que o ponto timo est no intervalo de distncia de


semelhana de 40 a 140, com valor numrico de 136,53 na escala de semelhana. O
nmero de 2 grupos funde todos os objetos. O ponto timo obteve-se
obteve se na formao de
dois grupos, pois apresenta salto mais significativo com 33 unidades de semelhana,
com este teste valida-se
se os resultados dos dados obtidos, com 2 grupos apresentam
caractersticas homogneas internamente e entre grupos caractersticas heterogneas.
Para os agrupamentos
agrupamentos hierrquico podemos utilizar uma medida bastante
comum, que a correlao cofentica ( ALDENDERFER & BLASHFIEL, 1984;
ROMESBURG, 2004) . O coeficiente de correlao cofentica mede o grau de
34

preservao das distancias emparelhadas pelo dendrograma resultante


resultante do agrupamento
em relao s distancias originais ( SNEATH & SOKAL, 1973).
A partir da inexistncia de um mtodo para selecionar a melhor tcnica de
agrupamento, importante avaliar o grau de ajuste do agrupamento, coeficiente de
correlao cofentica
ica (CCC) menor que 0,7, indica inadequao do mtodo de
agrupamento, quanto maior o CCC melhor o agrupamento. Nesse caso obteve-se
obteve um
CCC de 0.7803, o que torna o agrupamento adequado para amostra aleatria simples
(AAS) das 12 cidades.
A Figura 9 abaixo apresenta o dendrograma completo da populao das 66 cidades
do agreste paraibano.

Figura 9. Dendrograma das cidades do agreste paraibano.

Percebe-se
se que na Figura 9, o lado esquerdo exibe uma rgua de distncia que
vai de 0 a 300 unidades de semelhana, as cidades 59 e 62 agrupa-se
se a uma distncia
menor que 50 unidades de semelhana, a maioria das cidades se agrupam no intervalo
de 50 a 200 unidades de semelhana, j as os agrupamentos formados pelas cidades 15,
22 e 10 possui afastamentos dos
do demais grupos.
Os resultados obtidos tambm foram validados pelo coeficiente de correlao
cofentica e apresentou CCC = 0.70 atravs do algoritmo no software R.
35

5 CONCLUSES

Conclui-se que a anlise de agrupamento uma tcnica multivariada que utiliza


um conjunto de algoritmos com a finalidade formar grupos de objetos, atravs das
similaridades e dissimilaridades, de forma que os grupos possuam internamente
caracterstica homognea e entre grupos caractersticas heterogneas.
A partir das cidades formou-se agrupamento pelo mtodo hierrquico do vizinho
mais prximo, ou seja, menor distncia entre as cidades do agreste paraibano. Atravs
do coeficiente de fuso conclui-se que as 12 cidades apresentaram-se discriminadas em
dois grupos, ou seja, os dois grupos possu caractersticas internas homogneas e entre
grupo caracterstica heterogneas das cidades constituintes.
Atravs do Coeficiente Correlao Cofentica (CCC) obteve-se a confirmao
do mtodo selecionado, o que valida formao dos agrupamentos.
36

6 REFERNCIAS

ALDENDERFER, M. S. e R. K. BLASHFIEL (1984), Cluster Analysis, Sage


University 88 p.
BAIN, L. J. ENGELHARDT, M. Introduction to probability and mathematical
Statistics. Ed. Belmont-CA Duxbury Press, 1992. 644p
CORMACK, R. (1971), <<A review of classification>>, Journal of the Royal
Statistical Society (Series A) 134: 321-367.
CASELLA; BERGER, R.L. Statitical Inference. 2. Ed. Pacific grove-CA: Duxbury
Press 2002. 660p.
DRIVER, H. E. (1965), <<Survey of Numerical classification in anthropology>>, in
D. Hymes (ed) The off computers in Anthoropology, pp 304-344.
FARRIS, J. S. (1969), <<On The cophenetic correlation coeffient>>, systematic
Zoology 18:279-285.
JOHNSON, S. (1967), Hierarchical clustering schemes, Psychometrica, 38:241-254.
JOHNSON, R. A. e D. W. WICHERM (1988, 2 ed.), Applied Multivariate
Statistical Analysis, Prentice Hall.
HAMER, R. E J. CUNNINGHAM (1981), <<Cluster analyzing profile data
confounded with interrater differences: a comparison of profile measures>>, Applied
Psychological Measurement, 5: 63-72.
MOJENA, R. (1977), <<Hierarchical grouping methods and stopping rules an
evaluation>>, computer journal, 20: 41-50.
MORETTIN. L. G. Estatistica basic V 1.7. Ed. Edifice So Paulo Makron
Books, 1999. 210 p.
LANCE, G. E W. WILLIAMS (1967), << A general theory of classificatory sorting
strategies>>, Computer Journal, 9: 373-380.
ELISABETH REIS (2001), Estatstica Multivariada Aplicada, 2 edio, 287-336
MOJENA, R. E D. WISHART (1980), <<Stopping rules for Wards clustering
method>>, in proceedings of COMPSTAT 1980, PP. 426-423.
PESTANA, M. H. E GAGEIRO, J.N. (2000, 2 ed.) pag.429, Analise de Dados para
Cincias Sociais.
- A complementariedade do SPSS, Edies Silabo.
37

ROSS, S. M. Introduction to probability and statistics for engineers and scientists 2.


Ed. San Diego-CA: Harcourt Academic Press, 2000. 578 p.
ROHLF F.J (1970)Adaptive Hierarchical Clustering Schemes. Systematic
Zoology 19:58.
SOKAL, R. E P. SNEADTH (1963), Principles of numerical taxonomy, Ed. W.H.
Freeman.
SNEATH, P.H. A. E SOKAL, R. R. (1973), Numerical Taxonomy, W. H. Frenman.
SOKAL, R. E F. ROHLF (1962) , <<The Comparson of dendrograma by objective
methods>>, Taxon 11:34-40
TVERSKY, A. (1977), << Features of similarity>>, Psychological, Review, 84 (4).
LUIZ, J. CORRAR, EDILSON P. FILHO, J.M (Coordenadores). Anlise
multivariada: para os cursos de administrao, cincias contbeis e economia. So
Paulo: Atlas, 2007.
38

7 APNDICE

Algoritmo da anlise descritiva e da anlise de cluster dos dados usando o software R


2.15.1.

rm(list=ls(all=TRUE)) # limpa memoria


bdados<-read.table("bdcidagpb.csv",header=T,sep=";") # importao dos dados do
arquivo bdcidagpb.csv do excel
bdados
# Distncia em relao a Campina Grande
vetcamp<-bdados[,2]
relatorio<-bdados[,1]
#Uma Amostra Aleatria Simples tamanho de 12 municpios, para melhor visualizao
dos grficos; Gerao da Amostra aleatria Simples
rela<-c(1:66) ;rela
#vetor com sequncia de 1 a 66 para listar as cidades do agrestre Paraibano para
numerarmos os municpios, Mais de 490 bilhes de quantidade de amostras possveis de
tamanho 12 para 66 cidades, conforme a combinao de 66 tomada 12.
choose(66,12) ;#Combinao de 66 por 12: 66!/(12!(66-12)!)
amost<-sample(rela,12) # AAS de tamanho 12
amost # Resposta: 1, 17, 43, 3, 4, 14, 34, 21, 45, 6, 12, 33
sort(amost) # colocando a amostra em ordem crescente
1 3 4 6 12 14 17 21 33 34 43 45
Em ordem crescente (AAS) as cidade selecionadas so:
# 1 Campina Grande
# 3 Alagoa Nova
# 4 Alagoinha
# 6 Araagi
# 12 Bananeiras
# 14 Belm
# 17 Cacimba de Dentro
# 21 Casserengue
# 33 Ing
39

# 34 Itabaiana
# 43 Montadas
# 45 Natuba
# Vetor com valor das distncia de campina as cidades conforme AAS
amostra<c(bdados[,1],bdados[,3],bdados[,4],bdados[,6],bdados[,12],bdados[,14],bdados
[,17],bdados[,21],bdados[,33],bdados[,35],bdados[,43],bdados[,45])
#todas as distncias da amostras de tamanho 12.

## Calculo da Moda
d<-amostra
moda<-function(d) {
if ((is.vector(d) || is.matrix(d) || is.factor(d)==TRUE) &&
(is.list(d)==FALSE))
{
dd<-table(d)
valores<-which(dd==max(dd))
vmodal<-0
for(i in 1:(length(valores)))
if (i==1) vmodal<-as.numeric(names(valores[i]))
else

vmodal<-c(vmodal,as.numeric(names(valores[i])))
if (length(vmodal)==length(dd))
print("conjunto sem valor modal")
else return(vmodal)
}
else print("o parmetro deve ser um vetor ou uma matriz")
}

## Medidas de Posio Amostral


Moda(d) # a moda da amostra
mean(amostra) # Media da amostra Aleatria dos 12 municpios do agreste paraibano
a Campina Grande
40

#[1] 70.72727
median(amostra) # Mediana da amostra das distncias entre municpios do agreste
paraibano e Campina Grande
#[1] 73
moda(d) # Moda da amostra das distncias entre municpios do agreste paraibano e
Campina Grande

##### Medidas de Disperso Amostral


var(amostra) # Varincia da amostra das distncias entre municpios do agreste
paraibano e Campina Grande
#[1] 1267.524
sd(amostra) # Desvio Padro da amostra das distncias entre municpios do agreste
paraibano e Campina Grande
#[1] 35.60231
amplit<-max(amostra)-min(amostra) # Amplitude das distncias entre municipios do
agreste paraibano e Campina Grande
amplit #[1] 149

## Medidas Diversas Amostral


sum(amostra) # Total do vetor
range(amostra) # mostra valor Mximo e mnimo das distncias entre municpios do
agreste paraibano e Campina Grande
#resumo da matrix dados
summary(bdados) # resumo descritivo - menor valor, 1 quantil, Mediana (2 quartil,
centro dos dados), media, 3 quartil, Mximo Valor
summary(amostra) # resumo descritivo - menor valor, 1 quantil, Mediana (2 quartil,
centro dos dados), media, 3 quartil, Mximo Valor
pnorm(20,70.73,35.60)
Probabilidade de chegar um nmero menor ou igual a 20.
pnorm(70.73,70.73,35.60)
Probabilidade de ocorrer uma distncia menor ou igual a medias das distncia de
campina aos municpios
41

## Grficos Boxplot
vetamostra<-amostra
vetcamp<-bdados[1:66,2]
vetalnova<-bdados[1:66,4]# grfico boxplot das distncia dos municpios a Alagoa
Nova
vetalago<-bdados[1:66,5]# grfico boxplot das distncia dos municpios Alagoinha
vetaracagi<-bdados[1:66,6]# grfico boxplot das distncia dos municpios a Araagi
vetbananeira<-bdados[1:66,13]# grfico boxplot das distncia dos municpios a
Bananeiras
vetbelem<-bdados[1:66,15]# grfico boxplot das distncia dos municpios a Belm
vetcacimb<-bdados[1:66,18]# grfico boxplot das distncia dos municpios a Cacimba
de Dentro
vetcasseren<-bdados[1:66,22]# grfico boxplot das distncia dos municpios a
Casserengue
vetinga<-bdados[1:66,34]# grfico boxplot das distncia dos municpios a Ing
vetitabaiana<-bdados[1:66,35]# grfico boxplot das distncia dos municpios a
Itabaiana
vetmontada<-bdados[1:66,44]#grafico boxplot das distncia dos municipios a
montadas
vetnatuba<-bdados[1:66,46]# grfico boxplot das distncia dos municpios a natuba

Boxplot (amostra)

Boxplot(vetcampvetalnova,vetalago,vetaracagi,vetbananeira,vetbelem,vetcacimb,vetcas
seren,vetinga,vetitabaiana,vetmontada,vetnatuba);title('Boxplot das cidades da Amostra
Aleatria Simples do Agreste Paraibano') # boxplot de 12 amostras aleatrias simples

## Transforma banco de dados da amostra em matriz distncia


matdisaas<- as.dist(aas) #Matriz distncia
matdisaas

#limite de casas decimais da matriz de semelhana


options(digits=4)
42

aasdist<-dist(aas,method='euclidean') # matriz de semelhana


aasdist # matrix semelhana
agrup<-hclust(aasdist, method='single')
agrup
Call:
hclust(d = aasdist, method = "single")
Cluster method : single
Distance : euclidean
Number of objects: 12

## Gerando o dendrograma
Dendrograma da AAS de 12 municpios do Agreste paraibano

plot (hclust(dist(1-d), method="single"))

> #Calculo do coeficiente cofentico


> F <- dist (mdist)
> hc <- hclust (F, "single")
> C <- cophenetic (hc)

Vous aimerez peut-être aussi