Académique Documents
Professionnel Documents
Culture Documents
45 no Processo de
Mineração de Dados
Gilcimar Hoehstein
Data Mining
• Data Mining é o processo de extrair informações
desejadas em uma base de dados, que em
primeiro momento são desconhecidas.
• J48;
• Adtree;
• UserClassifier;
• PredictionNode;
• Splitter;
• ClassifierTree;
• M5Prime.
Árvore de Decisão
• Uma árvore de decisão é uma representação
de uma tabela de decisão sob a forma de uma
árvore.
• Tem a mesma utilidade da tabela de decisão.
• Trata-se de uma maneira alternativa de
expressar as mesmas regras que são obtidas
quando se constrói a tabela.
Árvore de Decisão
• A árvore de decisão chega a sua decisão pela
execução de uma seqüência de testes. Cada
nó interno da arvore corresponde a um teste
do valor de uma das propriedades, e os ramos
deste nó são identificados com os possíveis
valores de teste. Cada nó folha da árvore
especifica o valor de retorno se a folha for
atingida.
Atributo, valor do atributo e classes
1. Se (Escolaridade = “Graduação”) -
Rico = “Não”
2. Se (Escolaridade = “Doutorado”) -
Rico = “Sim”
3. Se (Escolaridade = “Mestrado”) &
(Idade = “>30”) - Rico = “Sim”)
4. Se (Escolaridade = “Mestrado”) &
(Idade = “<=30”) - Rico = “Não”)
Vantagem das árvores de decisão
• Uma grande vantagem das árvores de decisão
é que elas podem ser aplicadas a grandes
conjuntos de dados e possibilitam uma visão
real da natureza do processo de decisão,
desta forma, o resultado do algoritmo pode
ser facilmente interpretado pelo usuário.
Vantagem das árvores de decisão
• As árvores de decisão também permitem
derivar regras, regras de produção, decisão ou
classificação, as quais são gerada percorrendo
o trajeto do nó raiz até uma folha da árvore.
Como as regras são equivalentes a árvore, a
derivação de regras é interessante quando a
árvore cresce muito.
O algoritmo ID3
• Foi inventando Ross Quinlan, na Universidade
de Sydnei, Austrália em 1979.
• O ID3 usa entropia e ganho de informação
para construir a árvore de decisão.
• É o algoritmo pioneiro em indução de árvore
de decisão. É um algoritmo recursivo, baseado
em busca gulosa, onde procura um conjunto
de atributos que melhor dividem os
exemplos(amostras), gerando sub-árvores.
Portugol do ID3
Desvantagem do ID3
• A Principal limitação do ID3 é que ele só lida
com atributos discretos, não sendo possível
apresentar a ele um conjuntos de dados com
atributos contínuos. Neste caso os atributos
contínuos devem ser “discretizados”.
• O ID3 também não apresenta nenhuma forma
de tratar valores desconhecidos, ou seja,
todos os exemplos do conjunto de
treinamento devem ter valores conhecidos
para todos os seus atributos.
Desvantagem do ID3
• O algoritmo ID3 não apresenta nenhum
método de pós poda, o que poderia amenizar
a busca em árvores mais complexas.
Transformando valores contínuos
de atributos em valores discretos
• temperatura = [6 25 30 50 0 32 3 10 5 32]
Se t < 16,66
Se 16,67 < tSe t > 33,34
< 33,34
Frio
normal Quente
O algoritmo ID3
• O ID3 usa entropia para calcular a
homogeneidade de uma amostra. Se a amostra é
completamente homogênea a entropia é zero e
se a amostra é dividido igualmente tem a
entropia é um.
Dois Tipos de entropia
• Para construir uma árvore de decisão,
precisamos calcular dois tipos de entropia
através de tabelas de frequência da seguinte
forma:
Jogo
Sim Não
9 5
Prob = 9/14 5/14
- (9/14)*log(9/14;2) + - (5/14)*log(5/14;2)
Entropia dos dados (S1) = 0,0940
Exemplo Prático
Obs: se a entropia estiver fora do intervalo [0,1],
alguma coisa no calculo está errado
O conjunto de dados é dividido sobre os valores dos
atributos
Sol Chuvoso
Encoberto
• Entropia(S2) = -(2/5)*log(2/5;2) –
(3/5)*log(3/5;2) = 0,971
Escolha do melhor atributo
• Ganho (S2, temperatura) = 0,371
• Ganho (S2, umidade) = 0,971
• Ganho (S2, vento) = 0,020
• Maior (ganhos(s2)) = 0,971
Escolha do Atributo com Maior Ganho
Escolha do atributo com maior Ganho de informação
para ser o nó filho de Sol
Aparência
Sol Chuvoso
Encoberto
Barato Caro
padrão
Gênero
Trem Carro
Masculino Feminino
Transporte
Ônibus 0 1
Ônibus Trem