Vous êtes sur la page 1sur 294

BUSINESS

INTELLIGENCE

VALDICK SALES
Setembro - 2015

1
APRESENTAO

Valdick sales
Graduado em Cincia da Computao pela UFPE.
Ps-Graduado em Redes e Banco de dados pela UFPB.
Ps-Graduado em Engenharia de Software pelo
CESMAC.
Consultor e assessor h mais de 20 anos de empresas
no Estado.
Mestre em Modelagem do Conhecimento da UFAL.
Diretor de Planejamento e Controle da Organizao
Arnon de Mello.
Coordenador e Professor do Curso de Cincia da
Computao da FACIMA.
Editor tcnico h 15 anos, do Suplemento da Gazeta
Digital.
2
SUMRIO

CONCEITOS BSICOS
PROCESSO DE DECISO
NECESSIDADES DO GESTOR
NECESSIDADES DO USURIO
DONOS DA INFORMAO
SISTEMAS
NECESSIDADES CORPORATIVAS
ERP
OLAP
DATA MINING
DATA MARTS
ETL
DATA WAREHOUSE
BUSINESS INTELLIGENCE
3
CONCEITOS BSICOS

CONHECIMENTO

INFORMAO

DADO

4
CONCEITOS BSICOS

DADOS

Os dados so elementos brutos, sem significado, desvinculados


da realidade. So, segundo Davenport (1998, p. 19), "observaes
sobre o estado do mundo".
So smbolos e imagens que no dissipam nossas incertezas. Eles
constituem a matria-prima da informao. Dados sem qualidade levam

a informaes e decises da mesma natureza.

Sendo o dado considerado a matria-prima para a informao: o que


so informaes?

5
CONCEITOS BSICOS

INFORMAES
As informaes so dados com significado. "So dados dotados
de relevncia e propsito" (Drucker apud Davenport, 1998, p.18).

Elas so o resultado do encontro de uma situao de deciso com


um conjunto de dados, ou seja, so dados contextualizados que
visam a fornecer uma soluo para determinada situao de deciso
(MacDonough apud Lussato, 1991).

A informao pode assim ser considerada como dados


processados e contextualizados, mas para Sveiby (1998) a
informao tambm considerada como "desprovida de significado
e de pouco valor", e Malhotra (1993) a considera como "a matria-
prima para se obter conhecimento".

6
CONCEITOS BSICOS

CONHECIMENTO
Para Davenport (1998, p.19), o "conhecimento a informao
mais valiosa (...) valiosa precisamente porque algum deu
informao um contexto, um significado, uma interpretao (...)".

O conhecimento pode ento ser considerado como a informao


processada pelos indivduos. O valor agregado informao
depende dos conhecimentos anteriores desses indivduos.
Assim sendo, adquirimos conhecimento por meio do uso da
informao nas nossas aes.

Desta forma, o conhecimento no pode ser desvinculado do


indivduo; ele est estritamente relacionado com a percepo do
mesmo, que codifica, decodifica, distorce e usa a informao de
acordo com suas caractersticas pessoais, ou seja, de acordo com
seus modelos mentais ou necessidade.

7
CONCEITOS BSICOS

Exemplo
Um carro BMW, ltimo tipo, conversvel, zero
quilmetro, totalmente destrudo em um acidente
no qual o motorista bateu em uma rvore
centenria derrubando-a pode ser codificado,
decodificado e distorcido das seguintes maneiras.

Algumas pessoas sero levadas a decodificar


as informaes baseadas em seus valores
materiais: "Logo um carro to caro! Ser que ele
est segurado?

8
CONCEITOS BSICOS

Exemplo

Enquanto outras pessoas, com valores humanos


mais aguados, tero seu foco no ser humano:
"Ser que o acidente resultou em feridos?"

Outras pessoas com interesses ecolgicos ainda


tero suas atenes voltadas ao destino da rvore
centenria: "Logo nesta rvore! No poderia ter
sido em uma outra?".

9
MAIS UM INGREDIENTE
NA CONCEPO DA
UTILIZAO DA
INFORMAO

10
UM NOVO CONCEITO

DADOS

DADOS CONTEXTO INFORMAO

INFORMAO EXPERINCIA CONHECIMENTO

CONHECIMENTO HABILIDADE COMPETNCIA

11
TOMADA DE DECISES

Cadeia do Processo
Decisrio
BI : OLAP, CRM,
Deciso DATAWAREHOUSE, DATA
MINING, etc;

Competncia

Conhecimento
ERP , Sistemas
Individuais
Informao

Dados

12
HISTRICO

Era da Inteligncia

Era das aplicaes

Era dos bancos de dados

1980 1990 2000 2010

13
A IMPORTNCIA DA
INFORMAO

14
DUPLO PAGAMENTO

O consumidor paga duas vezes por cada compra:


A primeira com dinheiro e a segunda ao fornecer
informao que vale dinheiro.
Por exemplo, se o fregus pagar com carto de
crdito, claro, que muita coisa revelada. Agora o
fregus tambm est fornecendo: (1) nome, (2)
endereo e CEP, (3) informao sobre crdito, (4)
base para inferir na renda familiar, e muitas coisas
mais.
A pergunta essencial que paira no ar : Quem
possui os dados sobre o fregus ? E quando custa.

15
DUPLO PAGAMENTO

O consumidor paga duas vezes por cada compra:


A primeira com dinheiro e a segunda ao fornecer
informao que vale dinheiro.
Por exemplo, se o fregus pagar com carto de
crdito, claro, que muita coisa revelada. Agora o
fregus tambm est fornecendo: (1) nome, (2)
endereo e CEP, (3) informao sobre crdito, (4)
base para inferir na renda familiar, e muitas coisas
mais.
A pergunta essencial que paira no ar : Quem
possui os dados sobre o fregus ? E quando custa.

16
O PODER DA INFORMAO

O maior capital das empresas no so mais os


seus colaboradores. Mas sim, as suas informaes.
As informaes passaram a ser os resultados de
todas as aes operacionais que fazem a empresa
funcionar.

17
OBTENDO INFORMAES

Quais informaes poderamos


obter em uma simples Nota Fiscal
e que cruzamentos poderamos
fazer?

18
UMA NOTA FISCAL

19
UMA NOTA FISCAL

20
O QUE MAIS IMPORTANTE ?

A
INFORMAO !

21
REFLEXO...

ADMINISTRAR BEM UM NEGCIO


ADMINISTRAR SEU FUTURO; E ADMINISTRAR
SEU FUTURO ADMINISTRAR INFORMAES
( Marion Harper Jr.)

22
EXTRA-INTELIGNCIA

Quando comearam as linhas telegrficas,


foi um grande passo das franquias de Morse, a
Western Union controlava os meios de
comunicao, at os mais avanados, e seu
grande erro foi no procurou evoluir.
Mas por ser a nica no mercado 1876, o
professor Alexander Graham Bell patenteou o
primeiro telefone, a Western Union ridicularizou
o aparelho e falou que era moda passageira.

23
EXTRA-INTELIGNCIA

As redes que Morse, a Western Union, a Bell e


outras, eram desprovidas de inteligncia. Com o avano
tecnolgico, as redes telefnicas esto se tornando auto
conscientes para lidar com os vastos volumes de
informaes e saber onde haver carga pesada e
distribu-la.
At agora, mesmo as redes mais inteligentes,
tinham apenas o que poderia ser chamado de intra-
inteligncia, que como a inteligncia contida no
nosso sistema nervoso perifrico, que regula os
funcionamentos involuntrios do corpo. As redes
integram a mensagem exatamente como foi enviada.
Hoje estamos em direo das redes, que
podemos chamar de extra-inteligentes.
24
VALORES AGREGADOS

Elas no se limitam a transferir dados, mas sim


analisam, combinam, reanimam ou alteram
mensagens de outras maneiras, s vezes criando
uma nova informao pelo caminho. Essas redes
so chamadas redes de valor agregado ou VANs.
Em suma, estamos agora olhando para redes
cuja inteligncia j no visa alterar ou melhorar a
prpria rede, mas na verdade, atua no mundo
exterior, acrescentando uma extra-inteligncia as
mensagens que passam por elas.

25
REDES DE INFORMAES

A existncia de Redes de Valores


agregados, prometem eliminar incalculveis
bilhes de dlares dos custos atuais de produo
e distribuio, ao acabar com a burocracia,
reduzir estoques, e acelerar o tempo de resposta.
As redes de informaes iro assumir novos
papis de revolucionrios nos negcios e na
sociedade.

26
CRESCIMENTO DA REDE

A medida em que as redes se espalham, o


poder est comeando a se deslocar. E no
apenas no Japo, nos EUA e na Europa, esto
ligando cabos como nunca antes, a corrida
eletrnica do sculo.
As grandes empresas hoje em dia ,
virtualmente se recusam a fazer negcios com
fornecedores que no estejam equipados para a
interao eletrnica, onde as informaes devem
estar sempre disponveis.

27
REFLEXO

O mundo no est interessado


nas tempestades que voc
enfrentou, quer apenas saber se
voc trouxe o navio
William Mac Fee

E como voc acha que as


organizaes pensam?

28
...

No estamos aqui para prever o


futuro ,mas sim para criar a
certeza de t-lo
Peter Ferdinand Drucker

E com quais ferramentas?

29
ESPCIES DE ORGANIZAES

AS QUE FAZEM AS COISAS


ACONTECEREM.

AS QUE OBSERVAM AS COISAS


ACONTECEREM.

AS QUE PERGUNTAM O QUE


ACONTECEU.

30
REFLEXO

DIGA-ME, POR FAVOR, QUE CAMINHO DEVO TOMAR


PARA SAIR DAQUI ?, perguntou Alice.

ISTO DEPENDE DE PARA ONDE VOC QUER IR,


disse o gato.

NO FAZ DIFERENA PARA MIM, retrucou Alice.

ENTO, NO FAZ DIFERENA QUE CAMINHO VOC


TOMA,
respondeu-lhe o gato.

ALICE NO PAS DAS MARAVILHAS


Lewis Carroll

31
.....

Comentrios ?

32
REPOSICIONAMENTO DA ORGANIZAO

RESPONDER A CINCO QUESTES BSICAS:

O QU SOMOS ?

ONDE ESTAMOS ?

O QU DEVERAMOS SER ?

ONDE DEVERAMOS ESTAR ?

O QU NECESSRIO FAZER PARA CHEGAR AONDE


DEVERAMOS ESTAR ?

33
REFLEXO

O MAIS IMPORTANTE NESTE


MUNDO NO ONDE ESTAMOS,
MAS EM QUE DIREO ESTAMOS
NOS MOVENDO
Oliver Wendell HOLMES, poeta e novelista Americano

Voc e sua organizao esto indo para onde?

34
O PROCESSO DE TOMADA DE DECISES

VARIVEIS VARIVEIS VARIVEIS VARIVEIS

OBJETIVOS

DESEJOS

SOLUO 1 SOLUO 2 SOLUO N

35
PROCESSO DA DECISO

RISCO INCERTEZA

CERTEZA TURBULNCIA

36
PROCESSO DA DECISO

CERTEZA

a condio para tomada de deciso na qual os


responsveis pela resoluo contam com informaes
precisas e confiveis.

37
PROCESSO DA DECISO

RISCO Trabalha-se com uma taxa probabilstica de insucesso.


INCERTEZA Os tomadores de deciso enfrentam situaes
imprevisveis.
TURBULNCIA As metas no so bem definidas (claras) e as
informaes no so suficientes.

38
NECESSIDADES
DE UM
GESTOR

39
NECESSIDADE DO GESTOR

INFORMAO
ANLISE
DECISO
AO
VELOCIDADE
RESULTADOS

40
NECESSIDADE DO GESTOR

Informao
QUANTO MAIOR A QUANTIDADE E QUALIDADE
DAS INFORMAES DISPONVEIS, MAIS FCIL
ACHARMOS ONDE ATUAR PARA ALCANARMOS
NOSSOS OBJETIVOS.

Anlise
QUANTO MAIS FCIL PUDERMOS
MANIPULAR TAIS INFORMAES, PERMITINDO
ESTUDAR CENRIOS POR DIFERENTES
PERSPECTIVAS, MAIS CLARAS, FCEIS E FIIS
SERO NOSSAS CONCLUSES.

41
NECESSIDADE DO GESTOR

Deciso
CONCLUSES EMBASADAS EM DADOS
REAIS NOS LEVAM A TOMAR DECISES
ASSERTIVAS, NA DIREO EXATA DE NOSSOS
OBJETIVOS.

Ao
TAIS DECISES DEVEM SER IMPLANTADAS
DE MANEIRA RPIDA E ABRANGENTE, SENDO
TRANSFORMADAS EM AES.

42
NECESSIDADE DO GESTOR

Velocidade
AES QUE POR SUA VEZ DEVEM SER
PROCESSADAS RAPIDAMENTE, COM QUALIDADE,
EM QUANTIDADE E ABRANGNCIA.

Resultados
S ASSIM CHEGAMOS AOS RESULTADOS
POSITIVOS QUE BUSCAMOS.
NO POR MGICA E SIM COMO
CONSEQNCIA LGICA E NORMAL DE UM
TRABALHO REALIZADO.

43
NECESSIDADES
DO
USURIO

44
NECESSIDADES DO USURIO

Quero toda a Informao


Informao..." Integrada

Processo Retorno Gerado


de pelo Computador Medias
Anlise Experincia
Business Importantes

out in

45
DONOS
DA
INFORMAO

46
DONOS DA INFORMAO

MONARQUIA
FEDERALISMO
FEUDALISMO
ANARQUIA

47
DONOS DA INFORMAO

MONARQUIA

Quando um indivduo ou departamento controla a maior


parte das informaes de uma empresa.
Quando o Monarca a pessoa de TI, significa que ningum
acima dele importa-se muito com a informao

48
DONOS DA INFORMAO

FEDERALISMO

Princpio: Democracia representativa, onde um controle d


autonomia de acesso s hierarquias inferiores.
EXEMPLO:

CADASTRO DE CLIENTES
Dono da Informao: Sr. Joo Silva (Diretor Comercial)
Acessos Concedidos: Gerente de Marketing e Vendedores

49
DONOS DA INFORMAO

FEUDALISMO

Quando os gerentes intermedirios tm o controle de seus


ambientes e criam suas prprias fontes de informaes, como
verdadeiros senhores feudais.
Consequncia:
Existncia de planilhas Excel e arquivos em
Access espalhados pela empresa.

50
DONOS DA INFORMAO

ANARQUIA

Aparece quando nenhum gestor percebe a importncia da


informao dentro da sua organizao.
Os profissionais administram seus prprios bancos de
dados e moldam as informaes de acordo com sua
necessidade sem depender da rea de TI.

51
REFLEXO

INFORMAO NO FONTE DE PODER,


FONTE DE GESTO

Qual dos modelos apresentados seria melhor


para implantao?

52
SISTEMAS

53
VISES DE UM SISTEMA

UMA UMA
BOLA! MONTANHA!
UMA
CORDA!

UMA UM
SABRE! SISTEMA!

54
SISTEMA DE INFORMAES

Os diversos nveis de
sistema dentro do ambiente
empresarial
SISTEMA

subsistema 1

subsistema 2

subsistema 3

SUPERSISTEMA

MEIO AMBIENTE
55
SISTEMA DE INFORMAES

Um sistema bem sucedido


tem dimenses
organizacional e humana,
Organizaes alm dos componentes
Pessoas
tcnicos.
Sistemas
de Ele existe para responder a
Informao necessidades
organizacionais, incluindo
problemas apresentados
pelo ambiente externo
Tecnologia
criado por tendncias
polticas, demogrficas,
econmicas e sociais

56
VISO SISTMICA

3
6
Cliente
Pessoas

1 8
2
Objetivos Estratgias e Planos Resultados

7
4 Processos

Sociedade

5
Informao e Conhecimento

57
PROCESSOS
OPERACIONAIS

58
PROCESSOS OPERACIONAIS

Um Processo uma srie de atividades


logicamente inter-relacionadas que,
quando executadas, agregam valor e
produzem resultados explcitos

59
PROCESSOS OPERACIONAIS

Requisitos
Requisitos

Entradas Sadas

Clientes
Fornecedores

Feedback

Feedback Sistema de Medidas Feedback

60
NECESSIDADES
CORPORATIVAS

61
NECESSIDADES CORPORATIVAS

INFORMAES
Foco em
Resultados
CONHECIMENTO
BASE DE

Mtrica dos
objetivos
Estratgicos

62
NECESSIDADES CORPORATIVAS
2 Mapeamento

4
P Processos
r de Data Quality
o 1
Sistemas
c
Transacionais e
Staging Area Desenho do Modelo
s -Business Discovery-
Sistemas s
Departamentais o
3 s Ferramentas de
*.txt Administrao
E META DATA
T
L

Dados e Informaes
Externas Visualizao e Simulaes OPERATIONAL
DATA STORE

Mining Simulao e 6
Elaborao de DIMENSIOAL OPERATIONAL
DATA STORE
Cenrios DATA STORE

Scorecard Anlises OPERATIONAL


Ad Hoc DATA STORE
Decision
Support
Datamarts Data Warehouse
Anlises
Grficas Relatrios

5 Movimetao
e Consolidao
Ferramentas de Acessibilidade 63
ERP
Enterprise Resource Planning

Sistema Integrado de Gesto

64
Sistema Integrado de Gesto(ERP)

A necessidade
Com o desenvolvimento das empresas e do
mercado de modo geral, a quantidade de aes e
informaes administradas pelos empresrios
cresce exponencialmente.
Uma soluo imediata a contratao de
pessoas para dividir a carga de trabalho.
Desta forma as empresas crescem, delegando
inicialmente funes operacionais e num segundo
estgio, funes gerenciais.

65
Sistema Integrado de Gesto(ERP)

A necessidade

As empresas se tornam grande corporaes, com


inmeros funcionrios e diversos departamentos.
O foco da empresa era dividido com assuntos
diversos que em muito divergiam de seu core
business.

66
Sistema Integrado de Gesto(ERP)

A necessidade

Com a quantidade e complexidade das


informaes crescendo a medida que a empresa e
seu mercado de atuao se desenvolviam, logo
comearam a surgir os seguintes problemas:
Velocidade de transmisso da informao
Quantidade de informao a ser transmitida
Qualidade da informao transmitida
Execuo das aes correspondentes

67
Sistema Integrado de Gesto(ERP)

O que ?
Tecnologia capaz de organizar e integrar as
informaes armazenadas nos computadores de
uma empresa, de forma a eliminar dados
redundantes ou desnecessrios, racionalizar
processos e distribuir a informao on-line pelas
vrias reas da organizao, de forma estruturada e
fidedigna.
Pode ser entendido como o backbone de TI na
empresa.

68
Sistema Integrado de Gesto(ERP)

Na prtica...

Integram e compem os subsistemas de uma


organizao.

Financeiro ( Contas a Pagar e Receber)


Contabilidade
Planejamento
Recursos Humanos
Estoque
Custos
ETC...

69
Sistema Integrado de Gesto(ERP)

Cuidados...
O investimento exigido, tanto financeiro como de
envolvimento de todo pessoal e dos gestores,
elevado

Escolha poltica na aquisio ao invs de uma


tcnica, levando em considerao: Funcionalidade,
Custos, Suporte, Tecnologia e Estrutura.

Atendimento das expectativas. A misso do


ERP e dar suporte, no assumir o controle.

70
Sistema Integrado de Gesto(ERP)

Cuidados...
Cuidado com a tentao: implantar o que mais
fcil e no o que mais importante.

A consultoria colabora, mas no resolve todos


os problemas. ERP no supera gerenciamento
pobre.

Atendimento das expectativas. A misso do


ERP e dar suporte, no assumir o controle.

71
Sistema Integrado de Gesto(ERP)

Custos Ocultos...
Treinamento: 15% do custo do projeto. Os usurios
no vo apenas aprender a operar um novo software, e
sim a interagir com os processos da empresa.
Integrao e Teste: ERPs so complexos, assim
como complexa sua integrao com os demais
sistemas; seus testes devem ser extensivos e
cuidadosos.
Converso de dados: os volumes normalmente so
grandes, e se encontra inconsistncias que devem
ser sanadas. H ferramentas de converso
(pelas quais se paga...)

72
Sistema Integrado de Gesto(ERP)

Custos Ocultos...
A operao de ERP cara Fornecedores de ERP
procuram vender a idia de que datawarehouses
podem ser construdos facilmente a partir de seus
produtos.
Isso quase nunca verdade - software e esforos
especficos devem ser adicionados para que isso
ocorra.
Consultoria: seus custos so absurdos, e devem
ser objetos de estrita ateno - mtricas devem ser
adotadas. Pode-se dizer que o custo do software
propriamente dito representa apenas 1/3 do custo
total.
73
Sistema Integrado de Gesto(ERP)

Dicas de implantao...

Envolvimento dos usurios em todas as fases do


processo de especificao, para que se tenha certeza
de que o sistema certo est escolhido pelas razes
certas.
Garantir que a estrutura de TI seja a adequada

Preparar toda a empresa para as mudanas que


ocorrero - mais do que treinamento,
preciso educao e envolvimento nos processos.

74
Sistema Integrado de Gesto(ERP)

Dicas de implantao...

Treinamento especializado para o Gestores. Eles


sero seu apoio com o pessoal a eles subordinados
que devero ser exaustivamente treinado..

Procure estar apto para ouvir criticas dos


usurios do tipo : O sistema anterior era melhor.

Faa antes da implantao a Reengenharia dos


processos, caso contrrio seu sistema de ERP vai
custar o dobro.

75
Sistema Integrado de Gesto(ERP)

Fornecedores

H muitos fornecedores de software ERP (mais


de 300, talvez), mas nenhum fornece tudo o que
necessrio para administrar uma empresa.
Customizao ser necessrio, esteja pronto
para esta etapa.

76
Sistema Integrado de Gesto(ERP)

Posio no Mercado

77
OLAP
On-line Analytical Processing

Processamento analtico on-line


Ambiente de aplicaes Analticas

78
OLAP

O que ?

um conjunto de ferramentas voltadas para o


acesso e anlise de dados.
Seu objetivo final transformar dados em
informaes capazes de dar suporte a decises
gerenciais de forma amigvel e flexvel ao usurio
em tempo hbil.

79
OLAP

Caractersticas

Rapidez de clculo e acesso (grande volume de


dados e consultas ad-hoc (especficas) ;
Capacidade de anlise avanada (mdia, mdia
poderada, normalizao, ordenao acumulados
no tempo;
Flexibilidade (visualizao, anlise e interface);
Suporte a mltiplos usurios.

80
OLAP

Histrico
Fim da dcada de 60
IBM desenvolveu e implementou APL

Dcadas de 80 e 90
APL em Aplicaes de negcio
OLAP (90)

Atualmente
IBM
Oracle
Microsoft

81
OLAP

Histrico
Fim da dcada de 60
IBM desenvolveu e implementou APL

Dcadas de 80 e 90
APL em Aplicaes de negcio
OLAP (90)

Atualmente
IBM
Oracle
Microsoft

82
OLAP

Tipos de Anlise
Anlise
Multidimensional

Consultas e Anlise
relatrios Estatstica

Data Mining

83
OLAP

Multidimensional

o conceito chave da anlise feita atravs de


ferramentas OLAP.
Neste tipo de anlise, os dados so modelados
em uma estrutura conhecida como cubo que nos
permite observar vrios assuntos (dimenses) para
uma mesma massa de dados.

84
OLAP - Multidimenses

Exemplo Dados de vendas por


semestre, por produto e por
cidade.
Semestre Vendas
Primeiro 16.000,00
Segundo 16.000,00
Produto Vendas
Banana 16.000,00
Laranja 16.000,00
Cidade Vendas
Recife 16.000,00
Macei 16.000,00
85
OLAP - Multidimenses

Exemplo
Dados de vendas por semestre, por produto e por
cidade os mesmos dados apresentados de forma
mais detalhada, revelando o interior do cubo:
Semestre Produto Cidade Valor
Primeiro Banana Recife 3.000,00
Macei 1.000,00
Laranja Recife 4.000,00
Macei 8.000,00
Segundo Banana Recife 6.000,00
Macei 6.000,00
Laranja Recife 3.000,00
Macei 1.000,00
86
OLAP - Multidimenses

Exemplo
Dados de vendas por semestre, produto
e cidade representao grfica do cubo:

Cidade
Semestre
87
OLAP

Multidimensional

DIMENSES HIERARQUIAS

Ano Pas

Suco Ms Estado

Leite
Semana Cidade
Queijo Natal
Recife
Sabo Macei

Jan Fev Mar Abr Mai


2006
DATA
88
OLAP Dados Multidimensionais

Volume de vendas como funo de


produto, meses e regio

Indstria Regio Ano

Categoria Pas Trimestre


Produto

Produto Cidade Ms Semana

Filial Dia

Dimenses: Produto, Localizao, Tempo


Meses
89
OLAP Exemplo de um cubo

Total anual de vendas


Data De TVs no Brasil
1Trim 2Trim 3Trim 4Trim soma
TV
PC Brasil
VCR
soma
Canada

Pas
Mexico

Soma

90
OLAP Hiper-Cubo

Data Data Data


soma
TV 2Trim
1Trim
3Trim 4Trim
soma
TV1Trim2Trim
3Trim 4Trim
Brasil TV 2Trim
1Trim
3Trim 4Trim
soma
Brasil PC Brasil
PC PC
VCR VCR VCR
soma Canada
soma Canada soma Canada

Pas
Pas

Pas
Mexico Mexico Mexico

Soma Soma Soma

Viso Multidimensional

91
OPERAES
NO AMBIENTE
OLAP

92
OPERAES NO AMBIENTE OLAP

Drill-down Desagrega uma dimenso


Exemplo: Ano Meses
Estado - cidades

93
OPERAES NO AMBIENTE OLAP

Roll-up Agrega uma dimenso ( o


inverso do Drill-down)
Exemplo: Meses Anos,
Cidades - estado

94
OPERAES NO AMBIENTE OLAP

Drill-down - Roll-up

95
OPERAES NO AMBIENTE OLAP

Slice Uma Fatia de valores ao


longo de uma dimenso
Exemplo: Ano 2001

96
OPERAES NO AMBIENTE OLAP

Dice Um dado resultante do cruzamento de


mais de uma dimenso.
Exemplo: Ano 2001, Em MG e
em B.

97
OPERAES NO AMBIENTE OLAP

Drill-through Detalha alm do cubo


(nvel de registros)

Muda o eixo de
Pivot visualizao, tambm
conhecido como
rotao.
Rank Ordena os membros.

98
ARQUITETURAS
OLAP

99
ARQUITETURAS OLAP

ROLAP OLAP Relacional


Os dados so armazenados no modelo
relacional como tambm suas consultas so
processadas pelo gerenciador do banco
relacional.

OLAP multidimensional
MOLAP
Os dados so armazenados de
forma multidimensional, atravs de
Arrays com granularidade alta.

HOLAP OLAP Hbrido

100
ARQUITETURAS OLAP

101
OUTRAS ARQUITETURAS OLAP

WOLAP Web OLAP


Ferramenta OLAP a partir de um navegador.

JOLAP Java OLAP


API Java para servidores e
aplicaes OLAP
Orientada a objetos

DOLAP Desktop OLAP

102
Data Mining
Minerao de Dados

103
Minerao de Dados

104
Minerao de Dados - Justificativa

O volume de dados
duplica a cada ano !

105
DM - MOTIVAO

Os recursos de anlise de dados tradicionais


so inviveis para acompanhar esta evoluo e
velocidade da Tecnologia da Informao em busca
de conhecimento.

Morrendo de sede por conhecimento


em um oceano de dados

106
DATA MINING

O que ?

Minerao de dados (descoberta de conhecimento


em bases de dados):

Extrao de informao interessante (no-


trivial, implcita, previamente desconhecida e
potencialmente til) dos dados armazenados em
grandes massas de dados conhecimento para
tomada de deciso.

107
DATA MINING

KDD
Knowledge Discovery in Database

Descoberta de Conhecimento em Banco de Dados

108
DATA MINING

KDD o processo, no
trivial, de extrao de
informaes, implcitas,
previamente
desconhecidas e
potencialmente teis, a
partir dos dados
armazenados em um banco
de dados
[Frawley , Piatetsky-Shapiro &
Matheus,1991]

109
DATA MINING

Como identificar conhecimento em


uma grande massa de dados:

Padres (X acontece se...)


Excees (isto diferente de... por causa de...)
Tendncias (ao longo do tempo, Y deve
acontecer...)
Correlaes (se M acontece, N tambm deve
acontecer)

110
DATA MINING

O que ?
Nomes alternativos:
Descoberta (minerao) de conhecimento em
banco de dados (KDD - Knowledge Discovery in
Database ), extrao de conhecimento, anlise de
dados/padres, business intelligence, etc.

O que no data mining?


Processamento de consultas dedutivo.
Sistemas especialistas ou pequenos programas
estatsticos ou de aprendizado de mquina.

111
DATA MINING - MOTIVAO

Problema da exploso de dados

Processo de tomada de deciso exige anlise de grandes


massas de dados

Soluo: Data Warehousing e Data Mining


Data warehousing: Viso multidimensional dos dados para
processamento OLAP

Data mining: Extrao de conhecimento interessante (regras,


padres, restries) dos dados em grandes bases de dados.

112
DATA MINING - APLICAES

Anlise de dados e suporte a decises


Anlise de mercado

Marketing sob demanda, relao entre clientes, anlise e


segmentao de mercado, anlise cruzada de dados, etc.

Anlise de risco

Previso, controle de qualidade, anlise competitiva,


anlise de seguros

Deteco de fraude

Outras Aplicaes
Minerao de texto (news group, email, documentos XML)
113
DM ANLISE DE MERCADO

Quais so as fontes de dados para Anlise de Mercado ?


Transaes de cartes de crdito, cartes de fidelidade, cupons
de desconto, servios de televendas, estudos de comportamento
(questionrios pblicos, web, etc.)
Marketing sob demanda
Descobrir grupos de modelos de clientes que compartilham as
mesmas caractersticas: interesses, hbitos de compras, etc.
Determinar padres de compras.
Anlise cruzada de dados.
Associaes/corelaes entre vendas de produtos
Previso baseada nas associaes determinadas
114
DM ANLISE DE MERCADO

Preferncias do Cliente
Data mining pode mostrar que tipos de clientes compram
que tipos de produtos (clustering ou classificao).

Identificao das necessidades dos clientes


Melhores produtos para diferentes clientes;
Modelos de predio para descobrir que fatores vo atrair
novos clientes

Informaes sumrias
Relatrios multidimensionais e estatsticos
115
DATA MINING ANLISE DE RISCOS

Planejamento de finanas e oramento


Anlise e predio de fluxo de caixa
Anlise de contingncia para proviso de bens
Anlise de sries temporais
Planejamento de recursos:
Resume e compara os recursos e os gastos
Competio:
Monitorar concorrentes e direes de mercado
Agrupar clientes em classes e elaborar mtodos para ajustar
preos competitivos com os concorrentes do mercado

116
DM DETECCO DE FRAUDES

Aplicaes
Largamente usada em servios de sade, cartes de crditos,
telecomunicaes (fraude de ligaes telefnicas), etc.

Tcnicas
Dados histricos para construir modelos de comportamento
fraudulentos e usar minerao de dados para identificar instncias
similares

Exemplos
Seguro de automveis: detecta um grupo de pessoas que so
potenciais coletores de sinistros
Lavagem de dinheiro: detecta transaes suspeitas de dinheiro
Seguro de sade: detecta pacientes profissionais e grupo de
outores usados para receber seguro destes pacientes
117
DM DETECCO DE FRAUDES

Deteco inapropriada de tratamento mdico


Comisso de Seguro de Sade da Austrlia identificou
que em muitos casos os tratamentos no eram necessrios
(economia de $1milho/ano).
Deteco de fraudes telefnicas
Modelo de ligaes telefnicas: destino da ligao,
durao, hora do dia, dia da semana. Anlise de padres
que desviam do padro esperado.

118
DM - DESCOBERTA DO
CONHECIMENTO EM BD (KDD)

INTERPRETAO/
AVALIAO CONHECIMENTO

DATA ?
MINING

PADRES

TRANSFORMAO
DADO
TRANSFORMADO
PR-PROCESSAMENTO

DADO
PROCESSADO FAYYAD 1996
SELEO
DADO
ANALISADO
DADOS

119
DM - DESCOBERTA DO
CONHECIMENTO EM BD (KDD)

1 - SELEO
2 - PR-PROCESSAMENTO
(Limpeza + Enriquecimento)
3 - TRANSFORMAO Conhecimento
5
4 - MINERAO
5 - INTERPRETAO 4
3
Regras e
2 Padres

Dados
Dados Transformados
1 Pr-processados

Dados
Selecionados
Dados

120
DM - ETAPAS DO PROCESSO DE KDD

Conhecer o domnio da aplicao.


Conhecimento relevante e metas da aplicao
Criar a base de dados alvo: seleo de dados
Limpeza dos dados e pr-processamento: (at 60% do esforo!)
Transformao dos dados:
Contemplar propriedades importantes e dimenses.
Escolha das funes do data mining
sumarizao, classificao, associao, clustering.
Escolha dos algortimos de minerao
Data mining: busca dos padres de interesse
Avaliao dos padres descobertos e apresentao do
conhecimento
visualizao, transformao, remoo de padres redundantes, etc.
Uso do conhecimento descoberto
121
DM - ETAPAS DO PROCESSO DE KDD
Lgica
Condicional

Afinidades e
Descoberta Associaes

Tendncias e
Variaes

Data Mining Resultado do


Prognstico
Modelagem de
Prognstico
Previso

Deteco de
Desvio
Anlise Prvia
Anlise de
Ligaes
122
ARQUITETURA DE UM SISTEMA DE
DATA MINING

Graphical user interface

Pattern evaluation

Data mining engine


Knowledge-base
Database or data
warehouse server
Filtering
Data cleaning &
data integration Data
Databases Warehouse
123
ALGUMAS TCNICAS
DE MINERAO
DE DADOS

124
TCNICAS DE MINERAO DE DADOS

Classificao

Descoberta de Regras de Associao

Clustering

125
Minerao de Dados - Classificao

Usamos o Indutor, como por exemplo uma rvore


de deciso (ID3, C4.5), para indicar classes para
estes dados. Assumimos que dados desconhecidos
prximos de dados conhecidos tero a mesma
classe dos dados conhecidos.

O processo pode ser avaliado se usarmos dados


com classes conhecidas, fizermos a sua
classificao e compararmos os resultados
previstos com os obtidos.

126
Minerao de Dados - Classificao

Classificao - REGRAS
Regras possuem:
antecedentes (condies) e
conseqentes (classe):

SE COND1 E COND2 E... ENTO CLASSE(A)

Condies relacionam valores dos atributos:

Atributos : Cliente, Data Vencimento, Pagamento, Valor,....


Relaes: <, >, =,......

127
Minerao de Dados - Classificao

Classificao REGRAS - Exemplo

SE 06:00hs< hora_sinistro < 08:30hs E


oficina
oficinas_suspeitas E
prmio_seguro < R$ 2300 E
registro_policial = NO E
...........
custo_sinistro > 2,4 prmio_seguro
ENTO FRAUDE
128
Minerao de Dados - Classificao

Classificao - Exemplo

Sexo Pas Idade Comprar


M Frana 25 sim
M Inglaterra 21 sim
F Franca 23 sim
F Inglaterra 34 sim
F Frana 30 no
M Alemanha 21 no
M Alemanha 20 no
F Alemanha 18 no
F Frana 34 no
M Frana 55 no
129
Minerao de Dados - Classificao

Classificao

SE (pas = Alemanha) ENTO (comprar=no)


Se (pas = Inglaterra) ENTO (comprar = sim)
SE (pas = Frana E idade 25) ENTO (comprar = sim)
SE (pas = Frana E idade > 25) ENTO (comprar = no)

130
Minerao de Dados - Classificao

Algoritmo ID3 [Quinlan 86]

Passos para construo de uma rvore de deciso:


1. Seleciona um atributo como sendo o nodo raiz ;
2. Arcos so criados para todos os diferentes valores do
atributo selecionado no passo 1;
3. Se todos os exemplos de treinamento sobre uma folha
pertencerem a uma mesma classe, esta folha recebe o
nome da classe. Se todas as folhas possuem uma
classe, o algoritmo termina;
4. Seno, o nodo determinado com um atributo que no
ocorra no trajeto da raiz, e arcos so criados para todos
os valores. O algoritmo retorna ao passo 3.

131
Minerao de Dados - Classificao

Exemplo rvore de Deciso ou


rvore de Classificao
ID Salrio Idade Tipo Emprego Classe
1 3.000 30 Autnomo B Salrio
2 4.000 35 Indstria B
3 7.000 50 Pesquisa C 5.000 5.000
4 6.000 45 Autnomo C
5 7.000 30 Pesquisa B B Idade
6 6.000 35 Indstria B
7 6.000 35 Autnomo A 40 40
8 7.000 30 Autnomo A
9 4.000 45 Indstria B T.Empr. C

Ind.,Pesq. Autnomo
Regras de Classificao
B A
(Sal 5.000) Classe = B
(Sal 5.000) (Idade 40) Classe = C
(Sal 5.000) (Idade 40) (TEmpr = Autnomo) Classe = A
(Sal 5.000) (Idade 40) ((TEmpr = Indstria) (TEmpr = Pesquisa)) Classe = B
132
Minerao de Dados - Classificao

Algoritmo ID3: restries


O algoritmo ID3 no contempla todos os casos:

Quando atributos forem numricos?


Esquemas de discretizao.
Identificao de categorias discretas em atributos numricos
(particionamento do atributo).

Quando dados estiverem incompletos?


Usar classe faltando.
Substituir valores inexistentes (pr-processamento).

Complexidade da rvore resultante


Pruning (poda)

Outros algoritmos: C4.5 / J4.8

133
Minerao de Dados

Associao

134
Minerao de Dados - Associao

Descoberta de Regras de Associao


Regras de associao ou regras associativas tm a forma

{X1, X2, ..., Xn} Y

significando que se encontrarmos todos os itens X1, X2,


..., Xn numa transao, ento temos uma boa chance de
encontrar tambm Y.

(Freitas,2000)
135
Minerao de Dados - Associao

Precisamos de mtricas que indiquem:

Significncia em uma associao: ela pode existir mas ser muito rara
em uma base de dados (ex. Compra cerveja e fraldas).
Suporte X Y : nmero de casos que contm X e Y dividido pelo
nmero total de registros.

Confiana em uma associao: o antecedente pode ocorrer vrias


vezes na base de dados mas nem sempre com o mesmo conseqente
associado.
Confiana X Y : nmero de registros que contm X e Y dividido pelo
nmero de registros que contm X.

(Freitas,2000)
136
Minerao de Dados - Associao

Descoberta de Regras de Associao


dada a regra de associao XY

X implica Y
se X ento Y
se compra X ento compra Y,
define-se

Nmero de registros com X e Y


suporte =
Nmero total de registros
Nmero de registros com X e Y
confiana = Grau de Certeza
Nmero de registros com X
(Freitas,2000)
137
Minerao de Dados - Associao

Tarefa descobrir todas a regras de associao


com suporte ao suporte mnimo (minsup) e
confiana confiana mnima (minconf) , definidas
pelo usurio.

(Freitas,2000)
138
Minerao de Dados - Associao

Descoberta de Regras de Associao


Cada registro corresponde a uma transao de um cliente,
com itens assumindo valores binrios (sim/no), indicando se o
cliente comprou ou no o respectivo item.
num leite caf cerveja po manteiga arroz feijo
1 no sim no sim sim no no
2 sim no sim sim sim no no
3 no sim no sim sim no no
4 sim sim no sim sim no no
5 no no sim no no no no
6 no no no no sim no no
7 no no no sim no no no
8 no no no no no no sim
9 no no no no no sim sim
10 no no no no no sim no
(FREITAS & LAVINGTON 98)

139
Minerao de Dados - Associao

Descoberta de Regras de Associao

SE (caf) ENTO (po) sup=0.3 conf.=1


SE (caf) ENTO (manteiga) sup=0.3 conf.=1
SE (po) ENTO (manteiga) sup=0.4 conf.=0.8
SE (manteiga) ENTO (po) sup=0.4 conf.=0.8
SE (caf E po) ENTO (manteiga) sup=0.3 conf.=1
SE (caf E manteiga) ENTO (manteiga) sup=0.3 conf.=1
SE (caf) ENTO (manteiga E manteiga) sup=0.3 conf.=1

(Freitas, 2000)
140
Minerao de Dados - Associao

Algoritmos de regras de Associao

AIS SETM

Apriori Apriori -TID


Apriori-Hybrid Dense Miner
MiRABIT

141
TCNICAS DE MINERAO DE DADOS

Algoritmo Apriori
(1) Dado um limiar de suporte minsup, no primeiro passo encontre os itens
que aparecem ao menos numa frao das transaes igual a minsup. Este
conjunto chamado L1, dos itens freqentes.
(2)Os pares dos itens em L1 se tornam pares candidatos C2 para o segundo
passo. Os pares em C2 cuja contagem alcanar minsup so os pares freqentes
L2 .
(3) As trincas candidatas C3 so aqueles conjuntos {A, B, C} tais que todos os
{A, B}, {A, C} e {B, C} esto em L2. No terceiro passo, conte a ocorrncia
das trincas em C3; aquelas cuja contagem alcanar minconf so as trincas
freqentes, L3.
(4) Proceda da mesma forma para tuplas de ordem mais elevada, at os
conjuntos se tornarem vazios. Li so os conjuntos freqentes de tamanho i;
Ci+1 o conjunto de tamanho i+1 tal que cada subconjunto de tamanho i est
em Li.
142
TCNICAS DE MINERAO DE DADOS

Algoritmo Apriori

Conjunto de itens suporte


{leite} 2
{caf} 3
L1 ser os itens de C1 com
{cerveja} 2
suporte >= 3 (0,3)
{po} 5
{manteiga} 5
{arroz} 2
{feijo} 2

C1 Conjunto de itens suporte


{caf} 3
{po} 5
{manteiga} 5

L1
143
TCNICAS DE MINERAO DE DADOS

Algoritmo Apriori
C2 , L2

Conjunto de itens suporte


{caf, po} 3
Os pares dos itens de L1 {caf, manteiga} 3
tornam-se {po, manteiga} 4
Candidatos para o C2

Conjunto de itens suporte


{caf, po, manteiga} 3

C3, L3

144
TCNICAS DE MINERAO DE DADOS

Algoritmo Apriori
Regras candidatas com dois itens com o seu grau de certeza(Confiana):

Conjunto de itens: {caf, po}


Se caf Ento po conf = 1,0
Se po Ento caf conf = 0,6

Conjunto de itens: {caf, manteiga}


Se caf Ento manteiga conf = 1,0
Se manteiga Ento caf conf = 0,6
Conjunto de itens: {po, manteiga}
Se po Ento manteiga conf = 0,8
Se manteiga Ento po conf = 0,8
145
TCNICAS DE MINERAO DE DADOS

Algoritmo Apriori

Regras candidatas com trs itens com o seu valor de certeza:


Conjunto de itens: {caf, manteiga, po}
Se caf, manteiga Ento po conf = 1,0
Se caf, po Ento manteiga conf = 1,0
Se manteiga, po Ento caf conf = 0,75
Se caf Ento manteiga, po conf = 1,0
Se manteiga Ento caf, po conf = 0,6
Se po Ento caf, manteiga conf = 0,6

146
Minerao de Dados - Associao

Descoberta de Regras de Associao

Padres descobertos, minsup = 0,3 e minconf = 0,8:


Se caf Ento po conf = 1,0
Se caf Ento manteiga conf = 1,0
Se po Ento manteiga conf = 0,8
Se manteiga Ento po conf = 0,8
Se caf, manteiga Ento po conf = 1,0
Se caf, po Ento manteiga conf = 1,0
Se caf Ento manteiga, po conf = 1,0

147
Minerao de Dados

Clustering
Agrupamento

148
Minerao de Dados - Clustering

Cluster

o resultado da identificao de um conjunto finito de


categorias (ou grupos - clusters) que contm objetos
similares.
Grupos esses que no so previamente definidos.

149
Minerao de Dados - Clustering

Anlise de Cluster
Esta tcnica agrupa informaes homogneas
de grupos heterogneos entre os demais e aponta o
item que melhor representa cada grupo, permitindo,
desta forma, que consigamos perceber a
caracterstica de cada grupo.
Instintivamente as pessoas visualizam os dados
segmentados em grupos discretos, como por exemplo,
tipos de plantas ou animais. Na criao desses grupos
discretos pode-se notar a similaridade dos objetos em
cada grupo.
GTI (2002) - Deborah R. Carvalho

150
Minerao de Dados - Clustering

Anlise de Cluster
Marketing: ajuda na descoberta de grupos distintos de
clientes, e uso deste conhecimento para criar
campanhas dirigidas;
Uso de terras: identificao de reas de uso similar a
partir de uma base de observao via satlite;
Seguros: identificao de grupos de assegurados com
alto custo de sinistro;
Planejamento urbano: identificao de grupos de casa
de acordo com seu tipo, valor e localizao geogrfica;
Estudos sobre clientes: identificao dos tipos de
clientes em funo de pagamentos de duplicatas Meu
Caso.
151
Minerao de Dados - Clustering

O que bom Clustering:

Um bom mtodo de agrupamento (clustering) deve produzir


clusters de qualidade com:
Alta similaridade intra-classe;
Baixa similaridade inter-classes.

Aqualidade do resultado de um processo de clustering


depende da medida de similaridade, do mtodo utilizado e de
sua implementao;

Aqualidade um um processo de clustering tambm deve ser


avaliada pela sua habilidade de descobrir alguns ou todos os
padres escondidos (hidden patterns).
152
Minerao de Dados - Clustering

Medida da qualidade do cluster


Mtricade similaridade / dissimilaridade: expressa em termos de
funo de distncia d(i, j)

Existe
uma funo de qualidade que uma medida da
adequao de um cluster;

Existem definies de funes de distncia que so diferentes para


variveis intervalares, booleanas, categricas e propores;

Pesosdevem ser associados s variveis baseados na aplicao e


na semntica dos dados;

difcil definir suficientemente similar, pois tipicamente esta


avaliao subjetiva.

153
Minerao de Dados - Clustering

Similaridade entre objetos: distncias

Distncia tpica: de Minkowski;

d (i, j) q (| x x |q | x x |q ... | x x |q )
i1 j1 i2 j2 ip jp

Onde i = (xi1, xi2, , xip) e j = (xj1, xj2, , xjp)


so vetores p-dimensionais e q um inteiro
positivo.

154
Minerao de Dados - Clustering

Similaridade entre objetos: distncias


q =1: distncia de Manhattan:

d (i, j) | x x | | x x | ... | x x |
i1 j1 i2 j2 ip jp

q =2: distncia euclidiana:

d (i, j) (| x x |2 | x x |2 ... | x x |2 )
i1 j1 i2 j2 ip jp

155
Minerao de Dados - Clustering

O mtodo k-means (k-mdias)


Dado k, o algoritmo k-means implementado em
quatro passos:
1. Partio dos objetos em k conjuntos no vazios;
2. Clculo de pontos semente como os
centrides (mdias) dos clusters das parties
correntes;
3. Assinalao de cada objeto ao cluster
(centride) mais prximo de acordo com a
funo de distncia;
4. Retorno ao passo 2 at que no haja mais
alteraes de assinalao.
156
Minerao de Dados - Clustering

O mtodo k-means (k-mdias) - Exemplo


10 10

9 9

8 8

7 7

6 6

5 5

4 4

3 3

2 2

1 1

0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

10 10

9 9

8 8

7 7

6 6

5 5

4 4

3 3

2 2

1 1

0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

157
Estudo de
Caso
Extrao de conhecimento na
base de clientes da
Organizao Arnon de Mello

158
Estudo de Caso - OAM

Ferramentas Observadas
Bayesialab
KnowledgeMiner
Miner3D
Mineset 3.2
PolyAnalyst
Weka
WizRule
WizWhy
XpertRule

159
Estudo de Caso - OAM

INTERPRETAO/
AVALIAO CONHECIMENTO

DATA ?
MINING

PADRES

TRANSFORMAO
DADO
TRANSFORMADO
PR-PROCESSAMENTO

DADO
Planilha EXCEL
PROCESSADO FAYYAD 1996
SELEO
DADO Filtros para os atributos:
DADOS
ANALISADO Cliente,Vencimento,Baixa,
Valor
SQL Server
160
Estudo de Caso - OAM

161
Estudo de Caso - OAM

162
MineSet - Tools Estudo de Caso - OAM

163
Estudo de Caso - OAM

164
Estudo de Caso - OAM

Histograma
AUTO VANESSA LTDA

Clientes por
quantidade de
transaes
financeiras (N Cerca de 75% da
de Duplicatas) carteira pagam
at 21 dias de
atraso

Cliente Tipo A
pagam entre 0 e
30 dias de atraso

165
Estudo de Caso - OAM

Disperso

166
Estudo de Caso - OAM
Disperso

O cliente 105414 paga com mais


de 360 dias de atraso e seu
volume de R$717.544 Requer
providncias imediatas.

167
Estudo de Caso - OAM
Mapa

168
Estudo de Caso - OAM

Classificao

169
Estudo de Caso - OAM

Classificao
Indutor: rvore de deciso

170
Classificao

171
Estudo de Caso - OAM

Associao

172
Estudo de Caso - OAM

O cliente 105414 se mantm na faixa de atraso em (241.5...360)

Regra: Se for cliente 105414 paga com mais de 240 dias de atraso
173
Estudo de Caso - OAM

Regra1: Se for cliente 108017 paga at 30 dias de atraso


Regra2: Se for cliente 113009 paga no prazo (atraso = 0)
174
Estudo de Caso - OAM

Clustering

175
Estudo de Caso - OAM

Clustering

176
Estudo de Caso - OAM

Clustering

177
Estudo de Caso - OAM

Clustering

178
DATA
MARTS

179
DATA MARTS

O que ?

Base de informao por linha de negcio


que contm um subconjunto dos dados
corporativos.

180
DATA MARTS

Clientes

Banco Extrao Data


de dados Transformao Mart OLAP
operacional Transporte Vendas

MAINFRAME MS-SQL Server 2000 Clientes

181
ETL
Extract, Transformation and Load

Extrao Transformao e Carga

182
ETL

O que ?

a camada responsvel por


integrar, transformar e salvar dados,
no importando sua fonte nem seu
destino.

183
ETL

Os dados, oriundos de diversas fontes de


dados, se necessrio, so submetidos a severas
transformaes e disponibilizados de forma
normalizada.

Em ambientes complexos, existe a possibilidade


de utilizao de softwares que executam as
transformaes automaticamente

Dependendo da periodicidade de atualizao dos


dados, devem ser estabelecidos mecanismos de
sincronizao de dados para garantir a integridade
dos dados.

184
ETL

Mtodos de Extrao

- EXTRAO SELETIVA
os dados so extrados atravs de programas desenvolvidos
especificamente para selecionar os dados a serem exportados

- MANUTENES POR LOGS OU LOTES


os dados so extrados atravs dos registros automticos (logs)
ou de lotes de dados das transaes efetuadas nos sistemas
operacionais

-REPLICAO AUTOMTICA
os dados so extrados atravs de um sincronismo automtico
entre dois bancos de dados

185
ETL - Mtodos de Extrao
12 cm
E
4,5 polegadas
T
450 mm L
cm
2 ps

SQL Server
Oracle E
T
Access L
SQL Server
Texto

m,f
1,0 E
T
mas,fem L
m,f
masculino, feminino
186
ETL

Mtodos de Carregamento

- RENOVAO
Dados previamente arquivados so regravados, sendo ento
automaticamente atualizados

- ATUALIZAO LGICA OU INCREMENTAL


Trata-se de um arquivamento no destrutivo, onde aos dados j
arquivados so acrescentados outros dados

- ATUALIZAO FSICA
Trata-se de um arquivamento destrutivo, onde os dados arquiva-
dos so previamente eliminados dando lugar a novos dados que
sero carregados

187
ETL

Source Exploitation Applications


Data Logical Data Model

Camada de Integrao, Data Marts


Transformao e Gerenciamento
do Histrico
Detail Dimensional HOLAP Data Models
Data Store Physical Models
Reporting

Analytical Data Models

Analytics

Campaign Management
Data Mart BSC Knowledge Base
Performance
Current Data Management

Campaign
Management
ETL Process and Metadata Online HTML WA documentation

188
ETL

Extrao, Transformao e Carga


DATA WAREHOUSE
ANALISTA
METADATA GERAR CONSULTA
GXPLORER MANAGER GXPLORER EXCEL

Base de

Conhecimento BI

GENEXUS

CONSULTA
TAREFA EXECUTADA (ETL)

DATA WAREHOUSE

BASE DE DADOS
OPERACIONAL
USURIO

189
Data WareHouse

Armazm de Dados

190
DW

O que ?

um amplo e flexvel repositrio


de dados, que aglutina dados de
fontes heterogneas, projetado de
modo a suportar o processo de
tomada de deciso.

191
DW

Onde se aplica.
Empresas com grande quantidade de
dados armazenados
Dispersos
Gravados por vrias aplicaes
Em plataformas e tecnologias diferentes
Em equipamentos diferentes
Em muitos casos conflitantes
Sistemas com muitas entradas e poucas
sadas
192
DW - ORGANIZAO

O que ? Estoque Vendas

Finanas Tcnico
DATA MART
Data warehouse
departamental

DATA WAREHOUSE
Corporativo

193
DW - ORGANIZAO

194
DW - ORGANIZAO

Fontes
Gesto e Operao Ad Hoc Query Tools
OLTP
. MetaData
.
. Extrao
Report Writers
Limpeza Data
OLTP Warehouse
Transformao
Carregamento Data
Marts Multidimensional
Analysis
Fontes Plataformas e
Externas Infra-estruturas de suporte

Aplicaes
- DataMining
Configurao, Gesto e Operao - .
195
DW ACESSO

196
DW - CAMADAS

197
DW - CAMADAS

Camadas de bancos de dados operacionais e fontes


externas: composto pelos dados dos sistemas
operacionais das empresas e informaes provenientes
de fontes externas que sero integradas para compor o
DW;

Camada de acesso aos dados: Esta camada faz a ligao


entre as ferramentas de acesso informao e os bancos de
dados operacionais. Esta camada se comunica com diferentes
sistemas de bancos de dados, sistemas de arquivos e fontes
sob diferentes protocolos de comunicao, o que se chama
acesso universal de dados;

198
DW - CAMADAS
Camada de acesso a informao: Envolve o hardware e o
software utilizado para obteno de relatrios, planilhas,
grficos e consultas. nesta camada que os usurios finais
interagem com o DW, utilizando ferramentas de manipulao,
anlise e apresentao dos dados, incluindo-se as
ferramentas de data-mining e visualizao.;

Camada de metadados (Dicionrio de dados):


Metadados so as informaes que descrevem os dados
utilizados pela empresa, isto envolve informaes como
descries de registros, comandos de criao de tabelas,
diagramas Entidade/Relacionamentos (E-R), dados de um
dicionrio de dados, etc. necessrio que exista uma
grande variedade de metadados no ambiente de DW para
que ele mantenha sua funcionalidade e os usurios no
precisem se preocupar onde residem os dados ou a forma
com que esto armazenados;
199
DW - CAMADAS

Camada de gerenciamento de processos: a camada


responsvel pelo gerenciamento dos processos que contribuem
para manter o DW atualizado e consistente. Est envolvida com
o controle das vrias tarefas que devem ser realizadas para
construir e manter as informaes do dicionrio de dados e do
DW;

Camada de transporte: Esta camada gerencia o transporte de


informaes pelo ambiente de rede. Inclui a coleta de mensagens
e transaes e se encarrega de entreg-las em locais e tempos
determinados. Tambm usada para isolar aplicaes
operacionais ou informacionais, do formato real dos dados nas
duas extremidades;

200
DW - CAMADAS

Camada do Data Warehouse: o DW propriamente dito,


corresponde aos dados utilizados para obter informaes. As
vezes o DW pode ser simplesmente uma viso lgica ou
virtual dos dados, podendo no envolver o armazenamento
dos mesmos ou armazenar dados operacionais e externos
para facilitar seu acesso e manuseio.

201
DW - CAMADAS

202
DW TRS CAMADA

203
DW FLUXO DE DADOS

204
DW FLUXO DE DADOS

Cinco principais fluxos fazem parte do


sistema:

Fluxo de entrada (inflow);


Fluxo de sada (outflow);
Fluxo de subida (upflow);
Fluxo de descida (downflow) e o
Metafluxo (metaflow).

205
DW FLUXO DE DADOS

O primeiro fluxo o de entrada dos dados no sistema (inflow),


que envolve extrair, filtrar, transformar, integrar e carregar os dados
de vrias fontes no DW. Deve-se considerar as fontes de dados
que pertencem empresa e as fontes externas. O fluxo de entrada
geralmente implementado com ajuda de ferramentas
especialmente desenvolvidas para este fim.

O segundo fluxo o de descida dos dados (downflow), ou seja,


em tempos pr-determinados, de dois a cinco anos dependendo
da empresa, os dados armazenados no DW passam para o estado
de dados antigos [INM96]. Este o fluxo que remove do DW
aqueles dados considerados velhos, que j no so mais utilizados
com freqncia.

206
DW FLUXO DE DADOS

O terceiro fluxo o de subida dos dados (upflow), onde


enfocada a necessidade de colocar os dados em formatos mais
acessveis aos usurios finais. Este processo sumariza e agrupa os
dados dentro de "vises" mais adequadas aos usurios finais e as
aplicaes front end que eles utilizam, tais como tabelas
sumarizadas, planilhas, grficos, pginas no formato Hyper Text
Markup Language (HTML), banco de dados pessoais, entre outros
formatos. Tambm funo do fluxo de subida a distribuio dos
dados para os diferentes nveis do sistema como, por exemplo, Data
Marts e bancos de dados pessoais localizados nas estaes de
trabalho dos usurios finais.

207
DW FLUXO DE DADOS

O quarto fluxo o de sada dos dados (outflow), cuja funo


disponibilizar acesso aos usurios finais do sistema. Este processo
implementado atravs de uma variedade de ferramentas front end
como, por exemplo, geradores de consulta e relatrio, ferramentas
com caractersticas On-line Analytical Processing (OLAP), pacotes
estatsticos, ferramentas de Data Mining, ferramentas de
visualizao, Executive Information System (EIS), Decision Suport
Systems (DSS), entre outras. As ferramentas front end podem
acessar tanto dados previamente preparados pelo fluxo de subida,
quanto dados "brutos" e detalhados armazenados no DW.

208
DW FLUXO DE DADOS

O quinto e ltimo fluxo pode ser chamado de metafluxo


(metaflow), ao contrrio dos quatro fluxos de dados citados
anteriormente, que descrevem como os dados se movem no DW
o metafluxo move metadados, ou seja, dados sobre os outros
fluxos. O repositrio de metadados responsvel pela gerncia
do sistema como um todo, indicando de onde os dados vm,
como so transformados, quando so atualizados, o que
significam, como so acessados e quem os v.

209
DW FLUXO DE DADOS

210
DW INTEGRADOR

O integrador pode ser implementado como um


mecanismo de regra base, recebendo as notificaes dos
extratores e integrando-as no DW. Cada regra
responsvel pela manipulao de um determinado tipo de
notificao e implementada como um mtodo em um
sistema orientado a objetos. Quando o extrator gera um
determinado tipo de notificao o mtodo correspondente
chamado e ento executa os processamentos
necessrios para integrar os dados no DW, durante este
processo o integrador pode obter dados extras no DW ou
em outras bases de dados.

211
DW INTEGRADOR

212
BI
Business Intelligence

Negcios Inteligentes
Inteligncia nos Negcios

213
CONCEITOS BSICOS

Resumo

DADO: texto, fato, cdigo, imagem, sons...

INFORMAO: dados organizados, estruturados,


interpretados, sumarizados...

CONHECIMENTO: casos, regras, processos,


modelos, informao til....

214
CONCEITOS BSICOS

Informao x Conhecimento

Informao: dados estruturados, com


significado, contextualizados, interpretados
e compreendidos.

Conhecimento: informao utilizada para


tomar decises, resolver problemas ou gerar
idias.

215
BI - MOTIVAO

Por que preocupar-se em esconder a


informao dos funcionrios da empresa?

A mesma informao deve estar disponvel aos


diretores, gerentes e at mesmo para os trabalhadores
operacionais, para que todos compreendam:
- onde esto os lucros e as perdas
- o que funciona ou no
- que despesas esto dentro ou
fora do previsto

As empresa deveriam perder menos tempo


escondendo informaes de funcionrios e
mais tempo ensinando-os a analis-las e agir a partir delas.
Bill Gates 216
BI - MOTIVAO

Se voc possui em sua empresa uma


verdadeira montanha de dados, por que no
aproveit-la?
Esta montanha de dados precisa ser considerada como um
ativo da empresa, com o qual podemos:

- aprender
- gerar informao
- obter conhecimento
- nortear decises
- dar um passo a frente da concorrncia
- ganhar vantagem competitiva
217
BI ENXURADA DE DADOS

de todos tipos

oriundos de
provenientes de diversos meios
diversas fontes

arquivados de
diversos modos

218
Aplicativos Operacionais x BI

Aplicativos Operacionais Business Intelligence

Viso do atual e do real Viso histrica e de tendncia

Soluo para requisitos Permitir a identificao de


conhecidos fatos desconhecidos
Abrangncia restrita Abrangncia ampla

Informao produzida por Informao produzida pelo


profissionais de informtica prprio usurio
Custo e tempo para obteno Informao obtida com baixo
da informao altos custo e em tempo real
Informao disponvel a Informao democratizada
poucos usurios
219
Business Intelligence

O que ?

Conjunto de ferramentas e
tcnicas que objetivam dar
suporte tomada de
deciso.

220
Business Intelligence

Modelo da Inteligncia Empresarial

221
BI EMPRESA

DATA WAREHOUSE
MEMRIA DA EMPRESA

BUSINESS INTELLIGENCE
INTELIGNCIA DA EMPRESA

222
BI - DIMENSES

Estratgia
Tempo Organizao

Regio Produto

Cliente Venda
Preo
223
REFLEXO....

Temos que gerar e disponibilizar o mximo


de informaes possveis para que elas sejam
contextualizadas e transformadas de acordo
com seus objetivos.

224
GESTO
DO
CONHECIMENTO

225
GESTO DO CONHECIMENTO

Conjunto de estratgias para: criar,


adquirir, compartilhar e utilizar ativos de
conhecimentos;

Estabelecer fluxos que garantam a


informao necessria no tempo e formato
adequados a fim de auxiliar na gerao de
idias, soluo de problemas e tomada de
decises.

226
GESTO DO CONHECIMENTO

GERAR
Identificar
Vender Comprar
Criar Coletar CODIFICAR
APROPRIAR Conhecimento
Aplicar Organizacional Selecionar
Adaptar Organizar
Interpretar Armazenar
Compartilhar

DISSEMINAR

227
GESTO DO CONHECIMENTO

Fluxo do Conhecimento
Captura/
Descoberta
Validao

Reteno

Transformao
(Experimentao) Disseminao

Utilizao

228
GESTO DO CONHECIMENTO

AQUISIO DATA SISTEMAS


DE MINING ESPECIALISTAS
CONHECIMENTO

SISTEMAS INTELIGENTES PARA APOIO


NA TOMADA DE DECISES PODEM USAR:

ALGORITMOS REDES LGICA


GENTICOS NEURAIS FUZZY RBC

229
GESTO DO CONHECIMENTO

Usurio Sistemas
Especialistas
Dados do
Respostas
problema

Mquina de Explicao
Especialista
Inferncia do raciocnio

Memria
Base de Ferramentas Engenheiro de
de
conhecimento de aquisio conhecimento
trabalho

230
GESTO DO CONHECIMENTO

Redes
Neurais

231
GESTO DO CONHECIMENTO

Redes
Neurais
bias

Entradas
Wb
X1 W1 pesos
sinapses Sada P
X2 W2 U WK . X K
. U Y K 0
. FU
.
Wn Y F U
Xn

232
GESTO DO CONHECIMENTO

Redes Neurais

233
GESTO DO CONHECIMENTO

Redes Neurais - Exemplos

234
GESTO DO CONHECIMENTO

Lgica Fuzzy
A lgica fuzzy uma estrutura de conceitos e
tcnicas que se relacionam com o modo de
raciocnio aproximado ao invs de exato. (WILSON,
R. A. 1999)

complexo indicar um ponto da barra fuzzy onde se


pode afirmar com certeza quando a cor branca se
transforma em preta.

235
GESTO DO CONHECIMENTO

Lgica Fuzzy

236
GESTO DO CONHECIMENTO

Teorema de Bayes Ambiente de Incerteza


P ( D | h) P ( h)
P ( h | D)
P ( D)
P(h | D): probabilidade posteriori de h dado D (reflete a confiana da
hiptese h depois de se observar D)

P(D | h): probabilidade de D dado h.

P(h): probabilidade a priori da hiptese h (representa o conhecimento de


domnio, se este conhecimento prvio no existir pode ser atribuda a
mesma probabilidade a cada hiptese candidata)

P(D): probabilidade a priori de D (sem conhecimento prvio)

237
GESTO DO CONHECIMENTO

Rede Bayesiana

n
[ P(e j / H i ).P( H i )] (1 / )
i 1

238
GESTO DO CONHECIMENTO

Capital Intelectual

Capital Humano Capital do Cliente

Capital Estrutural
Conhecimento
dos Necessidades e
empregados opinies dos
Gesto de clientes
Conhecimento 239
DATA MINING E BI

Usurio
Decises de negocios Decises

Apresentao Dados Analista de


Negcios
Visualizao
Analista de
Minerao de Dados Dados

Explorao
Dados
Data Warehouses / Data Marts
OLAP DBA
Fontes/Dados
Arquivos, Provedores, Sistemas Bancos Dados
240
BI AMBIENTE DE EXPLORAO

O ambiente de explorao objetiva


disponibilizar, atravs de ferramentas
apropriadas, o acesso a informao.

Disponibilizar o acesso a informao


Satisfazer as necessidades de explorao e pesquisa
Identificar tendncias
Democratizar o acesso a informao

241
BI AMBIENTE DE EXPLORAO

Qual o preo do livro BI


Banco de Dados Espao dos
Dados - Business Intelligence?

Data Warehouse,
Data Marts Espao da Vendas de livro de informtica
Informao por ms e por regio
Analtica
Business
Intelligence
Que fatores influenciam a
Espao da venda de livros em BH?
Influncia e
Variao

Data Mining

242
BI AMBIENTE DE EXPLORAO

Data Mart

Aplicativos
Operacionais
Softwares de
Automao de E OLAP
Escritrios T
L
Dados Externos
Data Mining
Equipamentos
de Automao

FONTES DE DATA EXPLORAO


DADOS WAREHOUSE
243
BI FONTES DE DADOS

Aplicativos Dados
Operacionais ou Externos
Transacionais

RH Financeiro

Interface Estoque

FONTES DE DADOS
Equipamentos
Software Automao
Automao
De Escritrios

244
BI FERRAMENTAS - CUBO

- uma estrutura de dados que forma um subconjunto de


um banco de dados grande

- Organiza os dados em duas categorias:


- campos de dados
- dimenses com mltiplos
nveis

- Resumos dos dados so


previamente calculados de
modo a otimizar o tempo
de recuperao das
informaes
245
BI OLAP

Permite a recuperao de
informaes de forma dinmica e
flexvel, atravs de uma interface
AD-HOC muito simples.
consultas
imprevistas,
DRILL DOWN/UP
de acordo com as
necessidades de consultas em
cruzamento de diferentes nveis de
informao detalhes -
SLICE-AND-DICE subir ou descer
consultas sob nveis de
diferentes prismas detalhamento
246
BI DATA WAREHOUSE

Estoque Vendas

Finanas Tcnico
DATA MART
Data warehouse
departamental

DATA WAREHOUSE
Corporativo

247
BI DATA MINING

Conjunto de tcnicas cuja finalidade


permitir a descoberta de relaes no
visveis dos banco de dados.

REDES NEURAIS INDUO DE REGRAS


constrem detectam tendncias dos
representaes dados, apresentando
internas de uma lista no
modelos ou encomendada
padres achados
nos dados RVORES DE DECISO
Identificam associaes dos
dados, formando as regras sobre
o dado
248
BI DATA MINING

Conhecimento

Avaliao e
Padres e Visualizao
Modelos
Data Mining
Dados Explorados
e Transformados
Dados Limpos e Transformaes
Pr-Processados

Limpeza e Pr-Processados
dos Dados
Dados Alvo

Seleo
Ps-Processamento
Bases de Dados

249
FERRAMENTAS
DISPONVEIS

250
FERRAMENTAS DISPONVEIS

251
FERRAMENTAS DISPONVEIS
SAS Enterprise Miner

252
FERRAMENTAS DISPONVEIS
MineSet

253
FERRAMENTAS DISPONVEIS
MineSet

254
FERRAMENTAS DISPONVEIS

DBMiner Manager

255
FERRAMENTAS DISPONVEIS

DBMiner Manager

256
FERRAMENTAS DISPONVEIS

3D Cube Browser

257
FERRAMENTAS DISPONVEIS

Market-Basket-Analysis (Association Ball Graph)

258
FERRAMENTAS DISPONVEIS

Clustering (Data Segmentation)

259
FERRAMENTAS DISPONVEIS
GxPlorer Manager

GxPlorer
Olap Excel

260
FERRAMENTAS DISPONVEIS

Genexus

Gerador C/SQL (Command Line) ODBC


Gerador C/SQL (Web)
Interface para configurao de parmetros
Consulta dos logs das cargas dos dados
261
FERRAMENTAS DISPONVEIS

Pentaho

262
FERRAMENTAS DISPONVEIS

Pentaho

263
FERRAMENTAS DISPONVEIS

Pentaho

264
FERRAMENTAS DISPONVEIS

Pentaho

265
FERRAMENTAS DISPONVEIS

Weka

266
FERRAMENTAS DISPONVEIS

Weka

267
FERRAMENTAS DISPONVEIS

Weka

268
FERRAMENTAS DISPONVEIS
Bussines Intelligence

Microsoft Data Warehousing Framework:


Microsoft SQL Server oferece recursos de alto
desempenho para construo de bancos de dados,
em especial para o processamento centrado em
transaes (OLTP).
Microsoft Data Transformation Services oferece
recursos para interatividade dos bancos de dados
construdos usando o Microsoft SQL Server e uma
enorme gama de aplicaes. Viabiliza a
implementao de bancos de dados federados e
armazns de dados (data warehouses), centrados
no Microsoft SQL Server.
269
FERRAMENTAS DISPONVEIS
Bussines Intelligence

Microsoft Data Warehousing Framework:


Microsoft OLAP Services a partir da verso 7.0
do Microsoft SQL Server, diversos recursos para
OLAP foram includos, os quais implementam
funcionalidades do padro SQL:1999. Esses
recursos permitem manipular explicitamente hiper-
cubos multidimensionais de dados implementados
como ROLAP, bem como implementar bancos de
dados multidimensionais integrados WWW.

270
FERRAMENTAS DISPONVEIS
Bussines Intelligence

Microsoft Data Analyzer:


Componente do conjunto de aplicaes Microsoft
Office. Contm uma interface com o Microsoft SQL
Server. Possibilita a visualizao e manipulao de
dados com grande eficcia.
Microsoft BI Accelerator for SQL Server:
Conjunto de solues pr-fabricadas para
sistemas voltados a BI, que aceleram a construo
de aplicaes para BI quando bem utilizados, por
exemplo como padres de programao
(programming patterns).

271
FERRAMENTAS DISPONVEIS
Bussines Intelligence

Gerencia Documentos - Excalibur RetrievalWare


Groupware - Notes(Lotus) e Exchange
Workflow - ARISToolset (IDS Scheer)
Bases I. do Conhecimento Neugents(Computer Assoc
Business Intelligence - Business Objects
Mapas de Conhecimento - Sopheon
Ferramentas/Inovao - Invention Machine

272
LABORATRIO
SOFTWARE WEKA

273
Ferramenta
algoritmos de
preparao de dados
aprendizagem de mquina (minerao)
validao de resultados

/public/soft/linux/weka-3-4/
Java jar weka.jar
Selecione Explorer
copie os arquivos no dir
/public/soft/linux/weka-3-4/data$ para sua
area
Interface e Funcionalidades
(A) Open File, Open URL, Open DB
(B) No boto filter possvel efetuar
sucessivas filtragens de atributos e instncias
na base de dados previamente carregada
Seleo
Discretizao
Normalizao
Amostragem
Formato arff (header)
% 1. Title: Iris Plants Database
%
% 2. Sources:
% (a) Creator: R.A. Fisher
% (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
% (c) Date: July, 1988
%
@RELATION iris

@ATTRIBUTE sepallength NUMERIC


@ATTRIBUTE sepalwidth NUMERIC
@ATTRIBUTE petallength NUMERIC
@ATTRIBUTE petalwidth NUMERIC
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
Laboratrio 1
Abra o arquivo weather.nominal.arff
Perguntas
Nmeros de instancias, exemplos,
registros??
Atributos ???
Quais os valores que o atributo
temperatura pode ter ??
Repita o processo para outra base.
Editando bases
Abra a base weather.nominal.arff
Clique em Editar
Responda
Qual o valor da classe para a instncia 8?
Algum atributo possui valor no ?

Abra a base iris e responda


Quantos atributos nominais e numericos a
base possui ??
Aplicar filtros
Weka possui vrios filtros
Remover atributos
Escolha Choose... Remove ...
Save..Name
Abra o arquivo weather.nominal.arff
Remova todos as instncias com valor de
atributo humidity high
Volte aos dados originais
Painel de Visualizao
Abra a base iris.arff (medidas de flores)
Utilize o menu Visualize para selecionar
algumas instncias e remover outras.
Classificao
Observe a saida dos diferentes tipos de classificadores.
=== Classifier model (full training set) ===
J48 pruned tree
------------------
outlook = sunny
| humidity = high: no (3.0)
| humidity = normal: yes (2.0)
outlook = overcast: yes (4.0)
outlook = rainy
| windy = TRUE: no (2.0)
| windy = FALSE: yes (3.0)
Number of Leaves
Responda

Utilizando a base weather


Como seria classificada a seguinte
instncia ???

outlook = sunny, temperature = cool,


humidity = high, windy = TRUE
Modo de Testar
Use training set: Usa toda a base para
teste
Cross-validation: Divide a base em folds
(disjuntos)
Percentage split: Divide a base uma
percentagem para treinamento e outra
para teste.
Criando bases de teste
Escreva uma base de teste e teste com ela

Como so classificadas as instncias ?? Como fica a matriz de confuso ??


Visualize as instncias
Visualize cada instncias e responda
quais foram classificadas erroneamente
???
AVALIAO
DO CURSO

290
AVALIAO DO CURSO

Trabalho em equipe com no mximo 4(quatro) componentes


Apresentao em PowerPoint e uma pequena
monografia sobre os temas:

1) EM ABERTO....

291
REFRENCIAS
BIBLIOGRFICAS

292
REFERNCIAS BIBLIOGRFICAS

[1] J. Han, M. Kamber, "Data Mining,


Concepts and Techniques", Morgan
Kaugmann Publishers, 2001,
[2] Tom M. Mitchell, Machine Learning.
McGraw-Hill Science/Engineering/Math,
ISBN: 0-07-115467-1, 004.8 MIT Mac UMa

[3] Ian H. Witten, Eibe Frank, "Data Mining:


Practical Machine Learning Tools and
Techniques with Java Implementations",
Morgan Kaufmann, October 1999, ISBN 1-
55860-552-5
[4] Ralph Kimball, "The Data Warehouse
Toolkit", John Wiley & Sons, ISBN: 0-471-
15337-0
293
REFERNCIAS BIBLIOGRFICAS

[5] http://www.ppgia.pucpr.br/~kaestner/ls-dm/ls-
dm.htm, acessado em 10-abri-2007.
[6] http://www.ppgia.pucpr.br/~kaestner/ls-dm/ls-
dm.htm, acessado em 12-abr-2007

[7] http://members.aol.com/fmcguff/dwmodel;, acessado


em 14-jun-2007.

[8] Inmon, W.H. Como Construir o Data


Warehouse, Campus;
[9] http://www. kenorrinst.com/datawh.html, acessado em 20-jun-2007.

[10] Kimbal, Ralph Dimensional


Modeling Manifesto, Makron Books;
294

Vous aimerez peut-être aussi