Académique Documents
Professionnel Documents
Culture Documents
Luciana M. Onusic
Mestranda da Faculdade de Economia, Administração e Contabilidade da
Universidade de São Paulo – FEA/USP
E-mail: luciana_onusic@yahoo.com
RESUMO
ABSTRACT
Companies are increasingly concerned about understanding customer behavior in order to improve the
relationship and loyalty of customers towards the company. Customer Relationship Management CRM
therefore integrates an information acquisition process called Data Mining DM to acquire knowledge about
the profile and behavior involved. The sequence of DM is presented together with several statistical
techniques to orient the implementation of DM in the context of CRM.
Key words: Knowledge acquisition, Customer relationship management CRM, Data mining DM, Relationship
marketing.
e técnica poderiam ser utilizados para um dos seus todas as ações necessárias à implementação do DM,
problemas? A empresa quer aprofundar o para depois passar às outras dimensões. Não é
conhecimento do perfil de seus clientes, procurando viável atacar a dimensão de dados e procurar
segmentá-los em subgrupos homogêneos. Uma resolver todas as questões referentes à
empresa orientada para o cliente costuma usar disponibilidade de dados antes de conhecer mais o
técnicas estatísticas convencionais para criar problema que se quer resolver. Vale ressaltar que
modelos de segmentação de mercado e análise de esta é uma tentação muito grande das empresas, que
perfil do cliente. Duas questões surgem: (i) Como as compele a fazer um grande trabalho de criação
as novas técnicas de DM poderiam melhorar a do data warehouse da empresa (algumas empresas
capacidade preditiva de seus modelos (redes neurais podem ter um excessivo gasto na construção de um
artificiais, árvore de classificação e regressão, etc.)? data warehouse corporativo, sem saber a finalidade
e (ii) Se as técnicas convencionais não estão desse empreendimento), alimentando-o de maneira
produzindo resultados interessantes, por quais pouco refletida com todos os dados contidos nas
técnicas podem ser substituídas? A resposta para a bases de dados operacionais. Fazer isso significaria
segunda questão pode ser a seguinte: em geral, a perder o foco do problema e pensar que, uma vez
cada nova campanha o modelo perde capacidade reunido um grande volume de dados, a consulta
preditiva. Além disso, o problema de desempenho gerencial far-se-ia como conseqüência. Procedendo-
de modelos de previsão pode estar ligado à se dessa forma, tem-se a ilusão de que os dados
maturidade dos produtos/serviços. Num mercado organizados de maneira acessível, sem saber-se
saturado o modelo de previsão identifica com exatamente para que fim e como serão usados, são
facilidade um cliente potencial, porém ele suficientes para fazer com que os executivos se
provavelmente já possui o produto/serviço. Então, a concentrem neles à procura de respostas para seus
solução do problema decorrente de um mercado problemas.
saturado possui dois aspectos: (i) é preciso criar
Ao se deter exclusivamente na dimensão modelos
uma estratégia de inovação do produto/serviço; (ii)
e técnicas de DM, a empresa corre o risco de se ver
todo modelo de previsão deve levar em conta o
presa a eles. Certas empresas, por terem
ciclo de vida do produto no mercado, a fim de
profissionais especializados na utilização de
identificar a probabilidade de o cliente potencial já
técnicas estatísticas e de análise de dados, e em
ter produto similar de um concorrente.
razão de uma visão tecnicista da realidade, podem
ser levadas a impor a ditadura da análise de dados.
4.3. Dimensão dados e base de dados
Nota-se que o sucesso na adoção de DM ocorre por
Para a obtenção de conhecimento sobre o cliente meio de um processo evolutivo, pelo qual se
são necessários dados. Estes são coletados a partir caminha sempre nas três dimensões do processo. A
do relacionamento com o cliente. Quando numa partir do conhecimento do problema e da
empresa um volume expressivo de dados foi elaboração de uma estratégia de DM, caminha-se na
acumulado em base de dados informatizada, pode- utilização dos métodos de DM e ao mesmo tempo
se dar início ao processo de DM. No entanto, a na exploração dos dados e no entendimento da sua
utilidade e disponibilidade desses dados devem ser composição e organização. A Figura 2 exibe o
analisadas, fazendo com que haja um esforço avanço progressivo nas três dimensões do processo.
específico a ser realizado nesta dimensão do
processo. As decisões sobre por onde começar a 5.1. Etapas do processo de DM
análise dos dados, as técnicas a utilizar e os dados a
As etapas do processo de DM consistem em
analisar estão intimamente relacionadas.
procedimentos que podem ser logicamente
separados e organizados de maneira a facilitar a
5. O PROCESSO DE DM implementação e manutenção da aquisição de
conhecimento.
O último aspecto da DM é o seu processo em si.
Não é viável, na prática, caminhar e esgotar o Há seis etapas no processo de DM, como o indica
trabalho numa das dimensões de cada vez. Isto é, a Figura 3:
não é possível, em primeiro lugar, criar uma
estratégia rígida, por meio da qual se delineariam
Figura 3: As seis etapas do processo de DM ciclo do CRM, que é a organização dos dados em
uma base de dados gerencial, em um Data
Identificação
warehouse (DW). O DW é uma coleção de dados
Identificação dos
dos
dados
dados (2)
(2) orientada para assuntos, integrada, indexada pelo
tempo e não-volátil, que apóia as decisões
gerenciais, isto é, os dados contidos no DW são
Teste
Teste ee Constituição
Constituição de
de dados pré-processados a partir das bases de dados
implementação
implementação uma
uma base
base de
de operacionais. Dessa forma, pode-se chamar os
dos
dos modelos
modelos (6)
(6) Discussão
Discussão ee dados
dados (3)
(3)
entendimento
entendimento do do
dados contidos em DW de dados gerenciais. O
problema
problema (1)
(1) processo de criação de um DW é um dos primeiros
pontos críticos do processo. Existem aspectos
tecnológicos, organizacionais e comportamentais
Concepção
Concepção de
de Análise
Análise de
de que dificultam o processo de implementação de
modelos
modelos (5)
(5) dados
dados (4)
(4) uma base de dados gerencial em uma empresa (DE
ALMEIDA, 1995; DE ALMEIDA, 1997; SILVA e
FLEURY, 2000).
Fonte: Elaborada pelo autor. Tratando-se de uma grande empresa, os sistemas
operacionais são normalmente fruto de vários
esforços da empresa no seu processo de
Etapa 1: Discussão e entendimento do problema informatização. São freqüentes os casos nos quais
Uma certa empresa do varejo tem uma base de sistemas operando em ambientes de informática
dados de produtos e outra de clientes. O ponto de distintos convivem. Na criação do DW, um esforço
partida para um processo de DM bem-sucedido é a de conversão dos dados para um mesmo ambiente e
identificação adequada do problema, entendendo-se num único padrão de dados é necessário. Isso faz
onde se quer chegar, que problema se quer resolver, com que a obtenção dos dados para a realização de
ou que ação se quer criar. A empresa deverá um processo de DM seja um ponto crítico. O
identificar ações prioritárias e em que ordem ou de problema se torna mais complexo quando se está
que maneira os produtos serão tratados e lidando com dados oriundos de diferentes áreas da
relacionados com o cliente, com o objetivo de organização. Departamentos que não interagem e
oferecer os produtos e serviços certos para os áreas de informática com visões distintas são alguns
clientes certos. dos problemas que podem ser encontrados pela
organização na sua busca de dados para DM. A
Etapa 2: Identificação dos dados figura 4 ilustra o processo de criação de uma base
A identificação dos dados e a constituição de de dados gerencial (data warehouse), envolvendo o
bases de dados permitirão que se inicie o processo tratamento de dados oriundos de diversos sistemas e
de DM. A constituição da base de dados suscita em diversos padrões. O gerenciamento eficaz das
algumas questões: (i) Quais variáveis são relações entres as diversas áreas que deverão
importantes para o problema em questão? (ii) Que cooperar é determinante do sucesso do processo de
quantidade de dados se deve coletar para fazer DM? organização dos dados (DE ALMEIDA, 1995; DE
(iii) Onde estão estes dados? (iv) Qual o custo para ALMEIDA, 1997; SILVA e FLEURY, 2000).
obtê-los? (v) Quem são os “donos” dos dados? De Podem ser ouvidas nas empresas frases como:
maneira geral, a resposta é: quanto mais dados, “Nesta empresa a obtenção dos dados não será um
melhor. Em contrapartida, tem-se que considerar o problema. Eles estão todos em um mesmo sistema.
custo de obtenção e análise desses dados. É só extraí-los da base de dados”. Descobre-se,
Etapa 3: Constituição da base de dados entretanto, que os dados não estão organizados de
maneira a atender às necessidades gerenciais, mas
Uma origem importante dos dados para DM são, às demandas operacionais. Suponha-se o caso de
em geral, os sistemas que contêm os dados uma empresa que quer usar as informações de
operacionais da empresa, que acumulam, por movimentação de estoque para projetar o consumo
exemplo, o histórico do relacionamento com o de estoque como parte de um processo de geração
cliente. Neste ponto destaca-se uma das etapas do de fluxo de caixa projetado. A empresa tem
informações de estoque armazenadas em seu demanda do item. Mas para o processo de DM pode
sistema, mas, ao invés do histórico de consumo de ser inútil, pois não informa sobre a dinâmica da
um determinado item, o sistema armazenava utilização do item de estoque. Para projetar o
somente o saldo atual do item. Para o controle de consumo futuro, o histórico e a freqüência passada
estoque, esta é uma informação essencial, pois de consumo do estoque são informações
permite saber se é o momento de fazer nova indispensáveis.
Figura 4: O processo de criação de uma base de dados gerencial (data warehouse) envolve o
tratamento de dados oriundos de diversos sistemas e em diversos padrões
Dados
Dados Operacionais
Operacionais Constituição
Constituição data
data warehouse
warehouse
Extração dos Dados
de Interesse
para a área de
conhecimento
Outros dados
Outros Sistemas
abordagens baseadas nos conceitos e hipóteses da base de dados (e.g., será que patrimônio é uma
estatística e (2) abordagem baseada nos dados. No variável interessante para separar os clientes com
primeiro caso, trata-se do uso de técnicas propensão à compra daqueles não propensos à
estatísticas convencionais, que supõem premissas compra de determinado produto?). Descobrem-se
ou hipóteses iniciais sobre os dados; a partir de variáveis úteis e variáveis com baixo poder
então, as técnicas são usadas. Utilizam-se modelos explicativo ou preditivo para o problema. Segundo
cuja escolha significa assumir um certo HAIR Jr. et al. (1998), há um aspecto no qual as
comportamento em relação aos dados que permita técnicas de DM se assemelham, sejam elas uma
usá-los (o que é chamado de hipóteses sobre a análise de regressão ou uma rede neural: se entrar
distribuição dos dados para que as técnicas possam “lixo”, sairá lixo! Esta é a fase de tirar o “lixo” dos
funcionar adequadamente). O cálculo da média dos dados, para que no final se possa chegar a
indivíduos, por exemplo, tem pouco significado se a conclusões úteis. Nem a técnica mais poderosa
distribuição dos dados (que mostra a freqüência, ou resiste à entrada de lixo. Se for criado um modelo
o número de indivíduos em diferentes faixas de de redes neurais a partir de dados quaisquer, obtém-
indivíduos para uma determinada variável) não for se um modelo que dá respostas quaisquer. Ainda,
simétrica (HAIR JR. et al., 1998). segundo os autores, mesmo as redes neurais não
têm a capacidade de transformar dados de baixa
Uma segunda maneira de caminhar é não assumir
qualidade ou com distorções significativas em
padrão algum de distribuição nos dados e usar
modelos satisfatórios. Os dados devem ser
métodos que criam modelos explicativos ou
examinados cuidadosamente, levando-se em
preditivos a partir da própria interação com os
consideração a amostragem adequada, a distribuição
dados. São os métodos baseados na “força bruta”
dos dados e sua transformação. Para que se possa
computacional, pois exigem forte iteração
obter o máximo de informação e conhecimento dos
computacional: árvore de classificação e regressão,
dados, é importante fazer análises descritivas
redes neurais e reamostragem são os exemplos mais
cuidadosas, procurando-se conhecer o padrão
importantes nessa categoria. Ao contrário da
subjacente a eles, isto é, é preciso ganhar
abordagem anterior, estas exigem poucas hipóteses
“intimidade” com os dados.
prévias para que se possa utilizá-las. As duas
abordagens não são excludentes, mas, ao contrário, As etapas 5 e 6 do processo de DM são dedicadas
complementares, e na fase de análise dos dados aos modelos. Neste momento, são utilizadas as
ambas são empregadas. técnicas de modelagem do conhecimento: redes
neurais, árvore de classificação e regressão, análise
Na etapa 4 começa o processo de exploração dos
de regressão, etc.
dados em busca de conhecimento que possibilite o
contato com o problema através dos dados. Os Etapas 5 e 6: Concepção, teste e implementação
dados coletados são explorados com o objetivo de dos modelos de DM
avaliar seu potencial como fonte bruta de
O processo de DM busca primordialmente os
conhecimento sobre o problema. Nesta fase é
seguintes resultados: descrição e visualização,
explorada a capacidade dos dados de identificar
classificação, estimação, previsão, agrupamento e
grupos (análise de grupos), das variáveis em
regras de associação (BERRY e LINOFF, 2000).
classificar corretamente indivíduos nos grupos
Classificação, estimação e previsão dizem respeito à
respectivos (análise discriminatória e
criação de modelos que servirão para identificar o
classificatória), de sua capacidade de previsão, de
comportamento de novos clientes. Será que
identificar relações entre as variáveis, entre os
determinado cliente irá comprar tal produto em
produtos, etc. Pode-se dizer que a etapa 4 é a etapa
resposta a uma mala direta? (previsão).
de “separar o joio do trigo”, isto é, separar variáveis
Determinado cliente é um “bom” ou “mal” cliente?
que interessam das que não têm poder preditivo ou
(classificação). Qual o risco de inadimplência de
discriminatório, ou seja, não têm informação útil a
determinado cliente para uma concessão de crédito?
respeito do problema. Este é o momento no qual se
(estimação).
descobre a qualidade dos dados de que se dispõe, do
ponto de vista de DM. É uma fase que também pode Descobre-se através de uma análise de grupos
ser chamada fase de pré-processamento dos dados, que um determinado agrupamento de clientes tem
pois é quando se descobre o valor informacional da características comuns. Com a análise de grupos
60 60
50 50
40 40
30 30
Idade
Idade
20 20
400 800 1200 1400 1600 1800 2000 2400 2800 400 800 1200 1400 1600 1800 2000 2400 2800
Análise discriminante Redes neurais
70 70
60 60
50 50
40 40
30 30
Idade
Idade
20 20
400 800 1200 1400 1600 1800 2000 2400 2800 400 800 1200 1400 1600 1800 2000 2400 2800
Renda Renda
Árvore de Regressão Análise de Clusters
Propensão à compra
Comprou Não Comprou
mostrando outros aspectos do processo. Foram ON DECISION SUPPORT SYSTEMS, 4th, 1997,
destacadas neste texto as técnicas estatísticas Lausanne. Anais... Lausanne, 1997. p 489-502.
utilizadas em DM, pois se trata de um ponto
complexo e importante no processo. DE ALMEIDA, F. C. Atores e Fatores na
Introdução de um Sistema de Informação. Revista
As reflexões aqui apresentadas são fruto de
Brasileira de Administração Contemporânea, v. 1,
trabalhos realizados principalmente numa empresa,
n. 4, p. 177-192, 1995.
porém com contribuições de outras intervenções
realizadas pelos autores. No entanto, o modelo de DIAZ, M. D. M.; ARAÚJO, L. J. S. Aplicação de
processo proposto pode ser mais aprofundado à luz redes neurais à economia: demanda por moeda no
de outras experiências. Brasil. Revista de Economia Aplicada, v. 2, n. 2, p.
Um ponto pouco explorado neste texto, que 271-297, 1998.
merece atenção especial, é o aspecto humano dos
processos de DM, em particular a discussão sobre o DRANSFIELD, S. B.; FISHER, N. I.; VOGEL, N.
perfil do novo profissional de DM, que é discutido J. Using Statistics and statistical thinking to
em outros trabalhos (vide DRANSFIELD, FISHER improve organisational performance. International
e VOGEL, 1999; HAHN e HOERL, 1998). Statistical Review, v. 67, n. 2, p. 99-150, 1999.
SCHÜRMANN, J. Pattern classification: a unified GARVER, M. S. Using data mining for customer
view of statistical and neural approaches. N.Y.: satisfaction research. Marketing Research, Chicago,
Wiley, 1996. v. 14, n. 1, p. 8-12, 2002.
WITTEN, I. H.; FRANK E. Data mining: Practical RUMELHART, D. E.; McCLELLAND, J. C.; PDP
Machine Learning Tools and Techniques with Research Group. Parallel Distributed Processing -
JAVA Implementations. S.F.: Morgan Kaufmann, Exploration in the Microtexture of Cognition.
2000. Londres: MIT, 1986. v. 1.
9. OBRAS CONSULTADAS