Análise Preditiva em Sistemas de Informação No Contexto Do Big Data

FUNDAO DE ENSINO EURPIDES SOARES DA ROCHA
CENTRO UNIVERSITRIO EURPIDES DE MARLIA UNIVEM

CURSO DE BACHARELADO EM SISTEMAS DE INFORMAO
JORGE LUS PEREIRA
ANLISE PREDITIVA EM SISTEMAS DE INFORMAO NO

CONTEXTO DO BIG DATA
MARLIA
2014
JORGE LUS PEREIRA

Trabalho de Curso apresentado ao Curso de

Bacharelado em Sistemas de Informao da
Fundao de Ensino Eurpides Soares da
Rocha, mantenedora do Centro Universitrio
Eurpides de Marlia UNIVEM, como
requisito parcial para obteno do grau de
Bacharel em Sistemas de Informao.
Orientador
Prof. Geraldo Pereira Junior
MARLIA
2014
JORGE LUS PEREIRA

Banca examinadora da monografia apresentada ao Centro Universitrio Eurpides de

Marlia como parte dos requisitos necessrios para a obteno do grau de Bacharel em
Sistemas de Informao.
Resultado: 10 (Dez)
ORIENTADOR: Prof. Geraldo Pereira Junior
1 EXAMINADOR: Leonardo de Castro Botega
2 EXAMINADOR: Jussara Mallia Zachi
Marlia, 01 de Dezembro de 2014.
Dedico este trabalho a toda a minha famlia, em especial a minha amada esposa Mah Izabel,
e a minha filha Jlia Pereira, pessoas essas mais que fundamentais em minha vida, que
sempre estiveram ao meu lado dando todo suporte necessrio para que chegasse at aqui.
Dedico tambm aos meus pais Roberto Pereira e Juara Pereira, e as minhas irms Michelle
Pereira e Renata Pereira, que foram minha base, meu alicerce, e minhas referncias de
formao como individuo perante a sociedade.
AGRADECIMENTOS
Agradeo a Deus por ter permitido que tudo isso acontecesse, ao longo de minha
vida, e no somente nestes anos como universitrio, pois em todos os momentos o maior
mestre que algum pode conhecer.
Agradeo aos professores, que por vezes so desvalorizados, e ainda sim se mantm
firmes e perseverantes colaborando na valorizao de novas pessoas, seja no mbito
profissional ou pessoal. Fica aqui o meu muitssimo obrigado aos professores: Adriano
Bezerra, Cesar Penteado, Elton Yokomizo, Elvis Fusco, Emerson Marconato, Fabio Dacencio,
Fabio Meira, Giulianna Marques, Jorge Maciel Jr, Juliana de Oliveira, Jussara Zachi,
Leonardo Botega, Mauricio Duarte, Paulo Cardoso, Renata Paschoal, Ricardo Petruza,
Ricardo Sabatine, Rodolfo Chiaramonte e Rogrio Kanashiro. Mestres serei eternamente
grato.
Agradeo especialmente ao Professor Geraldo Pereira Junior, pois mais que um
professor e orientador de TC, foi um amigo que constru nos ltimos dois anos de curso, que
espero ter a honra de levar comigo por toda a vida. Geraldo, muito obrigado pelos
ensinamentos, mas principalmente pelo companheirismo.
Agradeo a todos os colegas de turma, em especial : Carlos Eduardo Martinelli,
talo Inoue, Jessica Oliveira, Lus Fernando Mazetti e Rafael Akira Hanai, companheiros de
trabalhos e irmos na amizade que fizeram parte da minha formao e que continuaro
presentes em minha vida com certeza. Esse time deixar saudades!!!
Ainda que eu andasse pelo vale da sombra da morte, no temeria mal algum, porque o
SENHOR est comigo Salmos 23, 4.
Insanidade continuar fazendo sempre as mesmas coisas, e esperar resultados diferentes
Albert Einstein.
RESUMO
A Anlise Preditiva juntamente com a tecnologia Big Data tm despertado grande interesse
em executivos assim como em profissionais de Gesto de Informao. Para se evidenciar tal
fato basta informar-se sobre a crescente escala em que os volumes de dados esto sendo
gerados, armazenados, e consumidos pela sociedade atual. Frente tecnologia de informao
a tecnologia Big Data tratada como um conceito, em que o foco principal o
armazenamento em grandes volumes de dados, com maior velocidade, com grande variedade,
com alta veracidade, de forma que no final seja possvel extrair valor de tudo isso. E para
auxiliar na extrao de valor a tecnologia Data Mining fundamental, pois a coleta e
armazenagem de dados por si s no auxiliam nesta tarefa, muito pelo contrrio, ela apenas d
a falsa sensao de se estar bem informado. Com a utilizao de uma ferramenta de Data
Mining possvel por meio de anlises obter informaes que esto armazenadas em grandes
bancos de dados, pois a tcnica de minerao de dados pode auxiliar, entre outras atividades,
na anlise preditiva de eventos, possibilitando prever padres, tendncias e comportamentos
futuros, viabilizando aos gestores a tomada de deciso baseada em fatos e no em suposies
e conhecimentos empricos. Este trabalho tem como finalidade apresentar e explorar as
estruturas que fundamenta os temas Big Data e Anlise Preditiva, com foco nos mtodos
estatstico.
Palavras-Chave: Big Data, Data Mining, Anlise Preditiva, Estatstica, Regresso Linear.
ABSTRACT
The predictive analytics along with Big Data technology have aroused great interest in
executives as well as information management professionals. To highlight this fact simply
inform yourself about the growing scale of the volumes of data are being generated, stored,
and eaten by the current society. Front of information technology the technology Big Data is
treated as a concept, in which the main focus is the storage in large volumes of data, with
greater speed, with great variety, with high accuracy, so that in the end it is possible to extract
value from all of this. And to assist in the extraction of value Data Mining technology is
critical, because the collection and storage of data by itself does not assist in this task, on the
contrary, she just gives a false sense of being well informed. With the use of a Data Mining
tool is possible by means of analyses information that is stored in large databases because the
data mining technique can assist, among other activities, on predictive analytics of events,
making it possible to predict future patterns, trends and behaviors, enabling managers with
decision-making based on facts and not on assumptions and empirical knowledge. This work
aims to present and explore the structures that underlies the themes Big Data and Predictive
Analysis, focusing on statistical methods.
Keywords: Big Data, Data Mining, Predictive Analytics, Statistics, Linear Regression.
LISTA DE ILUSTRAES
Figura 1 - O Mundo dos Dados ................................................................................................ 21

Figura 2 - Exemplo de Regra de Associao ............................................................................ 32
Figura 3 - O Processo da Anlise Preditiva .............................................................................. 41
Figura 4 - Hierarquia do Aprendizado ...................................................................................... 43
Figura 5 - As Trs dimenses do IDH ...................................................................................... 56
Figura 6 - A Evoluo do IDH Brasileiro................................................................................. 57
Figura 7 - Diagrama de Disperso - Minitab ............................................................................ 59
Figura 8 - Diagrama de Disperso - Microsoft Office Excel ................................................... 59
Figura 9 - Resumo do Grafico de Regresso do IDH ............................................................... 60
Figura 10 - Grfico de Diagrama de Disperso com o Resultado Predito - Excel ................... 61
Figura 11 - Equao de Regresso ........................................................................................... 61
Figura 12 - Resultado de Predio do IDH- Minitab ............................................................... 62
Figura 13 - Probabilidade de Ocorrencia do Fenmeno ........................................................... 62
Figura 14 - Faixa de Desenvolvimento Humano ...................................................................... 63
LISTA DE TABELAS
Tabela 1 - Comparativo entre ferramentas utilizadas na Minerao de Dados ........................ 29

Tabela 2 - Mtodos de Minerao de Dados utilizados em KDD ............................................ 30
Tabela 3 - Base de dados da Tarefa Jogar Tnis ...................................................................... 36
Tabela 4 - Exemplo de Transaes em Cestas de Compra ....................................................... 37
Tabela 5 - Histrico do IDH Brasileiro .................................................................................... 58
LISTA DE ABREVIATURAS E SIGLAS
BI
Business Inteligence
CRM
Customer Relationship Management
ENCE
Escola Nacional de Cincias Estatsticas
FIRJAN
Federao das Indstrias do Estado do Rio de Janeiro
IBGE
Instituto Brasileiro de Geografia e Estatstica
IDH
ndice de Desenvolvimento Humano
IDH-M
ndice de Desenvolvimento Humano Municipal
IFDM
ndice Firjam de Desenvolvimento Municipal
INE
Instituto Nacional de Estatstica
IPDM
ndice Paranaense de Desenvolvimento Municipal
IPRS
ndice Paulista de Responsabilidade Social
KDD
Knowledge Discovery in Databases
ONU
Organizao das Naes Unidas
PNUD
Plano das Naes Unidas para o Desenvolvimento
SGBD
Sistema Gerenciador de Banco de Dados
SUMRIO
INTRODUO .................................................................................................................................... 15
1
O BIG DATA ................................................................................................................................. 18

1.1
A Viso do Big Data ............................................................................................................. 19
1.2
O Quinto Elemento................................................................................................................ 22
1.3
Big Data Analytics ................................................................................................................ 22
MINERAO DE DADOS (DATA MINING) ............................................................................. 26

2.1
Principais Ferramentas da Minerao de Dados ................................................................... 28
2.2
Algoritmo de Minerao de Dados ....................................................................................... 30
2.3
Aplicao de Regra de Associao ....................................................................................... 34
2.4
Aplicaes de Minerao de Dados ...................................................................................... 35
2.5
Exemplo de Aplicaes de Tcnicas de Data Mining ........................................................... 36
ANLISE PREDITIVA ................................................................................................................ 39

3.1
A Importncia da Quantidade e Qualidade dos Dados .......................................................... 40
3.2
O Aprendizado de Mquina na Anlise Preditiva ................................................................. 42
3.2.1
A Hierarquia do Aprendizado (Conceitos e Definies) ............................................... 42
3.2.2
Aprendizado de Maquina e seus Paradigmas ................................................................ 44
A ESTATSTICA .......................................................................................................................... 46
4.1
A Estatstica e a Tomada de Deciso .................................................................................... 46
4.2
Estatstica: Sinopse Histrica ................................................................................................ 47
4.3
A Aplicao da Estatstica..................................................................................................... 50
REGRESSO LINEAR ................................................................................................................ 53

5.1
O ndice de Desenvolvimento Humano ................................................................................ 54
5.2
As Trs dimenses do IDH ................................................................................................... 55
5.3
A Coleta e Seleo de Dados ................................................................................................ 57
6 ANLISE PREDITIVA EM SISTEMAS DE INFORMAO NO CONTEXTO DO BIG

DATA.................................................................................................................................................... 58
6.1
Ensaios Efetuados ................................................................................................................. 58
6.2
Resultados Obtidos................................................................................................................ 60
CONCLUSO ...................................................................................................................................... 64
REFERNCIAS .................................................................................................................................... 66
15
INTRODUO
No universo digital, cada vez mais, em tudo o que fazemos deixado um rastro
(dados) que podemos analisar e utilizar em nosso favor. A tecnologia Big Data um conjunto
de solues capaz de lidar com esse grande volume e variedade de dados digitais, podendo
transformar completamente a forma como situaes so analisadas.
Esta nova forma de se pensar e analisar as situaes tem em uma de suas vertentes a
Anlise Preditiva, que um termo amplo que descreve uma variedade de tcnicas estatsticas
e analticas usada para desenvolver modelos que predizem eventos ou comportamentos
futuros. A forma destes modelos preditivos varia de acordo com os comportamentos ou
eventos a serem observados.
Por sua vez a Anlise Preditiva conta com o auxlio da Minerao de Dados, que
um componente preditivo que implica na anlise de dados para identificar tendncias, padres
ou relao entre esses dados. Ento, esta informao pode ser usada para desenvolver um
modelo preditivo. A juno de modelos preditivos com tcnicas de minerao de dados
depende cada vez mais de sofisticados modelos estatsticos, incluindo tcnicas de anlise
multivariada como, por exemplo, a Regresso. Essa tcnica permite determinar tendncias e
relaes que predizem eventos, ou comportamentos futuros.
Avanos no design de hardware e software de computador tm desenvolvido pacotes
de software que rapidamente executam milhares de clculos, permitindo a anlise eficiente
dos dados que produzem e a validao dos modelos preditivos.
OBrian (2004) afirma que, para atender de forma eficiente a crescente demanda por
informaes de qualidade, os sistemas tiveram que evoluir de uma fase primria onde os
processos eram apenas informatizados, para uma nova fase com um papel relevante no auxlio
da tomada de deciso por meios preditivos.
16
Motivao e Justificativa
Nos ltimos anos fomos capazes de gerar, coletar e armazenar, de forma vertiginosa,
um mar de dados relacionado s mais diversas coisas, lugares e situaes. Com isso, a questo
que surge a seguinte: o que fazer com todos esses dados?
Com a tecnologia Big Data e Anlise Preditiva torna-se possvel enxergar situaes e
encontrar padres e tendncias no obvias oculta em grandes volumes de dados.
O maior desafio est na composio das competncias necessrias para transformar
dados em informaes relevantes para a tomada de deciso, utilizando-se do conhecimento da
estatstica, da habilidade de analisar e interpretar o expressivo volume de dados por meio de
sistemas informatizados, de forma que este tipo de tecnologia possa se tornar uma bola de
cristal virtual.
Objetivos Gerais
O presente estudo tem como objetivos principais: explanar a Anlise Preditiva em
sistemas de informao com o auxlio das tecnologias Big Data e Data Mining, e a Estatstica,
com vistas a prever o IDH do Brasil para os prximos anos, por meio da Regresso Linear.
Objetivos Especficos
Para se atingir o objetivo geral, propem-se os seguintes objetivos especficos:
Explorar os conceitos de Big Data;
Explorar os conceitos de Data Mining;
Explorar os conceitos de Anlise Preditiva
Verificar por meio de pesquisa qual a melhor tcnica estatstica para a

realizao de predio do IDH;
Utilizar software estatstico para gerao de predio do IDH do Brasil.
17
Organizao do Trabalho
A elaborao do trabalho baseou-se em reviso bibliogrfica, como forma de garantir

o entendimento do tema pesquisado. Por meio desta tcnica metodolgica foi possvel
fundamentar teoricamente o tema em questo, e apresentar o trabalho em seis captulos
organizados da seguinte forma:
No primeiro captulo apresentado e explicado o conceito da tecnologia Big Data,
abordando os precedentes, os fatores de sustentao, e o Big Data Analytics;
No segundo captulo abordado o tema Data Mining e sua importncia no Big Data
e na Anlise Preditiva, apresentando suas principais ferramentas, algoritmos de minerao,
aplicao e exemplos de aplicao;
No terceiro captulo, explanado o conceito da Anlise Preditiva em um sistema de
informao;
O quarto captulo aborda a Estatstica e a sua importncia no auxlio tomada de
deciso e sua aplicao no contexto da Anlise Preditiva.
No quinto captulo discorrido sobre a Regresso Linear e como este mtodo
estatstico capaz de predizer sobre o IDH do Brasil.
No sexto captulo so apresentados os Testes Efetuados e os Resultados Obtidos.
Metodologia
Para que ocorra um trabalho de cunho cientfico indispensvel uma metodologia,
pois por meio desta que se faz possvel o planejamento e a execuo dos passos a serem
percorridos ao longo de seu desenvolvimento, assim como os tipos de pesquisas necessrios
para obter- se um resultado satisfatrio.
O presente trabalho classificado como exploratrio. Segundo Gil (p. 45, 1996) este
tipo de pesquisa tem como objetivo principal o aprimoramento de ideias ou a descoberta de
intuies. J Rodrigues (2007), diz que a pesquisa exploratria proporciona maior
familiaridade com o problema por meio de pesquisas bibliogrficas, entrevistas ou estudo de
casos.
18
O BIG DATA
A primeira considerao a respeito do tratamento da tecnologia Big Data, diz que ele
uma tecnologia, pois o tema de alto volume de dados e informao h tempos se faz
presente nas pesquisas de processos de Gesto da Informao. O impulso dado pela
tecnologia, principalmente pelo aumento do uso dos dispositivos mveis, trouxe um forte
incremento no volume de dados (RIBEIRO, 2014, p. 97). Saracevic (1996, p. 41-62), diz que
o debate sobre temas como o crescimento exponencial da informao e exploso
informacional, originados pelas pesquisas ps Segunda Guerra Mundial, j se fazia presente
nas discusses e pesquisas na rea de Cincia da Informao.
Uma segunda considerao diz respeito variedade de dados disponveis. O excesso
de informaes na internet originadas pelos diferentes meios ocasionam uma sobrecarga de
dados e informao disponveis para a sociedade (RIBEIRO, 2014, p. 97). Cabe registrar que
apenas 1% destes dados efetivamente analisado (BREITMAN, 2013).
A aceitao e o uso da informao pela sociedade tm se modificado ao longo do
tempo e como consequncia vm surgindo novos modelos sociais, econmicos e tecnolgicos.
A ascendente utilizao dos mais diversos meios de comunicao mvel (dispositivos
mveis), e o uso cada vez maior da Internet, vem ultrapassando as barreiras que
encontrvamos para nos comunicar, e ao mesmo tempo demarcando novos limites para a
sociedade contempornea (RIBEIRO, 2008, p. 15).
A quantidade de informaes disponveis cresce a cada dia de forma exponencial,
com isso surgem novos comportamentos decorrentes deste crescimento.
Heath e Bizer (2011) reforam que na atualidade estamos cercados por uma grande
quantidade de dados e informao. So registros sobre o cotidiano, desempenho da educao,
produo de bens e servios, investimentos, impostos governamentais, estatsticas sobre a
economia e dados sobre o consumo que nos ajudam a tomar decises e gerar conhecimento.
Ribeiro (2008) diz que:
[...] o processo de estruturao de dados e informaes carece de maior
instrumentao, pois a tica utilizada na atualidade est mais concentrada em
aspectos tecnolgicos do que nas questes de organizao das informaes,
deixando em segundo plano as indagaes ligadas gesto da informao
(RIBEIRO, 2008, p. 18).
19
Com a evoluo da tecnologia o cotidiano ficou repleto de dados e informaes, s

que agora ao alcance de todos ns. Ribeiro (2014, p. 98), exemplifica o avano e crescimento
no volume de dados e informaes que vem se obtendo devido ao crescente uso de
dispositivos mveis, de sensores industriais e biomdicos, fotos, vdeos, e-mails, redes
sociais, comrcio eletrnico, interaes via call centers, dados pblicos, imagens mdicas e
outros dados cientficos, cmeras para monitoramento, medidores inteligentes, GPS,
aplicativos para troca de mensagens, aplicaes que nos ajudam a pegar txis, outras que nos
ajudam na locomoo urbana evitando engarrafamentos, ou ainda no monitoramento de
nibus e at de avies.
Por outro lado, a previso da expanso das fontes de dados sero de
aproximadamente 50 vezes maiores nos prximos 10 anos. Segundo previses apresentadas
pela empresa EMC, instituio especializada em armazenamento de dados, o crescimento de
dados e informaes digitais no mercado brasileiro crescer de 212 Exabytes em 2014,
alcanando a marca de 1.6 Zettabytes (1.600 Exabytes) em 2020 (EMC, 2014).
Fruto deste cenrio, rico em volume e variedade de fontes, tem surgido uma nova
disciplina que, apesar de no ser apenas um tema essencialmente tecnolgico, vem sendo
impulsionado pelos projetos de tecnologia: a vertente de Big Data.
1.1 A Viso do Big Data
Fox e Hendler (2011) precedem que estamos vivendo uma nova abordagem chamada
de Big Data. Esta abordagem fruto da gerao e, consequentemente, da necessidade da
coleta de grande volume de dados, que surgem em diversos formatos. Porm, estes dados
ainda precisam ser administrados e, neste sentido, Hendler e Fox continuam e observam que a
gesto destes recursos possibilitar a resoluo de problemas que nem sabamos que
existiam. No entanto, vale ressaltar que no podemos prescindir de ferramentas, pois a
capacidade do ser humano de analisar dados e informaes com mltiplas caractersticas so
limitadas. Logo, so necessrias algumas ferramentas que nos auxiliem a executar estas
tarefas.
A necessidade de solucionar problemas reunindo e analisando dados de diversas
naturezas, deu origem a pesquisas que nos levaram ao Big Data. Estas pesquisas foram
desenhadas a partir de trs aspectos iniciais (DAVENPORT, 2014):
20
A mltipla natureza dos dados aspecto relacionado com as diferentes fontes

disponveis;
O uso de processamento em nuvem aspecto relacionado ao uso ilimitado de

recursos computacionais e com processamento em larga escala, com a
possibilidade de reduo de custos (economia de escala o aspecto
econmico-financeiro);
Uso de tecnologias especficas, tais como processamento de rotinas em

paralelo e ferramentas para otimizao como Machine Learning e Analytics.
A abordagem da tecnologia Big Data est apoiada em quatro outros fatores de

sustentao, conhecidos como os quatros Vs do Big Data: Volume, Variedade, Velocidade e
Veracidade (DUMBILL, 2012). Alguns autores falam em um quinto V, que estaria ligado ao
valor do dado ou da informao. Falaremos um pouco mais deste quinto fator na prxima
seo deste trabalho.
O primeiro V de Volume e est ligado a grande quantidade de dados e informaes
que nos cercam no cotidiano. J o segundo V est ligado variedade destes dados. Devido
intensa relao entre estes dois Vs, Volume e Variedade, eles sero comentados em conjunto.
Ribeiro (2014, p. 99) diz que a abundncia de dispositivos e a capacidade destes se
comunicarem por meio da rede mundial de computadores, esto promovendo uma verdadeira
inundao de dados. Cada um de ns carrega junto de si um celular, que agindo como um
sensor pode enviar informao de localizao das pessoas e permitir a realizao de negcios
direcionados. Ao levarmos em considerao que o mundo tem cerca de 7 bilhes de habitantes
(WIKIPEDIA, 2014) e que aproximadamente 6 bilhes possuem celulares (ONUBR, 2013),
pensemos no volume e na variedade de dados que pode ser gerado, captado, processado,
reutilizado e entregue.
Em diversos pontos das mais diversas cidades podemos encontrar cmeras de
monitoramento nas ruas, avenidas, lojas ou prdios. Qualquer cidado pode gravar e postar
um vdeo em mdias sociais ou no Youtube. Estima-se que a quantidade de vdeos produzidos
diariamente ultrapassa a produo dos primeiros 50 anos de televiso (DAVENPORT, 2014).
Deixando o cotidiano e observando o ambiente de cincia e tecnologia, temos outros
exemplos, como os projetos de pesquisa de perfurao de petrleo em guas profundas,
incluindo o pr-sal, alm de projetos de pesquisa em astronomia, que esto impulsionando o
uso da abordagem de Big Data (RIBEIRO, 2014, p. 100).
Outra fonte e forma de gerao de volume e variedade de informaes so o
crescimento do uso de documentos digitais e pginas Web nas organizaes, recursos estes
estruturados por meio de ferramentas para Gesto de Contedo, bem como o desenvolvimento
21
de propostas de uso da Web of Data e Linked Data (RIBEIRO, 2008).

A figura 1 ilustra o aumento do volume e variedade de dados proveniente das mais
diversas fontes.
Figura 1 - O Mundo dos Dados
Fonte - storagegaga.wordpress.com
Voltando aos Vs da tecnologia Big Data, chega-se ao terceiro V, de velocidade.

Com a melhoria dos canais de transmisso, como redes em fibra tica, emissores de
sinais de alta capacidade, satlites, uso de outras bandas para a telefonia celular,
comunicaes em tempo real para controle de processos na internet, workflows cientficos
com processamento paralelo e cluster de processamentos, vm possibilitando atingir maior
velocidade para troca de dados e informaes (MATTOSO, 2013).
Florissi
(2012)
afirma
que
velocidade
continuar
crescendo,
pois
desenvolvimento da tecnologia de processadores, e dos hardwares para armazenamento

(discos rgidos e flash memory), duplica o seu poder a cada perodo de dois anos.
O quarto V de Veracidade. A qualidade dos dados e informaes so caractersticas
essenciais para que os usurios interessados (executivos, gestores pblicos e a sociedade em
geral) usem e reusem os dados de maneira apropriada e real, gerando informaes teis e
verdicas para eles mesmos.
22
1.2 O Quinto Elemento
O ltimo V que torna a tecnologia Big Data relevante o V de valor. importante

que todo esse volume, variedade, velocidade, e veracidade possam gerar valor.
Quando os esforos do Big Data so direcionados para gerao de valor, ou seja,
quando essa massa de dados passvel de anlise, e a sua converso em informao pode ser
aplicada em tendncias, previses, e tomada de deciso de forma eficiente, d-se o nome de
Economia Inteligente e Analtica (DATASTORM).
Uma vez cumprido estes requisitos, pode-se ento dizer que foi gerado valor ao
negcio.
Para concluir a noo de Big Data ainda vale explorar um componente que faz parte
do terceiro aspecto relacionado anteriormente por Davenport (2014). A discusso sobre o
trabalho de anlise dos dados, entendidos pela noo de Big Data Analytics.
1.3 Big Data Analytics
O objetivo da tarefa de Analytics executar a Anlise Preditiva dos dados por meio
da execuo de mining (mineraes). Segundo os autores Oliveira (2013) e Tavares (2014),
inicialmente, sero tratados os dados com o uso de tcnicas estatsticas, para separao e
reunio de conjuntos, denominado de fase de Discovery.
Ainda segundo os autores, adicionalmente, para executar a tarefa tambm possvel
fazer uso de tcnicas para categorizao, limpeza e transformao dos dados, utilizando,
inclusive, a viso da provenincia, fontes de origem dos dados para auxiliar no processo de
categorizao. Ao final desta fase possvel chegar definio e preparao de modelos (fase
de data preparation e model planning) que sero teis na construo do grande conjunto de
dados, chamado de lago de dados (data lake).
A carga de dados, denominada fase de ingest, ocorre em seguida e realizada para
povoar o lago de dados. No lago estaro reunidos todos os dados que sero alvos de anlise.
23
Por fim, os resultados que sero obtidos a partir do tratamento e anlise do contedo do lago
sero apresentados com uso de ferramentas de visualizao e devero estar associados ao
contexto de negcios (OLIVEIRA, 2013; TAVARES, 2014).
A anlise de dados que atendem aos requisitos descritos anteriormente precisar ser
desenvolvida segundo uma nova arquitetura de anlise, onde dados sero obtidos de mltiplas
fontes e em tecnologias diversas. O ponto central desta anlise est ligado capacidade de
correlacionar dados, pois, como j observado, o ser humano possui limitaes para fazer
anlises associadas a mltiplas dimenses. Em essncia, quando temos uma pequena
quantidade de dados no temos muita dificuldade de correlacion-los, pois existem poucas
inter-relaes. Mas, com uma grande quantidade, temos muitos dados sendo gerados em
paralelo, logo, surgem dificuldades para correlacion-los (SEYMOUR, 2014, p. 26-27).
Decorrente deste cenrio, chegamos a um novo conjunto de passos para anlise,
assim como a outro perfil profissional atuando neste mercado. Na viso de Sathi (2013), a
vertente de Analytics comea a se integrar aos processos de negcio das empresas, visando
mudana do comportamento nos executivos e na nova tica de produo de bens e servios
que est influenciando estas organizaes.
O trabalho com Analytics cunhou-se um novo perfil profissional. Este perfil passou a
ser denominado de Cientista de Dados (Data Scientist). A caracterstica principal deste
profissional ter a capacidade de aplicar ferramentas analticas e algoritmos para gerar
previses sobre produtos, servios, e comportamento de indivduos (DAVENPORT; PATIL,
2012, p. 70-76). Oliveira (2013) complementa e detalha que este perfil deve ter forte
conhecimento em disciplinas como a matemtica e a estatstica, com treinamento avanado
em estratgias para tratamento de grandes conjuntos de dados, fazendo uso de modelos
matemticos, formulao de hipteses e tcnicas de regresso.
J Brietman (2013) observa que o Cientista de Dados deve ter capacidade de levantar
requisitos dos usurios, buscando no apenas nas necessidades destes usurios, mas tambm
nos outros envolvidos no ambiente sob anlise, como por exemplo, clientes, parceiros de
negcio, informaes de mercado, feeds de notcias, redes sociais, blogs, dentre outros.
Para Oliveira (2013), o cientista de dados deve ser um tcnico ctico, curioso,
criativo, comunicativo e deve saber trabalhar em colaborao. Ademais, o cientista de dados
deve sempre reavaliar questes durante as primeiras fases do desenvolvimento do trabalho.
O autor ainda apresenta questes que podem auxiliar na reviso destas fases.
Na fase de Discovery:
24
Eu possuo o conhecimento suficiente do ambiente de dados e informao?
Eu tenho informao suficiente para esboar um plano analtico e

compartilhar com meus pares?
Eu consigo desenvolver trabalhos para organizao para tipos de problemas?

Categorizaes e classificaes de dados? Projeto de conjuntos (clusters) de
dados?
Eu consigo esboar e realizar entrevistas para conhecer o contexto e domnio

que ser trabalhado?
Eu posso identificar as diferentes fontes de dados?
Na fase de Data Preparation e Model Planning:
Eu tenho um conjunto de dados que seja suficiente e de boa qualidade para

iniciar a construo de um modelo?
Eu tenho uma boa ideia sobre o tipo de modelo que vou testar?
Eu posso refinar o modelo analtico?(OLIVEIRA, 2013).
Marchand e Peppard (2013) dizem que os projetos de Big Data so desenvolvidos

com os objetivos de criar novos produtos, compreender novas necessidades dos clientes e seus
comportamentos, bem como perceber novos mercados. Para isto, necessrio desenvolver
teorias para tratar com clientes e usurios, construindo hipteses e identificando dados e
informaes relevantes. E completam propondo que este processo deve ser repetido e refinado
de acordo com os experimentos realizados e as respostas obtidas.
A Cincia da Informao nasceu com o objetivo maior de apresentar soluo para
problemas ligados ao uso de dados e informao, e como tal, tem um importante papel nos
estudos que envolvem o tema Big Data. Versig (apud PINHEIRO e LOUREIRO, 1995, p.4)
observa que, em funo da interdisciplinaridade da nossa rea, o cientista da informao
obrigado a lidar com dados fragmentados de natureza emprica e terica. Alm disto, Versig
continua e complementa com a ideia de reformulao constante da Cincia, quando observa
que:
[...] se a cincia da informao existe, qualquer que seja a denominao dada a esse
campo, ela no possuir uma teoria, mas uma estrutura proveniente de um amplo
conceito cientfico ou modelos e conceitos reformulados. Esses sero enternecidos a
partir de seu desenvolvimento e do problema do uso do conhecimento nas condies
ps-modernas de informatizao. Havendo uma interconexo entre tudo, cincia da
informao deve desenvolver um sistema de navegao conceitual (VERSIG apud
PINHEIRO e LOUREIRO, 1995, p.4).
Os novos processos de gesto de dados e informao, alm de novos softwares e

ferramentas para apoiar o processo de anlise de dados (Analytics), tm contribudo para um
25
momento especial no tratamento da informao (MINELLI, CHAMBERS, DHIRAJ, 2013).

Na ltima dcada fomos capazes de coletar e armazenar uma quantidade de dados
nunca antes imaginado, e a questo que surge : o que fazer agora com toda essa
informao?. Se tivermos mais conhecimento e viso, podemos tomar melhores decises. E
o tratamento de dados uma maneira de tornar visvel o que antes era invisvel, ou estava
oculto. Mas para isso precisamos do auxlio de ferramentas e mtodos computacionais. E uma
das mais utilizadas o processo de minerao de dados, que ser apresentado no captulo
seguinte.
26
MINERAO DE DADOS (DATA MINING)
Data Mining uma forma de anlise de informao em banco de dados, que busca
padres ocultos em dados, que podem ser usados para prever comportamentos futuros
(TURBAN, 2009).
Data Mining a seleo, explorao e modelagem de grande volume de dados para
descobrir relaes e padres desconhecidos ou empricos, objetivando resultados consistentes
e teis a partir de um banco de dados (GIUDICI, 2003).
No Data Mining so utilizadas ferramentas que podem substituir e/ou aprimorar a
inteligncia humana, pois estas ferramentas so capazes de analisar grande volume de dados.
Segundo Carvalho (2005), o processo de minerao de dados a forma de descobrir
conhecimento oculto em grande massa de dados. Witten e Frank (2000) definem que a
minerao de dados a obteno de informaes implcitas, previamente desconhecidas, e
potencialmente teis que podem ser extradas de grandes bases de dados.
Han e Kamber (2006) conceituam Data Mining como uma forma de descobrir
padres interessantes extrados de grande volume de dados, contidos em base de dados, Data
Warehouse ou outro repositrio.
A minerao dos dados parte de uma classe de ferramentas de anlises, que verifica
em grandes volumes de dados se existe algo que esteja implcito que possa se caracterizar
uma tendncia ou agrupamento. O Data Mining extrai conhecimento oculto, ou informaes
de predio do Data Warehouse ou de outros tipos de base de dados sem a necessidade de
consultas especficas ou requisies. O processo de minerao de dados utiliza-se de tcnicas
avanadas como Redes Neurais que tm como caracterstica a habilidade de aprender com o
seu ambiente e assim melhorar o seu desempenho, tcnicas heursticas para se resolver um
determinado problema quando no se sabe se a soluo est correta, e descobertas por regra
de deteco de desvio (GRILO JNIOR, 2010).
Segundo Giudici (2003), diferente de relatrios e consultas, onde os relacionamentos
j se conhecem, a funo da minerao de dados desvendar o que no se sabe sobre os dados
armazenados em um banco de dados. Um exemplo clssico e prtico de aplicao de Data
Mining, a utilizao dos dados de vendas com varejo, para descobrir supostas relaes entre
produtos sem conexo aparente, mas que so muitas vezes vendidos juntos.
27
Dutra (2005) diz que o Data Mining tem o propsito de extrair conhecimento onde
para um observador humano seria quase impossvel, devido a sua dimenso, complexidade e
volume de dados.
Como preceito, todo conhecimento extrado de um Data Mining obtido por meio de
padres. As tcnicas de minerao de dados tm como objetivo identificar padres dentro de
um grande volume de dados (banco de dados), com o objetivo de revelar detalhes, sobre
empresas e negcios que eram implcitos, ou at mesmo empricos, no comprovados.
Um dos grandes problemas dos analistas de informao converter dado em
informao. E uma das formas de se realizar tal tarefa compatibilizar estatstica
convencional com tcnicas de inteligncia artificial, que resulte na Minerao de Dados.
Segundo Barcelos Tronto et. al. (2003), em todo projeto que envolve minerao de dados, se
faz necessria a participao de um profissional com conhecimento do negcio, um
stakeholder que tenha grande domnio do assunto a ser explorado, pois este poder identificar
o risco da modelagem no ser bem sucedida, e assim no auxiliar em uma tomada de deciso.
As informaes geradas pelas ferramentas de Data Mining esto ligadas com o
tratamento da informao, e no com a estruturao dos dados (BARBIERI, 2001).
OBrian (2004) refora que o software de Data Mining utiliza algoritmos bastante
elaborados de reconhecimento de padres, com o complemento de uma diversidade de
tcnicas matemticas e estatsticas para observar um grande volume de dados, e extrair
informaes relevantes, teis e estratgicas que at ento eram desconhecidas.
Vasconcelos diz:
[...] os sistemas de minerao so baseados principalmente em sistemas de arquivos
stand-alone, estruturas de dados especializadas, e estratgias locais de gerncia de
buffers. No mximo, os dados para minerao so importados ou extrados de um
Sistema Gerenciador de Banco de Dados (SGBD) e armazenados localmente
(cache-mining). Dessa forma, elimina-se a necessidade de recuperar dados vrias
vezes do SGBD, melhorando o desempenho da aplicao. (VASCONCELOS,
p.127, 2002).
Os softwares de Data Mining so divididos em duas categorias:

I.
Ferramenta de minerao de dados.
II.
Aplicativo de minerao de dados.
A ferramenta de Minerao de Dados utiliza tcnicas para ser aplicado nas mais
diversas necessidades de negcio. J os aplicativos de minerao utilizam tcnicas especficas
para um dado problema do negcio. Ambas as ferramentas de minerao de dados so de
grande valia, e cada vez mais so utilizadas em empresas de forma integradas para a
28
realizao de anlises preditivas (GRILO JNIOR, 2010).

Grilo Junior (2010) diz ainda que a utilizao de tcnicas de Data Mining cada vez
mais est sendo aplicada para gerar vantagem competitiva, mas tambm podem ser utilizadas
para traar o perfil de um cliente, verificar fraude, verificar correlaes entre vendas de
produtos distintos, assim como prover ganhos sociais, identificando a parte da sociedade que
requer maior ateno em um ramo social especfico. Desta forma cada vez mais os dados
ganham notoriedade e relevncia para empresas, e saber explor-los pode fazer toda diferena
para o crescimento, sustentao de posio no mercado, e tomada de decises de
investimentos.
Segundo Murayama (2002), as informaes obtidas por meio da tecnologia de Data
Mining precisam ser autnticas e relevantes para o contexto da busca realizada, onde o
objetivo trabalhar estas descobertas, transformando-as em aes estratgicas que resultem
em benefcios para organizao, por exemplo:
Otimizao de campanhas de marketing;
Visualizao de fatores que possam combater fraudes e evitar riscos;
Promoo de produtos e servios;
As tcnicas de Minerao de Dados buscam mais que a interpretar os dados

armazenados, objetiva-se obter concluses por meio de correlaes nas informaes no
explcitas em um Data Warehouse ou Data Mart. Essas tcnicas so elaboradas para atuar
sobre grandes volumes de dados, almejando descobrir padres teis e recentes, que poderiam
ser ignorados.
2.1 Principais Ferramentas da Minerao de Dados
Nesta seo so relacionadas algumas ferramentas utilizadas para minerao de

dados.
Na tabela 1 esto relacionadas algumas das principais ferramentas (software)
utilizadas para minerao de dados, assim como suas caractersticas, tarefas realizadas no
processo de descoberta de conhecimento, assim como alguns domnios onde estas esto sendo
utilizadas.
29
Tabela 1 - Comparativo entre ferramentas utilizadas na Minerao de Dados

Ferramenta
Caractersticas
Tarefa de KDD
SPSS/
Clementine
Permite o
desenvolvimento
rpido de modelos
preditivos para as
operaes da
corporao,
melhorando a tomada
de deciso.
Permite aos usurios
realizar operaes de
descoberta
de
conhecimento.
Classificao, Regras
de Associao,
Clusterizao,
Sequencia e Detector
de Desvio.
PolyAnalyst
Possui funes de prprocessamento que so

utilizadas
para
transformar os dados
antes, durante e aps a
execuo
da
minerao.
Descobre regras do
conjunto de dados sem
ser instrudo com
antecedncia.
Modelagem descritiva
e preditiva fornece
insights que auxiliam a
tomada de deciso.
Intelligent
Miner
WizRule
SAS
Enterprise
Miner
Domnios
Utilizados
Associao
Comercial de So
Paulo, Credicard,
CTBC Telecom,
DirecTV,
Globo.com, entre
outros.
Fabricante
Classificao,
Regresso, Regra de
Associao,
Clusterizao,
Sumarizao e Detector
de Desvios.
Classificao, Regras
de Associao,
Clusterizao e
Sumarizao.
No informado.
Megaputer
Inteligence
www.megaputer.com
No Informado
IBM Corp.
www.ibm.com
Sumarizao,
Classificao e
Deteco de Erros.
No Informado
WizSoft Inc.
www.wizsoft.com
Classificao, Regras
de Associao,
Clusterizao,
Agrupamento.
Bank of America,
Telefonica O2,
Korea Customs
Service, Australian
Bureau of Statistic,
entre outros.
Auditoria Geral do
Estado de Minas
Gerais; Secretaria de
Log. e TI do Min.
do Planej.,
Oramento e
Gesto; Min. da
Justia; CGU.
No Informado
SAS Corp.
www.sas.com
No Informado
University of
Waikato
www.cs.waikato.
ac.nz
Ford, Honda, Nokia,

Miele, Philips, IBM,
HP, Cisco, Bank of
America, entre
outras.
Rapid-I
rapid-i.com
Tamandu
No Informado
Associao,
Agrupamento e
Classificao.
Oracle Data
Mining
No informado
WEKA
API e ambiente de
testes com algoritmos
de minerao de dados
e aprendizado por
computador.
Derivado do WEKA
um pacote mais
completo de
minerao de dados.
Classificao,
Regresso, Associao,
Clusterizao e
Minerao de Texto.
Classificao,
Regresso e Regra de
Associao,
Clusterizao.
RapidMiner
(antigo
YALE)
Classificao,
Regresso e Regra de
Associao,
Clusterizao.
SPSS Inc.
www.spss.com
Depart. Cincia da
Comput. Da UFMG
http://tamandua.
speed.dcc.ufmg.br
Oracle
www.oracle.com
Fonte - Adaptado de GOLDSCHMIDTH; PASSOS (2005); TAMADU (2010)
30
2.2 Algoritmo de Minerao de Dados
A tabela 2 apresenta algumas tcnicas de minerao de dados que so aplicadas no

Knowledge Discovery in Databases (KDD), so apresentadas apenas os algoritmos principais
utilizados pelo mtodo.
Tabela 2 - Mtodos de Minerao de Dados utilizados em KDD
Tarefa de KDD
Mtodos de minerao de dados
Descobertas de associaes
Basic, Apriori, DHP, Partition, DIC, ASCX-2P
Descobertas de associaes
Basic, Apriori, DHP, Partition, DIC, ASCX-2P
generalizadas
Descoberta de sequncias
GSP, MSDD, SPADE
Descoberta de sequncias
GSP, MSDD, SPADE
generalizada
Redes Neurais (Ex: Back-Propagation, RBF) C4.5,
Classificao
Rough, Sets, Algoritmos Genricos (Ex.: Rule

Evolver), CART, K-NN, Classificadores
Bayesianos.
Redes Neurais (Ex: Back-Propagation), Lgica
Regresso
Nebulosa
Sumarizao
C4.5, Algoritmos Genricos (Ex.: Rule Evolver)
Clusterizao
K-Means, K-Modes, K-prototypes, Fuzzy KMeans, Algoritmos Genricos, Redes Neurais,

(Ex.: Kohonen)
Previso de Sries Temporais
Redes Neurais (Ex.: Back-Propagation), Lgica

Nebulosa (Ex.: Wang-Mendel)
Fonte - Adaptado de GOLDSCHMIDTH; PASSOS (2005)
Com a variedade de atividades atribudas a minerao de dados, pode se obter

diferentes tipos de conhecimento. Porm necessrio definir no incio do processo de
minerao qual tarefa deseja-se executar, que tipo de informao o algoritmo deve extrair, ou
quais padres ocultos podero/devero ser desvendados. Segundo Fayyad (1996), no existe
31
uma forma de minerao de dados genricos, a escolha do algoritmo um dom.

As funes de minerao de dados so divididas em duas categorias:
Tarefa de Previso;
Tarefa Descritiva.
As tarefas de previso tm como funo prever relevncia de um dado atributo

baseado em valor de outro atributo. J as tarefas descritivas tm como funo extrair padres,
correlaes, tendncias, trajetrias, anomalias, grupos, etc., que resumam os relacionamentos
adjacentes dos dados (TAN, STEINBACH e KUMAR, 2009). Os autores identificam quatro
tarefas fundamentais para minerao de dados: modelagem de previso, anlise de associao,
anlise de agrupamento e deteco de anomalias.
A Modelagem de Previso refere-se funo de elaborao de um modelo para a
varivel alvo como uma funo das variveis explicativas. Para este processo existem dois
tipos de funo: classificao, que utilizada para variveis alvo discretas, e regresso, que
utilizada para variveis alvo contnuas. O objetivo das duas funes aprender um modelo
que reduza o erro entre os valores previsto e real da varivel alvo. Um exemplo de aplicao
deste tipo de modelagem a avaliao se um paciente/cliente possui uma determinada doena
baseado nos resultados de exames mdicos (TAN, STEINBACH e KUMAR, 2009).
A Anlise de Associao aplicada para identificar padres que indiquem
caractersticas associativas entre os dados, os padres identificados so normalmente
apresentados de regras de implicaes ou subconjuntos. Um exemplo de aplicao deste tipo
de anlise inclui a descoberta de genes que possuem funcionalidades associadas (TAN,
STEINBACH e KUMAR, 2009).
A Anlise de Agrupamento ou Clustering busca grupo de observaes intimamente
relacionadas, onde observaes pertencentes ao mesmo grupo tenham mais semelhanas entre
si, do que com outros grupos. Fayyad (1996), diz que o agrupamento uma tarefa que busca
identificar um conjunto finito de categorias e agrupamentos para descrever os dados. Um
exemplo de utilizao deste tipo de anlise o agrupamento do conjunto de clientes que
possuem as mesmas afinidades.
A Deteco de Anomalias tem a funo de identificar grupos utilizando similaridade
de valores de seus atributos cujas caractersticas sejam bastante diferentes dos demais dados.
O objetivo de um algoritmo de deteco de anomalias identificar as anomalias verdadeiras e
evitar rotular erroneamente objetivos normais como anmalos (TAN, STEINBACH E
KUMAR, 2009). Um exemplo de aplicao deste tipo de identificao a deteco de fraudes
32
em carto de credito.
Segundo Goldschmidth e Passos (2005), a tarefa de anlise de associao e
detalhamento de algoritmos de banco de dados uma operao que consiste em encontrar
elementos que aconteam de forma frequente e simultnea no banco de dados. A funo de
descoberta de associaes, conforme explica os mesmos autores, define-se como busca
frequente por regras de associaes vlidas em um banco de dados. Dessa forma, a regra de
associaes tem o objetivo de encontrar tendncias que podem ser usadas para entender
padres de comportamento nos dados analisados.
Os algoritmos de Regra de Associao demonstram padres de relacionamento entre
itens de uma base de dados. Um exemplo de aplicao deste tipo de algoritmo, a analise nas
transaes de compras, onde analisa os padres de compras de consumidores para detectar
produtos que costumam serem adquiridos em conjunto, Gonalves (p.25-35, 2005).
Segundo Silveira (2003), a tcnica de descoberta de regras de associao estabelece
uma relao entre certos itens em um conjunto de dados. Para a autora, a descoberta de
associao em itens de cestas de compras deve no apenas evidenciar as associaes triviais
conhecidas, como por exemplo, quem compra leite tambm costuma comprar po, mas sim
aquelas que no so obvias e que podem se tornar importante fonte de informao na tomada
de deciso. Uma regra de associao possui duas partes: a condio (X) e o resultado (Y) ou:
(X1, X2, ..., Xn) => Y; onde os itens X1, X2, ..., Xn preveem a ocorrncia de Y, onde a
probabilidade de encontrar Y por esta regra, chamada de grau de certeza ou fator de
confiana. A figura 2 exemplifica bem esta condio.
Figura 2 - Exemplo de Regra de Associao
Fonte - Silveira (2003)
De acordo com Tan, Steinbach e Kumar (2009), o fator de suporte determina a

frequncia na qual uma regra aplicvel a um determinado conjunto de dados, enquanto o
33
fator de confiana determina a frequncia na qual os itens em Y aparecem em transaes X.

Agrawal, Imielinski e Srikant (1993), dizem que:
[...] as regras de associao podem ser entendidas da seguinte forma: sejam I = {i1,
i2, ... im } um conjunto de m itens distintos e D uma base de dados formada por um
conjunto de itens (itemset), tal que T I. Uma regra de associao uma expresso
na forma A B, onde A I, B I, A , B e A B = . A denominado
antecedente, e B denominado consequente da regra. Tanto o antecedente quanto o
consequente de uma regra de associao podem ser formados por conjuntos
contendo um ou mais itens. A quantidade de itens pertencentes a um conjunto de
itens chamado de comprimento do conjunto. Um conjunto de itens de
comprimento k costuma ser referenciado como um k-itemset. (AGRAWAL,
IMIELINSKI, SRIKANT, p. 207-216, 1993).
Ainda segundo os autores, o suporte de um conjunto de itens Z, Sup(Z), representa a

porcentagem de transaes da base de dados que contm os itens de Z. O suporte de uma
regra de associao A B, Sup(A B), dado por Sup(A B). J a confiana desta regra,
Conf(A B), representa, dentre as transaes que contem A, a porcentagem de transaes
que tambm contm B, ou seja, Conf(A B) = Sup(A B) Sup(A).
Segundo Pizzi (2006), uma regra de associao pode ser descrita como
unidimensional, quando os itens a serem analisados derivam de um nico atributo, ou
multidimensional, quando existem mais de um atributo envolvido na regra. A autora
acrescenta informando tambm que as regras de associao podem ser caracterizadas pelos
valores de seus atributos, podendo ser booleana, quando os atributos so categricos;
quantitativa, quando os atributos so numricos, ou nebulosa, quando os atributos envolvem
conceitos nebulosos.
Segundo Gonalves (2005), o modelo tpico para minerao de regras de associao
em bases de dados consiste em encontrar todas as regras que possuam suporte e confiana
maiores ou iguais, respectivamente, a um suporte mnimo (SupMin) e uma confiana mnima
(ConfMin), especificados pelo usurio. Por este motivo, o modelo costuma ser referenciado
na literatura como Modelo Suporte/Confiana.
No modelo Suporte/Confiana, para que uma regra seja considerada forte, contendo
informaes interessantes, necessrio que ela apresente bons valores de suporte e confiana.
A deciso sobre quais regras devem ser mantidas e quais devero ser descartadas durante o
processo de minerao baseada nos valores destes dois ndices. Isto significa que o suporte e
a confiana atuam como medidas de interesse no processo de minerao de regras de
associao (GRILO JUNIOR, 2010).
Para Tan, Steinbach e Kumar (2009), o suporte de suma importncia, pois esta
medida pode identificar uma regra de baixo suporte que pode vir acontecer por coincidncia, e
34
eliminar estas regras sem interesse. J a confiana, mede a confiabilidade de inferncia feita
por uma regra, onde, por exemplo: para determinar regra X Y, quanto maior a confiana,
maior a probabilidade de Y estar presente em transaes que contenha X. Ainda segundo os
autores, a confiana tambm fornece uma estimativa da probabilidade condicional de Y dado
X.
2.3 Aplicao de Regra de Associao
Segundo Vercellis (2009) a regra de associao pode ser aplicada em diversas reas,
mas particularmente recomendada para:
Anlise de Cestas de Compras: as compras realizadas so armazenadas,

registrando preo, hora, local, quantidade, tipo, etc. Esses dados podem ser
explorados e analisados, com o intuito de encontrar padres recorrentes na
aquisio de um produto, ou grupo de produtos. Uma vez identificado estes
padres, eles podem auxiliar no planejamento e iniciativas de promoes por
parte do Marketing da empresa, ou at mesmo a localizao de produtos nas
gondolas (Vercellis, 2009).
Web Mining: a minerao web til para identificar padres de acessos

durante a navegao, e a frequncia com que pginas so percorridas por um
indivduo, com isso possvel facilitar e influenciar a ligao entre diferentes
pginas, recomendar sites e caminhos de navegao, e at mesmo mostrar
banners publicitrios e mensagens promocionais (Vercellis, 2009).
Compras com Carto de Crdito: as regras so utilizadas para identificar

padres de compras realizadas com carto de crdito, a fim de encaminhar
promoes futuras para este indivduo (Vercellis, 2009).
Deteco de Fraude: as regras so aplicadas na identificao de fraude de

seguro, so analisados os incidentes e os pedidos de indenizao pelos danos
sofridos. Algumas combinaes especficas podem revelar comportamentos
potencialmente fraudulentos, levando assim a seguradora a uma anlise mais
crtica do incidente (Vercellis, 2009).
Ainda segundo Versallis (2009), as regras destinadas a extrao de conhecimento

para uma anlise de inteligncia de negcios deve ser no trivial, e interpretvel, para que
possam ser potencialmente teis para os trabalhos de conhecimento e fceis de serem
traduzidas em planos de ao concretos.
35
2.4 Aplicaes de Minerao de Dados
Segundo Vercellis (2009) as tcnicas de minerao de dados podem ser aplicadas em

diversas reas de atuao, como por exemplo, Marketing, controle de processo de fabricao,
diagnsticos mdicos, e tambm para deteco de fraude. Abaixo esto alguns destes
exemplos, segundo o autor:
Marketing Relacional: o uso da minerao de dados nesta rea contribui para

o aumento da popularidade desta metodologia. Aplicaes relevantes dentro
do marketing relacional:
Identificao de segmento e clientes mais predisposto a responder campanhas

de marketing (ex: up-selling e cross-selling), abaixo temos uma breve
explanao acerca de up-selling e cross-selling;
Up-Selling uma estratgia de venda na qual um vendedor ou um site sugere um

adicional para o produto ou servio que est sendo comprado, como por exemplo, ao se
comprar uma chuteira de futebol, o vendedor/site pode sugerir tambm a compra de uma bola
de futebol. J no Cross-Selling, que tem uma sensvel diferena, so sugeridos produtos
complementares, como por exemplo, ao comprar uma chuteira de futebol, o vendedor/site
pode sugerir a compra de uma meia para ser usada junto com a chuteira.
Identificao de clientes alvo nas campanhas de reteno;
Previso de respostas positivas s campanhas de marketing;
Interpretao e compreenso do comportamento de compra dos clientes;
Anlise dos produtos adquiridos em conjunto pelos clientes (Cesta de

Compras).
Deteco de Fraude: a deteco de fraudes um campo bastante expressivo

na aplicao de minerao de dados. Pois pode ser aplicada em setores como
telefonia, seguradoras, uso ilegal de carto de crdito, alm de operaes
bancrias fraudulentas.
Avaliao de Riscos: avalia o risco de futuras decises, que podem vir a

assumir forma dicotmica. Por exemplo, um banco pode desenvolver um
modelo preditivo para determinar se vantajoso conceder um emprstimo
monetrio ou um emprstimo habitao, com base nas caractersticas do
pretendente.
Minerao de Texto: pode ser aplicado a diferentes tipos de texto de dados

no estruturados, a fim de realizar uma classificao em livros, artigos,
documentos, pginas web e e-mails.
36
Reconhecimento de Imagens: aplicado para identificar caracteres escritos,

comparar e identificar rostos, aplicao de filtros de equipamentos
fotogrficos e detectar comportamentos suspeitos, por meio de cmeras de
segurana.
Web Mining: so destinadas anlise dos chamados clickstreams, ou

sequncia de cliques que so as sequncias de pginas visitadas, e as
escolhas feitas por um usurio da internet.
Diagnstico Mdico: modelos de aprendizagem uma ferramenta valiosa na

rea mdica para a deteco precoce de doenas usando os resultados de
testes clnicos. A anlise de imagens para fins de diagnsticos outro campo
que est em expanso.
2.5 Exemplo de Aplicaes de Tcnicas de Data Mining
Nesta seo sero apresentados alguns exemplos de aplicaes de uso de tcnicas de

minerao de dados para os casos de modelagem de previso, anlise de associao e
agrupamento. A finalidade deste tpico dar um melhor entendimento sobre a utilizao e
aplicabilidade destas tcnicas em benefcios de seus usurios.
Modelagem de Previso: para ilustrar a aplicao deste mtodo, considere os dados
da tabela 3:
Tabela 3 - Base de dados da Tarefa Jogar Tnis
Aparncia
Temperatura
Umidade
Vento
Jogar Tnis?
Ensolarado
Quente
Alta
Fraco
No
Ensolarado
Quente
Alta
Forte
No
Nublado
Quente
Alta
Fraco
Sim
Chuvoso
Moderado
Alta
Forte
Sim
Chuvoso
Fresco
Normal
Fraco
Sim
Chuvoso
Fresco
Normal
Forte
No
Nublado
Fresco
Normal
Forte
Sim
Ensolarado
Moderado
Alta
Fraco
No
Ensolarado
Fresco
Normal
Fraco
Sim
Chuvoso
Moderado
Normal
Fraco
Sim
Ensolarado
Moderado
Normal
Forte
Sim
Nublado
Moderado
Alta
Forte
Sim
37
Nublado
Quente
Normal
Forte
Sim
Chuvoso
Moderado
Alta
Fraco
No
Fonte - Adaptado de Goldschmidth e Passos (p.101, 2005).
Nesta ilustrao Goldschimidth e Passos (2005), utilizam o seguinte exemplo:

[...] iremos considerar o atributo Jogar Tnis como o objetivo da classificao,
este problema tem duas classes: jogar = sim e jogar = no. Se desejarmos saber
se devemos ou no jogar em determinadas circunstancia basta fazer uma pergunta e
inserir os dados no algoritmo para obter o resultado, por exemplo: devo jogar tnis
em dia ensolarado, quente, de alta unidade e com vento fraco? No exemplo podemos
utilizar o Teorema de Bayes, relacionando ao clculo de probabilidades
condicionais. A teoria desenvolvida por Bayes pode ser aplicada s mais diversas
reas do conhecimento, inclusive nas atividades cotidianas. Pelo Teorema de Byes
podemos afirmar que a P(A|B) = (P(B|A)*P(A))/P(B), assim, substituindo os valores
da nossa problemtica na formula temos:
P(jogar = sim | ensolarado, quente, alta unidade, vento fraco) = P(ensolarado | jogar
= sim) * P(quente | jogar = sim) * (alta umidade | jogar =sim) * P(vento fraco | jogar
= sim) = 0,0071;
P(jogar = no | ensolarado, quente, alta umidade, vento fraco) = P(ensolarado | jogar
= no) * P(quente | jogar = no) * (alta umidade | jogar = no) * P(vento fraco |
jogar = no) = 0,0274;
Portanto, a resposta do algoritmo seria Jogar = No. (GOLDSCHMIDTH e
PASSOS, p.101, 2005).
Anlise de Associao: Uma tarefa de associao busca por padres que

demonstrem o relacionamento entre conjuntos de itens, para ilustrar a aplicao deste mtodo,
considere os dados apresentado na tabela 4:
Tabela 4 - Exemplo de Transaes em Cestas de Compra
Identificador
Item
100
Po, leite, manteiga.
200
Po, requeijo, leite.
300
Manteiga, farinha, leite.
400
Manteiga, po, refrigerante.
500
Bolacha, leite, manteiga.

Fonte - Adaptado de Pizzi (2006)
De acordo com Pizzi (2006), analisando a regra manteigapo, nota-se que dentre
as cinco transaes existentes, po e manteiga ocorrem em duas transaes. Alm disso,
dentre as quatro transaes em que manteiga ocorre, po ocorre em duas dessas transaes.
38
Com isso pode-se dizer que a regra manteigapo possui suporte de 40% e confiana de 50%
o que demonstra que essa regra pode revelar um padro de comportamento dos clientes:
clientes que compram manteiga tendem a comprar po.
Algoritmos de anlise de associao possuem um potencial de gerar uma variedade
enorme de padro com as combinaes dos itens analisados, conforme so ajustados os
limites de suporte e confiana.
Agrupamentos: Segundo Grilo Junior (2010) o mtodo de armazenamento em
cluster permite que um usurio faa grupos de dados para determinar padres a partir dos
dados coletados ou classificados, criando um nmero especfico de grupos, dependendo de
suas necessidades de negcio. Neste tipo de aplicao os dados so divididos em um banco de
dados por segmentos, onde seus membros compartilham caractersticas semelhantes e
comportamentos similares.
Ainda segundo o autor, um exemplo do uso de agrupamento so os empregados na
construo de um CRM (Customer Relationship Management), que so aplicaes que
gerenciam todos os modos como s empresas lidam com seus clientes atuais e potenciais,
objetivando desenvolver estratgias especificas para grupos de clientes de acordo com o
padro identificado nestes grupos. Pode ser utilizado tambm no sistema financeiro para
discriminar e classificar bons e maus pagadores.
Os exemplos aqui ilustrados por todos os autores citados servem para dar uma
dimenso do uso das tcnicas de minerao de dados nos mais diversos segmentos, para uma
gama de aplicao variada, servindo como importante auxilio tecnolgico em processos no
triviais para identificar padres preditivos vlidos e potencialmente uteis para as
organizaes.
39
ANLISE PREDITIVA
Anlise Preditiva o ramo da minerao de dados que ajuda a prever as tendncias e

a estimar as probabilidades de que eventos ocorreram. A demanda por essa capacidade de
predizer nasceu da frustao com sistemas BI (Businness Inteligence), que ajudava os
executivos apenas a entender o que aconteceu, enquanto eles necessitavam de ferramentas que
predissessem o que iria acontecer e para onde o seu negcio estava indo (MONK, 2013, p.
438).
As empresas tomavam suas decises baseando-se no conhecimento e experincias de
especialistas, o que acabava influenciando as operaes do dia a dia. Algumas dcadas atrs
uma srie de tcnicas estatsticas surgiu com a inteno de descobrir padres de dados
invisveis ao olho humano. E visto que capturamos dados em um volume cada vez maior,
estas tcnicas esto se tornando indispensveis para extrair valor a partir destes dados. A
analtica capaz de produzir estatsticas e previses confiveis (GUAZZELLI, 2012).
Na ltima dcada, o campo de Sistemas de Informao fez grandes avanos no
emprego de modelagem estatstica avanada em tcnicas de apoio investigao emprica,
com isso tornou-se cada vez mais comum ver pesquisadores de Sistemas de Informao
utilizar
modelagem
de
equaes
estruturais
para
desenvolver
tais
tcnicas
(MARCOULIDES, SAUNDERS, 2006).

Segundo Dubin (1969) e Kaplan (1964), a Anlise Preditiva inclui modelos
estatsticos e outros mtodos empricos que visam criar predies empricas, ao contrrio de
previses que se seguem apenas a partir da teoria, bem como mtodos para a avaliao da
qualidade dessas previses em prtica, ou seja, o poder preditivo. Alm de sua utilidade
prtica, anlise preditiva desempenha um papel importante na construo, teste, e avaliao de
relevncia de teoria. Assim, ela um componente necessrio de pesquisa cientfica.
Segundo Temple-Raston (2012), a Anlise Preditiva uma rea de minerao de
dados que lida com a extrao de informaes a partir de dados e usa-o para prever tendncias
e padres de comportamento. Ainda segundo o autor, muitas vezes, o evento desconhecido de
interesse est no futuro, mas a anlise preditiva pode ser aplicada a qualquer tipo de
desconhecido seja no passado, presente ou futuro.
Nyce (2007, p.09) define a Anlise Preditiva como um termo amplo que descreve
40
uma variedade de estatsticas e tcnicas analticas utilizadas para desenvolver modelos que
preveem eventos ou comportamentos futuros. As formas destes modelos preditivos variam
dependendo do comportamento ou evento que eles esto provendo.
Ainda segundo o autor Nyce (2007, p.09), a minerao de dados um componente
de anlise preditiva que envolve anlise de dados para identificar tendncias, padres ou
relacionamentos entre os dados. Com isso pode-se ento desenvolver um modelo preditivo.
As anlises preditivas juntamente com os modelos de previses e tcnicas de
minerao de dados dependem cada vez mais de sofisticados mtodos estatsticos, incluindo
tcnicas de analise multivariadas, como modelos de regresso ou series temporais avanadas.
Essas tcnicas permitem que as organizaes determinem tendncias e relaes que podem
no ser facilmente perceptveis, mas ainda habilit-lo para melhor prever eventos ou
comportamentos futuros.
O autor ainda completa dizendo que as tcnicas estatsticas utilizadas na Anlise
Preditiva so computacionalmente intensivas. Dependendo da quantidade de dados que
utilizam, exigem a execuo de alguns milhares ou mesmo milhes de clculos. Avanos em
hardware de computador e design de software produzem pacotes de software que executam
rapidamente tais clculos, permitindo-se realizar a anlise eficiente dos dados, e a validao
de seus modelos preditivos.
A validade de um modelo preditivo depende da qualidade e quantidade de dados
disponveis para desenvolv-lo.
3.1 A Importncia da Quantidade e Qualidade dos Dados
Para Guazzeli (2012), sem uma quantidade significativa de dados no h como

realizar a Anlise Preditiva, ou seja, para que determinados modelos preditivos sejam capazes
de aprender e generalizar, so necessrios milhares de registros, e se caso no houver dados
suficientes para ser utilizado no treinamento, um modelo pode no ser capaz de aprender. Isso
significa que ele aprende tudo sobre os dados fornecidos durante o treinamento, mas ser
incapaz de generalizar este conhecimento quando se deparar com novos dados, ele
simplesmente ser incapaz de prever.
Outra questo o quanto estes dados so bons. A qualidade dos dados refletir
diretamente na qualidade do modelo, ou seja, entrou lixo, saiu lixo! Para filtrar, ou trabalhar,
41
estes dados ruins utilizado minerao de dados. O primeiro passo necessrio para a
anlise preditiva o processo de minerao, pois ele que vai identificar como relevante o
que pode ser usado para desenvolver o modelo de previso. Pode-se pensar em minerao de
dados como aquisio de conhecimentos sobre o relacionamento, e o resultado do modelo de
anlise preditiva como aplicao de conhecimento (conforme j comentado no capitulo 2,
sesses 2.2 e 2.3 deste trabalho).
Uma vantagem distinta para a minerao de dados que ele cataloga todas as
relaes, ou correlaes, que podem ser encontrados entre os dados, independentemente do
que faz com essa relao. Por exemplo, minerao de dados, pode discernir uma relao entre
idade e cabelos grisalhos, ou idade e nmero de acidentes automobilsticos, mas isso no
implica que a idade provoca acidentes automobilsticos ou cabelos grisalhos (NYCE, 2007).
Figura 3 - O Processo da Anlise Preditiva
Fonte - Predictive Analytics White Paper
42
3.2 O Aprendizado de Mquina na Anlise Preditiva
Aprendizado de Mquina uma rea da Inteligncia Artificial cujo objetivo o

desenvolvimento de tcnicas computacionais sobre o aprendizado, assim como a construo
de sistemas capazes de adquirir conhecimentos de forma automtica (MONARD,
BARANAUSKAS, 2003).
Ainda segundo os autores, um sistema de aprendizado toma as suas decises
baseadas em experincias anteriores que tiveram as suas solues bem sucedidas de
problemas anteriores. Esses sistemas tm caractersticas nicas e tambm caractersticas
comuns que permitem a classificao quanto forma de aprendizado utilizado.
3.2.1 A Hierarquia do Aprendizado (Conceitos e Definies)
A Induo a forma de inferncia lgica que permite obter concluses genricas

sobre um conjunto particular de exemplos. Ele caracterizado pela generalizao de um
raciocnio especfico e generalizado, ou seja, da parte para o todo. Portanto, as hipteses
geradas por meio das inferncias indutivas, podem ou no ser verdadeiras (REZENDE, p.90,
2003).
Rezende (2003), tambm afirma que a inferncia indutiva um dos principais
mtodos utilizados para derivar conhecimento novo e predizer eventos futuros. E
complementa dizendo que foi por meio da induo que Arquimedes descobriu a primeira lei
da hidrosttica e o princpio da alavanca, que Kepler descobriu as leis do movimento
planetrio, e que Darwin descobriu as leis da seleo natural das espcies.
A autora ainda completa dizendo que apesar da induo ser muito utilizada pelo
crebro humano para provir conhecimento novo, esta deve ser utilizada com cautela, pois se
o nmero de exemplos for insuficiente, ou se os exemplos no forem bem escolhidos, as
hipteses obtidas podem ser de pouco valor, da a necessidade e importncia da qualidade e
quantidade dos dados.
O aprendizado indutivo pode ser dividido em supervisionado e no supervisionado.
No aprendizado supervisionado fornecido ao algoritmo de aprendizado, ou indutor, um
conjunto de exemplos de treinamento para os quais o rtulo da classe associada conhecido.
43
E o objetivo do algoritmo de induo construir um classificador que possa determinar

corretamente a classe de novos exemplos ainda no rotulados (REZENDE, p.91, 2003).
J no aprendizado no supervisionado, o indutor analisa os exemplos fornecidos e
tenta determinar se alguns deles podem ser agrupados de alguma maneira, formando
agrupamentos ou clusters (REZENDE, p.91, 2003 et. al. Cheeseman & Stutz, 1990). Aps a
determinao dos agrupamentos, normalmente, necessria uma anlise para determinar o
que cada agrupamento significa no contexto do problema que est sendo analisado,
(REZENDE, p.91, 2003).
Figura 4 - Hierarquia do Aprendizado
Fonte - Adaptada de REZENDE 2003
Na figura 4, apresentada a hierarquia de aprendizado j descrita, de forma que os

ns conduzem ao aprendizado supervisionado utilizando classificao.
Rezende (2003) explana Classificao da seguinte forma:
[...] o conhecimento sobre o domnio pode ser usado para escolher os dados ou para
fornecer alguma informao previamente conhecida como entrada ao indutor. Aps
induzido, o classificador geralmente avaliado e o processo de classificao pode
ser repetido, se necessrio, por exemplo, adicionando outros atributos, exemplos ou
mesmo ajustando alguns parmetros no processo de induo. REZENDE, p. 91-92,
2003.
Na seo a seguir sero apresentados alguns paradigmas do Aprendizado de

Mquina.
44
3.2.2 Aprendizado de Maquina e seus Paradigmas
O Aprendizado de Mquina tem alguns paradigmas, tais como: Simblico, Baseado

em Exemplos, Conexionista, Evolutivo e Estatstico. Este sero descritos de forma breve a
seguir.
Simblico: Aprendem construindo representaes simblicas de um conceito por
meio de exemplos e contra exemplos. Este tipo de representao simblica apresenta-se
tipicamente na forma de expresses lgicas, rvore de deciso, regras ou rede semnticas
(REZENDE, 2003, p.92).
Baseado em Exemplos: os sistemas baseados em exemplos se caracterizam por
classificar os exemplos nunca vistos, por meio de exemplos j conhecidos, ou existentes,
lembrando-se de outro similar, onde esta classe j conhecida assume que o novo exemplo
tambm possuir a mesma classe. Este tipo de sistema denominado lazy (preguioso), pois
estes precisam manter o sistema na memria para poder classificar novos exemplos,
diferentemente dos sistemas eager (guloso), que utilizam os exemplos para induzir os
modelos, eliminando-os logo em seguida (REZENDE, p.92, 2003, et. al. Aha, 1997).
Conexionista: as Redes Neurais so construes matemticas simples inspiradas no
modelo biolgico do sistema nervoso. A aluso ao nome Conexionismo d-se devido
semelhana entre a representao biolgica de uma rede neural do sistema nervoso e um
sistema, que por sua vez tem unidades altamente conectadas. A metfora com a rede biolgica
tem levado pesquisadores a acreditar que as Redes Neurais apresentam grandes potenciais na
resoluo de problemas que requer intenso processamento sensorial humano, como por
exemplo, a viso, e o reconhecimento de voz (REZENDE, 2003, p.92).
Evolutivo: a autora REZENDE (2003), diz que: Um classificador evolutivo
consiste de uma populao de elementos, de classificao que competem para fazer a
predio. Neste modelo os elementos mais fracos so descartados, e os elementos mais fortes
se multiplicam, produzindo variaes de si mesmo. Este modelo a exemplo do modelo citado
anteriormente tambm possui uma analogia ao mundo real, s que neste caso a teoria de
Darwin, onde sobrevivem apenas os melhores adaptados ao meio ambiente (REZENDE,
2003, p.92).
Estatstico: a ideia neste modelo encontrar uma boa aproximao no conceito
induzido, utilizando modelos estatsticos. Podemos utilizar como exemplo um classificador
linear que assume que as classes podem ser expressas como combinao linear dos valores
45
atribudos, e ento procurar uma combinao linear que fornea a melhor aproximao sobre
o conjunto de dados (REZENDE, 2003, p.92). Entre os modelos estatsticos, destaca-se o
Bayesiano, este modelo de aprendizado utiliza a probabilidade baseando-se em um prvio
conhecimento do problema, onde este problema comparado com os modelos de treinamento
existentes para determinar a probabilidade final de uma hiptese (REZENDE, 2003, p.92;
MITCHELL, 1998).
46
A ESTATSTICA
Estatstica o ramo da matemtica aplicada cujo princpio deriva da teoria da

probabilidade, que tem por objeto o agrupamento metdico assim como o estudo de sries de
fatos ou de dados numricos. (STIGLER, 1986)
4.1 A Estatstica e a Tomada de Deciso
Durante o sculo XX, segundo Salsburg (2009), a estatstica revolucionou a cincia

fornecendo modelos teis que otimizaram o processo de pesquisa, auxiliando o processo de
tomada de decises nas polticas socioeconmicas.
J Stigler (1986) diz que os mtodos estatsticos foram desenvolvidos como uma
mistura de cincia, tecnologia e lgica para a soluo e investigao de problemas em vrias
reas do conhecimento.
Para Igncio (2010), a evoluo dos computadores foi decisiva, pois fez com que a
estatstica se tornasse mais acessvel aos pesquisadores dos mais diversos campos de atuao.
Atualmente, os equipamentos e softwares permitem a manipulao de grande quantidade de
dados, o que veio a dinamizar o emprego dos mtodos estatsticos.
Ainda segundo o autor, a utilizao da estatstica atualmente est inserida nas mais
diversas reas, principalmente nos setores pblicos e privados, podendo ser apontados como
exemplo os dados numricos de empresas que so utilizados para aprimorar e aumentar o
volume de produo. Outro exemplo so os censos demogrficos que auxiliam o governo a
entender melhor sua populao e organizar melhor seus investimentos em sade, educao,
saneamento bsico, infraestrutura, entre outros.
Com o aumento da velocidade e volume de informao, a estatstica tornou-se
fundamental na produo e disseminao de conhecimento. O grau de importncia atribudo a
ela to elevado que incomum encontrar um rgo ou empresa, seja ela pblica ou privada,
que no possua reas destinadas aos estudos estatsticos.
47
No Brasil, segundo o IBGE (2010), devido necessidade de um rgo capaz de

articular e coordenar as pesquisas estatsticas foi unificado a ao dos servios especializados
em funcionamento no pas no ano de 1934, o que favoreceu a criao, do Instituto Nacional
de Estatstica (INE), porm esse iniciou suas atividades somente no ano de 1936, ano em que
foi institudo o Conselho Brasileiro de Geografia, onde este ultimo foi unificado ao INE, que
passou a se chamar Instituto Brasileiro de Geografia e Estatstica (IBGE). Desde sua criao,
o IBGE tem a funo analisar o territrio brasileiro, quantificando a nossa populao, e
demonstrando a evoluo da economia por meio do trabalho e da produo da sociedade, e
revelar como as sociedades vivem.
Segundo Igncio (2010),
[...] o IBGE o principal provedor de dados e informaes do pas, atendendo s
necessidades dos mais diversos segmentos da sociedade, bem como dos rgos das
esferas governamentais federal, estadual e municipal, oferecendo uma viso
completa e atual do pas, atravs do desempenho de suas principais funes, a saber:
coordenao, produo, anlise e consolidao de informaes estatsticas;
produo, anlise e consolidao de informaes geogrficas; estruturao e
implantao de um sistema de informaes ambientais; documentao e
disseminao de informaes; coordenao dos sistemas estatstico e cartogrfico
nacional (IGNCIO, 2010, p. 177-178).
4.2 Estatstica: Sinopse Histrica
Para Matsushita (2010):

[...] o que se entende, modernamente, por Estatstica ou Cincia Estatstica muito
mais do que um conjunto de tcnicas teis para algumas reas isoladas ou restritas
da cincia. Por exemplo, ao contrrio do que alguns imaginam, a estatstica no
um ramo da matemtica onde se investigam os processos de obteno, organizao e
anlise de dados sobre uma determinada populao. Tambm no se limita a um
conjunto de elementos numricos relativos a um fato social, nem a tabelas e grficos
usados para o resumo, a organizao e apresentao dos dados de uma pesquisa,
embora este seja um aspecto da estatstica que pode ser facilmente percebido no
cotidiano. (MATSUSHITA, 2010).
O autor define a estatstica como um conjunto de tcnicas e mtodos responsvel por

envolver todas as fases de uma pesquisa, iniciando pelo planejamento, e passando pela
coordenao, levantamento dos dados por meio do censo ou amostragens, aplicao de
questionrios, entrevistas e medies com a maior quantidade de dados/informaes possvel,
at o processamento, consistncia, anlise e interpretao destes dados, at estes serem
capazes de explicar fenmenos socioeconmicos, inferncia, clculo do nvel de confiana, e
do erro existente na resposta para uma determinada varivel, e disseminao das informaes.
48
Segundo Rao (1997), a estatstica pode ser definida, de forma simples e objetiva,
pela equao: conhecimento incerto + conhecimento sobre a incerteza = conhecimento til.
Desta forma, o objetivo da estatstica analisar os dados disponveis e que esto sujeitos a
certo grau de incerteza no planejamento e obteno de resultados.
Os estudos pioneiros mais relevantes, que auxiliou na criao de um vocabulrio
estatstico, foram feitos pelo alemo Gottfried Achenwall em 1746, de onde se origina a
palavra estatstica, que derivada da palavra latina STATU, que significa estado. Ele foi um
dos intelectuais que mais contribuiu de forma significativa para o desenvolvimento da
Estatstica moderna, pois tratava da descrio abrangente das caractersticas scio-polticoeconmicas dos diferentes Estados (IGNCIO, 2010, p. 181).
Igncio (2010) destaca que foi somente no sculo XIX que a estatstica comeou a
ganhar notoriedade nas mais diversas reas do conhecimento. A partir do sculo XX, comeou
a ser aplicada nas grandes organizaes, quando os japoneses comearam a falar em
qualidade total, surgindo assim estatstica moderna. A partir da, a evoluo foi bastante
significativa, passando a ser utilizada nos diferentes setores da sociedade para obter
informaes a partir do levantamento de dados com base em mtodos de amostragem
complexos.
A partir da segunda metade do sculo XX, assim como atualmente, os avanos da
Tecnologia da Informao tm aumentado de forma significativa capacidade de produzir,
armazenar e transmitir informao, paralelamente ao crescimento da demanda por estas
informaes em tempo hbil com um alto padro de qualidade, o que exigiu da estatstica um
avano no desenvolvimento de metodologias e indicadores cada vez mais complexos, que por
sua vez exige equipamentos de hardware e software modernos, alm de um profissional
capacitado. A gerao de indicadores sintticos cada vez mais sofisticados tem como exemplo
o ndice de Desenvolvimento Humano (IDH), ndice de Desenvolvimento Humano Municipal
(IDH-M), ndice Paulista de Responsabilidade Social (IPRS), ndice FIRJAN de
Desenvolvimento Municipal (IFDM), ndice Paranaense de Desempenho Municipal (IPDM),
entre outros, que juntamente com a anlise de dados de estatstica espacial, assim como o
georreferenciamento das informaes, so exemplos que j ocorrem, (IGNCIO, 2010).
Igncio (2010) destaca ainda que a evoluo constante e acelerada da capacidade de
processamento dos computadores, aliada ao desenvolvimento de softwares cada vez mais
poderosos, causou um aumento no interesse pelos mtodos estatsticos computacionalmente
intensivos, como os modelos lineares generalizados, modelos no lineares (como redes
neurais, rvores de deciso, modelos multinvel, modelos dinmicos espaciais), modelos
49
bayesianos, alm dos mtodos baseados em reamostragem, como testes de permutao e

bootstrap.
Pimentel (2009) diz que a utilidade da estatstica comprovada no seu uso, pois
grande parte das hipteses cientficas, independentemente da rea, precisa passar por um
estudo estatstico para ser aceita ou rejeitada, como por exemplo, no caso de teste de novos
medicamentos, a opinio popular de novos produtos, entre outros. Na rea mdica, nenhum
medicamento pode ser disponibilizado para o mercado se no tiver sua eficcia
estatisticamente comprovada. Toda a massa de dados e informaes produzidas atualmente
precisa ser analisada adequadamente. Essas anlises so realizadas com as mais variadas
tcnicas estatsticas. A rigor, pode-se dizer que onde houver incerteza, esta cincia pode ser
empregada.
Lopes (2005) diz que:
[...] a estatstica pode ser considerada como uma cincia quando, baseando-se em
suas teorias, estuda grandes conjuntos de dados, independentemente da natureza
destes, sendo autnoma e universal. considerado um mtodo quando serve de
instrumento particular a uma determinada cincia. Finalmente, considerada arte
quando aplicada visando construo de modelos para representar a realidade.
(LOPES, 2005)
Segundo Morettin (1981), as pessoas pensam que a estatstica se resume a tabelas e

grficos em colunas esportivas ou econmicas de jornais ou associam-na previso de
resultados eleitorais. Porm, a estatstica moderna alm destas atribuies tambm trabalha
com metodologias cientficas muito mais complexas. Assim, entre essas tarefas a estatstica
responsvel pelo planejamento de experimentos, interpretao dos dados obtidos por meio de
pesquisas de campo e apresentao de resultados de maneira a facilitar a tomada de deciso
por parte do pesquisador/gestor.
Igncio (2010), diz ainda que as instituies governamentais, tanto em nvel federal
quanto estadual e municipal, constantemente deparam-se com questes que necessitam de
anlise estatstica para a tomada de deciso. Como por exemplo:
O acusado culpado ou inocente?
O fumante passivo pode vir a desenvolver um cncer?
Qual a localizao exata de certo tumor cerebral?
Pode determinado medicamento reduzir o risco de ataque cardaco?
A cotao do dlar deve aumentar na prxima semana?
Qual ser o preo do ouro no final deste ano?
50
O uso do cinto de segurana realmente protege o motorista em caso de

acidente?
As variaes na produo industrial tm influncia no aumento ou reduo

dos preos?
A introduo de uma nova tecnologia diminui o custo de fabricao de certo

produto?
Qual a forma mais justa de se cobrar determinado imposto?
Qual a melhor estratgia de investimento a ser feita nas universidades

pblicas?
Qual ser o ndice de custo de vida no prximo ms?
Com certeza as respostas das perguntas acima estaro sujeitas a erro, e a estatstica
quem pode auxiliar a respond-las e de forma a reduzir a margem de erro, de forma a auxiliar
da melhor maneira possvel a tomada de deciso.
4.3 A Aplicao da Estatstica
A estatstica tem sido utilizada em pesquisas cientficas nas mais diversas reas do
conhecimento, visando otimizao de recursos econmicos e de processos de produo, bem
como o aumento da qualidade e produtividade, em previses e em muitos outros contextos.
Trata-se de uma cincia multidisciplinar, empregada nos mais diferentes ramos do
conhecimento, entre eles, a agronomia, biologia, computao, direito, economia, engenharia,
farmcia, fsica, geologia, hidrologia, matemtica, medicina, nutrio, odontologia,
psicologia, qumica, sociologia, entre outros (IGNCIO, 2010, p. 183).
Igncio (2010) diz ainda que praticamente todas as informaes divulgadas pelos
meios de comunicao provm de alguma forma de pesquisas e estudos estatsticos, como por
exemplo: o crescimento populacional, os ndices de inflao, emprego e desemprego, o custo
da cesta bsica, os ndices de Desenvolvimento Humano so alguns exemplos deste tipo de
pesquisas.
Na pesquisa cientfica, a estatstica empregada na definio do tipo de experimento,
na obteno dos dados de forma eficiente, em testes de hipteses, estimao de parmetros e
interpretao dos resultados. Permite, assim, ao pesquisador, testar diferentes hipteses a
partir dos dados empricos obtidos (ENCE, 2010).
51
No mercado financeiro e instituies bancrias, os mtodos estatsticos so adotados

em modelagem financeira e econmica, visando predizer o comportamento do crdito, da
inadimplncia, a movimentao de aes, alm de previses de taxas de juros, possibilitando
estabelecer estratgias para a concesso de emprstimos de forma a maximizar os lucros
(ENCE, 2010).
Em empresas de pesquisa de mercado, a estatstica tem grande importncia para
realizao de estudos cientficos sobre comportamento e perfil dos consumidores de
determinada regio, segundo o gnero, classe social ou idade, a fim de identificar as
necessidades e oportunidades de produtos e servios gerados para um determinado segmento
da populao (ENCE, 2010).
Na administrao, os mtodos estatsticos podem ser empregados para o
planejamento e controle da produo, visando implantao de tcnicas administrativas
eficientes que garantam menores custos e maiores lucros, na estimao de receitas, previso
de estoques e demandas e, principalmente, o conhecimento do mercado e de seu cliente
(ENCE, 2010).
Na medicina, os mtodos estatsticos so empregados em anlises de drogas e em
ensaios clnicos, permitindo testar hipteses sobre a eficcia de um novo medicamento no
combate a determinada doena. Estas informaes analisadas por mtodos estatsticos visam
estabelecer diagnsticos e previses de possveis causas de doenas, tornando o diagnstico
mdico mais objetivo e preciso, permitindo identificar situaes crticas e, consequentemente,
atuar em seu controle (ENCE, 2010).
Na rea jurdica, a estatstica utilizada com o intuito de fornecer evidncia sobre a
ocorrncia de determinado evento. Nesse sentido, pode verificar a chance de um ru ser
considerado culpado ou inocente, com base na coleta de informaes sobre o local onde
ocorreu o crime. Alm disso, a estatstica utilizada como ferramenta para controlar, de forma
mais eficiente, o gerenciamento dos tribunais no que diz respeito as anlise das aes ou
processos (COELHO, 2010).
Na economia, a partir de um modelo terico-econmico estabelecido, a estatstica
investiga com base em dados empricos, a capacidade de explicao das equaes econmicas
ajustadas, avaliando a significncia dos parmetros de cada regresso, os testes de hipteses
globais, os testes dos coeficientes individuais de regresso, o teste dos resduos de DurbinWatson, bem como o coeficiente de determinao do modelo (SOUZA, 2010).
O uso crescente da estatstica caminha em paralelo a necessidade de realizaes de
anlises e avaliaes objetivas e fundamentadas em conhecimentos cientficos. Estas
52
informaes devem ser concisas, especficas e eficazes, fornecendo subsdios imprescindveis

para a tomada de deciso. Desta forma, ela fornece mtodos importantes para que as mais
diversas organizaes possam definir melhor suas metas, avaliar sua performance,
identificando seus pontos fortes e fracos e assim atuar na melhoria contnua destas
(IGNCIO, 2010, p. 188).
Assim, a estatstica teve e continuar tendo um grande papel na transformao dos
mtodos de pesquisa nas diferentes reas do conhecimento, aumentando o nvel de confiana
das informaes divulgadas pelas pesquisas e favorecendo a tomada de decises acertadas, em
face das incertezas.
No prximo captulo ser apresentado um breve resumo do mtodo estatstico de
Regresso Linear, que um modelo matemtico que justifica a relao entre duas variveis,
permitindo realizar projees para instantes futuros, ou seja, predizer um dado fenmeno.
53
REGRESSO LINEAR
Regresso Linear uma metodologia amplamente utilizada e que pode ser aplicada
nas mais diversas reas. O principal objetivo deste obter uma equao que justifique
satisfatoriamente a relao entre duas variveis, sendo uma varivel independente e uma
dependente, possibilitando a realizao da predio de valores das variveis de interesse
(PEIXOTO, 2007, p.02).
Matos (1995, p.03-04), explica que a Regresso Linear nasceu da tentativa de se
relacionar um conjunto de observaes de determinadas variveis designadas por Xk, com a
leitura de uma determinada grandeza Y. No caso da regresso linear, est subjacente a uma
relao do tipo: Y= a + b1 X1+ b2 X2 + ... + bp Xp.
O autor ainda complementa dizendo que o padro a, b1, b2,... bp seriam os parmetros
para regresso linear procurada, e que esses objetivos podem ser explicativos, ou seja,
demonstrar uma relao matemtica que pode indicar, mas no prova uma relao de causaefeito, ou ento um objetivo preditivo, ou seja, obter uma relao que permite prever o um
evento X de Y, sem a necessidade de medi-lo.
J Peternelli (2004), diz que a anlise de regresso baseia-se em anlises estatsticas
com o propsito de encontrar uma relao funcional entre uma varivel dependente com uma
ou mais variveis independente, ou seja, consiste na obteno de uma equao que consiga
explicar a variao da varivel dependente pela variao dos nveis das variveis
independentes.
De forma mais ampla e particular, Peixoto (2007, p.02-03) diz ainda que um modelo
de Regresso Linear Simples envolve a relao linear entre duas variveis: X e Y, que podem
ser suficientemente compreendida pela seguinte equao: Y = a + bx + u. Cujos parmetros
so definidos da seguinte forma:
Y = Varivel dependente;
x = Varivel independente;
a = Coeficiente linear ou intercepto da reta;
b = Coeficiente angular ou declividade da reta;
u = Erro aleatrio da populao.
54
A autora diz tambm que esta mesma equao matemtica tambm pode ser
representada da seguinte forma: Yi = 0 + 1Xi + i, onde os parmetros so definidos da
seguinte forma:
Yi = o i-simo valor da varivel resposta;
0 e 1 = So os parmetros de coeficientes de regresso;
Xi = o i-simo valor da varivel preditora, uma constante conhecida, fixa.
i = o termo do erro aleatrio com E(i) = 0, e 2(i) = 2;
i e j = No so correlacionados (i, j) = 0 para todo i, j; i j; (covarincia

nula).
Baseando-se nessa metodologia matemtica, estabeleceremos uma equao que

represente um dado fenmeno, e o fenmeno a ser estudado ser o ndice de Desenvolvimento
Humano (IDH), onde o objetivo principal ser verificar se o mtodo o mais adequado a ser
aplicado como modelo preditivo, e consequentemente prever o fenmeno para os prximos
anos.
Contudo, o modelo dever ser harmonioso com o que de fato acontece prtica. E
Peternelli (2004) diz que para que isso ocorra devem-se levar em conta as seguintes
consideraes no momento da escolha do modelo:
O modelo selecionado deve ser condizente tanto no grau como no aspecto da

curva, para se representar em termos prticos, o fenmeno em estudo;
O modelo deve conter apenas as variveis que so relevantes para explicar o

fenmeno.
Mas antes de escolher o modelo, explanaremos um pouco a respeito do IDH

brasileiro, na prxima seo.
5.1 O ndice de Desenvolvimento Humano
Segundo a ONU Organizao das Naes Unidas, o desenvolvimento humano o

processo de ampliao das liberdades das pessoas no que tange suas capacidades e as
oportunidades a seu dispor, para que elas possam escolher a vida que desejam ter.
O conceito de desenvolvimento humano, assim como a sua medida, o IDH, foi criado
55
e apresentado em 1990, no primeiro relatrio da ONU para o Programa das Naes Unidas
para o Desenvolvimento PNUD, sendo idealizado pelo economista paquistans Mahbub ul
Haq, como auxilio do economista Amartya Sen (IDHM, 2013).
A popularizao de desenvolvimento humano deu-se imediato a criao e adoo do
IDH pelos pases membros da ONU. Esta medida foi criada como forma de mensurao do
nvel de desenvolvimento humano em um pas, em substituio ao PIB Produto Interno
Bruto, pois este era hegemnico poca como medida de desenvolvimento (IDHM, 2013).
O IDH um nmero que varia entre 0 e 1. Quanto mais prximo de 1, maior o
desenvolvimento humano de um pas.
O IDH ganhou grande notoriedade devido a sua simplicidade, por ser de fcil
compreenso, e por sua forma holstica e abrangente de mensurar o desenvolvimento, pois
capaz de traduzir em um nico numero trs importantes dimenses (IDHM, 2013).
O IDH rene trs importantes fatores para o desenvolvimento humano: a
oportunidade de se levar uma vida longa e saudvel sade , ter acesso ao conhecimento
educao e poder desfrutar de um padro de vida digno renda (IDHM, 2013).
5.2 As Trs dimenses do IDH
Na essncia de sua formao, o IDH constitudo por trs indicadores, que

representam a forma de uma sociedade ter vida longa e saudvel, com acesso ao
conhecimento, com o controle sobre seus recursos de forma a garantir um padro de vida
digno.
O objetivo da ONU avaliar por meio das duas primeiras dimenses, se a realizao
d-se por meio de escolhas livres e informadas, com base em habilidades e conhecimentos
acumulados, e na terceira dimenso busca avaliar se o controle sobre os recursos prprios
acontecem livres de privaes de necessidades bsicas, como gua, alimento e moradia
(IDHM, 2013).
O PNUD cita as dimenses da seguinte forma:
Vida longa e saudvel (longevidade): Ter uma vida longa e saudvel fundamental
para a vida plena. A promoo do desenvolvimento humano requer que sejam
ampliadas as oportunidades que as pessoas tm de evitar a morte prematura, e de
garantir a elas um ambiente saudvel, com acesso sade de qualidade, para que
possam atingir o padro mais elevado possvel de sade fsica e mental.
Acesso ao conhecimento (educao): O acesso ao conhecimento um determinante
56
crtico para o bem-estar e essencial para o exerccio das liberdades individuais, da

autonomia e autoestima. A educao fundamental para expandir as habilidades das
pessoas para que elas possam decidir sobre seu futuro. Educao constri confiana,
confere dignidade e amplia os horizontes e as perspectivas de vida.
Padro de vida (renda): A renda essencial para acessarmos necessidades bsicas
como gua, comida e abrigo, mas tambm para podermos transcender essas
necessidades rumo a uma vida de escolhas genunas e exerccio de liberdades. A
renda um meio para uma srie de fins, possibilita nossa opo por alternativas
disponveis e sua ausncia pode limitar as oportunidades de vida (IDHM, 2013).
A figura 5 ilustra as trs dimenses do IDH.

Figura 5 - As Trs dimenses do IDH
Fonte - Atlas PNUD 2013
57
5.3 A Coleta e Seleo de Dados
A coleta de dados um dos meios pelo qual podemos obter as informaes sobre o
problema da pesquisa. Baseando-se neste fato, o presente estudo considera os dados extrados
do relatrio anual da PNUD divulgado no perodo de dezembro de 2013.
Como um dos objetivos do estudo a predio do IDH do Brasil para os prximos
anos, a seleo dos dados compreende o histrico deste a partir da dcada de 80, valores estes
divulgado pelo Programa das Naes Unidas.
Na figura 6 possvel visualizar a evoluo do IDH brasileiro:
Figura 6 - A Evoluo do IDH Brasileiro
Fonte - Relatrio PNUD 2013
Analisando a figura 6, nota-se um crescimento relativamente lento nos ltimos

quatro anos. Os testes a serem realizados tero o objetivo de nos predizer se esta curva tende a
se manter nos prximos anos.
58

Para se estabelecer uma equao capaz de representar o fenmeno em estudo foi

utilizado um grfico chamado de diagrama de disperso para verificar como ser o
comportamento dos valores das variveis dependentes (IDH), em funo da variao das
variveis independentes (ano).
Peternelli (2004), diz que o diagrama de disperso uma representao grfica do
conjunto de dados, que em sntese apresenta trs situaes que podem ocorrer:
Correlao Positiva: ocorre quando uma varivel cresce, e a outra em mdia

tambm cresce, e essas so mais fortes quando os pontos esto mais prximos
de uma reta imaginria.
Correlao Negativa: ocorre quando uma varivel cresce, e a outra em mdia

decresce, e essas tambm so mais fortes quando os pontos esto mais
prximos de uma reta imaginria.
No Correlacionadas: ocorre quando os pontos esto dispersos, e sem

aparente direo, ento se diz que a relao muito baixa ou nula.
6.1 Ensaios Efetuados

Para a realizao dos testes foram utilizadas duas ferramentas consolidadas no
mercado, sendo o Microsoft Office Excel, e o software estatstico Minitab.
Foram utilizadas ambas as ferramentas com o objetivo de se estabelecer uma
hiptese que pudesse explicar o fenmeno em estudo. Para tanto, foi necessrio verificar qual
tipo de curva e equao de modelo matemtico que mais se aproximasse dos pontos
representados no diagrama de disperso com base nos dados obtidos acerca do IDH segundo a
tabela 5:
Tabela 5 - Histrico do IDH Brasileiro
INDICE DE DESENVOLVIMENTO HUMANO

ANO (X)
1980 1990 2000 2005 2008 2010 2011 2012 2013
IDH - BRASIL (Y) 0,545 0,612 0,682 0,705 0,731 0,739 0,740 0,742 0,744
59
Fonte - Adaptada do PNUD 2013
Foi criado um diagrama de disperso em ambos os sistemas, e estes retornaram com

resultados idnticos, que podem ser observados nas figuras 7 e 9, e que sero explicados na
prxima seo, quando falaremos de resultados obtidos.
Figura 7 - Diagrama de Disperso - Minitab
Figura 8 - Diagrama de Disperso - Microsoft Office Excel
60
6.2 Resultados Obtidos
Observou-se que os pontos do diagrama de disperso, ajustaram-se de forma bastante

satisfatria reta do modelo matemtico proposto Regresso Linear. No houve pontos no
diagrama com distncia significativa da reta. Podendo concluir que o modelo matemtico
proposto pode ser aplicado para se prever o IDH brasileiro.
Obteve-se como resultado os seguintes valores:
Para R obtivemos um resultado de 99,2%, o que significa que sempre que

esse valor for maior que 60% entende-se que teremos um bom ajuste da reta;
Para o Coeficiente Angular obtivemos um valor de 0,0062, o que significa

que se este valor fosse negativo teramos uma correlao negativa, mas nesse
caso a correlao positiva, ou seja, as variveis tendem a crescer de forma
harmnica e com um bom ajuste reta.
Para o Valor-P dos coeficientes (angular e linear), obtivemos valores

inferiores a 5%, o que significa que os valores desses coeficientes so
bastante significativos.
Todas estas observaes esto ilustradas e destacadas na figura 9 gerada no Microsoft

Office Excel.
Figura 9 - Resumo do Grfico de Regresso do IDH
Aps a obteno dos resultados da figura acima, assim como na fase de teste foi
elaborado um grfico de disperso utilizando as ferramentas do Microsoft Office Excel e do
software Minitab para se aplicar a equao de regresso para predizer os IDHs futuros.
Notou-se que as variveis ficaram melhores ajustadas reta aps a realizao da predio
para os anos de 2.018 e 2.023, conforme segue na figura 10, significando que se caso o
61
passado se repita teremos grande possibilidades do evento ocorrer nos anos vindouros.
Figura 10 - Grfico de Diagrama de Disperso com o Resultado Predito - Excel
Tambm possvel verificar a equao de regresso gerada pelo Minitab ilustrada na

figura 11:
Figura 11 - Equao de Regresso
62
A figura 12 apresenta o resultado predito por meio do Minitab para os anos de 2.018
e 2.023 obtidos a partir da ferramenta. Compreende-se como resultado o valor tabulado
abaixo do item Ajuste.
Figura 12 - Resultado de Predio do IDH- Minitab
Aps a concluso das anlises de regresso e predio, foi gerado tambm por meio
do Minitab um grfico estatstico que apresenta a probabilidade do fenmeno em estudo
ocorrer, partindo de um ndice de confiabilidade de 95%, conforme ilustrado na figura 13:
Figura 13 - Probabilidade de Ocorrencia do Fenmeno
63
Na primeira metade do grfico est representado o fenmeno que j ocorreu, ou seja,

os resultados obtidos entre os anos 80 e o ano de 2.013. Na segunda metade tambm est
sendo mostrando o fenmeno j ocorrido, juntamente com a probabilidade do fenmeno
predito nos anos de 2.018, e 2.023 ocorrerem. E o grfico demonstra que esta probabilidade
bastante considervel, pois os pontos das variveis esto fortemente alinhados a reta.
Outro ponto de grande relevncia a posio do Brasil na escala de mundial do IDH,
pois segundo a PNUD o pas ocupa atualmente a posio de 79 no ranking com 187 pases,
com um ndice de 0,744, em uma escala que vai de 0 a 1, classificada da seguinte forma:
Figura 14 - Faixa de Desenvolvimento Humano
Fonte - Atlas PNUD 2013
Mesmo o Brasil estando em uma posio classificada como Alto, ainda estamos
longes dos pases de primeiro mundo, pois este processo evolutivo bastante lento. Para se ter
noo da velocidade da evoluo dos nveis de IDH, o Brasil possui atualmente os mesmos
ndices que a Frana possua na dcada de 80 (IDHM, 2013).
E por meio da anlise de regresso e pode-se observar que se caso o passado se
refletir no futuro, o Brasil alcanar o patamar dos pases de primeiro mundo entre dos anos
de 2.021 e 2.022.
64
CONCLUSO
Durante o processo de desenvolvimento deste trabalho, buscou-se atingir os objetivos
de explanao da predio por meio de reviso bibliogrfica, considerando o objetivo de
explorar os conceitos de Big Data, Data Mining, Anlise Preditiva e Estatstica.
Este estudo buscou na literatura conceitos sobre os referidos temas, em autores
clssicos e pesquisadores conceituados como forma de estabelecer uma viso geral da
tecnologia Big Data e da Anlise Preditiva e seus principais componentes, com nfase no
Data Mining e na Regresso.
Aps a reviso bibliogrfica dos temas envolvidos verificou-se que a Anlise
Preditiva assim como a tecnologia Big Data ainda so um cenrio bastante imaturo, e existem
poucos exemplos de melhores prticas. Portanto, uma iniciativa inovadora, com riscos e
recompensas para aqueles que forem inovadores. Mas ficar na zona de conforto aguardando a
onda chegar pode ser perigoso, pois provavelmente at o fim da dcada o Big Data passar a
ser apenas Just Data, ou seja, ser o modelo natural de se pensar em anlises de dados.
O que se denota que atualmente estamos em um momento singular, frente a essa
mudana no conceito de gesto de dados e informaes, com uma contnua reduo nos
preos dos equipamentos, alm de ferramentas e softwares que auxiliam de forma cada vez
mais assertiva no processo de anlises e tomada de deciso.
Quando este momento chegar tecnologia Big Data se tornar universal nas
empresas e o termo Big deixar de fazer sentido, pois ser um modelo natural de
armazenagem de dados e projeo de negcios.
O processo de descoberta de conhecimento em bases de dados passa por uma srie de
etapas, desde a coleta, a minerao dos dados, a consolidao e extrao dos padres e regras,
e por fim a agregao de valor que possibilita uma melhor tomada de deciso.
O presente estudo permitiu compreender que os recursos de tecnologia da
informao so indispensveis a esse tipo de apoio, principalmente em instituies privadas e
rgos pblicos que atuam de forma cada vez mais dinmica, e que requerem monitoramento
constante. E para se realizar tal feito indispensvel correta aplicao destes recursos, pois
s assim possvel garantir um eficiente e eficaz sistema de apoio deciso.
No entanto, as informaes geradas por esses sistemas, por si s, podem no ser de
grande valia se no existir um profissional que seja capaz de avaliar e interpretar os resultados
65
obtidos por meio desses sistemas.

Finalmente, dadas s explanaes acerca deste trabalho, podemos concluir que a
utilizao adequada de sistemas e tcnicas de predio capaz de prover informaes
confiveis, teis e tempestivas ao processo decisrio, tornando-se um instrumento com alto
grau de confiabilidade e com benefcios mensurveis para as organizaes.
Trabalhos Futuros
Ao final deste trabalho fica como sugesto de pesquisa a comparao da efetividade

deste mtodo, em relao a outros mtodos.
Tambm fica como sugesto de pesquisa a avaliao de possibilidades de alteraes
em predio baseadas em julgamentos, onde esse julgamento baseado na crena das pessoas
e na informao sobre o processo, ou seja, uma pessoa que tenha diferentes crenas ou
diferentes informaes pode assinalar uma probabilidade diferente ao mesmo resultado. Por
essa razo, apropriado falar de probabilidade subjetiva de um resultado, em vez de falar de
uma verdadeira probabilidade daquele resultado.
66
REFERNCIAS
AGRAWAL, R.; IMIELINSKI, T.; SRIKANT, R. Mining Association Rules Between Sets
of Items in Large Databases. Proc. Of the ACM SIGMOD Intl Conference on
Management of Data, Washington D. C., May, 1993.
BARBIERI, C. BI Business Intelligence: Modelagem e Tecnologia. 2 ed. Rio de Janeiro:
Axcel Books do Brasil Editora, 2001.
BARCELOS TRONTO, I. F.; ARAUJO, A. C.; SIMOES, J. D. S.; SANTANNA, N.
Business Intelligence: Inteligncia nos Negcios. In III workshop dos Cursos de
Computao Aplicada do INPE, 2003, So Jos dos Campos. v. 3. p. 187-192
BRIETMAN, K. Big Data Overview. EMC Summer School on Big Data. EMC/NCE/UFRJ.
Rio
de
Janeiro.
2013.
Disponvel
em:
http://2014.emcbigdataschool.nce.ufrj.br/images/presentations/_Big_Data_Summer_Schoo
l_Karin.pdf. Acessado em: 15 de maio de 2014.
CARVALHO, L. A. V. Data Mining A Minerao de Dados no Marketing, Medicina,
Economia, Engenharia e Administrao. Rio de Janeiro: editora Cincia Moderna, 2005.
CIARINI, A. E. M. Research on Big Data and Opportunities. EMC Summer School on Big
Data. EMC/NCE/UFRJ. Rio de Janeiro, 2013.
COELHO, H. F. C. UFPB O profissional em estatstica. Disponvel em:
http://sites.google.com/site/hemilio/profissionalestat. Acessado em: 11 de agosto de 2014.
DATASTORM. 5 Vs: A Estrutura do Big Data. Disponvel em:
http://datastorm.com.br/blog/artigos/5-vs-a-estrutura-do-big-data/. Acessado em: 29 de
outubro de 2014
DAVENPORT, T. H. Big Data at Work: Dispelling the Myths, Uncovering the
Opportunities. Harvard Business Review Press Books. 2014.
DAVENPORT, T. H.; PATIL, D.J. Data Scientist: The Sexiest Job of the 21st Century.
Harvard Business Review 90, no. 10, October, p.7076, 2012.
67
DUBIN, R. Theory Building, New York: The Free Press, 1969. KAPLAN, A. The
Conduct of Inquiry: Methodology for Beha- Vioral Science, 1964. New York: Chandler
Publishing.
DUMBILL, E. What is Big Data? In: OReilly Media Inc, 2012. Disponvel em:
http://www.oreilly.com/data/free/files/big-data-now-2012.pdf. Acessado em: 01 de maio
de 2014.
DUTRA, R. G. Aplicao de Mtodos de Inteligncia Artificial em Inteligncia dos
Negcios XXV ENEGEP, Porto Alegre RS, 2005.
EMC. Brazil country brief. The Digital Universe of opportunities. 2014. Disponvel em:
http://www.emc.com/collateral/analystreports/idc-digital-universe-2014-brazil.pdf.
Acessado em: 12 de maio de 2014.
ENCE.
As
Aplicaes
de
Estatstica.
Disponvel
em:
<http://www.ibge.gov.br/ence/estatistica/aplicacoes.asp>. Acessado em: 23 de agosto de.
2014.
FAYYAD, U.; SHAPIRO, G. P. From Data Mining to knowledge Discovery in databases.
AI. Magazine, 17, Fall 1996.
FLORISSI, P. Big Data. EMC Corporation. On Big Data. 2012. Disponvel em:
https://www.carecorenational.com/healthcaresummit/powerpoints/PatriciaFlorissiPhD.pdf.
Acessado em: 13 de junho de 2014.
FOX, P.; HENDLER, J. Changing the Equation on Scientific Data Visualization. Science
331,
705
(2011).
Disponvel
em:
http://data2discovery.org/dev/wpcontent/uploads/2013/05/Fox-andHendler_Visualization_Science-2011-Fox-705-8.pdf. Acesso em: 15 de julho de 2014
GIL. A. C. Como Elaborar Projetos de Pesquisa. 3. ed. So Paulo: Atlas, 1996.
GIUDICI, P. Applied Data Mining: statistical methods for business and Industry. John
Wiley & Sons Ltd. 2003.
GOLDSCHMIDTH, R.; PASSOS, E. Data Mining: Um Guia Pratico. Rio de Janeiro:
Elsevier, 2005, 3 reimpresso.
GONALVES, E. C. Regras de Associao e suas Medidas de Interesse Objetivas e
Subjetivas. INFOCOMP (UFLA). v. 4, 2005.
68
GRILO JNIOR, T. F. Aplicao de Tcnicas de Data Mining para Auxiliar no Processo de

Fiscalizao no mbito do Tribunal de Contas do Estado da Paraba UFPB, 2010.
GUAZZELLI, A. VP of Analytics. Zementis, 2012Inc. Disponvel
http://www.ibm.com/developerworks/br/industry/library/ba-predictive-analytics1/
Acessado em: 11 de outubro de 2014.
em:
HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. 2 ed. San Francisco:
Morgan Kaufmann Publisher, 2006.
HEATH T.; BIZER C. Linked Data: Evolving the Web into a Global Data Space (1st
edition). Synthesis Lectures on the Semantic Web: Theory and Technology. Morgan &
Claypool Publishers, 2011.
IBGE.
O
IBGE.
Disponvel
em:
http://www.ibge.gov.br/home/disseminacao/eventos/missao/instituicao.shtm. Acesso em:
02 de julho de 2014.
IDHM - ndice de Desenvolvimento Humano Municipal Brasileiro. Braslia: PNUD, Ipea,
FJP, 2013. Disponvel em: www.atlasbrasil.org.br. Acessado em: 18 de outubro de 2014
IGNACIO, S. A. Importncia da Estatstica para o Processo de Conhecimento e Tomada de
Deciso. REVISTA PARANAENSE DE DESENVOLVIMENTO, Curitiba, n 118
jan/jun 2010.
INTELIGNCIA MERCADOLOGICA Up-Selling e Cross-Selling. Disponvel em:
http://inteligenciamercadologica.info/2008/09/24/up-selling-e-cross-selling/. Acessado em:
25 de agosto de 20014.
LOPES, P. A. Artigos: Entendendo a importncia da estatstica sem ser gnio, matemtico
ou
bruxo.
2.
Disponvel
em:
http://www.administradores.com.br/informese/artigos/entendendo-a-importancia-da-estatistica-sem-ser-genio-matematico-oubruxo/11591/. Acessado em: 03 de agosto de 2014.
MARCHAND, D. A.; PEPPARD, J. Why IT Fumbles Analytics. Harvard Business Review,
jan-fev. 2013.
MARCOULIDES, G. A.; SAUNDERS, C. PLS: A Silver Bullet? MIS Quarterly (30:2),
p.3-4, 2006.
MATOS, M. A. Manual Operacional para a Regresso Linear. FEUP, 1995.
69
MATSUSHITA,
R.
Y.
O
que
Estatstica?
Disponvel
em:
<http://vsites.unb.br/ie/est/complementar/estatistica.htm>. Acesso em: 01 de agosto. 2014.
MATTOSO, M. Scientific Workflows and Big Data. EMC Summer School on Big Data.
EMC/NCE/UFRJ. Rio de Janeiro. 2013.
MINELLI, M.; CHAMBERS, M.; DHIRAJ, A. Big Data, Big Analytics: Emerging Business
Intelligence and Analytic Trends for Today's Businesses. Wiley CIO Series. 2013.
MONARD, M. J.; BARANAUSKAS, J. A. Sistemas Inteligentes, Conceitos sobre
Aprendizado de Maquinas 2003
MONK, S. Tecnologia da Informao para Gesto - 8ed: Em Busca de um Melhor
Desempenho Estratgico e Operacional, 2013.
MORETTIN, P. A. Introduo estatstica para cincias exatas. So Paulo: Atual, 1981.
MURAYAMA, A. C. Tcnicas Gerenciais Aplicadas em Medio de Desempenho e Gesto
Estratgica nas Organizaes. Dissertao Mestrado. Instituto de Pesquisas Tecnolgicas
do Estado de So Paulo. IPT 2002.
NYCE, Charles. Predictive Analytics White Paper. American Institute for CPCU/Insurance
Institute of America. Malvern, PA. 2007.
OBRIAN, J. A. Sistemas de Informao e as Decises Gerenciais na era da Internet. 2 ed.,
So Paulo: Saraiva, 2004.
OLIVEIRA, A. Data Science and Data Analytics. 2013. EMC Summer School on Big Data.
EMC/NCE/UFRJ. Rio de Janeiro. 2013.
ONUBR. ONU. Disponvel em http://www.onu.org.br/onu-dos-7-bilhoesde-habitantes-domundo-6-bi-temcelulares-mas-25-bi-nao-tem-banheiros. Acesso em 01 maio 2014.
PEIXOTO, A. P. N. Regresso Linear Simples. Departamento de Informtica em Sade
UNIFESP-SP. So Paulo, 2007.
PETERENELLI, L. A. INF 162. Captulo 9 Regresso Linear e Correlao. UFV, 2004.
Disponvel
em:
http://www.dpi.ufv.br/~peternelli/inf162.www.16032004/materiais/CAPITULO9.pdf.
Acessado em 16 de novembro de 2014.
70
PIMENTEL, A. Profetas das Chuvas - Estatstica base para previses meteorolgicas.

Dirio
do
Nordeste,
24
jan.
2009.
Disponvel
em:
http://diariodonordeste.globo.com/materia.asp?codigo=609209. Acesso em: 11 de agosto
de 2014.
PINHEIRO, L.V.R., LOUREIRO, J.M.M. Traados e limites da Cincia da Informao.
Cincia da Informao, Braslia, v.24, n.1, 1995.
PIZZI, L. C. Minerao Multi-Relacional: o algoritmo GFP-growth. Dissertao Mestrado
Universidade Federal de So Carlos. So Carlos, 2006.
PORTO, F. Big Data in Astronomy: The LIneA-DEXL case 2013. EMC Summer School on
Big Data. EMC/NCE/UFRJ. Rio de Janeiro. 2013.
PROJETO TAMANDU. Disponvel em: http://tamandua.speed.dcc.ufmg.br. Acessado
em: 19 de agosto de 2014.
RAO, C. R. Statistics and truth: putting chance to work. 2nd. ed. Singapore: World
Scientific, 1997.
REZENDE, S. O. Sistemas Inteligentes: Fundamentos e Aplicaes. RECOPEIA Rede
Cooperativa de Pesquisa em Inteligncia Artificial. 1 ed. Editora Manole Ltda. 2003
RIBEIRO, C. J. S. Big Data: os novos Desafios para os Profissionais da Informao. Rio de
Janeiro. UNIRIO. 2014
RIBEIRO, C. J. S. Diretrizes para o Projeto de Portais de Informao: Uma Proposta
Interdisciplinar Baseada na Anlise de Domnio e Arquitetura da Informao. 2008. 298 f.
Tese (Doutorado em Cincia da Informao) Convnio UFF/IBICT, Rio de Janeiro.
RODRIGUES, W. C. Metodologia Cientifica FAETEC/IST. Paracambi, 2007
SALSBURG, D. Uma Senhora Toma Ch...: Como a Estatstica Revolucionou a Cincia no
Sculo XX. Rio de Janeiro: Zahar, 2009.
SANTOS, I. H. R. Big Data Research and Developement at Petrobras. EMC Summer
School on Big Data. EMC/NCE/UFRJ. Rio de Janeiro, 2014. Disponvel em:
http://2014.emcbigdataschool.nce.ufrj.br/images/presentations/Ismael_BigDataTOOL_Su
mmerSchool_v2.pdf. Acesso em: 18 de maio 2014.
71
SARACEVIC, T. Cincia da informao: Origem, Evoluo e Relaes. Belo Horizonte, v.

1, n. 1, p. 41-62, jun/1996.
SATHI, A. Big Data Analytics: Disruptive Technologies for Changing the Game. Mc Press.
2013.
SEYMOUR, C. The State of Big Data. EContentMag.com, jan-feb, p. 26-27. 2014.
SILVEIRA, R. D. F. Minerao de Dados Aplicada Definio de ndices em Sistemas de
Raciocnio Baseado em Caos. UFRGS, 2003.
SOUZA, L. G. Artigos de Economia - A estatstica na economia. Disponvel em:
<http://www.eumed.net/libros/2006b/lgs-art/1o.htm>. Acesso em: 15 de agosto de 2014.
STIGLER, S. M. The history of Statistics: The Measurement of Uncertainty Before 1900.
Cambridge: Belknap Press of Harvard University Press, 1986.
STORAGEGAGA. Big Data is Big Headache. 2014. Disponvel em:
http://storagegaga.wordpress.com/2011/10/28/big-data-is-big-headache/. Acessado em: 29
de maio de 2014
TAN, P. N.; STAINBACH, M.; KUMAR, M. Vipin. Introduo ao Data Mining. Rio de
Janeiro. Editora Cincia Moderna, 2009.
TAVARES, E. BIG DATA in Business. EMC Summer School on Big Data.
EMC/NCE/UFRJ.
Rio
de
Janeiro.
2014.
Disponvel
em:
http://2014.emcbigdataschool.nce.ufrj.br/images/presentations/Apresentacao_Elaine_Tavar
es.pdf. Acessado em: 13 de junho 2014.
TEMPLE-RASTON, D. NPR Predicting The Future: Fantasy or a Good Algorithm? 2012
Disponvel em: http://www.npr.org/2012/10/08/162397787/predicting-the-futurefantasy-or-a-good-algorithm. Acessado em: 01 de outubro de 2014
TURBAN, E; SHARDA, R; ARONSON, J, E; KING, D. Business Intelligence: Um
Enfoque Gerencial para a Inteligncia de Negocio. Porto Alegre: Bookman, 2009.
VASCONCELOS, B. D. S. Minerao de Regras de Classificao com Sistemas de Banco
de Dados Objeto-Relacional. Estudo de Caso: Regra de Classificao de Litofcies de
Poo de Petrleo. p. 127, Dissertao Mestrado Universidade Federal de Campina Grande,
Campina Grande, 2002.
72
VERCELLIS, C. Business Intelligence: Data Mining and Optimization for Decision

Making. John Wiley & Sons Ltd. 2009.
WIKIPEDIA.
A
Enciclopdia
Livre.
Disponvel
http://pt.wikipedia.org/wiki/Populao_mundial. Acessado em 01 de maio de 2014
em:
WITTEN, I. H.; FRANK, E. Data Mining: Pratical Machine Learning Tools and
Techniques Whit Java Implementations. Morgan Kaufmann Publisher Inc., 2000.

Análise Preditiva em Sistemas de Informação No Contexto Do Big Data

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Análise Preditiva em Sistemas de Informação No Contexto Do Big Data

Transféré par

Droits d'auteur :

Formats disponibles

FUNDAO DE ENSINO EURPIDES SOARES DA ROCHA

CENTRO UNIVERSITRIO EURPIDES DE MARLIA UNIVEM

JORGE LUS PEREIRA

ANLISE PREDITIVA EM SISTEMAS DE INFORMAO NO

JORGE LUS PEREIRA

ANLISE PREDITIVA EM SISTEMAS DE INFORMAO NO

Trabalho de Curso apresentado ao Curso de

JORGE LUS PEREIRA

ANLISE PREDITIVA EM SISTEMAS DE INFORMAO NO

Banca examinadora da monografia apresentada ao Centro Universitrio Eurpides de

ORIENTADOR: Prof. Geraldo Pereira Junior

1 EXAMINADOR: Leonardo de Castro Botega

2 EXAMINADOR: Jussara Mallia Zachi

Marlia, 01 de Dezembro de 2014.

Figura 1 - O Mundo dos Dados ................................................................................................ 21

Tabela 1 - Comparativo entre ferramentas utilizadas na Minerao de Dados ........................ 29

LISTA DE ABREVIATURAS E SIGLAS

Customer Relationship Management

Escola Nacional de Cincias Estatsticas

Federao das Indstrias do Estado do Rio de Janeiro

Instituto Brasileiro de Geografia e Estatstica

ndice de Desenvolvimento Humano

ndice de Desenvolvimento Humano Municipal

ndice Firjam de Desenvolvimento Municipal

Instituto Nacional de Estatstica

ndice Paranaense de Desenvolvimento Municipal

ndice Paulista de Responsabilidade Social

Knowledge Discovery in Databases

Organizao das Naes Unidas

Plano das Naes Unidas para o Desenvolvimento

Sistema Gerenciador de Banco de Dados

O BIG DATA ................................................................................................................................. 18

A Viso do Big Data ............................................................................................................. 19

Big Data Analytics ................................................................................................................ 22

MINERAO DE DADOS (DATA MINING) ............................................................................. 26

Principais Ferramentas da Minerao de Dados ................................................................... 28

Algoritmo de Minerao de Dados ....................................................................................... 30

Aplicao de Regra de Associao ....................................................................................... 34

Aplicaes de Minerao de Dados ...................................................................................... 35

Exemplo de Aplicaes de Tcnicas de Data Mining ........................................................... 36

ANLISE PREDITIVA ................................................................................................................ 39

A Importncia da Quantidade e Qualidade dos Dados .......................................................... 40

O Aprendizado de Mquina na Anlise Preditiva ................................................................. 42

A Hierarquia do Aprendizado (Conceitos e Definies) ............................................... 42

Aprendizado de Maquina e seus Paradigmas ................................................................ 44

A Estatstica e a Tomada de Deciso .................................................................................... 46

Estatstica: Sinopse Histrica ................................................................................................ 47

REGRESSO LINEAR ................................................................................................................ 53

O ndice de Desenvolvimento Humano ................................................................................ 54

As Trs dimenses do IDH ................................................................................................... 55

A Coleta e Seleo de Dados ................................................................................................ 57

6 ANLISE PREDITIVA EM SISTEMAS DE INFORMAO NO CONTEXTO DO BIG

Ensaios Efetuados ................................................................................................................. 58

Explorar os conceitos de Big Data;

Explorar os conceitos de Data Mining;

Explorar os conceitos de Anlise Preditiva

Verificar por meio de pesquisa qual a melhor tcnica estatstica para a

Utilizar software estatstico para gerao de predio do IDH do Brasil.

A elaborao do trabalho baseou-se em reviso bibliogrfica, como forma de garantir

Com a evoluo da tecnologia o cotidiano ficou repleto de dados e informaes, s

1.1 A Viso do Big Data

A mltipla natureza dos dados aspecto relacionado com as diferentes fontes

O uso de processamento em nuvem aspecto relacionado ao uso ilimitado de