Académique Documents
Professionnel Documents
Culture Documents
MARLIA
2014
Orientador
Prof. Geraldo Pereira Junior
MARLIA
2014
Resultado: 10 (Dez)
Dedico este trabalho a toda a minha famlia, em especial a minha amada esposa Mah Izabel,
e a minha filha Jlia Pereira, pessoas essas mais que fundamentais em minha vida, que
sempre estiveram ao meu lado dando todo suporte necessrio para que chegasse at aqui.
Dedico tambm aos meus pais Roberto Pereira e Juara Pereira, e as minhas irms Michelle
Pereira e Renata Pereira, que foram minha base, meu alicerce, e minhas referncias de
formao como individuo perante a sociedade.
AGRADECIMENTOS
Agradeo a Deus por ter permitido que tudo isso acontecesse, ao longo de minha
vida, e no somente nestes anos como universitrio, pois em todos os momentos o maior
mestre que algum pode conhecer.
Agradeo aos professores, que por vezes so desvalorizados, e ainda sim se mantm
firmes e perseverantes colaborando na valorizao de novas pessoas, seja no mbito
profissional ou pessoal. Fica aqui o meu muitssimo obrigado aos professores: Adriano
Bezerra, Cesar Penteado, Elton Yokomizo, Elvis Fusco, Emerson Marconato, Fabio Dacencio,
Fabio Meira, Giulianna Marques, Jorge Maciel Jr, Juliana de Oliveira, Jussara Zachi,
Leonardo Botega, Mauricio Duarte, Paulo Cardoso, Renata Paschoal, Ricardo Petruza,
Ricardo Sabatine, Rodolfo Chiaramonte e Rogrio Kanashiro. Mestres serei eternamente
grato.
Agradeo especialmente ao Professor Geraldo Pereira Junior, pois mais que um
professor e orientador de TC, foi um amigo que constru nos ltimos dois anos de curso, que
espero ter a honra de levar comigo por toda a vida. Geraldo, muito obrigado pelos
ensinamentos, mas principalmente pelo companheirismo.
Agradeo a todos os colegas de turma, em especial : Carlos Eduardo Martinelli,
talo Inoue, Jessica Oliveira, Lus Fernando Mazetti e Rafael Akira Hanai, companheiros de
trabalhos e irmos na amizade que fizeram parte da minha formao e que continuaro
presentes em minha vida com certeza. Esse time deixar saudades!!!
Ainda que eu andasse pelo vale da sombra da morte, no temeria mal algum, porque o
SENHOR est comigo Salmos 23, 4.
Insanidade continuar fazendo sempre as mesmas coisas, e esperar resultados diferentes
Albert Einstein.
RESUMO
A Anlise Preditiva juntamente com a tecnologia Big Data tm despertado grande interesse
em executivos assim como em profissionais de Gesto de Informao. Para se evidenciar tal
fato basta informar-se sobre a crescente escala em que os volumes de dados esto sendo
gerados, armazenados, e consumidos pela sociedade atual. Frente tecnologia de informao
a tecnologia Big Data tratada como um conceito, em que o foco principal o
armazenamento em grandes volumes de dados, com maior velocidade, com grande variedade,
com alta veracidade, de forma que no final seja possvel extrair valor de tudo isso. E para
auxiliar na extrao de valor a tecnologia Data Mining fundamental, pois a coleta e
armazenagem de dados por si s no auxiliam nesta tarefa, muito pelo contrrio, ela apenas d
a falsa sensao de se estar bem informado. Com a utilizao de uma ferramenta de Data
Mining possvel por meio de anlises obter informaes que esto armazenadas em grandes
bancos de dados, pois a tcnica de minerao de dados pode auxiliar, entre outras atividades,
na anlise preditiva de eventos, possibilitando prever padres, tendncias e comportamentos
futuros, viabilizando aos gestores a tomada de deciso baseada em fatos e no em suposies
e conhecimentos empricos. Este trabalho tem como finalidade apresentar e explorar as
estruturas que fundamenta os temas Big Data e Anlise Preditiva, com foco nos mtodos
estatstico.
Palavras-Chave: Big Data, Data Mining, Anlise Preditiva, Estatstica, Regresso Linear.
ABSTRACT
The predictive analytics along with Big Data technology have aroused great interest in
executives as well as information management professionals. To highlight this fact simply
inform yourself about the growing scale of the volumes of data are being generated, stored,
and eaten by the current society. Front of information technology the technology Big Data is
treated as a concept, in which the main focus is the storage in large volumes of data, with
greater speed, with great variety, with high accuracy, so that in the end it is possible to extract
value from all of this. And to assist in the extraction of value Data Mining technology is
critical, because the collection and storage of data by itself does not assist in this task, on the
contrary, she just gives a false sense of being well informed. With the use of a Data Mining
tool is possible by means of analyses information that is stored in large databases because the
data mining technique can assist, among other activities, on predictive analytics of events,
making it possible to predict future patterns, trends and behaviors, enabling managers with
decision-making based on facts and not on assumptions and empirical knowledge. This work
aims to present and explore the structures that underlies the themes Big Data and Predictive
Analysis, focusing on statistical methods.
Keywords: Big Data, Data Mining, Predictive Analytics, Statistics, Linear Regression.
LISTA DE ILUSTRAES
LISTA DE TABELAS
BI
Business Inteligence
CRM
ENCE
FIRJAN
IBGE
IDH
IDH-M
IFDM
INE
IPDM
IPRS
KDD
ONU
PNUD
SGBD
SUMRIO
INTRODUO .................................................................................................................................... 15
1
1.2
O Quinto Elemento................................................................................................................ 22
1.3
2.2
2.3
2.4
2.5
3.2
3.2.1
3.2.2
A ESTATSTICA .......................................................................................................................... 46
4.1
4.2
4.3
A Aplicao da Estatstica..................................................................................................... 50
5.2
5.3
6.2
Resultados Obtidos................................................................................................................ 60
CONCLUSO ...................................................................................................................................... 64
REFERNCIAS .................................................................................................................................... 66
15
INTRODUO
No universo digital, cada vez mais, em tudo o que fazemos deixado um rastro
(dados) que podemos analisar e utilizar em nosso favor. A tecnologia Big Data um conjunto
de solues capaz de lidar com esse grande volume e variedade de dados digitais, podendo
transformar completamente a forma como situaes so analisadas.
Esta nova forma de se pensar e analisar as situaes tem em uma de suas vertentes a
Anlise Preditiva, que um termo amplo que descreve uma variedade de tcnicas estatsticas
e analticas usada para desenvolver modelos que predizem eventos ou comportamentos
futuros. A forma destes modelos preditivos varia de acordo com os comportamentos ou
eventos a serem observados.
Por sua vez a Anlise Preditiva conta com o auxlio da Minerao de Dados, que
um componente preditivo que implica na anlise de dados para identificar tendncias, padres
ou relao entre esses dados. Ento, esta informao pode ser usada para desenvolver um
modelo preditivo. A juno de modelos preditivos com tcnicas de minerao de dados
depende cada vez mais de sofisticados modelos estatsticos, incluindo tcnicas de anlise
multivariada como, por exemplo, a Regresso. Essa tcnica permite determinar tendncias e
relaes que predizem eventos, ou comportamentos futuros.
Avanos no design de hardware e software de computador tm desenvolvido pacotes
de software que rapidamente executam milhares de clculos, permitindo a anlise eficiente
dos dados que produzem e a validao dos modelos preditivos.
OBrian (2004) afirma que, para atender de forma eficiente a crescente demanda por
informaes de qualidade, os sistemas tiveram que evoluir de uma fase primria onde os
processos eram apenas informatizados, para uma nova fase com um papel relevante no auxlio
da tomada de deciso por meios preditivos.
16
Motivao e Justificativa
Nos ltimos anos fomos capazes de gerar, coletar e armazenar, de forma vertiginosa,
um mar de dados relacionado s mais diversas coisas, lugares e situaes. Com isso, a questo
que surge a seguinte: o que fazer com todos esses dados?
Com a tecnologia Big Data e Anlise Preditiva torna-se possvel enxergar situaes e
encontrar padres e tendncias no obvias oculta em grandes volumes de dados.
O maior desafio est na composio das competncias necessrias para transformar
dados em informaes relevantes para a tomada de deciso, utilizando-se do conhecimento da
estatstica, da habilidade de analisar e interpretar o expressivo volume de dados por meio de
sistemas informatizados, de forma que este tipo de tecnologia possa se tornar uma bola de
cristal virtual.
Objetivos Gerais
O presente estudo tem como objetivos principais: explanar a Anlise Preditiva em
sistemas de informao com o auxlio das tecnologias Big Data e Data Mining, e a Estatstica,
com vistas a prever o IDH do Brasil para os prximos anos, por meio da Regresso Linear.
Objetivos Especficos
Para se atingir o objetivo geral, propem-se os seguintes objetivos especficos:
17
Organizao do Trabalho
Metodologia
Para que ocorra um trabalho de cunho cientfico indispensvel uma metodologia,
pois por meio desta que se faz possvel o planejamento e a execuo dos passos a serem
percorridos ao longo de seu desenvolvimento, assim como os tipos de pesquisas necessrios
para obter- se um resultado satisfatrio.
O presente trabalho classificado como exploratrio. Segundo Gil (p. 45, 1996) este
tipo de pesquisa tem como objetivo principal o aprimoramento de ideias ou a descoberta de
intuies. J Rodrigues (2007), diz que a pesquisa exploratria proporciona maior
familiaridade com o problema por meio de pesquisas bibliogrficas, entrevistas ou estudo de
casos.
18
O BIG DATA
A primeira considerao a respeito do tratamento da tecnologia Big Data, diz que ele
uma tecnologia, pois o tema de alto volume de dados e informao h tempos se faz
presente nas pesquisas de processos de Gesto da Informao. O impulso dado pela
tecnologia, principalmente pelo aumento do uso dos dispositivos mveis, trouxe um forte
incremento no volume de dados (RIBEIRO, 2014, p. 97). Saracevic (1996, p. 41-62), diz que
o debate sobre temas como o crescimento exponencial da informao e exploso
informacional, originados pelas pesquisas ps Segunda Guerra Mundial, j se fazia presente
nas discusses e pesquisas na rea de Cincia da Informao.
Uma segunda considerao diz respeito variedade de dados disponveis. O excesso
de informaes na internet originadas pelos diferentes meios ocasionam uma sobrecarga de
dados e informao disponveis para a sociedade (RIBEIRO, 2014, p. 97). Cabe registrar que
apenas 1% destes dados efetivamente analisado (BREITMAN, 2013).
A aceitao e o uso da informao pela sociedade tm se modificado ao longo do
tempo e como consequncia vm surgindo novos modelos sociais, econmicos e tecnolgicos.
A ascendente utilizao dos mais diversos meios de comunicao mvel (dispositivos
mveis), e o uso cada vez maior da Internet, vem ultrapassando as barreiras que
encontrvamos para nos comunicar, e ao mesmo tempo demarcando novos limites para a
sociedade contempornea (RIBEIRO, 2008, p. 15).
A quantidade de informaes disponveis cresce a cada dia de forma exponencial,
com isso surgem novos comportamentos decorrentes deste crescimento.
Heath e Bizer (2011) reforam que na atualidade estamos cercados por uma grande
quantidade de dados e informao. So registros sobre o cotidiano, desempenho da educao,
produo de bens e servios, investimentos, impostos governamentais, estatsticas sobre a
economia e dados sobre o consumo que nos ajudam a tomar decises e gerar conhecimento.
Ribeiro (2008) diz que:
[...] o processo de estruturao de dados e informaes carece de maior
instrumentao, pois a tica utilizada na atualidade est mais concentrada em
aspectos tecnolgicos do que nas questes de organizao das informaes,
deixando em segundo plano as indagaes ligadas gesto da informao
(RIBEIRO, 2008, p. 18).
19
Fox e Hendler (2011) precedem que estamos vivendo uma nova abordagem chamada
de Big Data. Esta abordagem fruto da gerao e, consequentemente, da necessidade da
coleta de grande volume de dados, que surgem em diversos formatos. Porm, estes dados
ainda precisam ser administrados e, neste sentido, Hendler e Fox continuam e observam que a
gesto destes recursos possibilitar a resoluo de problemas que nem sabamos que
existiam. No entanto, vale ressaltar que no podemos prescindir de ferramentas, pois a
capacidade do ser humano de analisar dados e informaes com mltiplas caractersticas so
limitadas. Logo, so necessrias algumas ferramentas que nos auxiliem a executar estas
tarefas.
A necessidade de solucionar problemas reunindo e analisando dados de diversas
naturezas, deu origem a pesquisas que nos levaram ao Big Data. Estas pesquisas foram
desenhadas a partir de trs aspectos iniciais (DAVENPORT, 2014):
20
21
Fonte - storagegaga.wordpress.com
(2012)
afirma
que
velocidade
continuar
crescendo,
pois
22
O objetivo da tarefa de Analytics executar a Anlise Preditiva dos dados por meio
da execuo de mining (mineraes). Segundo os autores Oliveira (2013) e Tavares (2014),
inicialmente, sero tratados os dados com o uso de tcnicas estatsticas, para separao e
reunio de conjuntos, denominado de fase de Discovery.
Ainda segundo os autores, adicionalmente, para executar a tarefa tambm possvel
fazer uso de tcnicas para categorizao, limpeza e transformao dos dados, utilizando,
inclusive, a viso da provenincia, fontes de origem dos dados para auxiliar no processo de
categorizao. Ao final desta fase possvel chegar definio e preparao de modelos (fase
de data preparation e model planning) que sero teis na construo do grande conjunto de
dados, chamado de lago de dados (data lake).
A carga de dados, denominada fase de ingest, ocorre em seguida e realizada para
povoar o lago de dados. No lago estaro reunidos todos os dados que sero alvos de anlise.
23
Por fim, os resultados que sero obtidos a partir do tratamento e anlise do contedo do lago
sero apresentados com uso de ferramentas de visualizao e devero estar associados ao
contexto de negcios (OLIVEIRA, 2013; TAVARES, 2014).
A anlise de dados que atendem aos requisitos descritos anteriormente precisar ser
desenvolvida segundo uma nova arquitetura de anlise, onde dados sero obtidos de mltiplas
fontes e em tecnologias diversas. O ponto central desta anlise est ligado capacidade de
correlacionar dados, pois, como j observado, o ser humano possui limitaes para fazer
anlises associadas a mltiplas dimenses. Em essncia, quando temos uma pequena
quantidade de dados no temos muita dificuldade de correlacion-los, pois existem poucas
inter-relaes. Mas, com uma grande quantidade, temos muitos dados sendo gerados em
paralelo, logo, surgem dificuldades para correlacion-los (SEYMOUR, 2014, p. 26-27).
Decorrente deste cenrio, chegamos a um novo conjunto de passos para anlise,
assim como a outro perfil profissional atuando neste mercado. Na viso de Sathi (2013), a
vertente de Analytics comea a se integrar aos processos de negcio das empresas, visando
mudana do comportamento nos executivos e na nova tica de produo de bens e servios
que est influenciando estas organizaes.
O trabalho com Analytics cunhou-se um novo perfil profissional. Este perfil passou a
ser denominado de Cientista de Dados (Data Scientist). A caracterstica principal deste
profissional ter a capacidade de aplicar ferramentas analticas e algoritmos para gerar
previses sobre produtos, servios, e comportamento de indivduos (DAVENPORT; PATIL,
2012, p. 70-76). Oliveira (2013) complementa e detalha que este perfil deve ter forte
conhecimento em disciplinas como a matemtica e a estatstica, com treinamento avanado
em estratgias para tratamento de grandes conjuntos de dados, fazendo uso de modelos
matemticos, formulao de hipteses e tcnicas de regresso.
J Brietman (2013) observa que o Cientista de Dados deve ter capacidade de levantar
requisitos dos usurios, buscando no apenas nas necessidades destes usurios, mas tambm
nos outros envolvidos no ambiente sob anlise, como por exemplo, clientes, parceiros de
negcio, informaes de mercado, feeds de notcias, redes sociais, blogs, dentre outros.
Para Oliveira (2013), o cientista de dados deve ser um tcnico ctico, curioso,
criativo, comunicativo e deve saber trabalhar em colaborao. Ademais, o cientista de dados
deve sempre reavaliar questes durante as primeiras fases do desenvolvimento do trabalho.
O autor ainda apresenta questes que podem auxiliar na reviso destas fases.
Na fase de Discovery:
24
Eu tenho uma boa ideia sobre o tipo de modelo que vou testar?
25
26
Data Mining uma forma de anlise de informao em banco de dados, que busca
padres ocultos em dados, que podem ser usados para prever comportamentos futuros
(TURBAN, 2009).
Data Mining a seleo, explorao e modelagem de grande volume de dados para
descobrir relaes e padres desconhecidos ou empricos, objetivando resultados consistentes
e teis a partir de um banco de dados (GIUDICI, 2003).
No Data Mining so utilizadas ferramentas que podem substituir e/ou aprimorar a
inteligncia humana, pois estas ferramentas so capazes de analisar grande volume de dados.
Segundo Carvalho (2005), o processo de minerao de dados a forma de descobrir
conhecimento oculto em grande massa de dados. Witten e Frank (2000) definem que a
minerao de dados a obteno de informaes implcitas, previamente desconhecidas, e
potencialmente teis que podem ser extradas de grandes bases de dados.
Han e Kamber (2006) conceituam Data Mining como uma forma de descobrir
padres interessantes extrados de grande volume de dados, contidos em base de dados, Data
Warehouse ou outro repositrio.
A minerao dos dados parte de uma classe de ferramentas de anlises, que verifica
em grandes volumes de dados se existe algo que esteja implcito que possa se caracterizar
uma tendncia ou agrupamento. O Data Mining extrai conhecimento oculto, ou informaes
de predio do Data Warehouse ou de outros tipos de base de dados sem a necessidade de
consultas especficas ou requisies. O processo de minerao de dados utiliza-se de tcnicas
avanadas como Redes Neurais que tm como caracterstica a habilidade de aprender com o
seu ambiente e assim melhorar o seu desempenho, tcnicas heursticas para se resolver um
determinado problema quando no se sabe se a soluo est correta, e descobertas por regra
de deteco de desvio (GRILO JNIOR, 2010).
Segundo Giudici (2003), diferente de relatrios e consultas, onde os relacionamentos
j se conhecem, a funo da minerao de dados desvendar o que no se sabe sobre os dados
armazenados em um banco de dados. Um exemplo clssico e prtico de aplicao de Data
Mining, a utilizao dos dados de vendas com varejo, para descobrir supostas relaes entre
produtos sem conexo aparente, mas que so muitas vezes vendidos juntos.
27
Dutra (2005) diz que o Data Mining tem o propsito de extrair conhecimento onde
para um observador humano seria quase impossvel, devido a sua dimenso, complexidade e
volume de dados.
Como preceito, todo conhecimento extrado de um Data Mining obtido por meio de
padres. As tcnicas de minerao de dados tm como objetivo identificar padres dentro de
um grande volume de dados (banco de dados), com o objetivo de revelar detalhes, sobre
empresas e negcios que eram implcitos, ou at mesmo empricos, no comprovados.
Um dos grandes problemas dos analistas de informao converter dado em
informao. E uma das formas de se realizar tal tarefa compatibilizar estatstica
convencional com tcnicas de inteligncia artificial, que resulte na Minerao de Dados.
Segundo Barcelos Tronto et. al. (2003), em todo projeto que envolve minerao de dados, se
faz necessria a participao de um profissional com conhecimento do negcio, um
stakeholder que tenha grande domnio do assunto a ser explorado, pois este poder identificar
o risco da modelagem no ser bem sucedida, e assim no auxiliar em uma tomada de deciso.
As informaes geradas pelas ferramentas de Data Mining esto ligadas com o
tratamento da informao, e no com a estruturao dos dados (BARBIERI, 2001).
OBrian (2004) refora que o software de Data Mining utiliza algoritmos bastante
elaborados de reconhecimento de padres, com o complemento de uma diversidade de
tcnicas matemticas e estatsticas para observar um grande volume de dados, e extrair
informaes relevantes, teis e estratgicas que at ento eram desconhecidas.
Vasconcelos diz:
[...] os sistemas de minerao so baseados principalmente em sistemas de arquivos
stand-alone, estruturas de dados especializadas, e estratgias locais de gerncia de
buffers. No mximo, os dados para minerao so importados ou extrados de um
Sistema Gerenciador de Banco de Dados (SGBD) e armazenados localmente
(cache-mining). Dessa forma, elimina-se a necessidade de recuperar dados vrias
vezes do SGBD, melhorando o desempenho da aplicao. (VASCONCELOS,
p.127, 2002).
II.
A ferramenta de Minerao de Dados utiliza tcnicas para ser aplicado nas mais
diversas necessidades de negcio. J os aplicativos de minerao utilizam tcnicas especficas
para um dado problema do negcio. Ambas as ferramentas de minerao de dados so de
grande valia, e cada vez mais so utilizadas em empresas de forma integradas para a
28
29
Caractersticas
Tarefa de KDD
SPSS/
Clementine
Permite o
desenvolvimento
rpido de modelos
preditivos para as
operaes da
corporao,
melhorando a tomada
de deciso.
Permite aos usurios
realizar operaes de
descoberta
de
conhecimento.
Classificao, Regras
de Associao,
Clusterizao,
Sequencia e Detector
de Desvio.
PolyAnalyst
Intelligent
Miner
WizRule
SAS
Enterprise
Miner
Domnios
Utilizados
Associao
Comercial de So
Paulo, Credicard,
CTBC Telecom,
DirecTV,
Globo.com, entre
outros.
Fabricante
Classificao,
Regresso, Regra de
Associao,
Clusterizao,
Sumarizao e Detector
de Desvios.
Classificao, Regras
de Associao,
Clusterizao e
Sumarizao.
No informado.
Megaputer
Inteligence
www.megaputer.com
No Informado
IBM Corp.
www.ibm.com
Sumarizao,
Classificao e
Deteco de Erros.
No Informado
WizSoft Inc.
www.wizsoft.com
Classificao, Regras
de Associao,
Clusterizao,
Agrupamento.
Bank of America,
Telefonica O2,
Korea Customs
Service, Australian
Bureau of Statistic,
entre outros.
Auditoria Geral do
Estado de Minas
Gerais; Secretaria de
Log. e TI do Min.
do Planej.,
Oramento e
Gesto; Min. da
Justia; CGU.
No Informado
SAS Corp.
www.sas.com
No Informado
University of
Waikato
www.cs.waikato.
ac.nz
Rapid-I
rapid-i.com
Tamandu
No Informado
Associao,
Agrupamento e
Classificao.
Oracle Data
Mining
No informado
WEKA
API e ambiente de
testes com algoritmos
de minerao de dados
e aprendizado por
computador.
Derivado do WEKA
um pacote mais
completo de
minerao de dados.
Classificao,
Regresso, Associao,
Clusterizao e
Minerao de Texto.
Classificao,
Regresso e Regra de
Associao,
Clusterizao.
RapidMiner
(antigo
YALE)
Classificao,
Regresso e Regra de
Associao,
Clusterizao.
SPSS Inc.
www.spss.com
Depart. Cincia da
Comput. Da UFMG
http://tamandua.
speed.dcc.ufmg.br
Oracle
www.oracle.com
30
Tarefa de KDD
Descobertas de associaes
Descobertas de associaes
generalizadas
Descoberta de sequncias
Descoberta de sequncias
generalizada
Redes Neurais (Ex: Back-Propagation, RBF) C4.5,
Classificao
Regresso
Nebulosa
Sumarizao
Clusterizao
31
Tarefa de Previso;
Tarefa Descritiva.
32
em carto de credito.
Segundo Goldschmidth e Passos (2005), a tarefa de anlise de associao e
detalhamento de algoritmos de banco de dados uma operao que consiste em encontrar
elementos que aconteam de forma frequente e simultnea no banco de dados. A funo de
descoberta de associaes, conforme explica os mesmos autores, define-se como busca
frequente por regras de associaes vlidas em um banco de dados. Dessa forma, a regra de
associaes tem o objetivo de encontrar tendncias que podem ser usadas para entender
padres de comportamento nos dados analisados.
Os algoritmos de Regra de Associao demonstram padres de relacionamento entre
itens de uma base de dados. Um exemplo de aplicao deste tipo de algoritmo, a analise nas
transaes de compras, onde analisa os padres de compras de consumidores para detectar
produtos que costumam serem adquiridos em conjunto, Gonalves (p.25-35, 2005).
Segundo Silveira (2003), a tcnica de descoberta de regras de associao estabelece
uma relao entre certos itens em um conjunto de dados. Para a autora, a descoberta de
associao em itens de cestas de compras deve no apenas evidenciar as associaes triviais
conhecidas, como por exemplo, quem compra leite tambm costuma comprar po, mas sim
aquelas que no so obvias e que podem se tornar importante fonte de informao na tomada
de deciso. Uma regra de associao possui duas partes: a condio (X) e o resultado (Y) ou:
(X1, X2, ..., Xn) => Y; onde os itens X1, X2, ..., Xn preveem a ocorrncia de Y, onde a
probabilidade de encontrar Y por esta regra, chamada de grau de certeza ou fator de
confiana. A figura 2 exemplifica bem esta condio.
Figura 2 - Exemplo de Regra de Associao
33
34
eliminar estas regras sem interesse. J a confiana, mede a confiabilidade de inferncia feita
por uma regra, onde, por exemplo: para determinar regra X Y, quanto maior a confiana,
maior a probabilidade de Y estar presente em transaes que contenha X. Ainda segundo os
autores, a confiana tambm fornece uma estimativa da probabilidade condicional de Y dado
X.
Segundo Vercellis (2009) a regra de associao pode ser aplicada em diversas reas,
mas particularmente recomendada para:
35
36
Aparncia
Temperatura
Umidade
Vento
Jogar Tnis?
Ensolarado
Quente
Alta
Fraco
No
Ensolarado
Quente
Alta
Forte
No
Nublado
Quente
Alta
Fraco
Sim
Chuvoso
Moderado
Alta
Forte
Sim
Chuvoso
Fresco
Normal
Fraco
Sim
Chuvoso
Fresco
Normal
Forte
No
Nublado
Fresco
Normal
Forte
Sim
Ensolarado
Moderado
Alta
Fraco
No
Ensolarado
Fresco
Normal
Fraco
Sim
Chuvoso
Moderado
Normal
Fraco
Sim
Ensolarado
Moderado
Normal
Forte
Sim
Nublado
Moderado
Alta
Forte
Sim
37
Nublado
Quente
Normal
Forte
Sim
Chuvoso
Moderado
Alta
Fraco
No
Identificador
Item
100
200
300
400
500
De acordo com Pizzi (2006), analisando a regra manteigapo, nota-se que dentre
as cinco transaes existentes, po e manteiga ocorrem em duas transaes. Alm disso,
dentre as quatro transaes em que manteiga ocorre, po ocorre em duas dessas transaes.
38
Com isso pode-se dizer que a regra manteigapo possui suporte de 40% e confiana de 50%
o que demonstra que essa regra pode revelar um padro de comportamento dos clientes:
clientes que compram manteiga tendem a comprar po.
Algoritmos de anlise de associao possuem um potencial de gerar uma variedade
enorme de padro com as combinaes dos itens analisados, conforme so ajustados os
limites de suporte e confiana.
Agrupamentos: Segundo Grilo Junior (2010) o mtodo de armazenamento em
cluster permite que um usurio faa grupos de dados para determinar padres a partir dos
dados coletados ou classificados, criando um nmero especfico de grupos, dependendo de
suas necessidades de negcio. Neste tipo de aplicao os dados so divididos em um banco de
dados por segmentos, onde seus membros compartilham caractersticas semelhantes e
comportamentos similares.
Ainda segundo o autor, um exemplo do uso de agrupamento so os empregados na
construo de um CRM (Customer Relationship Management), que so aplicaes que
gerenciam todos os modos como s empresas lidam com seus clientes atuais e potenciais,
objetivando desenvolver estratgias especificas para grupos de clientes de acordo com o
padro identificado nestes grupos. Pode ser utilizado tambm no sistema financeiro para
discriminar e classificar bons e maus pagadores.
Os exemplos aqui ilustrados por todos os autores citados servem para dar uma
dimenso do uso das tcnicas de minerao de dados nos mais diversos segmentos, para uma
gama de aplicao variada, servindo como importante auxilio tecnolgico em processos no
triviais para identificar padres preditivos vlidos e potencialmente uteis para as
organizaes.
39
ANLISE PREDITIVA
modelagem
de
equaes
estruturais
para
desenvolver
tais
tcnicas
40
uma variedade de estatsticas e tcnicas analticas utilizadas para desenvolver modelos que
preveem eventos ou comportamentos futuros. As formas destes modelos preditivos variam
dependendo do comportamento ou evento que eles esto provendo.
Ainda segundo o autor Nyce (2007, p.09), a minerao de dados um componente
de anlise preditiva que envolve anlise de dados para identificar tendncias, padres ou
relacionamentos entre os dados. Com isso pode-se ento desenvolver um modelo preditivo.
As anlises preditivas juntamente com os modelos de previses e tcnicas de
minerao de dados dependem cada vez mais de sofisticados mtodos estatsticos, incluindo
tcnicas de analise multivariadas, como modelos de regresso ou series temporais avanadas.
Essas tcnicas permitem que as organizaes determinem tendncias e relaes que podem
no ser facilmente perceptveis, mas ainda habilit-lo para melhor prever eventos ou
comportamentos futuros.
O autor ainda completa dizendo que as tcnicas estatsticas utilizadas na Anlise
Preditiva so computacionalmente intensivas. Dependendo da quantidade de dados que
utilizam, exigem a execuo de alguns milhares ou mesmo milhes de clculos. Avanos em
hardware de computador e design de software produzem pacotes de software que executam
rapidamente tais clculos, permitindo-se realizar a anlise eficiente dos dados, e a validao
de seus modelos preditivos.
A validade de um modelo preditivo depende da qualidade e quantidade de dados
disponveis para desenvolv-lo.
41
estes dados ruins utilizado minerao de dados. O primeiro passo necessrio para a
anlise preditiva o processo de minerao, pois ele que vai identificar como relevante o
que pode ser usado para desenvolver o modelo de previso. Pode-se pensar em minerao de
dados como aquisio de conhecimentos sobre o relacionamento, e o resultado do modelo de
anlise preditiva como aplicao de conhecimento (conforme j comentado no capitulo 2,
sesses 2.2 e 2.3 deste trabalho).
Uma vantagem distinta para a minerao de dados que ele cataloga todas as
relaes, ou correlaes, que podem ser encontrados entre os dados, independentemente do
que faz com essa relao. Por exemplo, minerao de dados, pode discernir uma relao entre
idade e cabelos grisalhos, ou idade e nmero de acidentes automobilsticos, mas isso no
implica que a idade provoca acidentes automobilsticos ou cabelos grisalhos (NYCE, 2007).
42
43
44
45
atribudos, e ento procurar uma combinao linear que fornea a melhor aproximao sobre
o conjunto de dados (REZENDE, 2003, p.92). Entre os modelos estatsticos, destaca-se o
Bayesiano, este modelo de aprendizado utiliza a probabilidade baseando-se em um prvio
conhecimento do problema, onde este problema comparado com os modelos de treinamento
existentes para determinar a probabilidade final de uma hiptese (REZENDE, 2003, p.92;
MITCHELL, 1998).
46
A ESTATSTICA
47
48
Segundo Rao (1997), a estatstica pode ser definida, de forma simples e objetiva,
pela equao: conhecimento incerto + conhecimento sobre a incerteza = conhecimento til.
Desta forma, o objetivo da estatstica analisar os dados disponveis e que esto sujeitos a
certo grau de incerteza no planejamento e obteno de resultados.
Os estudos pioneiros mais relevantes, que auxiliou na criao de um vocabulrio
estatstico, foram feitos pelo alemo Gottfried Achenwall em 1746, de onde se origina a
palavra estatstica, que derivada da palavra latina STATU, que significa estado. Ele foi um
dos intelectuais que mais contribuiu de forma significativa para o desenvolvimento da
Estatstica moderna, pois tratava da descrio abrangente das caractersticas scio-polticoeconmicas dos diferentes Estados (IGNCIO, 2010, p. 181).
Igncio (2010) destaca que foi somente no sculo XIX que a estatstica comeou a
ganhar notoriedade nas mais diversas reas do conhecimento. A partir do sculo XX, comeou
a ser aplicada nas grandes organizaes, quando os japoneses comearam a falar em
qualidade total, surgindo assim estatstica moderna. A partir da, a evoluo foi bastante
significativa, passando a ser utilizada nos diferentes setores da sociedade para obter
informaes a partir do levantamento de dados com base em mtodos de amostragem
complexos.
A partir da segunda metade do sculo XX, assim como atualmente, os avanos da
Tecnologia da Informao tm aumentado de forma significativa capacidade de produzir,
armazenar e transmitir informao, paralelamente ao crescimento da demanda por estas
informaes em tempo hbil com um alto padro de qualidade, o que exigiu da estatstica um
avano no desenvolvimento de metodologias e indicadores cada vez mais complexos, que por
sua vez exige equipamentos de hardware e software modernos, alm de um profissional
capacitado. A gerao de indicadores sintticos cada vez mais sofisticados tem como exemplo
o ndice de Desenvolvimento Humano (IDH), ndice de Desenvolvimento Humano Municipal
(IDH-M), ndice Paulista de Responsabilidade Social (IPRS), ndice FIRJAN de
Desenvolvimento Municipal (IFDM), ndice Paranaense de Desempenho Municipal (IPDM),
entre outros, que juntamente com a anlise de dados de estatstica espacial, assim como o
georreferenciamento das informaes, so exemplos que j ocorrem, (IGNCIO, 2010).
Igncio (2010) destaca ainda que a evoluo constante e acelerada da capacidade de
processamento dos computadores, aliada ao desenvolvimento de softwares cada vez mais
poderosos, causou um aumento no interesse pelos mtodos estatsticos computacionalmente
intensivos, como os modelos lineares generalizados, modelos no lineares (como redes
neurais, rvores de deciso, modelos multinvel, modelos dinmicos espaciais), modelos
49
50
Com certeza as respostas das perguntas acima estaro sujeitas a erro, e a estatstica
quem pode auxiliar a respond-las e de forma a reduzir a margem de erro, de forma a auxiliar
da melhor maneira possvel a tomada de deciso.
A estatstica tem sido utilizada em pesquisas cientficas nas mais diversas reas do
conhecimento, visando otimizao de recursos econmicos e de processos de produo, bem
como o aumento da qualidade e produtividade, em previses e em muitos outros contextos.
Trata-se de uma cincia multidisciplinar, empregada nos mais diferentes ramos do
conhecimento, entre eles, a agronomia, biologia, computao, direito, economia, engenharia,
farmcia, fsica, geologia, hidrologia, matemtica, medicina, nutrio, odontologia,
psicologia, qumica, sociologia, entre outros (IGNCIO, 2010, p. 183).
Igncio (2010) diz ainda que praticamente todas as informaes divulgadas pelos
meios de comunicao provm de alguma forma de pesquisas e estudos estatsticos, como por
exemplo: o crescimento populacional, os ndices de inflao, emprego e desemprego, o custo
da cesta bsica, os ndices de Desenvolvimento Humano so alguns exemplos deste tipo de
pesquisas.
Na pesquisa cientfica, a estatstica empregada na definio do tipo de experimento,
na obteno dos dados de forma eficiente, em testes de hipteses, estimao de parmetros e
interpretao dos resultados. Permite, assim, ao pesquisador, testar diferentes hipteses a
partir dos dados empricos obtidos (ENCE, 2010).
51
52
53
REGRESSO LINEAR
Regresso Linear uma metodologia amplamente utilizada e que pode ser aplicada
nas mais diversas reas. O principal objetivo deste obter uma equao que justifique
satisfatoriamente a relao entre duas variveis, sendo uma varivel independente e uma
dependente, possibilitando a realizao da predio de valores das variveis de interesse
(PEIXOTO, 2007, p.02).
Matos (1995, p.03-04), explica que a Regresso Linear nasceu da tentativa de se
relacionar um conjunto de observaes de determinadas variveis designadas por Xk, com a
leitura de uma determinada grandeza Y. No caso da regresso linear, est subjacente a uma
relao do tipo: Y= a + b1 X1+ b2 X2 + ... + bp Xp.
O autor ainda complementa dizendo que o padro a, b1, b2,... bp seriam os parmetros
para regresso linear procurada, e que esses objetivos podem ser explicativos, ou seja,
demonstrar uma relao matemtica que pode indicar, mas no prova uma relao de causaefeito, ou ento um objetivo preditivo, ou seja, obter uma relao que permite prever o um
evento X de Y, sem a necessidade de medi-lo.
J Peternelli (2004), diz que a anlise de regresso baseia-se em anlises estatsticas
com o propsito de encontrar uma relao funcional entre uma varivel dependente com uma
ou mais variveis independente, ou seja, consiste na obteno de uma equao que consiga
explicar a variao da varivel dependente pela variao dos nveis das variveis
independentes.
De forma mais ampla e particular, Peixoto (2007, p.02-03) diz ainda que um modelo
de Regresso Linear Simples envolve a relao linear entre duas variveis: X e Y, que podem
ser suficientemente compreendida pela seguinte equao: Y = a + bx + u. Cujos parmetros
so definidos da seguinte forma:
Y = Varivel dependente;
x = Varivel independente;
54
A autora diz tambm que esta mesma equao matemtica tambm pode ser
representada da seguinte forma: Yi = 0 + 1Xi + i, onde os parmetros so definidos da
seguinte forma:
55
e apresentado em 1990, no primeiro relatrio da ONU para o Programa das Naes Unidas
para o Desenvolvimento PNUD, sendo idealizado pelo economista paquistans Mahbub ul
Haq, como auxilio do economista Amartya Sen (IDHM, 2013).
A popularizao de desenvolvimento humano deu-se imediato a criao e adoo do
IDH pelos pases membros da ONU. Esta medida foi criada como forma de mensurao do
nvel de desenvolvimento humano em um pas, em substituio ao PIB Produto Interno
Bruto, pois este era hegemnico poca como medida de desenvolvimento (IDHM, 2013).
O IDH um nmero que varia entre 0 e 1. Quanto mais prximo de 1, maior o
desenvolvimento humano de um pas.
O IDH ganhou grande notoriedade devido a sua simplicidade, por ser de fcil
compreenso, e por sua forma holstica e abrangente de mensurar o desenvolvimento, pois
capaz de traduzir em um nico numero trs importantes dimenses (IDHM, 2013).
O IDH rene trs importantes fatores para o desenvolvimento humano: a
oportunidade de se levar uma vida longa e saudvel sade , ter acesso ao conhecimento
educao e poder desfrutar de um padro de vida digno renda (IDHM, 2013).
56
57
A coleta de dados um dos meios pelo qual podemos obter as informaes sobre o
problema da pesquisa. Baseando-se neste fato, o presente estudo considera os dados extrados
do relatrio anual da PNUD divulgado no perodo de dezembro de 2013.
Como um dos objetivos do estudo a predio do IDH do Brasil para os prximos
anos, a seleo dos dados compreende o histrico deste a partir da dcada de 80, valores estes
divulgado pelo Programa das Naes Unidas.
Na figura 6 possvel visualizar a evoluo do IDH brasileiro:
Figura 6 - A Evoluo do IDH Brasileiro
58
IDH - BRASIL (Y) 0,545 0,612 0,682 0,705 0,731 0,739 0,740 0,742 0,744
59
60
Aps a obteno dos resultados da figura acima, assim como na fase de teste foi
elaborado um grfico de disperso utilizando as ferramentas do Microsoft Office Excel e do
software Minitab para se aplicar a equao de regresso para predizer os IDHs futuros.
Notou-se que as variveis ficaram melhores ajustadas reta aps a realizao da predio
para os anos de 2.018 e 2.023, conforme segue na figura 10, significando que se caso o
61
passado se repita teremos grande possibilidades do evento ocorrer nos anos vindouros.
Figura 10 - Grfico de Diagrama de Disperso com o Resultado Predito - Excel
62
A figura 12 apresenta o resultado predito por meio do Minitab para os anos de 2.018
e 2.023 obtidos a partir da ferramenta. Compreende-se como resultado o valor tabulado
abaixo do item Ajuste.
Figura 12 - Resultado de Predio do IDH- Minitab
Aps a concluso das anlises de regresso e predio, foi gerado tambm por meio
do Minitab um grfico estatstico que apresenta a probabilidade do fenmeno em estudo
ocorrer, partindo de um ndice de confiabilidade de 95%, conforme ilustrado na figura 13:
Figura 13 - Probabilidade de Ocorrencia do Fenmeno
63
Mesmo o Brasil estando em uma posio classificada como Alto, ainda estamos
longes dos pases de primeiro mundo, pois este processo evolutivo bastante lento. Para se ter
noo da velocidade da evoluo dos nveis de IDH, o Brasil possui atualmente os mesmos
ndices que a Frana possua na dcada de 80 (IDHM, 2013).
E por meio da anlise de regresso e pode-se observar que se caso o passado se
refletir no futuro, o Brasil alcanar o patamar dos pases de primeiro mundo entre dos anos
de 2.021 e 2.022.
64
CONCLUSO
Durante o processo de desenvolvimento deste trabalho, buscou-se atingir os objetivos
de explanao da predio por meio de reviso bibliogrfica, considerando o objetivo de
explorar os conceitos de Big Data, Data Mining, Anlise Preditiva e Estatstica.
Este estudo buscou na literatura conceitos sobre os referidos temas, em autores
clssicos e pesquisadores conceituados como forma de estabelecer uma viso geral da
tecnologia Big Data e da Anlise Preditiva e seus principais componentes, com nfase no
Data Mining e na Regresso.
Aps a reviso bibliogrfica dos temas envolvidos verificou-se que a Anlise
Preditiva assim como a tecnologia Big Data ainda so um cenrio bastante imaturo, e existem
poucos exemplos de melhores prticas. Portanto, uma iniciativa inovadora, com riscos e
recompensas para aqueles que forem inovadores. Mas ficar na zona de conforto aguardando a
onda chegar pode ser perigoso, pois provavelmente at o fim da dcada o Big Data passar a
ser apenas Just Data, ou seja, ser o modelo natural de se pensar em anlises de dados.
O que se denota que atualmente estamos em um momento singular, frente a essa
mudana no conceito de gesto de dados e informaes, com uma contnua reduo nos
preos dos equipamentos, alm de ferramentas e softwares que auxiliam de forma cada vez
mais assertiva no processo de anlises e tomada de deciso.
Quando este momento chegar tecnologia Big Data se tornar universal nas
empresas e o termo Big deixar de fazer sentido, pois ser um modelo natural de
armazenagem de dados e projeo de negcios.
O processo de descoberta de conhecimento em bases de dados passa por uma srie de
etapas, desde a coleta, a minerao dos dados, a consolidao e extrao dos padres e regras,
e por fim a agregao de valor que possibilita uma melhor tomada de deciso.
O presente estudo permitiu compreender que os recursos de tecnologia da
informao so indispensveis a esse tipo de apoio, principalmente em instituies privadas e
rgos pblicos que atuam de forma cada vez mais dinmica, e que requerem monitoramento
constante. E para se realizar tal feito indispensvel correta aplicao destes recursos, pois
s assim possvel garantir um eficiente e eficaz sistema de apoio deciso.
No entanto, as informaes geradas por esses sistemas, por si s, podem no ser de
grande valia se no existir um profissional que seja capaz de avaliar e interpretar os resultados
65
Trabalhos Futuros
66
REFERNCIAS
AGRAWAL, R.; IMIELINSKI, T.; SRIKANT, R. Mining Association Rules Between Sets
of Items in Large Databases. Proc. Of the ACM SIGMOD Intl Conference on
Management of Data, Washington D. C., May, 1993.
BARBIERI, C. BI Business Intelligence: Modelagem e Tecnologia. 2 ed. Rio de Janeiro:
Axcel Books do Brasil Editora, 2001.
BARCELOS TRONTO, I. F.; ARAUJO, A. C.; SIMOES, J. D. S.; SANTANNA, N.
Business Intelligence: Inteligncia nos Negcios. In III workshop dos Cursos de
Computao Aplicada do INPE, 2003, So Jos dos Campos. v. 3. p. 187-192
BRIETMAN, K. Big Data Overview. EMC Summer School on Big Data. EMC/NCE/UFRJ.
Rio
de
Janeiro.
2013.
Disponvel
em:
http://2014.emcbigdataschool.nce.ufrj.br/images/presentations/_Big_Data_Summer_Schoo
l_Karin.pdf. Acessado em: 15 de maio de 2014.
CARVALHO, L. A. V. Data Mining A Minerao de Dados no Marketing, Medicina,
Economia, Engenharia e Administrao. Rio de Janeiro: editora Cincia Moderna, 2005.
CIARINI, A. E. M. Research on Big Data and Opportunities. EMC Summer School on Big
Data. EMC/NCE/UFRJ. Rio de Janeiro, 2013.
COELHO, H. F. C. UFPB O profissional em estatstica. Disponvel em:
http://sites.google.com/site/hemilio/profissionalestat. Acessado em: 11 de agosto de 2014.
DATASTORM. 5 Vs: A Estrutura do Big Data. Disponvel em:
http://datastorm.com.br/blog/artigos/5-vs-a-estrutura-do-big-data/. Acessado em: 29 de
outubro de 2014
DAVENPORT, T. H. Big Data at Work: Dispelling the Myths, Uncovering the
Opportunities. Harvard Business Review Press Books. 2014.
DAVENPORT, T. H.; PATIL, D.J. Data Scientist: The Sexiest Job of the 21st Century.
Harvard Business Review 90, no. 10, October, p.7076, 2012.
67
DUBIN, R. Theory Building, New York: The Free Press, 1969. KAPLAN, A. The
Conduct of Inquiry: Methodology for Beha- Vioral Science, 1964. New York: Chandler
Publishing.
DUMBILL, E. What is Big Data? In: OReilly Media Inc, 2012. Disponvel em:
http://www.oreilly.com/data/free/files/big-data-now-2012.pdf. Acessado em: 01 de maio
de 2014.
DUTRA, R. G. Aplicao de Mtodos de Inteligncia Artificial em Inteligncia dos
Negcios XXV ENEGEP, Porto Alegre RS, 2005.
EMC. Brazil country brief. The Digital Universe of opportunities. 2014. Disponvel em:
http://www.emc.com/collateral/analystreports/idc-digital-universe-2014-brazil.pdf.
Acessado em: 12 de maio de 2014.
ENCE.
As
Aplicaes
de
Estatstica.
Disponvel
em:
<http://www.ibge.gov.br/ence/estatistica/aplicacoes.asp>. Acessado em: 23 de agosto de.
2014.
FAYYAD, U.; SHAPIRO, G. P. From Data Mining to knowledge Discovery in databases.
AI. Magazine, 17, Fall 1996.
FLORISSI, P. Big Data. EMC Corporation. On Big Data. 2012. Disponvel em:
https://www.carecorenational.com/healthcaresummit/powerpoints/PatriciaFlorissiPhD.pdf.
Acessado em: 13 de junho de 2014.
FOX, P.; HENDLER, J. Changing the Equation on Scientific Data Visualization. Science
331,
705
(2011).
Disponvel
em:
http://data2discovery.org/dev/wpcontent/uploads/2013/05/Fox-andHendler_Visualization_Science-2011-Fox-705-8.pdf. Acesso em: 15 de julho de 2014
GIL. A. C. Como Elaborar Projetos de Pesquisa. 3. ed. So Paulo: Atlas, 1996.
GIUDICI, P. Applied Data Mining: statistical methods for business and Industry. John
Wiley & Sons Ltd. 2003.
GOLDSCHMIDTH, R.; PASSOS, E. Data Mining: Um Guia Pratico. Rio de Janeiro:
Elsevier, 2005, 3 reimpresso.
GONALVES, E. C. Regras de Associao e suas Medidas de Interesse Objetivas e
Subjetivas. INFOCOMP (UFLA). v. 4, 2005.
68
em:
HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. 2 ed. San Francisco:
Morgan Kaufmann Publisher, 2006.
HEATH T.; BIZER C. Linked Data: Evolving the Web into a Global Data Space (1st
edition). Synthesis Lectures on the Semantic Web: Theory and Technology. Morgan &
Claypool Publishers, 2011.
IBGE.
O
IBGE.
Disponvel
em:
http://www.ibge.gov.br/home/disseminacao/eventos/missao/instituicao.shtm. Acesso em:
02 de julho de 2014.
IDHM - ndice de Desenvolvimento Humano Municipal Brasileiro. Braslia: PNUD, Ipea,
FJP, 2013. Disponvel em: www.atlasbrasil.org.br. Acessado em: 18 de outubro de 2014
IGNACIO, S. A. Importncia da Estatstica para o Processo de Conhecimento e Tomada de
Deciso. REVISTA PARANAENSE DE DESENVOLVIMENTO, Curitiba, n 118
jan/jun 2010.
INTELIGNCIA MERCADOLOGICA Up-Selling e Cross-Selling. Disponvel em:
http://inteligenciamercadologica.info/2008/09/24/up-selling-e-cross-selling/. Acessado em:
25 de agosto de 20014.
LOPES, P. A. Artigos: Entendendo a importncia da estatstica sem ser gnio, matemtico
ou
bruxo.
2.
Disponvel
em:
http://www.administradores.com.br/informese/artigos/entendendo-a-importancia-da-estatistica-sem-ser-genio-matematico-oubruxo/11591/. Acessado em: 03 de agosto de 2014.
MARCHAND, D. A.; PEPPARD, J. Why IT Fumbles Analytics. Harvard Business Review,
jan-fev. 2013.
MARCOULIDES, G. A.; SAUNDERS, C. PLS: A Silver Bullet? MIS Quarterly (30:2),
p.3-4, 2006.
MATOS, M. A. Manual Operacional para a Regresso Linear. FEUP, 1995.
69
MATSUSHITA,
R.
Y.
O
que
Estatstica?
Disponvel
em:
<http://vsites.unb.br/ie/est/complementar/estatistica.htm>. Acesso em: 01 de agosto. 2014.
MATTOSO, M. Scientific Workflows and Big Data. EMC Summer School on Big Data.
EMC/NCE/UFRJ. Rio de Janeiro. 2013.
MINELLI, M.; CHAMBERS, M.; DHIRAJ, A. Big Data, Big Analytics: Emerging Business
Intelligence and Analytic Trends for Today's Businesses. Wiley CIO Series. 2013.
MONARD, M. J.; BARANAUSKAS, J. A. Sistemas Inteligentes, Conceitos sobre
Aprendizado de Maquinas 2003
MONK, S. Tecnologia da Informao para Gesto - 8ed: Em Busca de um Melhor
Desempenho Estratgico e Operacional, 2013.
MORETTIN, P. A. Introduo estatstica para cincias exatas. So Paulo: Atual, 1981.
MURAYAMA, A. C. Tcnicas Gerenciais Aplicadas em Medio de Desempenho e Gesto
Estratgica nas Organizaes. Dissertao Mestrado. Instituto de Pesquisas Tecnolgicas
do Estado de So Paulo. IPT 2002.
NYCE, Charles. Predictive Analytics White Paper. American Institute for CPCU/Insurance
Institute of America. Malvern, PA. 2007.
OBRIAN, J. A. Sistemas de Informao e as Decises Gerenciais na era da Internet. 2 ed.,
So Paulo: Saraiva, 2004.
OLIVEIRA, A. Data Science and Data Analytics. 2013. EMC Summer School on Big Data.
EMC/NCE/UFRJ. Rio de Janeiro. 2013.
ONUBR. ONU. Disponvel em http://www.onu.org.br/onu-dos-7-bilhoesde-habitantes-domundo-6-bi-temcelulares-mas-25-bi-nao-tem-banheiros. Acesso em 01 maio 2014.
PEIXOTO, A. P. N. Regresso Linear Simples. Departamento de Informtica em Sade
UNIFESP-SP. So Paulo, 2007.
PETERENELLI, L. A. INF 162. Captulo 9 Regresso Linear e Correlao. UFV, 2004.
Disponvel
em:
http://www.dpi.ufv.br/~peternelli/inf162.www.16032004/materiais/CAPITULO9.pdf.
Acessado em 16 de novembro de 2014.
70
71
72
A
Enciclopdia
Livre.
Disponvel
http://pt.wikipedia.org/wiki/Populao_mundial. Acessado em 01 de maio de 2014
em:
WITTEN, I. H.; FRANK, E. Data Mining: Pratical Machine Learning Tools and
Techniques Whit Java Implementations. Morgan Kaufmann Publisher Inc., 2000.