Vous êtes sur la page 1sur 42

Bases de Datos Minera Minera de de Datos Datos

Integrantes del Equipo: Milwar Canqui Quispe

Noviembre 2013

Introduccin
Da a da generamos informacin y esto nos lleva a tener una gran cantidad de esta, lo cual implica que el generar informacin, nos puede ayudar a controlar, optimi ar, administrar, e!aminar, investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier "m#ito seg$n el dominio en que nos desarrollemos%

Qu es Minera de Datos?
& 'a e!traccin no trivial de informacin implcita, previamente desconocida y potencialmente $til, a partir de datos% ()* & 'a integracin de un con+unto de "reas que tienen como propsito la identificacin de un conocimiento o#tenido a partir de las #ases de datos que aporten un sesgo ,acia la toma de decisin(-*

.roceso de Minera de Datos

'os pasos a seguir para la reali acin de un proyecto de minera de datos son: )% 'a Determinacin de los /#+etivos% 0rata so#re la delimitacin de los o#+etivos que el cliente desea -% .re procesamiento de los Datos% 1e refiere a la seleccin, la limpie a, el enriquecimiento, la reduccin y transformacin de las #ases de datos%

.roceso de Minera de Datos


2% Determinacin del Modelo% 1e comien a reali ando unos an"lisis estadsticos de los datos y despu3s se lleva a ca#o una visuali acin gr"fica de los mismos para tener una primera apro!imacin% 1eg$n los o#+etivos planteados y la tarea que de#e llevarse a ca#o son los algoritmos a utili arse% 5n"lisis de los 6esultados% 7erifica si los resultados o#tenidos son co,erentes con los o#tenidos por el an"lisis y la visuali acin gr"fica% 8 el cliente determina si le aporta nuevos conocimientos que le permita la toma de decisiones%

4%

.rincipales Caractersticas de MD
Explorar los datos que se encuentran en las profundidades de las bases de datos, o almacenes de datos, que algunas veces contienen informacin almacenada durante varios aos. El entorno de la minera de datos suele tener una arquitectura clienteservidor. Las herramientas de la minera de datos a udan a extraer el mineral de la informacin enterrado en archivos corporativos o en registros p!blicos archivados. Las herramientas de la minera de datos se combinan f"cilmente pueden anali#arse procesarse r"pidamente. La minera de datos produce cinco tipos de informacin$ % &sociaciones. % 'ecuencias. % (lasificaciones. % &grupamientos. % )ronsticos.

Aplicaciones de Minera de Datos

9Qu3 es el proceso de :DD;


E!traccin de Conocimiento en <ases de Datos & Es la e!traccin automati ada de conocimiento o patrones interesantes, no triviales, implcitos, previamente desconocidos, potencialmente $tiles y predictivos de la informacin de grandes <ases de Datos%(2* & El proceso de :DD consiste en usar m3todos de minera de datos(algoritmos* para e!traer (identificar* lo que se considera como conocimiento de acuerdo a la especificacin de ciertos par"metros usando una #ase de datos +unto con preprocesamientos y post&procesamientos%

=ases del :DD

=ases del :DD


*eterminar las fuentes de informacin. *isear el esquema de un almac+n de datos ,*ata -arehouse.$ que consiga unificar de manera operativa toda la informacin recogida. /mplantacin del almac+n de datos$ que permita la navegacin visuali#acin previa de sus datos, para decidir qu+ aspectos puede interesar que sean estudiados. 'eleccin, limpie#a transformacin de los datos que se van a anali#ar$ la seleccin inclu e tanto una divisin o fusin hori#ontal ,filas. como vertical ,atributos..La limpie#a prepocesamiento de datos se logra diseando una estrategia adecuada para mane0ar errores, valores incompletos, secuencias de tiempo, etc. 'eleccionar aplicar el m+todo de minera de datos apropiado$ esto inclu e la seleccin de la tarea de descubrimiento a reali#ar, por e0emplo, clasificacin, agrupamiento o clustering, regresin, etc. La transformacin de los datos al formato requerido por el algoritmo especfico de minera de datos.

=ases del :DD


Evaluacin, interpretacin, transformacin representacin de los patrones extrados, interpretar los resultados posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el proceso, qui#"s con otros datos, otros algoritmos, otras metas otras estrategias. *ifusin uso del nuevo conocimiento. /ncorporar el conocimiento descubierto al sistema lo cual puede incluir resolver conflictos existentes. El conocimiento se obtiene para reali#ar acciones o la toma de decisiones.

DATO S PROBLEMAS

TCNICAS DE DATA MINING

& L 7 4 8 / 5 3 4 '

IMPLANTAR

34*EL4 *E *&5& 3/6/67

Estadstica o /nteligencia &rtificial

6o est"tico
12

(on el modelado se constru e un modelo en una situacin donde se conoce la respuesta luego se aplica en otra situacin de la cual se desconoce la respuesta.

19

CLASIFICACION DE ALGORITMOS DE MINERIA DE DATOS

1:

*escripcin
6ormalmente esta t+cnica es usada para an"lisis preliminar de los datos ,resumen, caractersticas de los datos, etc... *escribir un comportamiento en una base de datos comple0a para aumentar el conocimiento entendimiento sobre gente, productos, procesos etc. ,<=isuali#acin < *iferenciacin.

Establecer que las mu0eres presentan menor siniestralidad en seguros de automvil que los hombres /dentificar las caractersticas de personas que apo a uno u otro partido poltico
1;

Ejemplo
Gestin de personal de una empresa: !u" #lases de empleados $a% #ontratados&

Datos:

Modelo 'enerado:

3inera de datos

Grupo 1$ 'in nios Grupo 2$ 'in nios

en una casa alquilada. ?a0o n!mero de uniones. 3uchos das enfermos en una casa alquilada

con coche. &lto n!mero de uniones. )ocos das enfermos. 3"s mu0eres con coche. 3"s hombres

Grupo 3$ (on nios, casados

normalmente propietarios de casa. ?a0o n!mero de uniones

1>

ALGORITMOS DE MINERIA DE DATOS )rediccin

1@

rboles de decisi !

'E 'ELE((/46& EL 64*4 8&/A B E'5E 'E */=/*E *E &(CE8*4 & L4' =&L48E' *EL &58/?C54 8&/A

rboles de decisi !
8epresentan reglas donde atributos independientes determinan los valores finales. En estos "rboles cada nodo representa una propiedad que puede tomar diversos valores, cada uno de los cuales genera una rama. Los nodos ho0as representan las clasificaciones finales. 6os pueden servir para tareas como$ (lasificacin en general validaciones Csadas donde se deben tomar decisiones a partir de varias alternativas 'on !tiles en problemas de alta dimensionalidad pequeo numero de valores /ngreso para cada atributo. > $5000 7enero M 0 Casado F /ngreso >35 7enero M >=4 <=$5000 Edad 3odelo predictivo generado <= 35 &ntigEedad >4

Soltera F

0 1 0 1 0 1 If (Ingreso=>5000 AND Genero=F AND stado = Soltera !"en #(Co$"e%=1


1D

rboles de decisi !

rboles de decisi !
A'ente #omer#ial: De(o #on#eder una $ipote#a a un #liente&
Datos:

Modelo 'enerado:

3inera de datos

I" *efaulter-accounts F G #$e! 8eturns-credit H no I" *efaulter-accounts H G %!d I,'alar F 2;GG. or ,(redit-p F 1G.J #$e! 8eturns-credit H es

21

Ejemplo
Tienda de T): *u+ntas tele,isiones planas se ,ender+n el pr-imo mes&
Datos:

Modelo 'enerado:

3inera de datos

Modelo li!e%l$ n!mero de televisiones para el prximo mes


=,month.flat!& H G.>2 =,3onth-1.flat'!& K G.99 =,3onth-2.flat'!& K G.12 =,3onth-1.D&D'(e$order < G.G;

22

ALGORITMOS DE MINERIA DE DATOS

Exploracin

29

Neur%l Ne#&or' (Redes !euro!%les)


&l igual que los "rboles de decisin, este algoritmo tambi+n resuelve problemas de clasificacin regresin. )uede ser adecuado para detectar patrones no lineales, difcilmente descriptibles por medio de reglas.

'e usa como alternativa al algoritmo de arboles de decisin 6os pueden servir para tareas como$ Las mismas tareas que los "rboles de decisin. 8egresiones ,similar a la clasificacin, pero predice una magnitud continua.. 'on usadas para reconocimiento de patrones, clasificaciones de vo# e imagen, procesamiento de lengua0e natural, prediccin optimi#acin.
2:

ALGORITMOS DE MINERIA DE DATOS


Se*+e!#%ci !
'eparacin de los datos en subgrupos o clases interesantes 'e usan algoritmos de clustering, '43,sef-organi#acin., E3,expectation maximi#acin., L-means etc. 'irve sobre todo para buscar elementos afines dentro de un con0unto. )or e0emplo, podemos usarlo para saber que en una poblacin ha hombres hombres solteras. 6os puede servir para$ 'egmentar un mercado. =alidaciones ,las entradas que no pertenecen a un cluster,
2;

mu0eres 0venes solteros, hombres ma ores solteros, mu0eres ma ores casados... pero no mu0eres ma ores

pueden ser MoutlinersM o elementos anmalos..

ALGORITMOS DE MINERIA DE DATOS Algoritmo de Naive Bayes


Este algoritmo #usca correlaciones entre atri#utos y pertenece a la clasificacin de dependencias % Cuando no tenemos muy claro qu3 atri#uto se puede predecir en funcin de otros, una t3cnica muy ,a#itual es tratar de utili ar el algoritmo de >aive <ayes tratando de predecir el valor de todos los atri#utos en funcin de todos los atri#utos (un ?todos contra todos?*% El resultado de esta correlaciones suele ser un modelo en el que tenemos m"s o menos claro qu3 vamos a poder predecir en esos datos% 7enta+a: se entrena muy r"pido Desventa+a: >o es muy preciso% 1e usa para: E!ploracin inicial de los dato

2>

&n"lisis de (anasta ,3arNet ?asNet &nal sis.

8eglas de &sociacin
2@

&n"lisis de (anasta
E0emplo Cn e0emplo tradicional de minera de datos es el relacionado con una b!squeda en una bodega de datos, de un negocio de cadena, de hechos comunes relevantes$ Luego del proceso se dio como resultado la siguiente$ 'i edad P 9;Q sexo H masculinoQ dia H 0ueves entonces compras inclu en paalesQ cerve#a Esto sirvi para que empresa tomara medidas relacionada con la ubicacin de ciertos productos en sitios comunes.
2O

Anlisis de anasta !Mar"et Bas"et Analysis#


'os ,"#itos de compra de los clientes pueden ser representados a trav3s de asociaciones o correlaciones entre los diferentes productos que compran en sus @canastasA%

(liente 1$ &rro#, pur+, bebida

(liente 2$ &rro#, helado, pan

(liente 1$ &rro#, bebida, cerve#a


2D

5n"lisis de Canasta: Indicadores

9G

5n"lisis de Canasta: Indicadores


Confiabilidad (confidence) : Indica el porcentaje de transacciones que llevan el
antecedente y el consecuente juntos, con respecto al total de transacciones que llevan el antecedente. Ejemplo: Barro , pur3, cerve aC, Barro , ,elado, panC, Barro , #e#ida, cerve aC Confianza (cerveza pur) !"# $%& Esta relacin seDala el vnculo entre am#os productos (pro#a#ilidad condicional*% .ero, qu3 pasa en el siguiente caso: Confian a(,elado arro *E)F)E )GGH 9Quiere decir que ,ay una fuerte relacin entre estos productos;

91

5n"lisis de Canasta: Indicadores


'anancia ((ain or Improvement): puntaje que representa el aumento en la
probabilidad de selecci)n del consecuente, al ser comprado en conjunto con el antecedente. 'anancia (*+) Confianza(*+)"Importancia ,elativa(+) Ejemplo: Barro , pur3, cerve aC, Barro , ,elado, panC, Barro , #e#ida, cerve aC Ianancia(,elado arro *E)F)E ) Ianancia(#e#ida pur3*EG,JFG,2E ),J

Con estos indicadores podemos entender las relaciones entre clientes

92

Ejemplo
Supermer#ado: *u+ndo los #lientes #ompran $ue,os. tam(i"n #ompran a#eite&
Datos:

Modelo 'enerado:

3inera de datos

Eggs -F 4il$ (onfian#a H @;R, 'oporte H 9@R


99

Bene7i#ios para el Supermer#ado: Las rela#iones entre produ#tos permiten apo%ar de#isiones #omo:
Armado de Pa#/0s 1*onsulta de *anasta2
o Entre 3 produ#tos de alta rota#in de distintas #ate'or4as pero del mismo pro,eedor 5 un produ#to de (aja rota#in % alto mar'en6 o Entre 3 produ#tos de alta rota#in de #ate'or4as % pro,eedores distintos 5 un produ#to de (aja rota#in % alto mar'en6

Descuentos: Polticas agresivas para productos que se venden juntos, con alta confiabilidad

Rela#iones entre pro,eedores % sus produ#tos Identi7i#a#in de pre7eren#ias % 'ustos de los #lientes < Re7or8ar esas pre7eren#ias < In#enti,ar a otros #lientes a tomar estas pre7eren#ias < Se en#uentran rela#iones entre produ#tos de distintas #ate'or4as por ejemplo:
Deter'ente #on 9o'urt. Deter'ente #on Le#$e o 9o'urt #on Ma%onesa

Anti#ipar #am(ios en las pre7eren#ias de los #lientes % a#tuar oportunamente 9: Aumento en las ,entas de la #adena

,err%+ie!#%s de so"#&%re
Existen muchas herramientas de softSare para el desarrollo de modelos de minera de datos tanto libres como comerciales como, por e0emplo$

L6/3E ')'' (lementine ,softSare. '&' Enterprise 3iner 8apid3iner -eNa LTE6 4range
9;

:erramienta ;e/a
La -eNa ,Gall)rall*s a*stral)s% es *n a+e or)g)nar)a de N*e+a ,elanda- sta Gall)n.$ea en /el)gro de extincin es famosa por su curiosidad agresividad. *e aspecto pardo tamao similar a una gallina, las SeNas se alimentan fundamentalmente de insectos frutos.

-eNa es un softSare programado en Uava que est+ orientado a la extraccin de conocimientos desde bases de datos con grandes cantidades de informacin.

9>

:erramienta ;e/a
(aractersticas principales de -eNa$ Est" disponible libremente ba0o la licencia p!blica 7eneral de 76C. Es mu portable porque est" completamente implementado en Uava puede correr en casi cualquier plataforma. (ontiene una extensa coleccin de t+cnicas para preprocesamiento de datos modelado. Es f"cil de utili#ar por un principiante gracias a su interfa# gr"fica de usuario.
9@

:erramienta ;e/a

9O

:erramienta ;e/a

9D

Re7eren#ias
,1.http$VVSSS.daedalus.esVmineria-de-datosV ,2.,3olina otros, 2GG1. ,9.http$VVSSS.monografias.comVtraba0os;;Vmineria-de-datosVmineria-dedatos.shtm -,:.http$VVSSS.uccor.edu.arVpaginasVseminariosV(ursosV*33edicineV(lase1-W/C6E8.pdf -,;.http$VVSSS.microsoft.comVbusinessVsmbVesesVtecnologiaVdataXmining.mspx -,>. http$VVSSS.tecnicas.comVconceptosVdata-miningVmetodos.aspx -,@.http$VVSSS.scielo.org.coVscielo.phpYpidH'G12G;>GD2GGDGGG1GGGGOZscriptHsciXarttext -,O.http$VVSSS. outube.comVSatchYvH-a)C19-@TvSZ68H1ZfeatureHfvSp -,D.http$VVSSS. outube.comVSatchYvH(?L8Lq[o&/sZ68H1 http$VVccc.inaoep.mxV\emoralesV(ursosVL**G9Vnode@.html
:G

Vous aimerez peut-être aussi