Vous êtes sur la page 1sur 62

De qu se trata?

La fecundacin humana in vitro consiste en recoger varios vulos de los


ovarios de una mujer, que, despus de la fertilizacin con pareja o donante
de esperma, producen varios embriones. Algunos de ellos son seleccionados
y transferidos al tero de la mujer. El desafo es para seleccionar los
"mejores" embriones para utilizar-los que tienen ms probabilidades de
sobrevivir. Seleccin se basa en alrededor de 60 caractersticas registradas
de los embriones-caracterizando su morfologa, ovocito, y el folculo, y la
muestra de esperma. El nmero de caractersticas es lo suficientemente
grande como para que sea difcil para un embrilogo para evaluar todos de
forma simultnea y correlacionar los datos histricos con el resultado crucial
de si ese embrin se produjo o no dar lugar a un nio vivo. En un proyecto
de investigacin en Inglaterra, la mquina de aprendizaje ha sido
investigada como una tcnica para hacer la seleccin, utilizando histrica
registros de los embriones y su resultado como datos de entrenamiento.
Cada ao, los productores de leche en Nueva Zelanda tienen que tomar una
decisin empresarial difcil: que las vacas para retener en su rebao y que
para vender a un matadero. Tpicamente, una quinta parte de las vacas en
un hato lechero son sacrificados cada ao cerca del final del ordeo
temporada como reserva de alimentacin se reducen. La cra y la
produccin de leche La historia de cada vaca influye en esa decisin. Otros
factores incluyen la edad (una vaca se acerca al final de su productiva vida
a los ocho aos), problemas de salud, antecedentes de un parto difcil,
indeseable rasgos de temperamento (patadas o saltando vallas), y no estar
embarazada con el becerro para la temporada siguiente. Cerca de 700
atributos para cada uno de varios millones de vacas tienen ha registrado en
los ltimos aos. El aprendizaje automtico se ha investigado como una
forma de la determinacin de lo que se tienen en cuenta los factores de
xito de los agricultores-no automatizar la decisin, pero para propagar sus
conocimientos y experiencia a los dems. La vida y la muerte. De Europa a
las Antpodas. La familia y los negocios. Mquina el aprendizaje es una
nueva tecnologa emergente para el conocimiento de la minera de datos,
una tecnologa que mucha gente est empezando a tomar en serio.
1.1 MINERA DE DATOS Y EL APRENDIZAJE DE LA MQUINA
Estamos abrumados con datos. La cantidad de datos en el mundo y en
nuestras vidas Parece cada vez ms-y no hay final a la vista. Computadoras
omnipresentes hacen demasiado fcil para guardar cosas que antes nos
hubiera papelera. discos econmicos y almacenamiento en lnea que sea
muy fcil posponer las decisiones sobre qu hacer con todo estosimplemente obtenemos ms memoria y guardamos todo. Electrnica
ubicua grabar nuestras decisiones, nuestras opciones en el supermercado,
nuestros hbitos financieros, nuestro idas y venidas. Acercamos nuestro
camino a travs del mundo, cada golpetazo un registro en una base de
datos. El (WWW) World Wide Web nos abruma con la informacin; Mientras

tanto, cada eleccin que hacemos se graba. Y todas estas son opciones,
slo personales que tienen un sinnmero de contrapartes en el mundo del
comercio y la industria. Podramos todos dan testimonio de la creciente
brecha entre la generacin de los datos y el conocimiento de la misma.
Como el volumen de datos aumenta, inexorablemente, la proporcin de que
la gente entender disminuye alarmantemente. Mentir escondido en todos
estos datos es la informacin- potencialmente til la informacin-que rara
vez se hace explcito o aprovechado. Este libro trata de buscar patrones en
los datos. No hay nada nuevo en esto. La gente ha estado buscando
patrones en los datos desde que comenz la vida humana. Los cazadores
buscan patrones en el comportamiento de la migracin animal, los
agricultores buscan patrones en el crecimiento de los cultivos, los polticos
buscar patrones en opinin de los votantes, y los amantes buscan patrones
en sus socios ' respuestas. El trabajo de un cientfico (como la de un beb)
es de dar sentido a los datos, para descubrir la patrones que rigen la forma
en que funciona el mundo fsico y los encapsula en las teoras que se puede
utilizar para predecir lo que suceder en las nuevas situaciones. Del
empresario trabajo es identificar las oportunidades-es decir, los patrones de
comportamiento que se pueden convertir en un negocio rentable y
explotarlos. En la minera de datos, los datos se almacenan
electrnicamente y la bsqueda se automatiza-o al menos aumentada por
ordenador. Incluso esto no es particularmente nueva. Economistas,
estadsticos, los meteorlogos e ingenieros de la comunicacin han
trabajado durante mucho tiempo con el idea de que los patrones en los
datos se pueden buscar de forma automtica, identificadas, validadas y
utilizadas para la prediccin. Lo que es nuevo es el espectacular aumento
de las oportunidades para la bsqueda de patrones en los datos. El
crecimiento desenfrenado de las bases de datos en los ltimos aos, las
bases de datos para actividades tales cotidianos como las opciones del
cliente, aporta la minera de datos a la vanguardia de la nuevas tecnologas
empresariales. Se ha estimado que la cantidad de datos almacenados en las
bases de datos del mundo se duplica cada 20 meses, y aunque
seguramente sera difcil justificar esta cifra en un sentido cuantitativo,
todos podemos relacionar con el ritmo de crecimiento cualitativamente. A
medida que el flujo de datos se hincha y mquinas que pueden llevar a cabo
la bsqueda convertido en algo comn, las oportunidades para el aumento
de la minera de datos. Como el mundo crece en complejidad, abrumarnos
con los datos que genera, datos la minera se convierte en nuestra nica
esperanza para elucidar patrones ocultos. Inteligentemente analizado datos
es un recurso valioso. Puede conducir a nuevos conocimientos, y, en los
entornos comerciales, de ventajas competitivas. La minera de datos se
trata de resolver los problemas mediante el anlisis de los datos ya
presentes en bases de datos. Supongamos, para tomar un ejemplo muy
usado, el problema es del cliente voluble lealtad en un mercado altamente
competitivo. Una base de datos de opciones del cliente, a lo largo de con
perfiles de clientes, es la clave para este problema. Los patrones de
comportamiento de los ex los clientes pueden ser analizados para identificar

las caractersticas distintivas de las que es probable para cambiar los


productos y las que puedan permanecer fieles. Una vez que tales
caractersticas son encontrados, se pueden poner a trabajar para identificar
a los clientes actuales que tienen probabilidades de saltar nave. Este grupo
puede ser objeto de un tratamiento especial, el tratamiento demasiado
costoso para aplicar a la base de clientes en su conjunto. Ms
positivamente, las mismas tcnicas se pueden utilizar para identificar
clientes que podran ser atrados a otro servicio de la empresa ofrece, uno
que no estn actualmente disfrutando, de dirigirse a ellos para las ofertas
especiales que promover este servicio. En el actual altamente competitivo,
centrado en el cliente, serviceoriented economa, los datos son la materia
prima que alimenta el crecimiento del negocio, aunque slo se puede ser
extrado. La minera de datos se define como el proceso de descubrimiento
de patrones en los datos. El proceso debe ser automtico o (ms
habitualmente) semiautomtica. Los patrones descubiertos deben sentido
en que conducen a alguna ventaja, por lo general de carcter econmico. La
datos es invariablemente presentes en cantidades sustanciales. Y cmo se
expresan los patrones? Patrones tiles nos permiten hacer trivial
predicciones sobre los nuevos datos. Hay dos extremos para la expresin de
un patrn: como una caja de negro cuyas entraas son efectivamente
incomprensible, y como transparente cuadro cuya construccin revela la
estructura del patrn. Tanto, estamos asumiendo, hacer buenas
predicciones. La diferencia es si los patrones que se extraen se representan
en trminos de una estructura que puede ser examinada, razonada acerca,
y utilizado para informar las decisiones futuras. Tales patrones que
llamamos estructural porque capturar la estructura de decisin de manera
explcita. En otras palabras, que ayudan a explicar algo acerca de los datos.
Ahora, una vez ms, se puede decir lo que trata este libro: Se trata de
tcnicas para la bsqueda de y describir los patrones estructurales en los
datos. La mayora de las tcnicas que cubrimos tiene desarrollado dentro
de un campo conocido como el aprendizaje de mquina. Pero primero
echemos un vistazo a lo que patrones estructurales son.

Describiendo los Patrones Estructurales


Qu se quiere decir con patrones estructurales? Cmo describes ellos? Y
qu forma toma la entrada? Vamos a responder a estas preguntas a modo
de ilustracin y no que por intentar definiciones formales, y en ltima
instancia, estriles,. Habr un montn de ejemplos ms adelante en este
captulo, pero vamos a examinar uno ahora mismo para hacerse una idea
por lo que estamos hablando. Observe los datos de lentes de contacto en la
Tabla 1.1. Se da las condiciones bajo las cuales un ptico podra querer
prescribir lentes blandas de contacto, lentes de contacto duras, o no lentes
de contacto en absoluto; diremos ms sobre cules son las caractersticas
individuales significan ms tarde. Cada lnea de la tabla es uno de los

ejemplos. Parte de una descripcin estructural de este informacin podra


ser la siguiente:
Va tabla
Si la tasa de produccin de lgrimas = despus se redujo recomendacin =
ninguno
De lo contrario, si la edad = joven y astigmtica = no despus
recomendacin = suave
Iftearproductionrate= reducedthenrecommendation= none
Otherwise,ifage= youngandastigmatic= nothen
recommendation= soft

Descripciones estructurales no necesitan necesariamente ser expresada


como reglas de este tipo. Decisin rboles, que especifican las secuencias
de decisiones que necesitan ser hecho junto con la recomendacin
resultante, son otra forma popular de expresin. Este ejemplo es muy
simplista. Para empezar, todas las combinaciones de posibles los valores
estn representados en la tabla. Hay 24 filas, que representan tres posibles
valores de edad y dos valores de cada uno para la prescripcin espectculo,
el astigmatismo, y el desgaste tasa de produccin (3 2 2 2 = 24). Las
reglas realmente no generalizar a partir de la datos; se limitan a resumir. En
la mayora de situaciones de aprendizaje, teniendo en cuenta el conjunto de
ejemplos como entrada est lejos de ser completa, y parte del trabajo
consiste en generalizar a otros, nuevo
ejemplos. Usted puede imaginar
omitiendo algunas de las filas en la tabla para que la lgrima tasa de
produccin se reduzca y sigue subiendo con la regla
Si la tasa de produccin de lgrimas = despus se redujo recomendacin =
ninguno
Iftearproductionrate= reducedthenrecommendation= none

Esto sera generalizar a las filas que faltan y rellenarlos correctamente. En


segundo lugar, los valores se especifican para todas las caractersticas en
todos los ejemplos. Conjuntos de datos de la vida real, invariablemente
contener ejemplos en los que los valores de algunas de las caractersticas,
por alguna razn u otra, Se desconocen, por ejemplo, las mediciones no se
tomaron o se perdieron. En tercer lugar, la reglas anteriores se clasifican los
ejemplos correctamente, mientras que a menudo, a causa de los errores o
ruido en los datos, errores de clasificacin se producen incluso en los datos
que se utiliza para crear la clasificador.
Aprendizaje Automtico
Ahora que tenemos una idea de las entradas y salidas, demos vuelta a la
mquina de aprendizaje. Qu es el aprendizaje, de todos modos? Qu es
el aprendizaje de las mquinas? Estos son filosficas preguntas, y no vamos
a estar demasiado preocupado con la filosofa de este libro; nuestro nfasis

est firmemente en la prctica. Sin embargo, vale la pena dedicar unos


momentos desde el principio en las cuestiones fundamentales, slo para
ver lo difcil que son, antes de rodar las mangas y mirando a la mquina de
aprendizaje en la prctica.
Nuestro diccionario define "a aprender" como
Para obtener el conocimiento de algo por medio del estudio, la
experiencia, o que se ensea.
Tomar conciencia de la informacin o de la observacin
Comprometer a la memoria
Ser informado de o para determinar
Para recibir una instruccin
Estos significados tienen algunas deficiencias cuando se trata de hablar
acerca de las computadoras. Para los dos primeros, es prcticamente
imposible para probar si el aprendizaje se ha logrado o no. Cmo se sabe si
una mquina tiene conocimiento de algo? Usted Probablemente no slo
puede hacerle preguntas; incluso si pudiera, no estara probando su
capacidad de aprender, pero su capacidad para responder a las preguntas.
Cmo saber si tiene tomar conciencia de algo? Toda la cuestin de si las
computadoras pueden ser consciente o consciente, es una cuestin
filosfica en llamas. En cuanto a los ltimos tres significados, aunque
podemos ver lo que denotan en humanos trminos, ms que aprender de
memoria y recibir instruccin parece ser muy corto para de lo que
podramos decir con aprendizaje automtico. Son demasiado pasivo, y
sabemos que las computadoras se encuentran estas tareas triviales. En su
lugar, estamos interesados en las mejoras en el rendimiento, o al menos en
el potencial de rendimiento, en nuevas situaciones. Usted puede memorizar
algo o ser informado de algo por el aprendizaje de memoria sin ser capaz de
aplicar los nuevos conocimientos a nuevas situaciones. En otras palabras,
puedes recibir instruccin sin beneficiarse de ella en absoluto.
Anteriormente se ha definido la minera de datos operacional, como el
proceso de descubrimiento de patrones, de forma automtica o
semiautomtica, en grandes cantidades de datos-y los patrones debe ser
til. Una definicin operacional se puede formular de la misma manera para
el aprendizaje:
Actividades aprenden cuando cambian su comportamiento de una manera
que los hace un mejor desempeo en el futuro Esto vincula el aprendizaje
con el rendimiento ms que el conocimiento. Usted puede probar el
aprendizaje por observar el comportamiento actual y compararlo con el
comportamiento pasado. Esta es una forma mucho ms tipo objetivo de
definicin y parece ser mucho ms satisfactoria.

Pero todava hay un problema. El aprendizaje es un concepto bastante


resbaladiza. Un montn de cosas cambiar su comportamiento en formas que
hacen a obtener mejores resultados en el futuro, sin embargo, no querra
decir que, efectivamente, han aprendido. Un buen ejemplo es un
confortable zapatilla. Se ha aprendido la forma de su pie? Sin duda, ha
cambiado su comportamiento para que realice mejor como una zapatilla!
Sin embargo, queremos apenas desee llamar este aprendizaje. En el
lenguaje cotidiano, a menudo utilizamos la palabra para referirse a una
formacin tipo sin sentido de aprendizaje. Formamos a los animales e
incluso plantas, aunque sera estirando la palabra un poco para hablar de
los objetos de formacin, tales como zapatillas, que no son en cualquier
sentido vivo. Pero el aprendizaje es diferente. Aprendizaje implica
pensamiento y propsito. Algo que aprende tiene que hacerlo
intencionalmente. Es por eso que no diramos que una vida ha aprendido a
crecer alrededor de un enrejado en un viedo-we'd decir que ha sido
entrenado. Aprender sin finalidad es meramente entrenando. O, mejor
dicho, en aprender el propsito es que el alumno de, mientras que en la
formacin es el maestro de. Por lo tanto, en un examen ms la segunda
definicin de aprendizaje, en funcionamiento, trminos orientados al
rendimiento, tiene sus propios problemas cuando se trata de hablar de
computadoras. Para decidir si algo ha aprendido en realidad, tiene que ver
si se pretende que, si haba algn propsito en cuestin. Eso hace que el
concepto discutible cuando se aplica a las mquinas, porque si los
artefactos pueden comportarse a propsito no est claro. Las discusiones
filosficas de lo que realmente se entiende por aprendizaje, como las
discusiones sobre lo que realmente se quiere decir con la intencin o el
propsito, estn cargadas de dificultad. Incluso los tribunales de justicia se
encuentran intencin difcil de resolver.
Data Mining
Afortunadamente, el tipo de tcnicas de aprendizaje se explica en este libro
no presentan estos problemas-que se llaman conceptuales aprendizaje
automtico sin realmente presuponiendo cualquier posicin filosfica
particular, acerca de lo que el aprendizaje es en realidad. Datos la minera
es un tema que involucra el aprendizaje en un sentido prctico, no terico.
Somos interesado en tcnicas para encontrar y describir patrones
estructurales en los datos, como herramienta para ayudar a explicar que los
datos y hacer predicciones a partir de ella. Los datos se llevar a la forma
de un conjunto de ejemplos, tales como los clientes que han cambiado
lealtades, para instancia o situaciones en las que ciertos tipos de lentes de
contacto pueden ser prescritos. La salida toma la forma de predicciones
sobre nuevos ejemplos-una prediccin de si un cliente en particular
cambiar o una prediccin de qu tipo de lente prescribir, en determinadas
circunstancias. Pero debido a que este libro es sobre la bsqueda y describir
patrones en los datos, la salida tambin puede incluir una descripcin real
de una estructura que se puede utilizar para clasificar ejemplos
desconocidos. As como el rendimiento, es til para suministrar una

representacin explcita del conocimiento que se adquiere. En esencia, esto


refleja ambas definiciones de aprendizaje considerado anteriormente: la
adquisicin de los conocimientos y la capacidad de utilizarlo. Muchas de las
tcnicas de aprendizaje buscan descripciones estructurales de lo que se
aprende- descripciones que pueden llegar a ser bastante complejo y se
expresan normalmente como conjuntos de normas, tales como los descritos
anteriormente o los rboles de decisin que se describen ms adelante en
este captulo. Debido a que pueden ser entendidos por las personas, estas
descripciones sirven para explicar lo que se ha aprendido en otras palabras,
para explicar la base para nuevas predicciones. La experiencia demuestra
que en muchas aplicaciones de aprendizaje automtico a los datos minera,
las estructuras explcitas del conocimiento que se adquieren, las
descripciones estructurales, son por lo menos tan importante como la
capacidad de realizar bien en nuevos ejemplos. personas frecuente utilizar
la minera de datos para obtener conocimiento, no slo predicciones.
Obtener conocimiento a partir de datos ciertamente suena como una buena
idea si usted puede hacerlo. Para averiguar cmo hacerlo, siga leyendo!
1.2 Ejemplos sencillos: El tiempo
Y OTROS PROBLEMAS
Vamos a utilizar una gran cantidad de ejemplos en este libro, que parece
particularmente apropiado teniendo en cuenta que el libro se trata de
aprender a partir de ejemplos! Hay varios conjuntos de datos estndar que
vamos a volver a repetidamente. Diferentes conjuntos de datos tienden a
exponer a nuevos problemas y desafos, y es interesante e instructivo tener
en la mente una serie de problemas cuando se consideran los mtodos de
aprendizaje. De hecho, la necesidad de trabajar con diferentes conjuntos de
datos es tan importante que un corpus que contiene alrededor de 100
problemas de ejemplo se ha reunido de manera que diferentes algoritmos
pueden ser probado y comparado con el mismo conjunto de problemas. El
conjunto de problemas de esta seccin son todos irreales simple. Aplicacin
Serious de la minera de datos consiste en miles, cientos de miles, o incluso
millones de los casos individuales. Pero la hora de explicar lo que los
algoritmos hacen y cmo funcionan, necesitamos ejemplos simples que
capturan la esencia del problema, pero somos pequeos lo suficiente como
para ser comprensible por todos los detalles. Vamos a trabajar con las bases
de datos en esta seccin a lo largo del libro, y que estn destinados a ser
"acadmico" en el sentido de que nos ayudarn a entender lo que est
pasando. Algunos real con campos aplicaciones de las tcnicas de
aprendizaje se discuten en la Seccin 1.3, y muchos ms se tratan en los
libros mencionados en la Seccin 1.7, Lectura adicional, al final del el
captulo. Otro problema con los datos reales de la vida real es que a menudo
son propietarios. Nadie va a compartir su base de datos de la eleccin del
cliente y el producto con usted para que se pueden entender los detalles de
su aplicacin de minera de datos y cmo funciona. Los datos de las
empresas es un activo valioso, cuyo valor ha aumentado enormemente con

el desarrollo de tcnicas de minera de datos, tales como los que se


describen en este libro. Sin embargo, nos preocupa aqu con la comprensin
de cmo los mtodos utilizados para los datos minar el trabajo, y la
comprensin de los detalles de estos mtodos para que podamos rastrear
su funcionamiento en los datos reales. Es por eso que nuestros conjuntos
de datos ilustrativos son los simples. Pero ellos no son simplistas:
Presentan las caractersticas de los conjuntos de datos reales.
El problema del tiempo
El problema del tiempo es un pequeo conjunto de datos que vamos a
utilizar varias veces para ilustrar mtodos de aprendizaje automtico.
Totalmente ficticios, que supuestamente se refiere a las condiciones que son
adecuados para jugar algn juego no especificado. En general, los casos en
un conjunto de datos se caracterizan por los valores de caractersticas o
atributos, que miden diferentes aspectos de la instancia. En este caso hay
cuatro atributos: la perspectiva, la temperatura, humedad y viento. El
resultado es si jugar o no. En su forma ms simple, que se muestra en la
Tabla 1.2, los cuatro atributos tienen valores que son categoras simblicas
en lugar de nmeros. Outlook puede ser soleado, nublado o lluvioso; la
emperatura puede ser caliente, templado, o fro; La humedad puede ser alta
o normal; y ventoso puede ser verdadera o falsa. Esto crea 36
combinaciones posibles (3 3 2 2 = 36), de cuales 14 estn presentes
en el conjunto de ejemplos de entrada. Un conjunto de reglas aprendidas de
esta informacin, no necesariamente uno muy bueno- podra tener este
aspecto:
Va tabla
Si perspectivas = soleado y humedad = Alta luego jugar = no
Si perspectivas = lluvioso y ventoso = true entonces juegan = no
Si perspectivas = encapotado luego jugar = s
Si la humedad = normal luego jugar = s
Si nada de lo anterior y luego jugar = s
Ifoutlook= sunnyandhumidity= highthenplay= no
Ifoutlook= rainyandwindy= truethenplay= no
Ifoutlook= overcastthenplay= yes
Ifhumidity= normalthenplay= yes
Ifnoneoftheabovethenplay= yes

Estas reglas son para ser interpretados en orden: La primera de ellas; a


continuacin, si no lo hace aplicar, el segundo; y as sucesivamente. Un
conjunto de reglas que se tiene que interpretar en secuencia se llama una
lista de decisiones. Se interpreta como una lista de decisiones, las reglas
correctamente clasificar todos los ejemplos de la tabla, mientras que
tomados individualmente, fuera de contexto, algunas de las reglas son
incorrectas. Por ejemplo, la regla si la humedad = normal luego jugar = Si

se pone uno de los ejemplos incorrecto (compruebe cul). El significado de


un conjunto de normas depende de cmo se interprete-como era de
esperar! En la forma ligeramente ms complejo se muestra en la Tabla 1.3,
dos de los atributos- temperatura y humedad-tienen valores numricos. Esto
significa que cualquier aprendizaje rgimen debe crear desigualdades que
implican estos atributos en lugar de simples pruebas de igualdad como en el
caso anterior. Esto se llama un atributo numrico de problemas en este
caso, un problema-atributo mezclado ya que no todos los atributos son
numricos. Ahora, la primera regla dada anteriormente puede tomar la
forma Si perspectivas = soleado y humedad> 83 entonces el juego = no Se
requiere un proceso un poco ms complejo para llegar a normas que
implican pruebas numricas. Las reglas que hemos visto hasta ahora son las
reglas de clasificacin: Predicen la clasificacin del ejemplo en trminos de
si jugar o no. Es igualmente posible caso omiso de la clasificacin y slo
tiene que buscar cualquier regla que se asocian fuertemente diferente
valores de los atributos. Estos se llaman reglas de asociacin. Muchas reglas
de asociacin pueden ser derivada de los datos meteorolgicos de la Tabla
1.2. Algunos buenos son
Si la temperatura = fra luego Humedad = normal
Si la humedad = normal y con viento = false entonces el juego = s
Si perspectivas = soleado y jugar = no, entonces la humedad = Alta
Si ventoso = false y el juego = no, entonces las perspectivas = soleado y
Humedad = Alta
Iftemperature= coolthenhumidity= normal
Ifhumidity= normalandwindy= falsethenplay= yes
Ifoutlook= sunnyandplay= nothenhumidity= high
Ifwindy= falseandplay= nothenoutlook= sunnyand
humidity= high

Todas estas reglas son 100% correcto de los datos dado; que no hacen
predicciones falsas. Las dos primeras se aplican a los cuatro ejemplos en el
conjunto de datos, el tercero a tres ejemplos, y el cuarto a dos ejemplos. Y
hay muchas otras reglas. De hecho, casi el 60 por reglas de asociacin se
puede encontrar lo que corresponda a dos o ms ejemplos de que el clima
datos y son completamente correctas en estos datos. Y si nos fijamos en las
normas que sean menos de 100% correcto, entonces usted va a encontrar
muchos ms. Hay tantos, ya que, a diferencia de reglas de clasificacin,
reglas de asociacin pueden "predecir" cualquiera de los atributos, no slo
un clase especificada, y puede incluso predecir ms de una cosa. Por
ejemplo, la cuarta regla predice tanto que la perspectiva ser soleado y que
la humedad ser alta.
Lentes de contacto: Un Problema idealizado
Los datos de la lente de contacto introducidas anteriormente le indica el tipo
de lentes de contacto para prescribir, dada cierta informacin sobre un

paciente. Tenga en cuenta que este ejemplo est destinado a ilustracin


solamente: Se simplifica enormemente el problema y ciertamente no
debera ser utilizado para propsitos de diagnstico! La primera columna de
la Tabla 1.1 da la edad del paciente. En caso de que usted se est
preguntando, la presbicia es una forma de hipermetropa que acompaa a la
aparicin de la mitad edad. El segundo da la receta espectculo: miope
significa miope y hipermtrope significa longsighted. La tercera muestra si
el paciente es astigmtico, mientras que la cuarta se refiere a la tasa de la
produccin de lgrimas, que es importante en este contexto porque las
lgrimas lubrican las lentes de contacto. La ltima columna muestra qu
tipo de las lentes de prescribir, ya sea duro, blando, o ninguno. Todas las
posibles combinaciones de los valores de los atributos estn representadas
en la tabla. Un conjunto de muestras de las reglas aprendidas de esta
informacin se muestra en la Figura 1.1. Este es un lugar amplio conjunto de
reglas, pero no clasifican correctamente todos los ejemplos. Estos reglas son
completas y determinista: Le dan una receta nica para cada ejemplo
concebible. Generalmente, este no es el caso. A veces hay situaciones en el
que no se aplica ninguna regla; otras veces ms de una regla puede
aplicarse, lo que resulta en
Si la tasa de produccin de lgrimas = despus se redujo la recomendacin
= ninguno.
Si la edad = joven y astigmtica = no y tasa de produccin de lgrimas =
normal
entonces la recomendacin = suave
Si la edad = pre-presbicia y astigmatismo = no y la produccin de lgrimas
= tasa recomendacin de lo normal = suave
Si la edad = prescripcin presbicia y el espectculo = miope y
astigmtica = no, entonces la recomendacin = ninguno
Si la prescripcin espectculo = hipermtrope y astigmtica = no y
romper la velocidad de produccin = recomendacin de lo normal = suave
Si la prescripcin espectculo = miope y astigmtica = s y
tasa de produccin de lgrimas = recomendacin de lo normal = duro
Si la edad = joven y astigmtica = s y desgaste tasa de produccin =
normal
entonces la recomendacin = duro
Si la edad = y prescripcin espectculo pre-presbicia = hipermtrope
y astigmtica = s, entonces la recomendacin = ninguno

Si la edad = prescripcin presbicia y el espectculo = hipermtrope


y astigmtica = s, entonces la recomendacin = ninguno
If tear production rate = reduced then recommendation = none.
If age = young and astigmatic = no and tear production rate = normal
then recommendation = soft
If age = pre-presbyopic and astigmatic = no and tear production
rate = normal then recommendation = soft
If age = presbyopic and spectacle prescription = myope and
astigmatic = no then recommendation = none
If spectacle prescription = hypermetrope and astigmatic = no and
tear production rate = normal then recommendation = soft
If spectacle prescription = myope and astigmatic = yes and
tear production rate = normal then recommendation = hard
If age = young and astigmatic = yes and tear production rate = normal
then recommendation = hard
If age = pre-presbyopic and spectacle prescription = hypermetrope
and astigmatic = yes then recommendation = none
If age = presbyopic and spectacle prescription = hypermetrope
and astigmatic = yes then recommendation = none
recomendaciones contradictorias. A veces las probabilidades o pesos
pueden estar asociados con las propias reglas para indicar que algunos son
ms importantes, o bien ms fiables, que otros. Tal vez se pregunte si hay
un conjunto de reglas ms pequea que funciona tan bien. Si es as, sera
mejor usar el conjunto de reglas ms pequeo, y si es as, por qu? Estos
son exactamente el tipo de preguntas que nos ocuparn en este libro.
Debido a que los ejemplos forman un conjunto completo para el espacio del
problema, las normas no hacen ms que resumir todo la informacin que se
le da, expresando de una manera diferente y ms concisa. Incluso aunque
se trata de ninguna generalizacin, esto es a menudo una cosa muy til que
hacer! Personas con frecuencia el uso de tcnicas de aprendizaje
automtico que permite conocer mejor la estructura de su datos en lugar de
hacer predicciones para los nuevos casos. De hecho, un prominente y
exitoso lnea de investigacin en el aprendizaje de mquina comenz como
un intento de comprimir una gran base de datos de posibles finales de juego

de ajedrez y sus resultados en una estructura de datos de tamao


razonable. La estructura de datos elegida para esta empresa no era un
conjunto de reglas pero un rbol de decisin. La Figura 1.2 muestra una
descripcin estructural de los datos de la lente de contacto en el formulario
de un rbol de decisiones, lo que para muchos propsitos es una
representacin ms conciso y perspicaz de las normas y tiene la ventaja de
que puede ser visualizado ms fcilmente. (Sin embargo, este rbol de
decisiones, en contraste con el conjunto de reglas dado en la Figura 1.1,
clasifica dos ejemplos incorrectamente.) El rbol de llama primero para una
prueba de la tasa de la produccin de lgrimas, y las dos primeras ramas
corresponden a los dos resultados posibles. Si el desgarro tasa de
produccin se reduce (la rama de la izquierda), el resultado es ninguno. Si
es normal (La rama derecha), se hace una segunda prueba, esta vez sobre
el astigmatismo. Eventualmente, cualquiera que sea el resultado de las
pruebas, se llega a una hoja del rbol que dicta el recomendacin de lentes
de contacto para ese caso. La cuestin de cul es la ms natural y de fcil
comprensin para el formato la salida de una mquina de aprendizaje
esquema es el que vamos a volver en las recomendaciones del Captulo
3.conflicting. A veces las probabilidades o pesos pueden estar asociados con
las propias reglas para indicar que algunos son ms importantes, o bien ms
fiables, que otros.
Tal vez se pregunte si hay un conjunto de reglas ms pequea que funciona
tan bien. Si es as, sera mejor usar el conjunto de reglas ms pequeo, y si
es as, por qu? Estos son exactamente el tipo de preguntas que nos
ocuparn en este libro. Debido a que los ejemplos forman un conjunto
completo para el espacio del problema, las normas no hacen ms que
resumir todo la informacin que se le da, expresando de una manera
diferente y ms concisa. Incluso aunque se trata de ninguna generalizacin,
esto es a menudo una cosa muy til que hacer! Personas con frecuencia el
uso de tcnicas de aprendizaje automtico que permite conocer mejor la
estructura de su datos en lugar de hacer predicciones para los nuevos
casos. De hecho, un prominente y exitoso lnea de investigacin en el
aprendizaje de mquina comenz como un intento de comprimir una gran
base de datos de posibles finales de juego de ajedrez y sus resultados en
una estructura de datos de tamao razonable. La estructura de datos
elegida para esta empresa no era un conjunto de reglas pero un rbol de
decisin. La Figura 1.2 muestra una descripcin estructural de los datos de
la lente de contacto en el formulario de un rbol de decisiones, lo que para
muchos propsitos es una representacin ms conciso y perspicaz de las
normas y tiene la ventaja de que puede ser visualizado ms fcilmente. (Sin
embargo, este rbol de decisiones, en contraste con el conjunto de reglas
dado en la Figura 1.1, clasifica dos ejemplos incorrectamente.) El rbol de
llama primero para una prueba de la tasa de la produccin de lgrimas, y
las dos primeras ramas corresponden a los dos resultados posibles. Si el
desgarro tasa de produccin se reduce (la rama de la izquierda), el
resultado es ninguno. Si es normal (La rama derecha), se hace una segunda
prueba, esta vez sobre el astigmatismo. Eventualmente, cualquiera que sea

el resultado de las pruebas, se llega a una hoja del rbol que dicta el
recomendacin de lentes de contacto para ese caso. La cuestin de cul es
la ms natural y de fcil comprensin para el formato la salida de una
mquina de aprendizaje esquema es el que vamos a volver en el captulo 3.
Iris: A Classic Conjunto de datos numricos El conjunto de datos del iris,
que se remonta al trabajo seminal por el eminente estadstico R. A. Fisher
en el mid- 1930 y es sin duda el ms famoso conjunto de datos utilizados
en la minera de datos, contiene 50 ejemplos de cada uno de tres tipos de
plantas: Iris setosa, Iris versicolor, e Iris virginica. Esto es un extracto en la
Tabla 1.4. hay cuatro atributos: longitud spalo, anchura del spalo, ptalo
de longitud, y la anchura de ptalos (todo medido en centmetros).
desemejante los conjuntos de datos anteriores, todos los atributos tienen
valores que son numrico. El siguiente conjunto de reglas podra aprender
de este conjunto de datos:
Si la longitud de ptalos <2,45 entonces Iris-setosa
Si spalo-width <2,10 entonces Iris-versicolor
Si spalo ancho de <2,45 y ptalo de longitud <4,55 entonces Iris-versicolor
Si spalo ancho de <2,95 y ptalo de ancho <1,35 entonces Iris-versicolor
Si la longitud del ptalo 2,45 y longitud ptalo <4,45 entonces Irisversicolor
Si la longitud spalo 5,85 y ptalo de longitud <4,75 entonces Irisversicolor
Si spalo-anchura <2,55 y ptalo de longitud <4,95 y
ptalo de ancho <1,55 entonces Iris-versicolor
Si la longitud del ptalo- 2,45 y ptalo de longitud <4,95 y
ptalo de ancho <1,55 entonces Iris-versicolor
Si la longitud spalo 6,55 y ptalo de longitud <5,05 entonces Irisversicolor
Si spalo ancho de <2,75 y ptalo de ancho <1,65 y
de longitud spalo <6,05 entonces Iris-versicolor
Si la longitud spalo 5,85 y spalo de longitud <5.95 y
de longitud ptalo <4,85 entonces Iris-versicolor
Si la longitud del ptalo 5,15 entonces Iris-virginica
Si ptalo de ancho 1,85 entonces Iris-virginica

Si ptalo de ancho 1,75 y spalo-width <3,05 entonces Iris-virginica


Si la longitud del ptalo 4,95 y ptalo de ancho <1,55 entonces Irisvirginica
Ifpetallength< 2.45thenIrissetosa
Ifsepalwidth< 2.10thenIrisversicolor
Ifsepalwidth< 2.45andpetallength< 4.55thenIrisversicolor
Ifsepalwidth< 2.95andpetalwidth< 1.35thenIrisversicolor
Ifpetallength 2.45andpetallength< 4.45thenIrisversicolor
Ifsepallength 5.85andpetallength< 4.75thenIrisversicolor
Ifsepalwidth< 2.55andpetallength< 4.95and
petalwidth< 1.55thenIrisversicolor
Ifpetallength 2.45andpetallength< 4.95and
petalwidth< 1.55thenIrisversicolor
Ifsepallength 6.55andpetallength< 5.05thenIrisversicolor
Ifsepalwidth< 2.75andpetalwidth< 1.65and
sepallength< 6.05thenIrisversicolor
Ifsepallength 5.85andsepallength< 5.95and
petallength< 4.85thenIrisversicolor
Ifpetallength 5.15thenIrisvirginica
Ifpetalwidth 1.85thenIrisvirginica
Ifpetalwidth 1.75andsepalwidth< 3.05thenIrisvirginica
Ifpetallength 4.95andpetalwidth< 1.55thenIrisvirginica

Estas reglas son muy engorrosos, y veremos en el captulo 3 cmo ms


compacto reglas se pueden expresar que transmiten la misma informacin.
Rendimiento de la CPU: Presentacin de Prediccin Numrica
Aunque el conjunto de datos del iris implica atributos numricos, el tipo del
resultado de la iris-es una categora, no un valor numrico. Tabla 1.5
muestra algunos datos para que tanto el resultado y los atributos son
numricos. Se refiere a los resultados relativos de la capacidad de
procesamiento sobre la base de un nmero de atributos relevantes; cada fila
representa uno de 209 configuraciones de computadora. La forma clsica de
tratar con la prediccin continua es escribir el resultado como una suma
lineal de la valores de atributo con pesos apropiados, por ejemplo,
PRP MYCT MMIN MMAX
CACH
=+++
+
55 9 0 0489 0 0153 0 0056
0 6410
....
. 0.2700 CHMIN +1.480 CHMAX
(Los nombres de las variables abreviados se dan en la segunda fila de la
tabla.) Se trata de

llama una ecuacin de regresin, y el proceso de determinar los pesos se


llama regresin, un procedimiento bien conocido en las estadsticas que
vamos a revisar en el Captulo 4.
Sin embargo, el mtodo de regresin
bsica es incapaz de descubrir relaciones no lineales (Aunque s existen
variantes-de hecho, se le describe en la Seccin 6.4), y en el captulo 3
vamos a examinar diferentes representaciones que se pueden utilizar para
predecir cantidades numricas. En el iris y la unidad central de
procesamiento de datos (CPU) de rendimiento, todos los atributos tener
valores numricos. Las situaciones prcticas presentan con frecuencia una
mezcla de numrico y los atributos numricos.
Las negociaciones laborales: Un ejemplo ms realista
El conjunto de datos negociaciones laborales en la Tabla 1.6 se resumen los
resultados de Canad negociaciones de contratos en 1987 y 1988. Incluye
todos los convenios colectivos alcanzados en el sector empresarial y los
servicios personales para organizaciones con por lo menos 500 miembros
(profesores, enfermeras, personal de la universidad, la polica, etc.) Cada
caso se refiere a una contratar, y el resultado es que el contrato se
considera aceptable o inaceptable. Los contratos aceptables son aquellos en
los que los acuerdos fueron aceptados por ambas trabajadores y la
direccin. Los que son inaceptables ofertas bien conocidos que cayeron a
travs de una de las partes, porque no los aceptara o contratos aceptables
que tenan han perturbado significativamente en la medida en que, a juicio
de los expertos, que lo haran no hayan sido aceptadas. Hay 40 ejemplos en
el conjunto de datos (ms otros 17 que estn normalmente reservados para
los propsitos de prueba). A diferencia de las otras mesas de aqu, el cuadro
1.6 presenta los ejemplos como columnas en lugar de como filas; de lo
contrario, tendra que ser estirada sobre varias pginas. Muchos de los
valores son desconocidos o que falta, segn lo indicado por la pregunta
marcas. Se trata de un conjunto de datos mucho ms realista que las otras
que hemos visto.
Contiene muchos valores perdidos, y parece poco probable que una
clasificacin exacta se puede obtener. La figura 1.3 muestra dos rboles de
decisin que representan el conjunto de datos. Figura 1.3 (a) es simple y
aproximada-no representa los datos con exactitud. Por ejemplo, ser
predecir malo para algunos contratos que son realmente marcaron buena.
Sin embargo, s tiene sentido intuitivo: Un contrato es malo (para el
empleado!) si el aumento de los salarios en el primer aos es demasiado
pequeo (menos de 2,5%). Si el incremento salarial del primer ao es ms
grande que esto, es bueno si hay un montn de das feriados (ms de 10
das). Incluso si hay son menos los das feriados, es bueno que el aumento
salarial del primer ao es lo suficientemente grande (Ms de 4%). Figura 1.3
(b) es un rbol de decisin ms compleja que representa el mismo conjunto
de datos. Tome una mirada detallada por la rama izquierda. A primera vista
no parece tener sentido intuitivamente que, si las horas de trabajo exceden
de 36 aos, un contrato es malo si hay ninguna contribucin-plan de salud o

contribuir plenamente-plan de salud, pero es bueno si hay una contribucin


del plan de salud medio. Sin duda, es razonable que la contribucin del plan
de salud desempea un papel en la decisin, pero parece anmalo que un
medio es bueno y tanto completa y ninguna es mala. Sin embargo,
pensndolo bien esto podra tener sentido despus de todo, porque
"buenos" los contratos son los que han sido aceptadas por las dos partes:
mano de obra y de gestin. Tal vez esta estructura refleja los compromisos
que haba que hacer para llegar a acuerdo. Este tipo de razonamiento
detallado sobre lo que significan partes de rboles de decisin es una
buena manera de conocer a sus datos y pensando en el subyacente
problema. De hecho, la Figura 1.3 (b) es una representacin ms exacta de
la formacin de datos de la Figura 1.3 (a). Pero no es necesariamente una
representacin ms precisa de la concepto subyacente de buenos contra
malos contratos. Aunque es ms precisa sobre los datos que se utiliza para
entrenar el clasificador, puede rendir menos en una organizacin
independiente conjunto de datos de prueba. Puede ser "overfitted" para la
formacin de datos de seguimiento tambin servilmente. El rbol en la
Figura 1.3 (a) se obtiene a partir de la de la figura 1.3 (b) por un proceso de
poda, lo que vamos a aprender ms acerca del Captulo 6.
Soja Clasificacin: Un xito Aprendizaje Classic Machine
Una historia de xito temprano a menudo citada en la aplicacin de la
mquina de aprendizaje a la prctica problemas es la identificacin de las
normas para el diagnstico de enfermedades de la soja. Los datos se toma a
partir de cuestionarios que describen enfermedades de las plantas. Hay
alrededor de 680 ejemplos, cada uno representando una planta enferma.
Las plantas se midieron en 35 atributos, cada uno una de ellas con un
pequeo conjunto de valores posibles. Ejemplos son etiquetados con el
diagnstico de un experto en biologa de las plantas: Hay 19 categoras de
enfermedades por completo-horriblesounding enfermedades como
Diaporthe cancro del tallo, rhizoctonia pudricin de la raz, y bacteriana
tizn, por mencionar slo algunos. Tabla 1.7 da los atributos, el nmero de
valores diferentes que cada uno puede tener, y un registro de la muestra
para una planta en particular. Los atributos se colocan en diferentes
categoras slo para hacerlos ms fciles de leer. He aqu dos ejemplos de
reglas, aprendidas de estos datos:
Si la condicin de la hoja = normal y
detener condicin = anormal y
chancros madre = debajo de la lnea del suelo y
color de la lesin cancro = marrn
entonces
diagnstico es rhizoctonia pudricin de la raz

Si la hoja de malformacin = ausente y


detener condicin = anormal y
chancros madre = debajo de la lnea del suelo y
color de la lesin cancro = marrn
entonces
diagnstico es rhizoctonia pudricin de la raz
Ifleafcondition= normaland
stemcondition= abnormaland
stemcankers= belowsoillineand
cankerlesioncolor= brown
then
diagnosisisrhizoctoniarootrot
Ifleafmalformation= absentand
stemcondition= abnormaland
stemcankers= belowsoillineand
cankerlesioncolor= brown
then
diagnosisisrhizoctoniarootrot

Estas reglas bien ilustran el papel potencial de conocimiento previo-a


menudo llamada dominio en el conocimiento en el aprendizaje automtico,
para, de hecho, la nica diferencia entre el dos descripciones es la condicin
de la hoja es normal frente a la hoja de malformacin est ausente. Ahora,
en este mbito, si la condicin de la hoja es normal, entonces la hoja de la
malformacin es necesariamente ausente, por lo que una de estas
condiciones pasa a ser un caso especial de la otra. Por lo tanto,si la primera
regla es verdadera, la segunda es necesariamente cierto. La nica vez que
el segundo regla entra en juego es cuando la hoja de la malformacin es
ausente, pero la condicin de la hoja no es normales, es decir, cuando algo
que no sea una malformacin que est mal con la hoja. Esto ciertamente no
es evidente a partir de una lectura casual de las reglas. La investigacin
sobre este problema en la dcada de 1970 encontr que estas reglas de
diagnstico podra ser generado por un algoritmo de aprendizaje
automtico, junto con las reglas para cada otro categora de enfermedad, a
partir de unos 300 ejemplos de entrenamiento. Estos ejemplos de
entrenamiento fueron cuidadosamente seleccionado de entre el corpus de
casos como siendo muy diferente de uno otro-"lejos" en el espacio de
ejemplo. Al mismo tiempo, el patlogo de plantas que haba producido fue
entrevistado los diagnsticos, y su experiencia fue traducidoreglas nto de
diagnstico. Sorprendentemente, las reglas generadas por ordenador
superaron alnormas derivadas de expertos sobre los ejemplos de prueba
restantes. La enfermedad correcta se clasific en la parte superior 97.5% de
las veces en comparacin con slo 72% de las reglas de experto derivados.
Adems, no slo el algoritmo de aprendizajeencontrar reglas que superaron
las del colaborador experto, pero el mismo experto era tan impresionado
que supuestamente adoptado las reglas descubiertas en lugar de su propio!

1.3 APLICACIONES envi


Los ejemplos que hemos abierto con los proyectos de investigacin son
especulativos, no la produccinsistemas. Y las figuras anteriores son
problemas de juguete: Ellos deliberadamente se eligen paraser pequea
para que podamos usarlos para trabajar a travs de los algoritmos ms
adelante en el libro.Dnde est la carne? Estas son algunas de las
aplicaciones de la mquina de aprendizaje que tienen en realidadha puesto
en uso.Ser aplicaciones desplegadas, los ejemplos que siguen tienden a
resaltar el uso de aprendiendo en situaciones de rendimiento, en la que el
nfasis est en la capacidad de realizar bien en nuevos ejemplos. Este libro
tambin describe el uso de los sistemas de aprendizaje para ganar el
conocimiento de las estructuras de decisin que se deducen de los datos.
Creemos que esto es lo ms importante-probablemente an ms importante
en el largo plazo el uso-a de la tecnologa como hacer predicciones de alto
rendimiento. An as, tender a ser menos representado en aplicaciones
desplegadas porque cuando se utilizan tcnicas de aprendizaje aganar la
penetracin, el resultado no suele ser un sistema que se puso a trabajar
como una aplicacinen su propio derecho. Sin embargo, en tres de los
siguientes ejemplos, el hecho de que el estructura de decisin es
comprensible es un elemento clave en la adopcin exitosa de la aplicacin.
Web Mining
Informacin en la World Wide Web Mining es un rea de crecimiento en
explosin. Bsqueda compaas de motores de examinar los hipervnculos
en las pginas web para llegar a una medida de "prestigio" para cada
pgina web y el sitio web. Los diccionarios definen prestigio como de "alto
de pie logra a travs del xito o influencia. "Un llamado PageRank mtrica,
introducida por los fundadores de Google y tambin se utilizan en diversas
formas por otro motor de bsqueda desarrolladores, los intentos de medir la
posicin de una pgina web. Los ms pginas que enlace a su sitio web,
mayor es su prestigio, sobre todo si las pginas que enlazan a tener alto
prestigio a s mismos. La definicin suena circular, pero puede ser hecho
para trabajar.
Los motores de bsqueda utilizan PageRank (entre otras cosas) para
clasificar las pginas web en orden antes de mostrar los resultados de su
bsqueda. Otra forma en que los motores de bsqueda abordan el problema
de cmo clasificar de web pginas es el uso de la mquina de aprendizaje
basado en un conjunto de entrenamiento de ejemplo consulta- documentos
que contienen los trminos de la consulta y los juicios humanos sobre cmo
relevantes los documentos son a esa consulta. A continuacin, un algoritmo
de aprendizaje analiza esta datos de entrenamiento y se le ocurre una
manera de predecir el fallo relevancia para cualquier documento y consulta.
Para cada documento, se calcula un conjunto de valores de funciones que
depende del ejemplo plazo para la consulta, ya sea que ocurra en la
etiqueta del ttulo, ya sea se produce en la direccin URL del documento, la
frecuencia con que se produce en el propio documento, y la frecuencia con

la que aparece en el texto de anclaje de los hipervnculos que apuntan al


documento. Para consultas Multiterm caractersticas incluyen la frecuencia
con dos trminos diferentes aparecen cerca juntos en el documento, y as
sucesivamente. Hay muchas caractersticas tpicas de los posibles
algoritmos para el aprendizaje utilizan filas de cientos o miles de ellos. Los
motores de bsqueda mine el contenido de la Web. Tambin minan el
contenido de su consultas de los trminos que usted busca-para seleccionar
los anuncios que usted puede serinteresado pulg Ellos tienen un fuerte
incentivo para hacerlo con precisin, ya que obtener pagados por los
anunciantes slo cuando los usuarios hacen clic en sus enlaces. Compaas
de motores de bsqueda mina de sus clics, porque el conocimiento de que
los resultados que usted hace clic en se puede utilizar para mejorar la
bsqueda de la prxima vez. Libreros en lnea mina la base de datos de
compra para formular recomendaciones tales como "los usuarios que han
comprado este libro tambin han comprado stos "; de nuevo, tienen un
fuerte incentivo para presentarle convincente, opciones personalizadas.
Sitios Pelcula recomiendan pelculas basadas en su anterior opciones y
decisiones de otras personas-ganan si hacen recomendaciones que que los
clientes regresen a su sitio web. Y luego estn las redes sociales y otros
datos personales. Vivimos en la era de la auto-revelacin: La gente
comparte sus pensamientos ms ntimos en los blogs y tweets; su
fotografas, msica y pelculas a sus gustos, sus opiniones de los libros,
software, gadgets y hoteles; su vida social. Ellos pueden creer que estn
haciendo esto de manera annima, o con seudnimo, pero a menudo son
incorrectas (ver seccin 1.6). Hay enorme inters comercial en hacer dinero
por la minera de la Web. Las decisiones que entraan juicios Cuando usted
solicita un prstamo, usted tiene que llenar un cuestionario pidiendo
relevante informacin financiera y personal. Esta informacin es utilizada
por la compaa de prstamo como base para su decisin en cuanto a si
prestarle dinero. Tales decisiones son hecho tpicamente en dos etapas. En
primer lugar, se utilizan mtodos estadsticos para determinar clara
"Aceptar" y "rechazar" los casos. Los casos lmite restantes son ms difciles
y llamar a juicio humano. Por ejemplo, una compaa de prstamos utiliza
un procedimiento de decisin estadstica para calcular un parmetro
numrico con base en la informacin suministrada en el cuestionario. Los
solicitantes se aceptan si este parmetro supera un umbral preestablecido y
rechazado si cae por debajo de un segundo umbral. Esto representa el 90%
de los casos, y el 10% restante se hace referencia a los oficiales de crdito
para una decisin. Al examinar los datos histricos sobre si solicitantes
efectivamente pagan sus prstamos, sin embargo, result que la mitad de la
frontera los solicitantes que hayan recibido prstamos en mora en realidad.
Aunque sera tentador simplemente para negar el crdito a borderline
clientes, profesionales de la industria de crdito sealan que si slo su pago
futuro se podra determinar con fiabilidad, es precisamente estos clientes
cuyo negocio deben ser cortejados; que tienden a ser activa clientes de una
entidad de crdito debido a que sus finanzas se mantienen en una crnica
condiciones voltiles. Un compromiso adecuado debe ser alcanzado entre el

punto de vista de un contador de la empresa, que no le gusta la mala


deuda, y la de un ejecutivo de ventas, que le disgusta girar negocio lejos.
Introduzca el aprendizaje automtico. La entrada era 1.000 ejemplos de
entrenamiento de borderline casos en los que se haba hecho un prstamo
que especifican si el prestatario tena por fin pagado o no pagado. Para cada
ejemplo de entrenamiento, se extrajeron alrededor de 20 atributos del
cuestionario, como la edad, aos con la empresa actual, ao en corriente
direccin, ao en el banco, y otras tarjetas de crdito posean. Un
aprendizaje de la mquina procedimiento se utiliza para producir un
pequeo conjunto de reglas de clasificacin que hizo correcta predicciones
en dos tercios de los casos lmite en un conjunto de pruebas elegido de
forma independiente. No slo estas normas mejoran el ndice de xito de las
decisiones de prstamo, pero el compaa tambin encontr atractivas, ya
que podran ser utilizados para explicar a los solicitantes las razones detrs
de la decisin. Aunque el proyecto fue un exploratorio que tuvo slo un
pequeo esfuerzo de desarrollo, la compaa de prstamos era
aparentemente tan satisfecho con el resultado de que las reglas fueron
puestas en uso inmediatamente.
Screening Imgenes
Desde los primeros das de la tecnologa de satlites, los cientficos
ambientales han sido tratando de detectar manchas de petrleo a partir de
imgenes de satlite para dar la alerta temprana de los sistemas ecolgicos
desastres y disuadir el vertido ilegal. Los satlites de radar proporcionan
una oportunidad para monitoreo de las aguas costeras de da como de
noche, independientemente de las condiciones meteorolgicas. Las
manchas de petrleo aparecer como regiones oscuras de la imagen, el
tamao y la forma de los cuales evolucionar ependiendo en condiciones
meteorolgicas y martimas. Sin embargo, otras regiones oscuras de
aspecto similar pueden ser causados por las condiciones climticas locales,
tales como vientos fuertes. La deteccin de las manchas de petrleo es un
caro proceso manual que requiere personal altamente capacitados que
evalen cada regin en el imagen. Un sistema de deteccin de peligros se
ha preparado para detectar imgenes para su posterior rocesamiento
manual. Destinados a ser comercializados en todo el mundo a una amplia
variedad de suarios- las agencias gubernamentales y las empresas-con
diferentes objetivos, aplicaciones y reas geogrficas, este sistema tiene
que ser altamente personalizable a las circunstancias individuales. El
aprendizaje automtico permite al sistema ser entrenado en ejemplos de
derrames y nonspills suministrados por el usuario y permite al usuario
controlar el equilibrio entre derrames detectados y falsas alarmas. A
diferencia de otras aplicaciones de aprendizaje automtico, que generan un
clasificador que se despliega a continuacin en el campo, aqu es el
aprendizaje esquema propio que se desplegar. La entrada es un conjunto
de imgenes de pxeles primas desde un satlite de radar, y la salida es una
mucho ms pequeo conjunto de imgenes con las manchas de petrleo
supuestos marcados por un borde de color. En primer lugar, las operaciones

de procesamiento de imgenes estndar se aplican para normalizar la


imagen. A continuacin se identifican las regiones oscuras sospechosas.
Varias docenas de atributos se extraen de cada regin, la caracterizacin de
su tamao, la forma, el rea, la intensidad, la nitidez y jaggedness de los
lmites, la proximidad a otras regiones, y la informacin sobre el fondo en la
proximidad de la regin. Por ltimo, las tcnicas de aprendizaje estndar
son aplicado al atributo vector resultante Se han encontrado varios
problemas interesantes. Uno de ellos fue la escasez de formacin datos. Las
manchas de petrleo son (afortunadamente) muy raros, y la clasificacin
manual es muy costosa. Otra fue la naturaleza desequilibrada del problema:
De las muchas zonas oscuras en los datos de entrenamiento, slo una
fraccin muy pequea eran manchas de petrleo reales. Una tercera es que
los ejemplos agrupados naturalmente en lotes, con regiones extradas de
cada imagen la formacin de un nico lote, y las caractersticas de fondo
vari de un lote a otra. Finalmente, la tarea de rendimiento era la de servir
como un filtro, y el usuario tena que ser provisto con un medio conveniente
de la variacin de la tasa de falsas alarmas.

Previsin de carga
En el sector elctrico, es importante para determinar la demanda futura de
potencia con la mayor antelacin posible. Si las estimaciones exactas
pueden ser hechas para la carga mxima y mnima para cada hora, da,
mes, temporada y ao, la utilidad las empresas pueden hacer importantes
economas en reas tales como la definicin de la operacin reserva, la
programacin del mantenimiento y la gestin de inventarios de
combustible. Un asistente automatizado previsin de cargas ha estado
operando a una utilidad importante proveedor por ms de una dcada para
generar previsiones por hora con dos das de antelacin. El primer paso fue
utilizar los datos recogidos durante los ltimos 15 aos para crear un
sofisticado modelo de carga de forma manual. Este modelo tiene tres
componentes: carga base para la ao, la periodicidad de carga en el ao, y
el efecto de los das festivos. Para normalizar para la carga base, los datos
correspondientes a cada ao anterior se estandariz restando el carga
promedio para ese ao a partir de cada lectura por hora y dividiendo por la
norma desvo por encima del ao. Carga elctrica muestra la periodicidad
en tres frecuencias fundamentales: diurna, donde uso tiene un mnimo de la
maana y el medioda y la tarde mximos; semanal, donde la demanda es
ms baja en los fines de semana; y de temporada, donde el aumento de la
demanda durante invierno y verano para la calefaccin y la refrigeracin,
respectivamente, crea un ciclo anual. Das de fiesta importantes, como
Accin de Gracias, Navidad y el da de Ao Nuevo, muestran significativa
variacin de la carga normal y cada uno se modela por separado
promediando cargas por hora de ese da en los ltimos 15 aos. Das de
fiesta oficiales menores, tales como Da de la Raza, se agrupan como las

vacaciones escolares y tratado como un desplazamiento para el patrn


diurno normal. Todos estos efectos se incorporan por la reconstruccin la
carga de un ao como una secuencia de das tpicos, encajando las
vacaciones en su correcta posicin y desnormalizar la carga para explicar el
crecimiento general. Hasta ahora, el modelo de carga es una esttica,
construido manualmente desde histrico de datos, y asume implcitamente
las condiciones climticas "normales" durante el ao. La final paso fue
tomar en cuenta las condiciones climticas localizando el da anterior ms
similares a las circunstancias actuales y el uso de la informacin histrica de
que das como predictor. La prediccin se trata como una correccin aditivo
a la esttica modelo de carga. Para protegerse de los valores extremos, los
ocho das ms similares se encuentran y sus correcciones aditivos
promediaron. Una base de datos se construy de la temperatura, humedad,
velocidad del viento y la nubosidad en tres centros meteorolgicos locales
para cada hora del registro histrico de 15 aos, junto con la diferencia
entre la carga real y la que predice el modelo esttico. Se realiz un anlisis
de regresin lineal para determinar los efectos relativos de estos
parmetros en la carga, y los coeficientes se utiliza para ponderar la funcin
de distancia se utiliza para localizar los das ms similares. El sistema
resultante produjo el mismo rendimiento que el del humano capacitado los
meteorlogos, pero era mucho ms rpido de toma de segundos en lugar de
horas para generar un diario previsin. Los operadores humanos pueden
analizar la sensibilidad de la previsin de los cambios simulados en el
tiempo y traer a examen los das "ms parecidos" que el sistema utilizado
para el ajuste de tiempo.

Diagnstico
El diagnstico es una de las principales reas de aplicacin de los sistemas
expertos. Aunque el reglas artesanales utilizados en sistemas expertos a
menudo un buen desempeo, aprendizaje automtico puede ser til en
situaciones en las que las reglas que producen de forma manual es muy
laboriosa. El mantenimiento preventivo de los equipos electromecnicos,
tales como motores y generadores puede prevenir fallas que interrumpen
los procesos industriales. Tcnicos con regularidad inspeccionar cada
dispositivo, la medicin de vibraciones en varios puntos para determinar si
el dispositivo necesita mantenimiento. Fallos tpicos incluyen desalineacin
del eje, aflojamiento mecnico, cojinetes defectuosos y bombas
desequilibradas. Una planta qumica en particular utiliza ms de 1000
dispositivos diferentes, que van desde bombas pequeas a muy grandes
turbo-alternadores, que hasta hace poco fueron diagnosticados por un
experto humano con 20 aos o ms de experiencia. Los fallos se
identificaron mediante la medicin de vibraciones en diferentes lugares en
el el montaje y el uso de anlisis de Fourier del dispositivo para comprobar
la energa presente en tres diferentes direcciones en cada armnico de la

velocidad de rotacin bsica. Esta informacin, que es muy ruidoso debido a


las limitaciones en la medicin y el procedimiento de grabacin, es
estudiado por el experto para llegar a un diagnstico. Aunque expertos
artesanal las reglas del sistema haban sido desarrollados para algunas
situaciones, el proceso de obtencin hara tener que repetirse varias veces
para diferentes tipos de mquinas; por lo que un aprendizaje procedimiento
se ha investigado. Seiscientos fallos, comprendiendo cada una un conjunto
de mediciones junto con la diagnstico del experto, estaban disponibles, lo
que representa 20 aos de experiencia. Alrededor de la mitad eran
insatisfactoria por varias razones y tuvo que ser descartada; el resto eran
utilizado como ejemplos de entrenamiento. El objetivo no es determinar si
es o no un fallo exista sino para diagnosticar el tipo de falla, dado que uno
estaba all. Por lo tanto, no haba no hay necesidad de incluir los casos
libres de fallos en el conjunto de entrenamiento. Los atributos medidos
fueron nivel ms bien bajo y tuvo que ser aumentada por conceptos
intermedios, es decir, las funciones de de atributos-el cual bsicos definidos
en consulta con el experto y encarnado algunos conocimientos de dominio
causal. Los atributos derivados se llevaron a cabo a travs de un algoritmo
de induccin para producir un conjunto de normas de diagnstico.
Inicialmente, el experto se mostr No satisfecho con las reglas porque no
poda relacionarlos con su propio conocimiento y la experiencia. Para l, la
simple evidencia estadstica no era, en s misma, una adecuada explicacin.
Profundizar en los conocimientos de fondo tuvo que ser utilizado antes
normas satisfactorias se generaron. Aunque las reglas resultantes eran
bastante complejo, el experto le gusta porque l podra justificar a la luz de
su conocimiento mecnico. Era satisfecho de que una tercera parte de las
reglas coincidi con los que utilizaba l mismo y fue encantados de
aumentar los conocimientos de algunos de los otros. Las pruebas de
rendimiento indicaron que las reglas aprendidas fueron ligeramente
superiores a los artesanales los que previamente haba sido solicitada a los
expertos, y este resultado fue confirmado por su uso posterior en la fbrica
de productos qumicos. Es interesante observar, sin embargo, que el
sistema se puso en uso no debido a su buen rendimiento pero debido a que
el experto de dominio aprobada de las normas que se haban aprendido.

Marketing y Ventas
Algunas de las aplicaciones ms activo de la minera de datos han sido en el
rea de marketing y ventas. Se trata de esferas en las que las empresas
poseen masiva volmenes de datos registrados, precisamente, lo que, slo
recientemente se ha dado cuenta, es potencialmente muy valiosa. En estas
aplicaciones, los propios predicciones son el inters principal: la estructura
de cmo se toman las decisiones es a menudo completamente irrelevante.
Ya hemos mencionado el problema de la lealtad del cliente voluble y el
desafo de detectar los clientes que tienen probabilidades de defectos de
forma que puedan ser cortejados espalda en el redil, dndoles un

tratamiento especial. Los bancos fueron los primeros en adoptar los datos
extraccin Maquinaria debido a sus xitos en el uso de la mquina de
aprendizaje para evaluacin del crdito. La minera de datos se est
utilizando ahora para reducir la prdida de clientes por detectar cambios en
los patrones bancarios individuales que pueden anunciar un cambio de
banco, o incluso los cambios de la vida, como un movimiento a otro de la
ciudad, que pueden dar lugar a una diferente banco siendo elegido. Se
puede revelar, por ejemplo, un grupo de clientes con superior a la media
tasa de desercin que hacen la mayor parte de sus operaciones bancarias
por telfono despus de horas cuando respuesta telefnica es lento. La
minera de datos puede determinar los grupos a los cuales los nuevos
servicios son apropiadas, como por ejemplo un grupo de clientes rentables,
confiables que raramente obtener adelantos en efectivo de sus tarjetas de
crdito, excepto en noviembre y diciembre, cuando que estn dispuestos a
pagar tasas de inters exorbitantes para ver a travs de las vacaciones
temporada. En otro mbito, las empresas de telefona celular luchan churn
detectando patrones de comportamiento que podran beneficiarse de
nuevos servicios, y luego anunciar dichos servicios para conservar su base
de clientes. Los incentivos previstos especficamente para retener existente
los clientes pueden ser costosos, y la minera de datos con xito permite
que sean precisamente dirigido a aquellos clientes que puedan producir el
mximo beneficio. Anlisis de la cesta de mercado es el uso de tcnicas de
asociacin de encontrar grupos de elementos que tienden a ocurrir juntos
en las transacciones, por lo general los datos de caja del supermercado.
Para muchos minoristas esta es la nica fuente de informacin de ventas
que est disponible para los datos la minera. Por ejemplo, el anlisis
automatizado de los datos de pago y envo puede revelar el hecho de que
los clientes que compran cerveza tambin compran fichas, un
descubrimiento que podra ser significativo desde punto del operador de
supermercados de vista (aunque bastante obvia que, probablemente, no es
necesario un ejercicio de minera de datos para descubrir). O el anlisis
puede llegar a con el hecho de que los jueves clientes a menudo compran
paales y cerveza juntos, un resultado inicialmente sorprendente que,
pensndolo bien, tiene cierto sentido los padres como los jvenes
abastecerse para un fin de semana en casa. Tal informacin podra ser
utilizada para muchos propsitos: planificacin del almacn diseos, lo que
limita los descuentos especiales para slo uno de una serie de elementos
que tienden a comprar juntos, ofreciendo cupones para un producto a juego
cuando uno de ellos se vende por s solo, y as sucesivamente. Existe un
enorme valor aadido de ser capaz de identificar de cliente individual
historias de ventas. De descuento o "fidelidad" tarjetas permiten minoristas
a identificar todas las compras que cada cliente hace. Estos datos
personales es mucho ms valioso que el valor en efectivo del descuento. La
identificacin de los clientes individuales no slo permite anlisis histrico
de los patrones de compra, pero tambin permite precisamente dirigido
especial ofrece para ser enviado a los clientes-o potenciales cupones quizs
personalizados se pueden imprimir en tiempo real en la caja para su uso

durante la prxima ejecucin de comestibles. Supermercados queremos que


se sienta que aunque vivamos en un mundo de manera inexorable aumento
de los precios, que no aumentan tanto para usted, porque las gangas
ofrecidas por cupones personalizados hacen atractivo para que usted pueda
abastecerse de cosas que usted normalmente no habran comprado. El
marketing directo es otro dominio popular para la minera de datos. Bulkmail promocional las ofertas son caros y tienen una tasa baja, pero muy
rentable-respuesta. Cualquier cosa que ayuda a promociones de enfoque, la
consecucin de la misma o casi la misma respuesta de una muestra ms
pequea, es valiosa. Bases de datos comercialmente disponibles contiene
informacin demogrfica que caracteriza a los barrios basado en zip cdigos
pueden ser correlacionados con la informacin sobre los clientes existentes
para predecir qu tipo de la gente podra comprar que artculos. Este
modelo se puede prob en la informacin obtenida en respuesta a una
mailout inicial, donde las personas envan una tarjeta de respuesta, Save
Nmero 800 para obtener ms informacin, los clientes de predecir
probabilidades futuras. Desemejante minoristas de centros comerciales,
empresas de correo directo tienen historias completas de compra para cada
cliente y puede utilizar la minera de datos para determinar aquellos que
puedan responder a ofertas especiales. Las campaas especficas a ahorrar
dinero al dirigir ofertas slo a aquellos que se desea que el producto.
Otras aplicaciones
Hay un sinnmero de otras aplicaciones de aprendizaje automtico.
Mencionamos brevemente una pocas reas ms para ilustrar la amplitud de
lo que se ha hecho. Sofisticados procesos de fabricacin a menudo implican
ajustar los parmetros de control. La separacin de crudo a partir del gas
natural es un requisito previo esencial para el refinamiento de petrleo, y
controlar el proceso de separacin es un trabajo difcil. British Petroleum
utilizado mquina de aprendizaje para crear reglas para ajustar los
parmetros. Esto ahora toma slo 10 minutos, mientras que los expertos
anteriormente humanos tuvieron ms de un da. Westinghouse enfrentado
problemas en su proceso de fabricacin de pastillas de combustible nuclear
y se utiliza mquina de aprendizaje para crear reglas para controlar el
proceso. Esto fue informado de que los salv ms de $ 10 millones por ao
(en 1984). La impresin de Tennessee empresa RR Donnelly aplica la misma
idea para controlar la impresin en huecograbado presiona para reducir los
artefactos causados por los ajustes de parmetros inadecuados, lo que
reduce la nmero de artefactos de ms de 500 cada ao a menos de 30. En
el mbito de la atencin al cliente y el servicio, que ya hemos descrito
contratante prstamos y marketing y aplicaciones de ventas. Otro ejemplo
surge cuando un cliente informa de un problema de telfono y la empresa
debe decidir qu tipo de tcnico para asignar al trabajo. Un sistema experto
desarrollado por Bell Atlantic en 1991 para tomar esta decisin fue
reemplazado en 1999 por una serie de reglas desarrollado usando la
mquina aprendizaje, que salv a ms de $ 10 millones por ao, haciendo
menos correctos decisiones. Hay muchas aplicaciones cientficas. En

biologa, aprendizaje de mquina se utiliza para ayudar a identificar a los


miles de genes dentro de cada nuevo genoma. En biomedicina, es usado
para predecir la actividad del frmaco por el anlisis no slo las propiedades
qumicas de las drogas sino tambin su estructura tridimensional. Esto
acelera el descubrimiento de frmacos y reduce su coste. En astronoma, la
mquina de aprendizaje se ha utilizado para desarrollar un completo
sistema de catalogacin automtica de objetos celestes que son demasiado
dbiles para ser vistos por inspeccin visual. En qumica, se ha utilizado
para predecir la estructura de determinadas compuestos orgnicos a partir
de los espectros de resonancia magntica. En todas estas aplicaciones,
tcnicas de aprendizaje mquina han alcanzado niveles de rendimiento-o
deberamos decir habilidad?-que rivalizan o superan las de los expertos
humanos. La automatizacin es especialmente bienvenida en situaciones
que implican un monitoreo continuo, un trabajo que requiere mucho tiempo
y excepcionalmente aburrido para los seres humanos. Ecolgico
aplicaciones incluyen el control de derrames de petrleo se ha descrito
anteriormente. Otras aplicaciones son ms bien menos consecuencias-por
ejemplo, el aprendizaje de mquina se utiliza para predecir preferencias
sobre programas de televisin basados en decisiones pasadas y para
asesorar a los espectadores acerca de canales disponibles. Todava otras
aplicaciones pueden salvar vidas. Los pacientes de cuidados intensivos
pueden ser monitoreados para detectar cambios en las variables que no se
pueden explicar con circadiano el ritmo, la medicacin, y as sucesivamente,
lo que ha alarmado cuando sea apropiado. Finalmente, en un mundo que se
basa en los sistemas informticos en red es cada vez ms vulnerables y
preocupados por la seguridad ciberntica, el aprendizaje automtico se
utiliza para detectar la intrusin de reconocer patrones inusuales de
operaciones.
1.4 APRENDIZAJE Y ESTADSTICA DE LA MQUINA
Cul es la diferencia entre el aprendizaje de mquina y las estadsticas?
Los cnicos, mirando irnicamente en la explosin de inters comercial (y
bombo) en este mbito, equiparar minera de datos para las estadsticas
ms comercializacin. En verdad, no se debe buscar un la lnea divisoria
entre el aprendizaje de la mquina y las estadsticas, porque hay una serie
continua- y uno multidimensional en que-de anlisis de datos tcnicas.
Algunos derivan de las habilidades que se ensean en los cursos de
estadstica estndar, y otros son ms estrechamente asociado con el tipo de
aprendizaje automtico que ha surgido de la computadora ciencia.
Histricamente, las dos partes han tenido lugar diferentes tradiciones. Si se
ve obligado para sealar a una sola diferencia de nfasis, podra ser que las
estadsticas ha sido ms preocupados por la comprobacin de hiptesis,
mientras que la mquina de aprendizaje ha sido ms dedican a formular el
proceso de generalizacin como una bsqueda a travs de posibles
hiptesis. Pero esto es una simplificacin excesiva: La estadstica es
muchoque slo la prueba de hiptesis, y muchas tcnicas de aprendizaje
automtico no implican cualquier bsqueda en absoluto. En el pasado, los

sistemas muy similares se han desarrollado en paralelo en la mquina de


aprendizaje y las estadsticas. Uno de ellos es el rbol de decisin de
induccin. Cuatro estadsticos (Breiman et al., 1984) public un libro,
clasificacin y rboles de regresin, a mediados de la dcada de 1980, y a lo
largo de la dcada de 1970 y principios de 1980 un prominente investigador
de aprendizaje de mquina, J. Ross Quinlan, estaba desarrollando un
sistema para inferir los rboles de clasificacin de ejemplos. Estos dos
proyectos independientes producen esquemas muy similares para los la
generacin de rboles a partir de ejemplos, y los investigadores slo se
dieron cuenta de una de otro trabajo mucho ms tarde. Una segunda rea
en la que han surgido mtodos similares implica el uso de NearestNeighbor
mtodos para la clasificacin. Estas son tcnicas estadsticas estndar que
han sido ampliamente adaptados por los investigadores de aprendizaje
automtico, tanto para mejorar clasificacin de rendimiento y para hacer
que el procedimiento computacionalmente ms eficiente. Vamos a examinar
tanto la induccin de rbol de decisin y los mtodos del vecino ms
cercano en Captulo 4. Pero ahora las dos perspectivas han convergido. Las
tcnicas que examinaremos en este libro incorporar una gran cantidad de
pensamiento estadstico. Desde el principio, al construir y perfeccionar las
bases de ejemplo inicial, los mtodos estadsticos estndar aplicar:
visualizacin de datos, seleccin de atributos, descartando los valores
atpicos, y as sucesivamente. La mayora de los algoritmos de aprendizaje
utilizan pruebas estadsticas en la construccin de reglas o rboles y para la
correccin de los modelos que estn "overfitted" en que dependen tambin
en gran medida de la detalles de los ejemplos particulares utilizados para
producirlos (que ya se ha observado un ejemplo de esto en los dos rboles
de decisin de la Figura 1.3 para las negociaciones laborales problema). Las
pruebas estadsticas se utilizan para validar los modelos de aprendizaje
automtico y evaluar algoritmos de aprendizaje automtico. En nuestro
estudio de tcnicas prcticas para la minera de datos, vamos a aprender
mucho acerca de las estadsticas.
1.5 GENERALIZACIN AS BUSCAR
Una manera de visualizar el problema de aprendizaje-y uno que lo distingue
de estadsticos enfoques es imaginar una bsqueda a travs de un espacio
de posibles concepto descripciones de uno que se ajuste a los datos.
Aunque la idea de la generalizacin de bsqueda es una poderosa
herramienta conceptual para pensar sobre el aprendizaje de la mquina, no
es esencial para la la comprensin de los esquemas prcticos que se
describen en este libro. Es por ello que esta seccin es puesto aparte (en
caja), lo que sugiere que es opcional. Supongamos, por definitud, que las
descripciones-el concepto de resultado de aprendizaje son expresado en
normas tales como las dadas para el problema del tiempo en la Seccin 1.2
(Aunque otros lenguajes de descripcin concepto haran igual de bien).
Supongamos que tenemos listar todos los posibles conjuntos de reglas y
luego busque los que satisfacen un determinado conjunto de ejemplos. Un
trabajo grande? S. Un trabajo infinito? A primera vista parece as porque no

hay lmite a la nmero de reglas que pudiera haber. Pero en realidad el


nmero de posibles conjuntos de reglas es finito. Tenga en cuenta que cada
primera regla es no mayor que un tamao mximo fijo, con un mximo de
un trimestre para cada atributo: Para los datos meteorolgicos de la Tabla
1.2 se trata de cuatro trminos en todo Debido a que el nmero de reglas
posibles es finito, el nmero de posibles conjuntos de reglas es finito
tambin, aunque muy grande. Sin embargo, nos gustara difcilmente
interesado en sets que contena una nmero muy grande de reglas. De
hecho, tendramos apenas interesara conjuntos que tenan ms reglas que
hay ejemplos, ya que es difcil imaginar que necesitan ms de una regla
para cada ejemplo. As que si tuviramos que limitar la consideracin de
gobernar conjuntos ms pequeos que eso, la problema se reducira
sustancialmente, aunque sigue siendo muy grande. La amenaza de un
nmero infinito de posibles descripciones de concepto parece ms grave
para la segunda versin del problema del tiempo en el Cuadro 1.3 porque
estas reglas contienen nmeros. Si son nmeros reales, no se puede
enumerar, ni siquiera en principio. Sin embargo, en la reflexin el problema
vuelve a desaparecer porque los nmeros en realidad slo representan
puntos de interrupcin en los valores numricos que aparecen en los
ejemplos. Por ejemplo, considere el atributo de la temperatura en la Tabla
1.3. Se trata de los nmeros 64, 65, 68, 69, 70, 71, 72, 75, 80, 81, 83, y 85 a
12 nmeros diferentes. Hay 13 lugares posibles en los que podra querer
poner un punto de interrupcin para una regla que implica temperatura. El
problema no es infinito despus de todo. As el proceso de generalizacin
puede ser considerada como una bsqueda a travs de una enorme, pero ,
espacio de bsqueda finito. En principio, el problema se puede resolver
mediante la enumeracin de las descripciones y ponchando a aquellos que
no encajan en los ejemplos presentados. Un ejemplo positivo elimina todas
las descripciones que no coinciden, y uno negativo elimina aquellos que no
igualar. Con cada ejemplo el conjunto de descripciones restantes se reduce
(o se mantiene la mismo). Si slo queda uno, es la descripcin del concepto
de destino objetivo. Si varias descripciones se dejan, que todava se pueden
utilizar para clasificar objetos desconocidos. Un objeto desconocido que
coincide con todas las descripciones restantes debe ser clasificado como
juego el objetivo; si no coincide con ninguna descripcin debe clasificarse
como fuera de la apuntar concepto. Slo si coincide con algunas
descripciones, pero otros no hay ambigedad. En este caso si la clasificacin
del objeto desconocido se revel, que hara que el conjunto de descripciones
restantes a encogerse debido a los conjuntos de reglas que clasifican el
objeto del manera incorrecta sera rechazado. Enumerar el Espacio Concept
En cuanto a ella como la bsqueda es una buena manera de ver el proceso
de aprendizaje. Sin embargo, la espacio de bsqueda, aunque finito, es
extremadamente grande, y es generalmente bastante poco prctico
enumerar todas las descripciones posibles y luego ver cules encajan. En el
problema del tiempo hay 4 4 3 3 2 = 288 posibilidades de cada
regla. Hay cuatro posibilidades para el atributo perspectivas: soleado,
nublado, lluvioso, o no podr participar en la regla en absoluto. Del mismo

modo, hay cuatro para la temperatura, tres cada uno de viento y la


humedad y dos para la clase. Si restringimos el conjunto de reglas para
contener no ms de 14 normas (porque hay 14 ejemplos en el conjunto de
entrenamiento), hay alrededor de 2,7 1034 posibles conjuntos de reglas
diferentes. Eso es un montn de enumerar, sobre todo para un problema tan
patentemente trivial. Aunque hay formas de hacer que el procedimiento de
enumeracin ms factible, una grave problema sigue: En la prctica, es raro
que el proceso para converger en un nico aceptable Descripcin.
Cualquiera de muchas descripciones se encuentran todava en la carrera
despus de que los ejemplos son procesan o los descriptores estn
eliminados. Surge la primera caso cuando los ejemplos no son lo
suficientemente amplia para eliminar todas las descripciones posibles a
excepcin de la Una "correcta". En la prctica, las personas a menudo
quieren un nico "mejor" descripcin, y es necesario aplicar algn otro
criterio para seleccionar la mejor de la serie de queda descripciones. El
segundo problema surge, bien por el lenguaje de descripcin no es lo
suficientemente expresiva para capturar el concepto real o debido a ruido
en los ejemplos. Si un ejemplo llega con la clasificacin "mal" debido a un
error en algunos de los los valores de atributo o en la clase que se asigna a
la misma, es probable que esto eliminar la correcta Descripcin del espacio.
El resultado es que el conjunto de descripciones restantes se convierte
vaca. Esta situacin es muy probable que ocurra si los ejemplos contienen
ningn ruido en absoluto, que inevitablemente lo hacen, salvo en
situaciones artificiales. la enumeracin de las descripciones y ponchando a
los que no se aplican, sino como una especie de colina de escalada en la
descripcin espacio para encontrar la descripcin que mejor se ajuste al
conjunto de ejemplos de acuerdo con algn criterio coincidente
preespecificado. Esta es la forma en que la mayora mtodos de aprendizaje
automtico prcticas funcionan. Sin embargo, excepto en los casos ms
triviales, es prctico buscar en todo el espacio de manera exhaustiva; la
mayora de los algoritmos prcticos implican bsqueda heurstica y no se
puede garantizar para encontrar la descripcin ptima.
Parcialidad
Viendo generalizacin como una bsqueda en un espacio de posibles
conceptos pone de manifiesto que la mayora de las decisiones importantes
en un sistema de aprendizaje automtico son:
El concepto de lenguaje de descripcin de
El orden en el que se busca en el espacio
La forma en que sobreajuste de los datos de entrenamiento particular, se
evita
Estas tres propiedades se conocen en general como el sesgo de la bsqueda
y se llaman sesgo de idioma, el sesgo de la bsqueda, y el sesgo de
sobreajuste-evitacin. Usted sesgo del esquema de aprendizaje por la

eleccin de un idioma en el que expresar conceptos, mediante la bsqueda


de una manera particular para una descripcin aceptable, y decidiendo
cuando el concepto se ha vuelto tan complejo que necesita ser simplificada.
Sesgo Idioma
La pregunta ms importante que el sesgo de idioma es si la descripcin
concepto el lenguaje es universal o si se impone limitaciones a qu
conceptos se puede aprender. Si tenemos en cuenta el conjunto de todos los
ejemplos posibles, un concepto en realidad es slo una divisin de ese
establecer en subconjuntos. En el ejemplo el clima, si tuviera que enumerar
todas las posibles clima condiciones, el concepto de juego es un
subconjunto de posibles condiciones climticas. A "universal" idioma es uno
que es capaz de expresar cada posible subconjunto de ejemplos. En la
prctica, el conjunto de posibles ejemplos generalmente, es enorme, y en
este sentido nuestra la perspectiva es un terico, no prctico, uno. Si el
concepto de lenguaje de descripcin permite declaraciones implican lgico
o, es decir, -a continuacin, disyunciones cualquier subconjunto pueden ser
representados. Si est basado en normas del lenguaje de descripcin,
disyuncin se puede lograr mediante el uso de reglas separadas. Por
ejemplo, una posible representacin concepto es simplemente enumerar los
ejemplos:
Si perspectivas = nublado y la temperatura = caliente y humedad = Alta
y con viento = false entonces el juego = s
Si perspectivas = lluvias y la temperatura y la humedad = leve = Alta
y con viento = false entonces el juego = s
Si perspectivas = lluvias y la temperatura fresca y la humedad = = normal
y con viento = false entonces el juego = s
Si perspectivas = nublado y la temperatura fresca y la humedad = = normal
y con viento = true entonces el juego = s
...
Si nada de lo anterior y luego jugar = no
VIfoutlook=overcastandtemperature=hotandhumidity=high
andwindy=falsethenplay=yes
Ifoutlook=rainyandtemperature=mildandhumidity=high
andwindy=falsethenplay=yes
Ifoutlook=rainyandtemperature=coolandhumidity=normal
andwindy=falsethenplay=yes
Ifoutlook=overcastandtemperature=coolandhumidity=normal
andwindy=truethenplay=yes

Ifnoneoftheabovethenplay=no

Esto no es una descripcin concepto particularmente esclarecedor: Es


simplemente registra lo positivo ejemplos que se han observado y asume

que todos los dems son negativos. Cada ejemplo positivo se le da su propio
gobierno, y el concepto es la disyuncin de las reglas. Alternativamente,
usted podra imaginar tener reglas individuales para cada uno de los
ejemplos negativos, demasiado-un concepto igualmente interesante. En
cualquiera de los casos, la descripcin concepto no realizar cualquier
generalizacin; simplemente registra los datos originales. Por otro lado, si
no se permite la disyuncin, algunos posibles conceptos-conjuntos de
ejemplos-no puede ser capaz de ser representado en absoluto. En ese caso,
una mquina de aprendizaje esquema puede ser simplemente incapaces de
lograr un bien
Otro tipo de sesgo de idioma es la obtenida a partir del conocimiento de lo
particular dominio que se usa. Por ejemplo, puede ser que algunas
combinaciones de valores de atributos nunca puede suceder. Este sera el
caso si un atributo implicaba otra. Vimos una ejemplo de esto al considerar
las reglas para el problema de la soja se describe en la Seccin 1.2.
Entonces no tendra sentido incluso a considerar conceptos que intervienen
redundante o combinaciones imposibles de valores de los atributos.
Conocimiento del dominio puede utilizarse para reducir el espacio de
bsqueda. El conocimiento es poder: Un poco va un largo camino, e incluso
una pequea pista CAN reducir drsticamente el espacio de bsqueda.
Buscar Blas
En los problemas de minera de datos realistas, hay muchas descripciones
de conceptos alternativos que se adapten los datos, y el problema es
encontrar la "mejor" un acuerdo con algn criterio-por lo general
simplicidad. Utilizamos el ajuste trmino en un sentido estadstico;
buscamos la mejor descripcin que se ajusta los datos razonablemente bien.
Por otra parte, a menudo es computacionalmente imposible para buscar en
la espacio entero y la garanta de que la descripcin encontrado es
realmente el mejor. En consecuencia, la procedimiento de bsqueda es
heurstico y no hay garantas se puede hacer sobre la optimalidad de la
resultado final. Esto deja mucho espacio para el sesgo: Diferentes bsqueda
heurstica sesgan la bsqueda de diferentes maneras. Por ejemplo, un
algoritmo de aprendizaje podra adoptar una bsqueda "codiciosos" de las
reglas al tratar de encontrar la mejor regla en cada etapa y agregarla al
conjunto de reglas. Sin embargo, puede ser que el mejor par de reglas no
son slo las dos reglas que se encuentran de forma individual mejor. O
cuando la construccin de un rbol de decisin, un compromiso de dividir
desde el principio utilizando un atributo particular podra resultan ms
adelante ser-mal considerado a la luz de cmo el rbol se desarrolla por
debajo de ese nodo. Para llegar en torno a estos problemas, la bsqueda de
haz podra ser utilizado cuando los compromisos irrevocables son no hizo
sino un conjunto de varias alternativas, el nmero de activos que es el -se
persigui anchura de haz en en una teora simple es encontrar un tema
complejo y luego simplificarlo. Adelante y atrs poda son a la vez una
especie de sesgo sobreajuste-evitacin. En resumen, aunque la

generalizacin como la bsqueda es una buena manera de pensar en el


problemas de aprendizaje, el sesgo es la nica manera para que sea factible
en la prctica. El aprendizaje de diferentes algoritmos corresponden a
diferentes espacios de descripciones concepto buscado con diferente
sesgos. Esto es lo que lo hace interesante: Descripcin de diferentes
lenguas y sesgos sirven algunos problemas as y otros problemas de mal. No
hay "mejor" aprendizaje universales mtodo-ya que cada maestro sabe!
1.6 LA MINERA Y LA TICA DE DATOS
El uso de los datos-en particular los datos sobre las personas para la minera
de datos tiene graves tica implicaciones, y practicantes de tcnicas de
minera de datos deben actuar con responsabilidad por hacindose
consciente de los problemas ticos que rodean a su especial
aplicacin. Cuando se aplica a las personas, la minera de datos se utiliza
con frecuencia para discriminar-que obtiene el prstamo de remate de la
oferta especial, y as sucesivamente. Ciertos tipos de discriminacin- racial,
sexual, religiosa, etc-son no slo es poco tico, sino tambin ilegal. Sin
embargo, la situacin es compleja: Todo depende de la aplicacin. Usando
sexual y informacin racial para el diagnstico mdico es sin duda tica,
pero utilizando la misma informacin cuando la minera comportamiento de
pago del prstamo no es. Incluso cuando la informacin sensible se
desecha, se corre el riesgo de que se construirn los modelos que se basan
en variables que pueden ser demostrado que sustituir a las caractersticas
raciales o sexuales. Por ejemplo, la gente con frecuencia vivir en zonas que
se asocian con determinadas identidades tnicas, y por lo que usar un
cdigo postal en un estudio de la minera de datos, corre el riesgo de la
construccin de modelos que se basan en carrera-a pesar de que la
informacin racial se ha excluido explcitamente de los datos.
Reidentificacin
Trabajos recientes en lo que se estn llamados tcnicas reidentificacin ha
proporcionado ideas que dan que pensar en la dificultad de los datos de
anonimato. Resulta, por ejemplo, que ms del 85% de los estadounidenses
puede ser identificado a partir de los registros de acceso pblico que
utilizan slo tres piezas de informacin: cdigo postal de cinco dgitos, fecha
de nacimiento (incluyendo el ao), y sexo. No sabe el cdigo postal?-Ms
de la mitad de los estadounidenses puede ser identificado a partir de slo
de la ciudad, fecha de nacimiento y sexo. Cuando el Estado de
Massachusetts lanz registros mdicos que resumen de historia clnica de
cada empleado de estado en el mediano 1990, el gobernador dio una
garanta pblica de que haba sido annima mediante la eliminacin de toda
la informacin de identificacin, como nombre, direccin, y nmero de
seguro social. Estaba sorprendido de recibir sus propios registros de salud
(que inclua diagnsticos y recetas) en el correo. Abundan las historias de
empresas liberando datos supuestamente annimos de buena fe, slo para
encontrar que muchas personas son fcilmente identificables. En 2006, una

empresa de servicios de Internet compaa lanz a la comunidad de


investigacin de los registros de 20 millones de bsquedas de los
usuariosparalelo. Esto complicar el algoritmo de aprendizaje muy
considerablemente pero tiene el potencial para evitar la miopa asociada
con una bsqueda codiciosa. De Por supuesto, si el ancho del haz no es lo
suficientemente grande, todava puede producirse la miopa. Hay ms
complejas estrategias de bsqueda que ayudan a superar este problema.
Una especie de mayor nivel ms general y de las preocupaciones de
polarizacin de bsqueda si la bsqueda es hecho comenzando con una
descripcin general y refinarlo o iniciando con una especfica ejemplo y
generalizarlo. El primero se denomina sesgo de la bsqueda de lo general a
lo especfico; la este ltimo, un uno-a-especfica en general. Muchos
algoritmos de aprendizaje adoptan la poltica anterior, a partir con un rbol
vaco decisin, o una regla muy general y especializada que se adapte a los
ejemplos. Sin embargo, es perfectamente posible trabajar en la otra
direccin. Mtodos basados en instancia empezar con un ejemplo particular
y ver cmo se puede generalizar a cubrir otros inmediaciones ejemplos de la
misma clase. Sesgo Overfitting-evitacin Sesgo Overfitting evitacin suele
ser ms que otro tipo de sesgo en esta categora. Sin embargo, porque
aborda un problema muy especial, lo tratamos por separado. Recordemos el
problema disyuncin descrito anteriormente. El problema es que si se
permite la disyuncin, el concepto intil descripciones que slo se hacen
posibles resumen de los datos, mientras que si est prohibido, algunos
conceptos son inaprensible. Para solucionar este problema, es comn para
buscar la espacio concepto a partir de las descripciones de conceptos ms
simples y de proceder a ms los complejos: simple-primero ordenar. Esto
desva la bsqueda en favor de concepto simple descripciones. Usando una
bsqueda ms simple primero y detenindose cuando un concepto
suficientemente complejo descripcin se encuentra es una buena manera
de evitar el sobreajuste. A veces se llama adelante poda o prepruning
porque descripciones complejas se podan de distancia antes de que sean
alcanzado. La alternativa, la poda hacia atrs o postpruning, tambin es
viable. Aqu, lo primero que encontrar una descripcin que encaja muy bien
y luego los datos podar de nuevo a una descripcin ms simple que tambin
se ajusta a los datos. Esto no es tan redundante como suena: A menudo, la
mejor manera de llegar Los registros fueron annimos mediante la
eliminacin de toda la informacin personal-o por lo que el compaa pens.
Pero muy pronto los periodistas de The New York Times fueron capaces
identificar a la persona real que corresponde al nmero de usuario 4417749
(que buscaban su permiso antes de exponer a ella). Lo hicieron mediante el
anlisis de los trminos de bsqueda que utilizado, que incluy consultas
para el paisajismo en su ciudad natal, y para varias personas con el mismo
apellido como el suyo, que los periodistas correlacionados con bases de
datos pblicas. Dos meses ms tarde, Netflix, un servicio de alquiler de
pelculas en lnea, lanz 100 millones registros de calificaciones de pelculas
(de 1 a 5) con sus fechas. Para su sorpresa, result a ser bastante fcil de
identificar a las personas en la base de datos y as descubrir todas las

pelculas que haban nominal. Por ejemplo, si usted sabe aproximadamente


cundo (ms o menos dos semana) a una persona en la base de datos
nominal de seis pelculas y usted sabe las votaciones, se puede identificar el
99% de las personas en la base de datos. Al conocer slo dos pelculas con
su calificaciones y fechas, ms o menos de tres das, casi el 70% de las
personas se pueden identificar. A partir de slo un poco de informacin
acerca de sus amigos (o enemigos) se puede determinar todos las pelculas
que he clasificado en Netflix. La moraleja es que si usted realmente eliminar
toda la informacin de identificacin de posibles a partir de una base de
datos, probablemente se quedar con nada til.

El uso de la informacin personal


Es ampliamente aceptado que antes la gente hace la decisin de
proporcionar informacin personal que necesitan saber cmo se va a utilizar
y lo que van a ser utilizados para, lo que se tomarn medidas para proteger
su confidencialidad e integridad, lo que las consecuencias de suministro o la
retencin de la informacin son, y cualquier derecho de recurso que puede
tener. Cada vez que se recoge dicha informacin, los individuos deben ser
informados stos cosas-no en letra pequea legalista pero sin rodeos en un
lenguaje sencillo que puedan entender. El uso potencial de las tcnicas de
minera de datos significa que las formas en las que un repositorio de datos
se puede utilizar puede prolongarse mucho ms all de lo que fue concebido
cuando el datos fueron originalmente recogidos. Esto crea un problema
grave: Es necesario determinar las condiciones en que los datos fueron
recogidos y con qu motivo puede ser utilizado. La propiedad de los datos
otorgar el derecho a utilizarlo en otras formas que los que pretenda cuando
fue grabada originalmente? Claramente, en el caso de explcitamente
recogida de datos personales, no lo hace. Pero, en general, la situacin es
compleja. Cosas sorprendentes emergen de la minera de datos. Por
ejemplo, se ha informado que uno de los principales grupos de consumo en
Francia se ha encontrado que las personas con rojo los coches son ms
propensos a dejar de pagar sus prstamos para automviles. Cul es el
estado de un "descubrimiento" como? Qu informacin se basa? Bajo qu
condiciones era que la informacin recogido? De qu manera es tico usar?
Claramente, las compaas de seguros son en el negocio de discriminar
entre las personas sobre la base de estereotipos machos jvenes- pagan un
alto precio por el seguro del automvil, pero esos estereotipos no se basan
nicamente en la correlaciones estadsticas; que tambin se basan en el
conocimiento de sentido comn sobre el mundo as. Si el hallazgo anterior
dice algo sobre el tipo de persona que elige un coche rojo, o si debe ser
desechada como algo irrelevante, es una cuestin para el juicio humano
basado en el conocimiento del mundo y no en puramente estadstico
criterios. Cuando se present con los datos, es necesario preguntarse quin
puede tener acceso a ella, con qu propsito se recogi, y qu tipo de

conclusiones son legtimas para sacar de ella. La dimensin tica plantea


preguntas difciles para quienes participan en minera de datos prctico. Es
necesario tener en cuenta las normas de la comunidad que se utiliza para
tratar con el tipo de datos en cuestin, las normas que pueden haber
evolucionado dcadas o siglos ms, pero los que no pueden ser conocidos
por el especialista en informacin. Por ejemplo, saba usted que en la
comunidad de bibliotecas que se da por sentado que la privacidad de los
lectores es un derecho que est protegido celosamente? Si llama a su
biblioteca de la universidad y preguntar quin tiene tal y tal un libro de
texto en prstamo, se No dir. Esto evita que el estudiante sea sometido a
la presin de un profesor furioso para obtener acceso a un libro que ella
necesita desesperadamente su ltima solicitud de subvencin. Tambin
prohbe la investigacin de los dudosos gustos de lectura de ocio de la
presidente del comit de tica de la universidad. Los que construyen, por
ejemplo, las bibliotecas digitales pueden No tener en cuenta estas
sensibilidades y podra incorporar sistemas de minera de datos que analizar
y comparar los hbitos de lectura de los individuos para recomendar nuevos
libros, tal vez incluso la venta de los resultados a los editores!
Cuestiones ms amplias
Adems de las distintas normas comunitarias para el uso de datos, lgicas y
cientficas normas deben respetarse al extraer conclusiones de ella. Si no
llegar a conclusiones (por ejemplo, los propietarios de automviles rojos que
son mayores riesgos de crdito), necesita adjuntar advertencias para ellos y
respaldarlos con ms argumentos que los puramente estadsticos. El punto
es que la minera de datos es slo una herramienta en el conjunto proceso.
Son las personas las que toman los resultados, junto con otros
conocimientos, y deciden qu medidas aplicar. La minera de datos le pide
otra pregunta, que es realmente una cuestin poltica relativa el uso al que
se estn poniendo recursos de la sociedad. Ya hemos mencionado la
aplicacin de minera de datos para anlisis de la cesta, donde los registros
de cajas de los supermercados son analizada para detectar asociaciones
entre los elementos que la gente compra. Para qu debera hacerse de la
informacin resultante? Si el gerente de supermercado colocar la cerveza y
patatas fritas juntos, para que sea ms fcil para los compradores, o ms
separados para que sea menos conveniente para ellos, para maximizar su
tiempo en la tienda y por lo tanto su probabilidad de ser arrastrado a
nuevas compras? Si el gestor de mover el paales ms caros, ms
rentables cerca de la cerveza, el aumento de las ventas a acosaron padres
de un elemento de alto margen, y aadir otros productos para bebs de lujo
cercano? Por supuesto, cualquier persona que utilice tecnologas avanzadas
debera considerar la sabidura de lo que estn haciendo. Si los datos se
caracteriza por ser hechos registrados, entonces la informacin es el
conjunto de patrones, o expectativas, que subyacen a los datos. Usted
podra ir a definir el conocimiento como la acumulacin de su conjunto de
expectativas y la sabidura como la valor fijado al conocimiento. Aunque no
vamos a profundizar ms en ello aqu, en este nmero vale la pena

reflexionar. Como vimos al principio de este captulo, las tcnicas descritas


en este libro puede ser llamado a ayudar a tomar algunas de las decisiones
ms profundas e ntimas que la vida presenta. La minera de datos es una
tecnologa que tenemos que tomar en serio.
1.7 OTRAS LECTURAS
Para evitar romper el flujo del texto principal, todas las referencias se
recogen en un seccin al final de cada captulo. Esta seccin describe los
papeles, libros, y otros recursos pertinentes para el material cubierto en
este captulo. La fecundacin humana in vitro la investigacin mencionada
en la apertura estuvo a cargo de la Universidad de Oxford Laboratorio de
Computacin, y la investigacin en el sacrificio de la vaca fue realizado en el
ordenador Departamento de Ciencias de la Universidad de Waikato, Nueva
Zelanda. El problemaa del tiempo es de Quinlan (1986) y ha sido
ampliamente utilizado para explicar esquemas de aprendizaje automtico.
El corpus de problemas de ejemplo mencionados en la introduccin a la
Seccin 1.2 est disponible desde Asuncin y Newman (2007). El contacto
ejemplo de la lente es de Cendrowska (1987), quien present el PRISM
regla-learning algoritmo que vamos a encontrar en el captulo 4. El conjunto
de datos del iris fue descrito en un papel clsico de principios de la
inferencia estadstica (Fisher, 1936). Los datos de las negociaciones
laborales es del Colectivo Revisin Negociacin, una publicacin del Trabajo
de Canad emiti por el Servicio de Informacin sobre Relaciones Laborales
(BLI 1988), y el problema de soja fue descrita por primera vez por Michalski
y Chilausky (1980). Algunas de las aplicaciones en la seccin 1.3 estn
cubiertas en un excelente documento que da un montn de otras
aplicaciones de aprendizaje automtico y la induccin de reglas (Langley y
Simon, 1995); otra fuente de las aplicaciones desplegadas es un nmero
especial de la Machine Learning Journal (Kohavi y Provost, 1998).
Chakrabarti (2003) tiene escrito un libro excelente y completo sobre las
tcnicas de minera de la Web; otro, ms reciente, el libro es la Web de
minera de datos de Liu (2009). La solicitud compaa de prstamos se
describe con ms detalle por Michie (1989), el detector de mancha de aceite
es de Kubat et al. (1998), el trabajo de previsin de carga elctrica es por
Jabbour et al. (1988), y el aplicacin para el mantenimiento preventivo de
los dispositivos electromecnicos es de Saitta y Neri (1998). Las
descripciones ms completas de algunos de los otros proyectos
mencionados en Seccin 1.3 (incluyendo las cifras de las cantidades en
dlares ahorrados y referencias bibliogrficas relacionadas) aparecer en el
sitio web del Centro de Ingenuity Alberta para el Aprendizaje Automtico.
Luan (2002) describe las aplicaciones de minera de datos en la educacin
superior. Dasu et al. (2006) presentan una serie de recomendaciones para la
minera de datos con xito. Otro especial nmero de la Revista Learning
Machine se ocupa de las lecciones que se han aprendido desde las
aplicaciones de minera de datos y resolucin colaborativa de problemas
(Lavrac et al., 2004). El "paales y cerveza" historia es legendaria. Segn un
artculo publicado en Londres Financial Times (7 de febrero, 1996), El

ejemplo citado a menudo de lo que la minera de datos puede alcanzar es el


caso de un gran Cadena de supermercados EE.UU. que descubri una fuerte
asociacin para muchos clientes entre una marca de paales para bebs
(paales) y una marca de cerveza. La mayora de los clientes
que compr los paales tambin compr la cerveza. Los mejores
hypothesisers en el mundo
les resultara difcil proponer esta combinacin, pero la minera de datos
mostr que
exista, y el punto de venta fue capaz de explotarlo al mover los productos
ms cerca
juntos en los estantes.
Sin embargo, parece que es slo una leyenda, despus de todo; Power
(2002) remonta su historia.
La Clasificacin de libro y rboles de regresin, que se menciona en la
seccin 1.4, es por
Breiman et al. (1984), y Quinlan de deriva independientemente, sino
esquema similar fue
se describe en una serie de documentos, que finalmente llev a un libro
(Quinlan, 1993).
El primer libro sobre la minera de datos fue escrito por Piatetsky-Shapiro y
Frawley
(1991), una coleccin de trabajos presentados en un taller sobre el
descubrimiento de conocimiento en
las bases de datos a finales de 1980. Otro libro de la misma cuadra desde
entonces ha aparecido
A partir de un taller de 1994 (Fayyad et al., 1996). A ello sigui una ola de
businessoriented
libros sobre la minera de datos, centrndose principalmente en los aspectos
prcticos de cmo se puede
llevar a la prctica con las descripciones slo lugar superficiales de la
tecnologa que
subyace en los mtodos utilizados. Ellos son una fuente valiosa de las
aplicaciones y la inspiracin. Por ejemplo, Adriaans y Zantige (1996) a partir
de Syllogic, unos sistemas europeos y consultora de base de datos, es una
introduccin temprana a la minera de datos. Berry y Linoff (1997), de una
empresa con sede en Pensilvania que se especializa en el almacenamiento
de datos y los datos minera, dar una opinin excelente y ejemplo plagado

de tcnicas de minera de datos para marketing, ventas y soporte al cliente.


Cabea et al. (1998), escrito por personas de cinco laboratorios
internacionales IBM, contiene una visin general de la minera de datos
procesar con muchos ejemplos de aplicaciones del mundo real. Dhar y Stein
(1997) dan una perspectiva de negocios en la minera de datos e incluyen a
grandes rasgos, populariz opiniones de muchas de las tecnologas
involucradas. Groth (1998), que trabaja para un proveedor de software de
minera de datos, ofrece una breve introduccin a la minera de datos y
luego una bastante extensa revisin de los productos de software de inera
de datos; la libro incluye un CD-ROM con una versin demo del producto de
su compaa. Weiss y Indurkhya (1998) observan una gran variedad de
tcnicas estadsticas para la toma de predicciones a partir de lo que ellos
llaman "grandes datos". Han y Kamber (2006) cubren la minera de datos
desde una perspectiva de la base de datos, se centra en el descubrimiento
de conocimiento en gran corporativa bases de datos; tambin hablan sobre
la minera tipos de datos complejos. Mano y col. (2001) producido un libro
interdisciplinario sobre la minera de datos a partir de un grupo internacional
de autores muy respetados en el campo. Finalmente, Nisbet et al. (2009)
han producido un manual integral de anlisis estadstico y aplicaciones de
minera de datos. Libros sobre el aprendizaje de la mquina, por el
contrario, tienden a ser textos acadmicos adecuados para su uso en cursos
universitarios en lugar de como guas prcticas. Mitchell (1997) escribi un
libro excelente que abarca muchas tcnicas de aprendizaje automtico,
incluyendo algunos-sobre todo los algoritmos genticos y de refuerzo de
aprendizaje-que no estn cubiertos aqu. Langley (1996) ofrece otro buen
texto. Aunque el mencionado anteriormente libro de Quinlan (1993) se
centra en un algoritmo de aprendizaje particular, C4.5, que cubriremos en
detalle en los captulos 4 y 6, es una buena introduccin a algunas de las
problemas y tcnicas de aprendizaje automtico. Un absolutamente
excelente libro sobrela mquina de aprendizaje desde una perspectiva
estadstica es Hastie et al. (2009). Esto es bastante una obra de orientacin
terica, y est muy bien producido con figuras apt y contando. Russell y
Norvig de inteligencia artificial: un enfoque moderno (2009) es el tercero
edicin de un texto clsico que incluye una gran cantidad de informacin
sobre el aprendizaje automtico y la minera de datos. El reconocimiento de
patrones es un tema que est estrechamente relacionado con el aprendizaje
automtico, y muchas de las mismas tcnicas se aplican. Duda et al. (2001)
es la segunda edicin de un libro clsico y exitoso en el reconocimiento de
patrones (Duda y Hart, 1973). Ripley (1996) y Bishop (1995) describen el
uso de redes neuronales para el patrn reconocimiento; El obispo tiene un
libro ms reciente, El reconocimiento de patrones y la mquina aprendizaje
(2006). La minera de datos con las redes neuronales es el tema de un libro
de 1996 por Bigus de IBM, que cuenta con la Herramienta de red del
producto IBM Neural que l desarroll. Hay un gran inters actual en
mquinas de vectores soporte. Cristianini y Shawe-Taylor (2000) da una
buena introduccin y un generaliza el trabajo de seguimiento este para
cubrir algoritmos adicionales, granos, y soluciones con aplicaciones a patrn

problemas de descubrimiento en campos como la bioinformtica, anlisis de


textos y anlisis de imgenes (Shawe-Taylor y Cristianini, 2004). Schlkopf y
Smola (2002) ofrecen una amplia introduccin a apoyar a las mquinas de
vectores y mtodos kernel relacionados por dos jvenes investigadores que
hacan su doctorado la investigacin en esta rea de rpido desarrollo. El
rea emergente de las tcnicas de reidentificacin se explora, junto con su
implicaciones para la transformacin en forma annima, por Ohm (2009).

Input: Concepts, Instances,


and Attributes
Antes de ahondar en la cuestin de cmo los sistemas de aprendizaje
automtico operan, comenzamos observando las diferentes formas de la
entrada puede tomar y, en el captulo 3, los diferentes tipo de salida que
podra ser producido. Con cualquier sistema de software, la comprensin lo
que las entradas y salidas son es mucho ms importante que saber lo que
pasa en el medio, y el aprendizaje de la mquina no es una excepcin. La
entrada tiene la forma de conceptos, instancias y atributos. Llamamos a la
cosa es decir que hay que aprender una descripcin concepto. La idea de un
concepto, al igual que la idea misma de aprendizaje en primer lugar, es
difcil de definir con precisin, y no vamos a pasar el tiempo filosofando
acerca de lo que es y no es. En cierto sentido, lo que estamos tratando de
encontrar-el resultado del proceso de aprendizaje-es una descripcin del
concepto de que es inteligible en que se puede entender, discutido, y
discute, y operativo en ese se puede aplicar a los ejemplos reales. La
siguiente seccin explica algunas distinciones entre los diferentes tipos de
problemas de aprendizaje distinciones que son muy concretas y muy
importante en la minera de datos prcticos. La informacin que se da al
alumno toma la forma de un conjunto de instancias. En los ejemplos en el
captulo 1, cada instancia fue un ejemplo individual, independiente del
concepto que hay que aprender. Por supuesto, hay muchas cosas que le
gustara aprender por lo que los datos en bruto no pueden expresarse como
individuo, independiente instancias. Tal vez el conocimiento de fondo debe
ser tenido en cuenta como parte de la entrada. Tal vez los datos en bruto es
una masa aglomerada que no puede ser fragmentado en casos individuales.
Tal vez se trata de una sola secuencia, digamos un tiempo de secuenciaeso no puede de manera significativa puede cortar en pedazos. Este libro
trata de estilo sencillo y prctico mtodos de minera de datos, y nos
centramos en las situaciones en que la informacin puede ser suministrado
en forma de ejemplos individuales. Sin embargo, nosotros introducimos un
poco escenario ms complicado donde los ejemplos de aprendizaje
contienen mltiples instancias. Cada instancia se caracteriza por los valores
de los atributos que miden diferentes aspectos de la instancia. Hay muchos
tipos diferentes de atributos, aunque esquemas de minera de datos tpicos
ocupan slo numrica y nominal o categrica, queridos. Finalmente, se
analiza la cuestin de la preparacin de la entrada para la minera de datos

e introducir un formato simple, la que se utiliza por el sistema de Weka que


acompaa a este reserva-para representar la informacin de entrada como
un archivo de texto. 2.1 QU ES UN CONCEPTO? Cuatro estilos diferentes
de aprendizaje bsicamente aparecen en las aplicaciones de minera de
datos. En aprendizaje de clasificacin, el esquema de aprendizaje se
presenta con un conjunto de clasificado ejemplos de las cuales se espera
que aprender una forma de clasificar los ejemplos que no se ven. En el
aprendizaje de asociacin, se busca cualquier forma de asociacin entre las
caractersticas, no slo los que predecir un valor de clase particular. En la
agrupacin, grupos de ejemplos que pertenecen juntos son buscados. En la
prediccin numrica, el resultado ser predicho no es un clase discreta pero
una cantidad numrica. Independientemente del tipo de aprendizaje
implicado, que llamamos la cosa que hay que aprender el concepto y la
produccin elaborada por un aprendizaje esquema de la descripcin
conceptual. La mayora de los ejemplos en el Captulo 1 son problemas de
clasificacin. Los datos meteorolgicos (Cuadros 1.2 y 1.3) presenta una
serie de das, junto con una decisin para cada uno en cuanto a ya sea para
jugar o no. El problema es aprender cmo clasificar nuevos das como el
juego o no jugar. Teniendo en cuenta los datos de lentes de contacto (Tabla
1.1), el problema es aprender cmo determinar una recomendacin de la
lente para un paciente-o nuevo ms precisamente, desde cada combinacin
posible de atributos est presente en los datos, el problema es aprender una
forma de resumir los datos dados. Para el iris (Tabla 1.4), el problema es
aprender cmo determinar si una nueva flor del iris es setosa, versicolor, o
virginica, teniendo en cuenta su longitud y anchura del spalo, la longitud,
la anchura de los ptalos. Para las negociaciones laborales datos (Tabla 1.6),
el problema es determinar si un nuevo contrato es aceptable o no, sobre la
base de su duracin; aumento de los salarios en el primer, segundo y tercer
aos; costo de vida; y as sucesivamente. Asumimos lo largo de este libro
que cada ejemplo pertenece a una, y slo uno, clase. Sin embargo, existen
escenarios de clasificacin en el que ejemplos individuales puede
pertenecer a varias clases. En jerga tcnica, estos son llamados
multilabeled instancias. Una manera simple de hacer frente a este tipo de
situaciones es tratarlos como varias diferentes problemas de clasificacin,
uno para cada clase posible, donde el problema es para determinar si los
casos pertenecen a esa clase o no. Clasificacin de aprendizaje es a veces
llamada supervisada, porque, en cierto sentido, la esquema opera bajo la
supervisin de que se proporciona con el resultado real de cada uno de los
ejemplos de entrenamiento-el juego o no jugar el juicio, la recomendacin
de la lente, del tipo de iris, la aceptacin del contrato de trabajo. Este
resultado es llamada la clase del ejemplo. El xito de aprendizaje de
clasificacin puede ser juzgado probando la descripcin concepto que se
aprende en un conjunto independiente de prueba los datos para los que se
conocen las verdaderas clasificaciones pero no ponen a disposicin del
mquina. La tasa de xito en los datos de prueba proporciona una medida
objetiva de lo bien que el concepto que se ha aprendido. En muchas
aplicaciones de minera de datos prcticos, el xito es medido

subjetivamente ms en trminos de cmo los sabios aceptable descripcin


tales como las normas o decisiones de rboles es un usuario humano. La
mayora de los ejemplos en el Captulo 1 se puede utilizar igualmente bien
para la asociacin aprendiendo, en el que no hay ninguna clase
especificada. Aqu, el problema es descubrir cualquier estructura de los
datos que es "interesante". Algunas reglas de asociacin para los datos
meteorolgicos se les dio en la Seccin 1.2. Las reglas de asociacin difieren
de las reglas de clasificacin en dos maneras: pueden "predecir" cualquier
atributo, no slo la clase, y pueden predecir con mayor que el valor de un
atributo a la vez. Debido a esto, hay mucho ms asociacin reglas que las
reglas de clasificacin, y el reto es evitar ser abrumado por ellos. Por esta
razn, las reglas de asociacin son a menudo limitadas a aquellas que se
aplican a un determinado nmero mnimo de ejemplos-decir 80% del
conjunto de datos-y tienen un mayor que cierta precisin mnima igualdad
de decir 95% de precisin. Incluso entonces, no son por lo general muchos
de ellos, y que tienen que ser examinados manualmente para determinar si
son significativo o no. Las reglas de asociacin por lo general implican
nicos atributos no numricos; por lo tanto, normalmente no se busque
reglas de asociacin en el conjunto de datos del iris. Cuando no hay una
clase especificada, la agrupacin se utiliza para agrupar los elementos que
parecen caer de forma natural en conjunto. Imagine una versin de los
datos del iris en el que el tipo de iris es omitido, tal como en la Tabla 2.1.
Entonces es probable que las instancias 150 caen en naturales grupos
correspondientes a los tres tipos de iris. El reto es encontrar estos grupos y
asignar los casos a ellos-y para ser capaz de asignar nuevos casos a la
grupos as. Puede ser que uno o ms de los tipos de iris divide naturalmente
en subtipos, en cuyo caso los datos se exhiben ms de tres grupos
naturales. La xito de la agrupacin a menudo se mide subjetivamente en
trminos de la utilidad del resultado parece ser que un usuario humano. Se
puede ir seguida de una segunda etapa de clasificacin aprendizaje en el
que se aprenden las reglas que dan una descripcin inteligible de cmo las
nuevas casos deben ser colocados en los clusters. Prediccin numrica es
una variante de aprendizaje clasificacin en la que el resultado es un valor
numrico en lugar de una categora. El problema de rendimiento de la CPU
es uno ejemplo. Otra, que se muestra en la Tabla 2.2, es una versin de los
datos meteorolgicos en la que lo que se ha predicho no es jugar o no jugar,
sino ms bien el tiempo (en minutos) para jugar. Con problemas de
prediccin numricos, como en otras situaciones de aprendizaje de
mquina, el valor predicho para nuevos casos es a menudo de menos
inters que la estructura de la descripcin que se aprende, se expresa en
trminos de lo que los atributos importantes son y cmo se relacionan con
el resultado numrico.
2.2 QU HAY EN UN EJEMPLO?
La entrada a un sistema de aprendizaje automtico es un conjunto de
instancias. Estas instancias son las cosas que han de ser clasificados o
asociada o agrupada. Aunque hasta ahora los hemos llamado ejemplos, a

partir de ahora por lo general, utilizaremos el ms especfico


instancias
trmino para referirse a la entrada. En el escenario estndar, cada instancia
es una ejemplo individual, independiente del concepto que se debe
aprender. Las instancias se caracterizan por los valores de un conjunto de
atributos predeterminados. Este fue el caso en todas las los conjuntos de
datos de ejemplo descritas en el captulo 1 (es decir, el tiempo, la lente de
contacto, el iris, y los problemas de las negociaciones laborales). Cada
conjunto de datos se representa como una matriz de casos frente a los
atributos, lo que en trminos de bases de datos es una sola relacin, o un
archivo plano. Expresando los datos de entrada como un conjunto de
instancias independientes es con mucho el ms situacin comn para la
minera de datos prcticos. Sin embargo, es una manera bastante restrictiva
de la formulacin de problemas, y vale la pena pasar algn tiempo a revisar
por qu. Problemas menudo implican relaciones entre los objetos en lugar
de separada, independiente instancias. Supongamos, para tener una
situacin especfica, un rbol de la familia se le da y queremos aprender el
concepto de la hermana. Imagine su propio rbol genealgico, con sus
familiares (y sus gneros) colocados en los nodos. Este rbol es la entrada al
proceso de aprendizaje, a lo largo de con una lista de pares de la gente y
una indicacin de si son hermanas o no. Relaciones La figura 2.1 muestra
parte de un rbol de familia, debajo de la cual hay dos tablas que definen
cada uno hermandad de una manera ligeramente diferente. Un s en la
tercera columna del individuo tablas significa que la persona en la segunda
columna es una hermana de la persona en el primera columna (que es slo
una decisin arbitraria que hemos hecho en la creacin de este ejemplo). La
primera cosa a notar es que hay una gran cantidad de NOS en la tercera
columna de la tabla de la izquierda, ya que hay 12 muertos y 12 12 = 144
pares de personas en todos, y la mayora de las parejas de las personas no
son hermanas. La tabla de la derecha, que da la misma informacin, registra
slo los ejemplos positivos y supone que todos los dems son negativos. La
idea de especificar slo ejemplos positivos y adoptar una posicin supuesto
de que el resto son negativos se llama el supuesto cerrado del mundo. Es
asumido con frecuencia en estudios tericos; Sin embargo, no es prctico el
uso de mucho en los problemas de la vida real, ya que rara vez implican
mundos "cerrados" en los que se puede tener la certeza de que todos los
casos estn cubiertos.

Ni tabla de la Figura 2.1 es de ninguna utilidad sin el propio rbol


genealgico. Este rbol tambin se puede expresar en forma de una tabla,
parte de los cuales se muestra en la Tabla 2.3. Ahora el problema se expresa
en trminos de dos relaciones, Padres 1 y 2 de Padres. Pero estas tablas no
contienen conjuntos independientes de los casos porque los valores en el
Nombre, Padres 1, y los Padres 2 columnas de la hermana de la relacin se
refieren a las filas de la relacin rbol genealgico. Podemos hacerlos en un
solo conjunto de instancias por el colapso de las dos tablas en una sola,
como se muestra en la Tabla 2.4. Hemos por fin logrado transformar el
problema relacional original en la forma de casos, cada uno de los cuales es
un ejemplo individual, independiente de la concepto que se debe aprender.
Por supuesto, los casos no son realmente independientes- hay un montn
de relaciones entre las diferentes filas de la tabla!-pero son independiente
por lo que el concepto de hermandad se refiere. La mayor parte del
aprendizaje de mquina esquemas seguirn teniendo problemas para lidiar
con este tipo de datos, como veremos en Seccin 3.4, pero al menos el
problema se ha reformulado en el formulario de la derecha. Un simple regla
para la hermana de la relacin es
Si el gnero = femenino de segunda persona
y los padres de los padres 1 = segundo de primera persona de la persona 1
a continuacin, la hermana-de = s
Ifsecondpersonsgender= female
andfirstpersonsparent1= secondpersonsparent1
thensisterof= yes

Este ejemplo muestra cmo se puede tener una relacin entre los diferentes
nodos de una rbol y refundir en un conjunto de instancias independientes.
En cuanto a la base de datos, se toman dos las relaciones y se unen entre s
para hacer una, un proceso de aplanamiento que es tcnicamente llama
desnormalizacin. Siempre es posible hacer esto con cualquier conjunto de
(finito) las relaciones (finitos). La estructura de la Tabla 2.4 se puede utilizar
para describir cualquier relacin entre dos personas-en abuelos, primos
segundos eliminan dos veces, y as sucesivamente. Relaciones entre ms
personas requerira una mesa ms grande. Las relaciones en las que el
nmero mximo de personas que no se especifica de antemano plantean un
problema ms serio. Si queremos aprender el concepto de familia nuclear
(padres e hijos), el nmero de personas involucradas depende del tamao
de la familia nuclear ms grande, y aunque podramos adivinar un mximo
razonable (10?, 20?), el nmero real slo se puede encontrar mediante la
exploracin del rbol en s. Sin embargo, dado un conjunto finito
derelaciones que podran, al menos en principio, formar un nuevo
"superrelation" que contiene una fila para cada combinacin de la gente, y
esto sera suficiente para expresar cualquier relacin entre las personas, sin
importar cuntos estuvieron involucrados. La computacional y los costes de
almacenamiento seran, sin embargo, ser prohibitivo. Otro problema con la
desnormalizacin es que produce regularidades aparentes en los datos que
son totalmente espurios y de hecho son meros reflejos de la estructura de
base de datos original. Por ejemplo, imagine una base de datos de
supermercado con una relacin para los clientes y los productos que
compran, uno de los productos y sus proveedores, y uno de los proveedores
y sus direcciones. Desnormalizar esto producir un piso archivo que
contiene, para cada caso, cliente, producto, proveedor, y la direccin del
proveedor. Una herramienta de minera de datos, que busca la estructura de
la base de datos puede llegar con el hecho de que los clientes que compran
cerveza tambin compran fichas, un descubrimiento que podra ser
significativa desde el punto de vista del gerente de un supermercado. Sin
embargo, tambin puede llegar a el hecho de que la direccin de proveedor
se puede predecir exactamente al proveedor de-un "Descubrimiento" de
que no va a impresionar al gerente de un supermercado en absoluto. Este
hecho mascaradas como un descubrimiento significativo del archivo plano
sino que est presente de manera explcita en el original estructura de base
de datos. Muchos de los problemas computacionales abstractos implican
relaciones que no son finitos, aunque es evidente que cualquier conjunto
real de ejemplos de entrada debe ser finito. Conceptos tales como
antepasado de involucrar arbitrariamente largos caminos a travs de un
rbol, y aunque el ser humano raza, y de ah su rbol de familia, puede ser
finito (aunque prodigiosamente grande), muchos problemas artificiales
generan datos que verdaderamente es infinito. Aunque pueda parecer
abstruso, esta situacin es la norma en reas como procesamiento de listas
y la programacin lgica, y se dirige en una subdisciplina de la mquina de
aprendizaje llamada lgica inductiva de programacin. Los informticos

suelen usar recursividad para hacer frente a situaciones en que el nmero


de posibles ejemplos es infinita. Por ejemplo,
Si la persona 1 es uno de los padres de la persona 2
entonces la persona 1 es un antepasado de la persona 2
Si la persona 1 es uno de los padres de la persona 2
y la persona 2 es un antepasado de la persona 3
entonces la persona 1 es un antepasado de la persona 3
Ifperson1isaparentofperson2
thenperson1isanancestorofperson2
Ifperson1isaparentofperson2
andperson2isanancestorofperson3
thenperson1isanancestorofperson3

Esto representa una definicin recursiva sencilla de ancestro que funciona


sin importar cmo distante dos personas estn relacionadas. Tcnicas de
programacin lgica inductiva lata aprender reglas recursivas como estos
de un conjunto finito de casos como los de Cuadro 2.5. Los verdaderos
inconvenientes de estas tcnicas, sin embargo, son que no funcionan
correctamente con datos ruidosos, y tienden a ser tan lento como para ser
inutilizable en cualquier cosa menos pequeo conjuntos de datos artificiales.
Ellos no estn cubiertos en este libro; ver Bergadano y Gunetti (1996) para
un tratamiento integral. Otros Tipos Ejemplo Como hemos visto, las
relaciones generales presentar desafos importantes, y este libro le tratar
con ellos ms. Ejemplos estructurados tales como grficos y los rboles
pueden ser vistos como casos especiales de las relaciones que a menudo se
asignan en instancias independientes mediante la extraccin de
caractersticas locales o globales en funcin de su estructura y
representndolos como atributos. Del mismo modo, secuencias de artculos
pueden ser tratados mediante la descripcin de ellos, o sus elementos
individuales, en trminos de un conjunto fijo de propiedades representadas
por atributos. Afortunadamente, la mayora de problemas de minera de
datos prcticos se pueden expresar con bastante eficacia como un conjunto
de casos, cada uno de ellos un ejemplo del concepto que se debe aprender.
En algunas situaciones, en lugar de los casos individuales siendo ejemplos
de la concepto, cada ejemplo individuo comprende un conjunto de
instancias que se describe por los mismos atributos. Esta configuracin
multi-instancia abarca algunos importantes en el mundo real aplicaciones.
Uno se refiere a la deduccin de las caractersticas de las molculas de
frmaco activo, donde la actividad se corresponde con la eficacia de un
frmaco de molcula bonos a un "sitio de unin" en una molcula diana. El
problema es que la molcula de frmaco puede asumir alternativa formas
girando sus bonos. Se clasifica como positivo si slo una de estas formas
realmente se une al sitio y ha deseado, pero el efecto no es conocido que la
forma que es. Por otra parte, una molcula de frmaco es negativo si
ninguna de las formas se unen con xito. En este caso, una instancia

mltiple es un conjunto de formas, y todo el conjunto es clasificados como


positivo o negativo. Problemas de varias instancias a menudo tambin
surgen naturalmente cuando las relaciones de una base de datos estn
unidos, es decir, cuando varias filas de una relacin secundaria estn
asociados con la misma fila en la relacin objetivo. Por ejemplo, podemos
querer clasificar la computadora usuarios como expertos o novatos en base
a las descripciones de las sesiones de usuario que se almacenan en una
tabla secundaria. La relacin de destino slo tiene la clasificacin y el ID de
usuario. Uniendo las dos tablas crea un archivo plano. Sin embargo, las filas
perteneciente a un individuo usuario no son independientes. La clasificacin
se realiza en funcin de cada usuario, por lo el conjunto de instancias de
sesin asociada con el mismo usuario debe ser visto como una ejemplo
nico para el aprendizaje. El objetivo del aprendizaje de varias instancias
est todava para producir una descripcin concepto, pero Ahora la tarea es
ms difcil debido a que el algoritmo de aprendizaje tiene que lidiar con
informacin incompleta acerca de cada ejemplo de entrenamiento. En lugar
de ver cada ejemplo en trminos de un nico vector de atributos definitiva,
el algoritmo de aprendizaje ve cada ejemplo como un conjunto de vectores
de atributos. Las cosas seran fcil si slo el algoritmo saba que miembro
del conjunto fue el responsable de la clasificacin de ejemplo- pero no lo
hace. Varios algoritmos especiales de aprendizaje se han desarrollado para
hacer frente a la multiinstance problema; describimos algunas de ellas en el
captulo 6. Tambin es posible para aplicar esquemas de aprendizaje
automtico estndar refundiendo el problema como una sola tabla que
comprende instancias independientes. El captulo 4 presenta algunas formas
de lograr esto. En resumen, la entrada a un sistema de minera de datos se
expresa generalmente como una mesa de instancias independientes del
concepto que hay que aprender. Debido a esto, ha sido Sugerimos,
despectivamente, que realmente deberamos hablar de la minera de
archivo en lugar de la base de datos la minera. De datos relacional es ms
complejo que un archivo plano. Un conjunto finito de finitos relaciones
siempre se puede rehacer en una sola tabla, aunque a menudo a un costo
enorme en el espacio. Por otra parte, la desnormalizacin puede generar
regularidades espurias en los datos, y es esencial para comprobar los datos
para tales artefactos antes de aplicar un aprendizaje esquema. Conceptos
potencialmente infinitas pueden ser tratados por las normas que estn
aprendiendo recurrente, a pesar de que est ms all del alcance de este
libro. Por ltimo, algunas importantes problemas del mundo real se
expresan con ms naturalidad en un formato multi-instancia, donde cada
ejemplo es en realidad un conjunto separado de instancias.
2.3 QU HAY EN UN ATRIBUTO?
Cada instancia que proporciona la entrada a la mquina de aprendizaje se
caracteriza por su valores en un conjunto predefinido fijo de caractersticas
o atributos. Los casos son las filas de las tablas que hemos mostrado de
acuerdo al clima, la lente de contacto, el iris y la Los problemas de
rendimiento de la CPU, y los atributos son las columnas. (Las negociaciones

laborales datos fue una excepcin: Presentamos este con instancias en las
columnas y los atributos en filas por razones de espacio.) El uso de un
conjunto fijo de caractersticas impone otra restriccin sobre los tipos de
problemas generalmente se consideran en la minera de datos prcticos.
Qu pasa si las diferentes instancias tienen caractersticas diferentes? Si
las instancias eran vehculos de transporte, entonces el nmero de ruedas
es una funcin que se aplica a muchos vehculos, pero no a los buques, por
ejemplo, mientras que el nmero de mstiles podra ser una caracterstica
que se aplica a los buques, pero no a la tierra vehculos. La solucin
estndar es hacer que cada caracterstica posible un atributo y para utilizar
una bandera especial "valor irrelevante" para indicar que un atributo
particular no est disponible para un caso particular. Surge una situacin
similar cuando la existencia de una funcin (por ejemplo, el nombre del
cnyuge) depende del valor de otro (casado o individual). El valor de un
atributo para un caso particular es una medida de la cantidad a la que se
refiere el atributo. Hay una amplia distincin entre cantidades que son
numrico y los que son nominales. Atributos numricos, a veces llamado
continuo atributos, los nmeros, ya sea medida real o entero valorado.
Tenga en cuenta que el trmino continuo se abusa habitualmente en este
contexto; atributos de enteros por valor-no son ciertamente continua en el
sentido matemtico. Atributos nominales toman valores en un preespecificado, conjunto finito de posibilidades y se llama a veces categrica.
Pero hay son otras posibilidades. Estadsticas textos suelen introducir
"niveles de medicin", tales como nominal, ordinal, intervalo y ratio. Las
cantidades nominales tienen valores que son smbolos distintos. Los valores
propios servir simplemente como etiquetas o nombres, de ah el trmino
nominal, que viene del latn palabra por nombre. Por ejemplo, en los datos
del tiempo las perspectivas atributo tiene los valores soleado, nublado y
lluvioso. Ninguna relacin es implcita entre estos tres hay orden o medida
de distancia. Ciertamente no tiene sentido aadir los valores entre s, los
multiplicar, o incluso comparar su tamao. Una regla de uso de dicho
atributo slo puede comprobar la igualdad o desigualdad, como en
perspectivas: sunny no
nublado s
lluvias s
outlook: sunny no
overcast yes
rainy yes
Cantidades ordinales son los que hacen que sea posible clasificar a ordenar
las categoras. Sin embargo, aunque hay una nocin de orden, no hay
nocin de distancia. para ejemplo, en los datos del tiempo la temperatura
atributo tiene valores calientes, templados y fros. Estos estn ordenados.
Si usted dice que

caliente> leves> fra o caliente <leve <fresco


hot mild cool or hot mild cool

es una cuestin de convencin-no importa que se utiliza siempre que la


consistencia es mantenido. Lo que es importante es que las mentiras
suaves entre los otros dos. Aunque tiene sentido comparar dos valores, no
tiene sentido aadir o restar ellos- la diferencia entre el calor y leve no se
puede comparar con la diferencia entre suave y fresco. Una regla de uso
de tal atributo podra implicar una comparacin, como en
temperatura = caliente no
temperatura <caliente s
temperature= hot no
temperature< hot yes

Tenga en cuenta que la diferencia entre las cantidades nominales y


ordinales no siempre es sencillo y obvio. De hecho, el ejemplo de una
cantidad nominal que hemos utilizado antes, la perspectiva, no es del todo
clara: Usted podra argumentar que los tres Los valores tienen un serordenamiento cubierto de alguna manera intermedia entre soleado y
lluviosa como el tiempo pasa de bueno a malo. Cantidades de intervalo
tienen valores que no slo se piden pero miden en fijo y unidades iguales.
Un buen ejemplo es la temperatura, expresado en grados (por ejemplo,
grados Fahrenheit) ms que en la escala no numrico implcito en fresco,
suave y caliente. Lo tiene mucho sentido hablar de la diferencia entre dos
temperaturas, dicen 46 y 48 grados, y compararlo con la diferencia entre los
otros dos temperaturas, decir 22 y 24 grados. Otro ejemplo es las fechas. Se
puede hablar de la diferencia entre los aos 1939 y 1945 (seis aos) o
incluso de la media de la aos 1939 y 1945 (1942), pero no tiene mucho
sentido considerar la suma de los aos 1939 y 1945 (3884) o el triple del
ao 1939 (5817) debido a que el punto de partida, el ao 0, es
completamente arbitrario-de hecho, ha cambiado muchas veces durante
todo el curso de la historia. (Los nios a veces se preguntan lo que el ao
300 BCE se llam en 300 aC.) Relacin cantidades son aquellos para los que
el esquema de medicin define intrnsecamente un punto cero. Por ejemplo,
cuando se mide la distancia de un objeto a otro, la distancia entre el objeto
y la misma forma un cero natural. Relacin cantidades son tratados como
nmeros reales: Las operaciones matemticas se permiten. Ciertamente
hace tiene sentido hablar de tres veces la distancia e incluso a multiplicarse
una distancia por otro para conseguir un rea. Sin embargo, la cuestin de
si existe un "s" define el punto cero depende de lo que nuestro
conocimiento cientfico-es la cultura familiar. Por ejemplo, Daniel Fahrenheit
no conoci lmite inferior a la temperatura, y su escala es un intervalo uno.
Hoy en da, sin embargo, consideramos que la temperatura como una
escala de razn basada en absoluta cero. La medicin del tiempo en aos
desde algunos cero culturalmente definido, tales como AD 0, no es una
escala de razn; aos desde el Big Bang son. Hasta el punto de cerodinero

donde estamos por lo general bastante contento de decir que algo cuesta el
doble tanto como algo ms-puede no ser claramente definidos para aquellos
que constantemente al lmite de sus tarjetas de crdito. Muchos sistemas de
minera de datos prcticos acomodar slo dos de estos cuatro niveles de
medicin: nominal y ordinal. Atributos nominales a veces se llaman
categrica, enumerado, o discreta. Enumerado es el trmino estndar
utilizado en la computadora ciencia para designar un tipo de datos
categricos; Sin embargo, la definicin estricta de la plazo, es decir, de
poner en correspondencia uno-a-uno con los nmeros naturales- implica un
ordenamiento, que especficamente no se implica en el aprendizaje de las
mquinas contexto. Discrete tambin tiene connotaciones de orden ya que
a menudo discretizar un cantidad numrica continua. Atributos ordinales a
menudo se codifican como datos numricos, o tal vez los datos continuos,
pero sin la implicacin de la continuidad matemtica. La caso especial de la
escala nominal es la dicotoma, que tiene slo dos miembros- a menudo
designado como verdadero y lo falso o s y no en los datos meteorolgicos.
Tales atributos a veces se llaman de Boole. Sistemas de aprendizaje
automtico puede utilizar una amplia variedad de informacin sobre
atributos. Por ejemplo, consideraciones dimensionales podran ser utilizados
para restringir la buscar a las expresiones o comparaciones que son
dimensionalmente correcta. Ordenamiento Circular podra afectar a los tipos
de pruebas que se consideran. Por ejemplo, en un temporal contexto, las
pruebas de un atributo de da podran implicar da siguiente, el da anterior,
siguiente da laborable, o el mismo da la semana prxima. Parciales
ordenamientos-es decir, la generalizacin o especializacin relaciones-con
frecuencia se producen en situaciones prcticas. Este tipo de informacin es
a menudo conocida como metadatos, datos sobre los datos. Sin embargo,
los tipos de esquemas prcticos utilizado para la extraccin de datos rara
vez son capaces de tomar en cuenta los metadatos, aunque Es probable
que estas capacidades se desarrollarn en el futuro.
2.4 PREPARACIN DE LA ENTRADA
Preparacin de entrada para una investigacin de minera de datos por lo
general consume la mayor parte de la esfuerzo invertido en todo el proceso
de minera de datos. Si bien este libro no es realmente acerca de los
problemas de la preparacin de los datos, queremos darte una idea de los
problemas involucrados para que pueda apreciar las complejidades.
Despus de eso, nos fijamos en una particular, el formato de archivo de
entrada, el formato de archivo de atributos-relacin (ARFF), que se utiliza en
el sistema de Weka se describe en la Parte III. Entonces tenemos en cuenta
los problemas que surgen cuando la conversin de conjuntos de datos a un
formato de este tipo, porque hay algunos puntos prcticos sencillos a tener
en cuenta. La amarga experiencia demuestra que los datos reales a menudo
es decepcionantemente bajo en calidad, y una revisin cuidadosa, un
proceso que se conoce como datos limpieza compensa con creces. La
recopilacin de los datos en conjunto Al comenzar a trabajar en un
problema de la minera de datos, primero es necesario llevar todo el datos

juntos en una serie de casos. Le explicamos la necesidad de desnormalizar


relacional datos cuando se describe el ejemplo del rbol familiar. A pesar de
que ilustra la cuestin bsica, este ejemplo autnomo y bastante artificial
en realidad no transmitir una sensacin de lo que el proceso va a ser como
en la prctica. En una aplicacin de negocio de bienes, ser necesario reunir
datos de diferentes departamentos. Por ejemplo, en una comercializacin
sern necesarios los datos del estudio del departamento de ventas, la
facturacin de los clientes departamento, y el departamento de servicio al
cliente. La integracin de datos de diferentes fuentes por lo general
presenta muchos desafos, no cuestiones profundas de realidades principio
pero desagradables de la prctica. Los diferentes departamentos se utilizar
diferentes estilos de registros, diferentes convenciones, los perodos de
tiempo diferentes, diferentes grados de agregacin de datos, y diferentes
claves primarias, y tendrn diferentes tipos de error. Los datos deben ser
montadas, integradas, y limpiado. La idea de la integracin de bases de
datos en toda la compaa se conoce como el almacenamiento de datos.
Datos almacenes proporcionan un nico punto de acceso a la constante
corporativa u organizacional datos, que trascienden las divisiones
departamentales. Ellos son el lugar donde los datos de edad es publicado
en una forma que puede ser utilizado para informar las decisiones de
negocio. El movimiento hacia el almacenamiento de datos es un
reconocimiento del hecho de que la informacin fragmentada que una
organizacin utiliza para apoyar las operaciones del da a da a nivel
departamental puede tener un inmenso valor estratgico cuando se juntan.
Claramente, la presencia de un almacn de datos es un precursor muy til
para minera de datos, y si no est disponible, muchos de los pasos
involucrados en el almacenamiento de datos tendr que ser llevado a cabo
para preparar los datos para la minera. Incluso un almacn de datos no
puede contener todos los datos necesarios, y usted puede tener para llegar
fuera de la organizacin para traer los datos relevantes para el problema en
cuestin. Por ejemplo, datos del tiempo tuvieron que ser obtenido en el
ejemplo de la previsin de carga en Captulo 1, y los datos demogrficos
son necesarios para la comercializacin y venta de aplicaciones. A veces se
denomina datos de superposicin, esta no se recoge normalmente por una
organizacin, sino es claramente pertinentes para el problema de minera
de datos. Es, tambin, debe ser limpiada y se integra con los otros datos
que han sido recogidos. Otra cuestin prctica, cuando el montaje de los
datos es el grado de agregacin que sea apropiado. Cuando un productor de
leche que las vacas decide a vender, la leche registros de produccin, el
cual un reconocimiento automatico de la mquina de ordeo dos veces al
da, debe ser agregados. Del mismo modo, los datos de la llamada
telefnica en bruto no es muy til cuando las telecomunicaciones empresas
estudian el comportamiento de sus clientes-los datos deben ser agregados a
la nivel de cliente. Pero es lo que quieres de uso por mes o por trimestre, y
por cuantas meses o trimestres atrs? Seleccionar el tipo y el nivel de
agregacin es por lo general crtico para el xito. Debido a que muchos
temas diferentes estn involucrados, no se puede esperar para hacerlo bien

la primera vez. Esta es la razn por la recopilacin de datos, la integracin,


la limpieza, la agregacin y preparacin general tarda tanto. Formato ARFF
Ahora veremos una forma estndar de representar conjuntos de datos,
denominado archivo ARFF. Nosotros describir la versin normal, pero
tambin hay una versin llamada XRFF, que, como la nombre indica, da
ejemplo de cabecera y la informacin ARFF en el eXstensible Markup
Language (XML). La figura 2.2 muestra un archivo ARFF de los datos
meteorolgicos de la Tabla 1.3, la versin con algunas de las caractersticas
numricas. Las lneas que comienzan con un signo% son comentarios.
Despus de la comentarios al principio del archivo son el nombre de la
relacin (clima) y una bloquear la definicin de los atributos (outlook,
temperatura, humedad, viento, jugar?). Nominal atributos son seguidos por
el conjunto de valores que pueden tomar en, entre llaves. Los valores
pueden incluir espacios; si es as, deben ser colocados entre comillas. Los
valores numricos son seguidos por la palabra clave numrica. Aunque el
problema del tiempo es predecir el valor de la clase jugar? a partir de los
valores de de los otros atributos, el atributo de clase no se distingue en
modo alguno en los datos presentar. El formato ARFF da simplemente un
conjunto de datos; no especifica cul de los atributos es la que se supone
que es predicho. Esto significa que el mismo archivo puede ser utilizado
para la investigacin de lo bien que cada atributo se puede predecir a partir
de los otros, o puede ser usado para encontrar reglas de asociacin o para
la agrupacin.
%ARFFfilefortheweatherdatawithsomenumericfeatures
%
@relationweather
@attributeoutlook{sunny,overcast,rainy}
@attributetemperaturenumeric
@attributehumiditynumeric
@attributewindy{true,false}
@attributeplay?{yes,no}
@data
%
%14instances
%
sunny,85,85,false,no
sunny,80,90,true,no
overcast,83,86,false,yes
rainy,70,96,false,yes
rainy,68,80,false,yes
rainy,65,70,true,no
overcast,64,65,true,yes
sunny,72,95,false,no
sunny,69,70,false,yes
rainy,75,80,false,yes
sunny,75,70,true,yes
overcast,72,90,true,yes
overcast,81,75,false,yes
rainy,71,91,true,no

Archivo ARFF% para los datos meteorolgicos con algunas caractersticas


numricas
%

@ meteorolgica relacin

@ perspectivas atributo {soleado, nublado, lluvioso}


@ numrico temperatura atributo
@ numrico humedad atributo
@ atribuir ventoso {verdadero, falso}
@ atribuir juego? {S, no}
@ datos
%
% 14 casos
%
soleado, 85, 85, false, no
soleado, a 80, 90, es cierto, no
nublado, 83, 86, false, yes
lluvioso, 70, 96, false, yes
lluvioso, 68, 80, false, yes
lluvioso, 65, 70, es cierto, no
cubierto, 64, 65, cierto, s
soleado, 72, 95, false, no
soleado, 69, 70, false, yes
lluvioso, 75, 80, false, yes
soleado, a 75, 70, cierto, s
cubierto, 72, 90, cierto, s
nublado, 81, 75, false, yes
lluvioso, 71, 91, es cierto, no
Siguiendo las definiciones de atributos es una lnea de datos @ que seala
el comienzo de la casos del conjunto de datos. Las instancias se escribieran
una por lnea, con valores para cada atribuir a su vez, separados por
comas. Si falta un valor, que est representado por una nico signo de
interrogacin (no hay valores que faltan en esta base de datos). El atributo
especificaciones de archivos ARFF permiten al conjunto de datos para ser
evaluados para verificar que contiene valores legales para todos los
atributos, y los programas que leen archivos ARFF hacer esta verificacin
automticamente. Adems de los atributos nominales y numricos,

ejemplificados por los datos del tiempo, el Formato ARFF tiene otros tres
tipos de atributos: los atributos de cadena, atributos de fecha y atributos
relaciones de valor. Atributos de Cuerda tienen valores que son textuales.
Supongamos que tener un atributo de cadena que se desea llamar la
descripcin. En el bloque de definicin de la atributos se especifica as:
@ description atributo de cadena
@attribute description string

Luego, en los datos de la instancia, incluir cualquier cadena de caracteres


entre comillas (para incluir comillas en la cadena, use la convencin
estndar de anterior a cada uno por una barra invertida, \). Las cadenas se
almacenan internamente en una tabla de cadenas y representados por su
domicilio en esa mesa. As, dos cadenas que contienen los mismos
personajes se tener el mismo valor. Atributos de cadena pueden tener
valores muy largo, incluso un documento completo. Para ser capaz de
utilizar atributos de cadena para la minera de texto, es necesario ser capaz
de manipularlos. Por ejemplo, un atributo de cadena podra ser convertido
en muchos atributos numricos, uno para cada palabra de la cadena, cuyo
valor es el nmero de veces aparece esa palabra. Estas transformaciones
se describen en la seccin 7.3. Fecha atributos son cadenas con un formato
especial y se introducen como ste (por un atributo llamado hoy en da):
@ atribuir hoy da
@attribute today date
Weka utiliza la fecha combinado ISO-8601 y el formato de la hora aaaa-MMdd 'T'HH: mm: ss con cuatro dgitos para el ao, dos para el mes y el da, y
luego la letra T seguida por el momento con dos dgitos para cada una de
las horas, los minutos y segundos.1 En el seccin de datos del archivo, las
fechas se especifican como la representacin de cadena correspondiente
de la fecha y la hora, por ejemplo, 2004-04-03T12: 00:00. A pesar de que se
han especificado como cadenas, las fechas se convierten en forma
numrica cuando se lee el archivo de entrada. Fechas Tambin se puede
convertir internamente a diferentes formatos, lo que puede tener marcas de
tiempo absolutos En el archivo de datos y el uso de transformaciones en las
formas como la hora del da o de da de la semana para detectar
comportamiento peridico. Atributos de relaciones de valor difieren de los
otros tipos, ya que permiten multiinstance problemas para ser
representados en formato ARFF. El valor de un atributo de la relacin es un
conjunto independiente de las instancias. El atributo se define con un
nombre y el tipo relacional, seguido de un bloque de atributos anidada que
da la estructura de la referencia instancias. Por ejemplo, un atributo de la
relacin de valor llamada bolsa, con un valor que es un conjunto de datos
que tiene la misma estructura que los datos de tiempo pero sin la obra
atributo, se puede especificar la siguiente manera:

@ bolsa atributo relacional


@ perspectivas atributo {soleado, nublado, lluvioso}
@ numrico temperatura atributo
@ numrico humedad atributo
@ atribuir ventoso {verdadero, falso}
@ Bolsn Cerrado
@attribute bag relational
@attribute outlook { sunny, overcast, rainy }
@attribute temperature numeric
@attribute humidity numeric
@attribute windy { true, false }
@end bag

La bolsa de @ end indica el final del bloque de atributos anidados. La figura


2.3 muestra un ARFF archivo para un problema multi-instancia basado en
los datos meteorolgicos. En este caso, cada uno ejemplo se compone de
un valor de identificador, dos casos consecutivos de la original datos
meteorolgicos y una etiqueta de clase. Cada valor del atributo es una
cadena que encapsula dos instancias meteorolgicas separados por el
carcter \ n (lo que representa un nueva lnea incorporado). esto podra ser
apropiado para un juego que tiene una duracin de dos das. Un conjunto de
datos similar podra ser usado para juegos que duran por un nmero
indeterminado de das (por ejemplo, grillo de primera clase toma tres a
cinco das). Tenga en cuenta, sin embargo, que en varias instancias a
aprender el orden en el que
% Mltiple archivo de instancia ARFF para los datos meteorolgicos
%
@ meteorolgica relacin
@ atribuir bag_ID {1, 2, 3, 4, 5, 6, 7}
@ bolsa atributo relacional
@ perspectivas atributo {soleado, nublado, lluvioso}
@ numrico temperatura atributo

@ numrico humedad atributo


@ atribuir ventoso {verdadero, falso}
@ Bolsn Cerrado
@ atribuir juego? {S, no}
@ datos
%
% Siete instancias "de instancia mltiple"
%
1, "soleado, 85, 85, false \ nsunny, 80, 90, la verdadera", sin
2, "encapotado, 83, 86, false \ nrainy, 70, 96, false", s
3, "las lluvias, 68, 80, false \ nrainy, 65, 70, verdadero", s
4, "encapotado, 64, 65, true \ nsunny, 72, 95, false", s
5, "soleado, 69, 70, false \ nrainy, 75, 80, false", s
6 ", soleado, a 75, 70, true \ novercast, 72, 90, verdadero", s
7, "encapotado, 81, 75, false \ nrainy, 71, 91, verdadero", s
% Multiple instance ARFF file for the weather data
%
@relation weather
@attribute bag_ID { 1, 2, 3, 4, 5, 6, 7 }
@attribute bag relational
@attribute outlook { sunny, overcast, rainy }
@attribute temperature numeric
@attribute humidity numeric
@attribute windy { true, false }
@end bag
@attribute play? { yes, no }
@data
%

% seven multiple instance instances


%
1, sunny, 85, 85, false\nsunny, 80, 90, true, no
2, overcast, 83, 86, false\nrainy, 70, 96, false, yes
3, rainy, 68, 80, false\nrainy, 65, 70, true, yes
4, overcast, 64, 65, true\nsunny, 72, 95, false, yes
5, sunny, 69, 70, false\nrainy, 75, 80, false, yes
6, sunny, 75, 70, true\novercast, 72, 90, true, yes
7, overcast, 81, 75, false\nrainy, 71, 91, true, yes
se dan los casos en general se considera poco importante. Una fuerza
algoritmo aprender que el crquet se puede jugar si ninguno de los das son
lluviosos y al menos uno es soleado, pero no es que slo se pueden
reproducir en una cierta secuencia de eventos climticos. Escasos datos A
veces, la mayora de los atributos tienen un valor de 0 para la mayora de
los casos. Por ejemplo, registros de datos de la cesta de mercado las
compras realizadas por los clientes de los supermercados. No importa cun
grande es el da de compras, los clientes nunca compran ms de una
pequea porcin de los elementos de una tienda ofrece. Los datos de la
canasta de mercado contiene la cantidad de cada artculo que las compras
de los clientes, y esto es igual a cero para casi todos los productos en stock.
Los datos archivo puede ser vista como una matriz, cuyas filas y columnas
representan clientes y artculos comunes, y la matriz es "escasa", casi todos
sus elementos son cero. Otro ejemplo ocurre en la minera de texto, donde
los casos son documentos. Aqu, las columnas y las filas representan los
documentos y palabras, y los nmeros indican cuntas veces una palabra
en particular aparece en un documento particular. La mayora de los
documentos tienen un lugar vocabulario reducido, por lo que la mayora de
las entradas son cero. Puede ser poco prctico para representar cada
elemento de una matriz dispersa de forma explcita. En lugar de representar
cada valor con el fin, de esta manera:
0,X,0,0,0,0,Y,0,0,0,classA
0,0,0,W,0,0,0,0,0,0,classB

los atributos no nulos se pueden identificar de forma explcita por el nmero


de atributos y su
Valor declar:
{1 X, Y 6, 10 "clase A"}
{3 W, 10 "clase B"}
{1X,6Y,10classA}

{3W,10classB}

Cada instancia se encierra entre llaves y contiene el nmero de ndice de


cada distinto de cero atributo (ndices empiezan desde 0) y su valor.
Archivos de datos dispersas tienen el mismo @ Relacin y @ atribuyen
etiquetas, seguido de una lnea @ de datos, pero la seccin de datos es
diferentes y contiene especificaciones en los apoyos como los mostrados
anteriormente. Nota que los valores omitidos tienen un valor de los valores
0-no estn "desaparecidas"! Si un valor
se desconoce, debe estar representado de forma explcita con un signo de
interrogacin. Tipos de atributos El formato ARFF acomoda los dos tipos de
datos bsicos, nominales y numricos. Atributos de Cuerdas y atributos de
fecha son efectivamente nominal y numrica, respectivamente, aunque
antes de que se utilizan, las cadenas se convierte a menudo en una forma
numrica tal como un vector palabra. Atributos de relaciones de valor
contienen conjuntos separados de casos que tienen los atributos bsicos,
como las numricas y nominales. Cmo los dos bsicos tipos se interpretan
depende del esquema de aprendizaje que se utiliza. Por ejemplo, muchos
esquemas de tratamiento de atributos numricos como escalas ordinales y
slo utilizan menos que y GreaterThan comparaciones entre los valores. Sin
embargo, algunos de ellos tratan como escalas de razn y utilizar los
clculos de distancia. Es necesario comprender cmo los sistemas de
aprendizaje automtico trabajar antes de usarlos para la minera de datos.
Si una actividad de aprendizaje trata atributos numricos como si se miden
en escalas de razn, la cuestin de la normalizacin surge. Los atributos se
suelen normalizarse a estar en un rango fijo-por lo general de 0 a 1dividiendo todos los valores por el valor mximo encontrado o restando el
valor mnimo y dividir por el rango entre los valores mximos y mnimos.
Otro normalizacin tcnica consiste en calcular la media estadstica y la
norma desviacin de los valores de los atributos, luego restar la media de
cada valor y dividir el resultado por la desviacin estndar. Este proceso se
llama normalizacin una variable estadstica y los resultados en un conjunto
de valores cuya media es 0 y el la desviacin estndar es de 1. Algunos
esquemas de aprendizaje-por ejemplo, de regresin y mtodos basados en
instancia tratar slo con escalas de razn porque a calcular la "distancia"
entre dos casos sobre la base de los valores de sus atributos. Si la escala
real es ordinal, un funcin de la distancia numrica se debe definir. Una
forma de hacer esto es utilizar un twolevel distancia: 1 si los dos valores son
diferentes y 0 si son la misma. Cualquier cantidad nominal puede ser
tratada como numrico mediante el uso de esta funcin de distancia. Sin
embargo, que es una tcnica bastante cruda y oculta el verdadero grado de
variacin entre instancias. Otra posibilidad es generar varios atributos
binarios sintticos para cada atributo nominal: Volveremos a este en la
Seccin 6.6 cuando nos fijamos en el uso de rboles para la prediccin
numrica. A veces hay una verdadera correspondencia entre las cantidades
nominales y numrico escalas. Por ejemplo, cdigos postales indican reas
que pueden estar representados por coordenadas geogrficas; los primeros

dgitos de los nmeros de telfono pueden hacerlo tambin, dependiendo


del lugar donde usted vive. Los dos primeros dgitos del nmero de
identificacin del estudiante puede ser el ao en el que se inscribi por
primera vez. Es muy comn que los conjuntos de datos prcticos para
contener los valores nominales que se codifican como enteros. Por ejemplo,
un identificador entero puede ser utilizado como un cdigo para un atributo
tales como nmero de parte, sin embargo, este tipo de nmeros enteros no
estn destinados para su uso en menos-que o GreaterThan comparaciones.
Si este es el caso, es importante especificar que el atributo es nominal en
vez de numrico. Es muy posible para tratar una cantidad ordinal como si
fuera nominal. De hecho, algunos sistemas de aprendizaje automtico slo
se ocupan de los elementos nominales. Para ejemplo, en el problema de
lentes de contacto el atributo de edad se trata como nominal, y las reglas
generadas incluyen los siguientes:
Si la edad = joven y astigmtica = no
y romper la velocidad de produccin = normal
entonces la recomendacin = suave
Si la edad = pre-presbicia y astigmatismo = no
y romper la velocidad de produccin = normal
entonces la recomendacin = suave
Ifage= youngandastigmatic= no
andtearproductionrate= normal
thenrecommendation= soft
Ifage= prepresbyopicandastigmatic= no
andtearproductionrate= normal
thenrecommendation= soft

Pero en la edad de hecho, especificada de esta manera, es realmente una


cantidad ordinales para las que el
siguientes condiciones:
joven <pre-presbicia <presbicia
young< prepresbyopic< presbyopic

Si se trata como ordinal, las dos reglas podran ser derrumbado en una sola:
Si edad pre-presbicia y astigmatismo = no
y romper la velocidad de produccin = normal
entonces la recomendacin = suave
Ifage prepresbyopicandastigmatic= no
andtearproductionrate= normal
thenrecommendation= soft

que es una forma ms compacta y por lo tanto ms satisfactoria, forma de


decir lo mismo. Valores perdidos La mayora de los conjuntos de datos
encontrados en la prctica, tales como los datos de las negociaciones
laborales de la Tabla 1.6, contienen valores perdidos. Los valores perdidos
se indican con frecuencia fuera de la gama entradas; tal vez un nmero
negativo (por ejemplo, -1) en un campo numrico que es normalmente slo
positivo, o un 0 en un campo numrico que nunca puede normalmente ser
0. Para los atributos nominales, los valores que faltan pueden ser indicadas
por espacios en blanco o guiones. A veces, los diferentes tipos de se
distinguen los valores perdidos (por ejemplo, frente a desconocidos sin
grabar frente irrelevante valores) y quizs representado por diferentes
nmeros enteros negativos (por ejemplo, -1, -2, etc.) Usted tiene que pensar
cuidadosamente acerca de la importancia de los valores perdidos. Pueden
ocurrir por un nmero de razones, tales como equipo de medicin de mal
funcionamiento, cambios en el diseo experimental durante la recoleccin
de datos y el cotejo de varias conjuntos de datos similares, pero no
idnticas. Los encuestados en una encuesta pueden negarse a contestar
ciertas cuestiones como la edad o los ingresos. En un estudio arqueolgico,
tal espcimen como un crneo se puede daar de manera que no se pueden
medir algunas variables. En una biolgica estudio, las plantas o los animales
pueden morir antes de que se han medido todas las variables. Qu Qu
significan estas cosas sobre el ejemplo considerado? Might crneo dao
tiene algn significado en s mismo, o es slo a causa de algn evento
aleatorio? Tiene la muerte temprana de una planta tienen alguna relacin
con el caso o no? La mayora de los esquemas de aprendizaje automtico
hacen la suposicin implcita de que hay no es un significado particular en el
hecho de que una cierta instancia tiene un valor de atributo missing: El
valor es simplemente no sabe. Sin embargo, puede haber una buena razn
por la cual el valor del atributo es desconocido-tal vez se tom la decisin,
en la evidencia disponible, no para realizar alguna prueba-y que podra
transmitir determinada informacin acerca de la instancia que no sea el
hecho de que el valor no es ms que falta. Si este es el caso, entonces sera
ms apropiado para grabar no han sido evaluados como otra posible valor
para este atributo o quiz como otro atributo en el conjunto de datos. Como
la anterior ejemplos ilustran, slo alguien familiarizado con los datos puede
tomar una decisin informada juicio sobre si un determinado valor estaba
desaparecida tiene algn significado adicional o si simplemente debe ser
codificada como un valor que falta ordinaria. Por supuesto, si parece que
hay varios tipos de valores que faltan, es decir, indicios razonables de que
algo est pasando que hay que investigar. Si faltan valores significan que un
operador ha decidido no hacer una determinada medicin, que puede
transmitir mucho ms que el mero hecho de que el valor se desconoce. Por
ejemplo, las personas que analizan las bases de datos mdicos se han dado
cuenta de que casos pueden, en algunas circunstancias, ser diagnosticable
simplemente a partir de las pruebas que un mdico decide hacer sin
importar el resultado de las pruebas. A continuacin un registro de los

valores son "desaparecidos" es todo lo que se necesita para una completa-el


diagnstico valores reales pueden ser ignorado por completo!
Valores inexactos
Es importante revisar los archivos de minera de datos con cuidado para
atributos canallas y atributo valores. Los datos utilizados para la minera no
ha casi seguro que han recogido expresamente para ese propsito. Cuando
recogido un principio, muchos de los campos probablemente no importaba y
se deja en blanco o sin marcar. A condicin de que no afecte el propsito
original de los datos, no hay ningn incentivo para corregir esta situacin.
Sin embargo, cuando el mismo base de datos se utiliza para la minera, los
errores y omisiones de repente empiezan a asumir gran importancia. Por
ejemplo, los bancos realmente no necesitan saber la edad de sus clientes,
por lo que sus bases de datos pueden contener muchos valores faltantes o
incorrectas. Pero la edad puede ser una caracterstica muy significativo de
las normas minadas. Errores tipogrficos en un conjunto de datos,
obviamente, dar lugar a valores incorrectos. A menudo, la valor de un
atributo nominal est mal escrito, la creacin de un valor aadido posible
para que atribuir. O tal vez no es un error ortogrfico, sino diferentes
nombres para la misma cosa, tales como Pepsi y Pepsi-Cola. Obviamente, el
punto de un formato definido como ARFF es permitir que los archivos de
datos que se verificar la coherencia interna. Sin embargo, los errores que
se ocurrir en el archivo de datos original a menudo se conservan a travs
del proceso de conversin en el archivo que se utiliza para la extraccin de
datos; por lo tanto, la lista de valores posibles que cada atributo toma debe
ser examinado cuidadosamente. Los errores tipogrficos o de medicin en
valores numricos generalmente causan valores atpicos que puede ser
detectado mediante la representacin grfica de una variable a la vez.
Valores errneos a menudo apartarse significativamente del patrn que es
evidente en los valores restantes. A veces, Sin embargo, los valores
incorrectos son difciles de encontrar, sobre todo sin especialista
conocimiento del dominio. Datos duplicados presenta otra fuente de error.
La mayora de las herramientas de aprendizaje automtico se producir
resultados diferentes si algunos de los casos en los archivos de datos se
duplican, porque la repeticin les da ms influencia en el resultado. La gente
a menudo comete errores deliberados al introducir datos personales en
bases de datos. Pueden hacer cambios menores en la ortografa de su calle
para tratar de identificar si la informacin que han proporcionado acaba de
ser vendida a las agencias de publicidad que carga con el correo basura.
Pueden ajustar la ortografa de su nombre al solicitar un seguro si han
tenido de seguros se neg en el pasado. Rgido sistemas de entrada de
datos informatizadas a menudo imponen restricciones que exigen
imaginativa soluciones. Una historia habla de un extranjero alquilar un
vehculo en los Estados Unidos. Estando en el extranjero, no tena cdigo
postal, sin embargo, el equipo insisti en uno; en la desesperacin el
operador le sugiri que utilice el cdigo postal de la agencia de alquiler. Si
este es prctica comn, los futuros proyectos de minera de datos pueden

notar un grupo de clientes que al parecer viven en el mismo distrito que el


organismo! Del mismo modo, un operador de caja del supermercado a
veces usa su propio frecuentes tarjeta de comprador cuando el cliente no
proporciona uno, ya sea para que el cliente pueda conseguir un descuento
que de otro modo no est disponible o simplemente para acumular crdito
puntos en la cuenta del cajero. Slo un conocimiento semntico profundo de
lo que sucede el ser capaz de explicar los errores de datos sistemticos
como estos. Por ltimo, los datos se estropea. Muchos de los artculos en un
cambio de base de datos como las circunstancias cambiar. Por ejemplo, los
elementos de las listas de correo (por ejemplo, nombres, direcciones,
telfono nmeros, etc) cambian con frecuencia. Debe tener en cuenta si los
datos son la minera sigue siendo actual. Conociendo sus datos No hay
sustituto para el conocimiento de sus datos. Herramientas simples que
muestran los histogramas de la distribucin de valores de atributos
nominales, y grficos de los valores de atributos numricos (tal vez
ordenados o simplemente graficados contra el nmero de instancia), son
muy til. Estas visualizaciones grficas de los datos que sea fcil de
identificar valores atpicos, que bien puede representar a errores en el
archivo de datos, o convenciones arcanas para la odificacin situaciones
inusuales, como un ao perdido como 9999 o un peso por desaparecidas -1
kg, que nadie ha pensado hablarles. Los expertos del dominio deben ser
consultados para explicar anomalas, valores perdidos, el significado de los
nmeros enteros que representan categoras en lugar de cantidades
numricas, y as sucesivamente. Parcelas pareadas de un atributo en contra
de otro, o cada atributo con el valor de la clase, puede ser muy revelador. La
limpieza de datos es un tiempo y procedimiento de trabajo intensivo, pero
que es absolutamente necesario para la minera de datos con xito. Con una
gran base de datos, las personas a menudo renuncian-cmo pueden
comprobar todo esto? En su lugar, usted debe probar algunos instancias y
examinarlas cuidadosamente. Usted se sorprender de lo que encuentre.
Tiempo mirando sus datos estn siempre bien empleado.
2.5 OTRAS LECTURAS
Pyle (1999) ofrece una extensa gua para la preparacin de datos para
minera de datos. Hay es tambin un gran inters actual en el
almacenamiento de datos y los problemas que conlleva. Kimball y Ross
(2002) presentan la mejor introduccin a estos que nos conocer. Cabea et
al. (1998) estiman que las cuentas de preparacin de datos para el 60% del
esfuerzo involucrados en una aplicacin de minera de datos, y escriben con
cierta extensin acerca de los problemas planteados. El rea de la
programacin lgica inductiva, que se ocupa de finito e infinito relaciones,
est cubierto por Bergadano y Gunetti (1996). Los diferentes "niveles de
medicin "para los atributos se introdujeron por Stevens (1946) y se
describen en detalle en los manuales de paquetes estadsticos como SPSS
(Nie et al., 1970). El entorno de aprendizaje multi-instancia en su forma
original, el sentido muy especfico, y la la actividad de drogas problema de
prediccin que motiv, fue introducido por Dietterich et al. (1997). El

problema ejemplo multilabeled, mencionado cerca del comienzo de la


seccin 2.1, es un escenario muy diferente; Lee et al. (2009) discuten
algunos enfoques para abordarlo utilizando algoritmos de clasificacin
estndar.

Vous aimerez peut-être aussi