Académique Documents
Professionnel Documents
Culture Documents
tanto, cada eleccin que hacemos se graba. Y todas estas son opciones,
slo personales que tienen un sinnmero de contrapartes en el mundo del
comercio y la industria. Podramos todos dan testimonio de la creciente
brecha entre la generacin de los datos y el conocimiento de la misma.
Como el volumen de datos aumenta, inexorablemente, la proporcin de que
la gente entender disminuye alarmantemente. Mentir escondido en todos
estos datos es la informacin- potencialmente til la informacin-que rara
vez se hace explcito o aprovechado. Este libro trata de buscar patrones en
los datos. No hay nada nuevo en esto. La gente ha estado buscando
patrones en los datos desde que comenz la vida humana. Los cazadores
buscan patrones en el comportamiento de la migracin animal, los
agricultores buscan patrones en el crecimiento de los cultivos, los polticos
buscar patrones en opinin de los votantes, y los amantes buscan patrones
en sus socios ' respuestas. El trabajo de un cientfico (como la de un beb)
es de dar sentido a los datos, para descubrir la patrones que rigen la forma
en que funciona el mundo fsico y los encapsula en las teoras que se puede
utilizar para predecir lo que suceder en las nuevas situaciones. Del
empresario trabajo es identificar las oportunidades-es decir, los patrones de
comportamiento que se pueden convertir en un negocio rentable y
explotarlos. En la minera de datos, los datos se almacenan
electrnicamente y la bsqueda se automatiza-o al menos aumentada por
ordenador. Incluso esto no es particularmente nueva. Economistas,
estadsticos, los meteorlogos e ingenieros de la comunicacin han
trabajado durante mucho tiempo con el idea de que los patrones en los
datos se pueden buscar de forma automtica, identificadas, validadas y
utilizadas para la prediccin. Lo que es nuevo es el espectacular aumento
de las oportunidades para la bsqueda de patrones en los datos. El
crecimiento desenfrenado de las bases de datos en los ltimos aos, las
bases de datos para actividades tales cotidianos como las opciones del
cliente, aporta la minera de datos a la vanguardia de la nuevas tecnologas
empresariales. Se ha estimado que la cantidad de datos almacenados en las
bases de datos del mundo se duplica cada 20 meses, y aunque
seguramente sera difcil justificar esta cifra en un sentido cuantitativo,
todos podemos relacionar con el ritmo de crecimiento cualitativamente. A
medida que el flujo de datos se hincha y mquinas que pueden llevar a cabo
la bsqueda convertido en algo comn, las oportunidades para el aumento
de la minera de datos. Como el mundo crece en complejidad, abrumarnos
con los datos que genera, datos la minera se convierte en nuestra nica
esperanza para elucidar patrones ocultos. Inteligentemente analizado datos
es un recurso valioso. Puede conducir a nuevos conocimientos, y, en los
entornos comerciales, de ventajas competitivas. La minera de datos se
trata de resolver los problemas mediante el anlisis de los datos ya
presentes en bases de datos. Supongamos, para tomar un ejemplo muy
usado, el problema es del cliente voluble lealtad en un mercado altamente
competitivo. Una base de datos de opciones del cliente, a lo largo de con
perfiles de clientes, es la clave para este problema. Los patrones de
comportamiento de los ex los clientes pueden ser analizados para identificar
Todas estas reglas son 100% correcto de los datos dado; que no hacen
predicciones falsas. Las dos primeras se aplican a los cuatro ejemplos en el
conjunto de datos, el tercero a tres ejemplos, y el cuarto a dos ejemplos. Y
hay muchas otras reglas. De hecho, casi el 60 por reglas de asociacin se
puede encontrar lo que corresponda a dos o ms ejemplos de que el clima
datos y son completamente correctas en estos datos. Y si nos fijamos en las
normas que sean menos de 100% correcto, entonces usted va a encontrar
muchos ms. Hay tantos, ya que, a diferencia de reglas de clasificacin,
reglas de asociacin pueden "predecir" cualquiera de los atributos, no slo
un clase especificada, y puede incluso predecir ms de una cosa. Por
ejemplo, la cuarta regla predice tanto que la perspectiva ser soleado y que
la humedad ser alta.
Lentes de contacto: Un Problema idealizado
Los datos de la lente de contacto introducidas anteriormente le indica el tipo
de lentes de contacto para prescribir, dada cierta informacin sobre un
el resultado de las pruebas, se llega a una hoja del rbol que dicta el
recomendacin de lentes de contacto para ese caso. La cuestin de cul es
la ms natural y de fcil comprensin para el formato la salida de una
mquina de aprendizaje esquema es el que vamos a volver en el captulo 3.
Iris: A Classic Conjunto de datos numricos El conjunto de datos del iris,
que se remonta al trabajo seminal por el eminente estadstico R. A. Fisher
en el mid- 1930 y es sin duda el ms famoso conjunto de datos utilizados
en la minera de datos, contiene 50 ejemplos de cada uno de tres tipos de
plantas: Iris setosa, Iris versicolor, e Iris virginica. Esto es un extracto en la
Tabla 1.4. hay cuatro atributos: longitud spalo, anchura del spalo, ptalo
de longitud, y la anchura de ptalos (todo medido en centmetros).
desemejante los conjuntos de datos anteriores, todos los atributos tienen
valores que son numrico. El siguiente conjunto de reglas podra aprender
de este conjunto de datos:
Si la longitud de ptalos <2,45 entonces Iris-setosa
Si spalo-width <2,10 entonces Iris-versicolor
Si spalo ancho de <2,45 y ptalo de longitud <4,55 entonces Iris-versicolor
Si spalo ancho de <2,95 y ptalo de ancho <1,35 entonces Iris-versicolor
Si la longitud del ptalo 2,45 y longitud ptalo <4,45 entonces Irisversicolor
Si la longitud spalo 5,85 y ptalo de longitud <4,75 entonces Irisversicolor
Si spalo-anchura <2,55 y ptalo de longitud <4,95 y
ptalo de ancho <1,55 entonces Iris-versicolor
Si la longitud del ptalo- 2,45 y ptalo de longitud <4,95 y
ptalo de ancho <1,55 entonces Iris-versicolor
Si la longitud spalo 6,55 y ptalo de longitud <5,05 entonces Irisversicolor
Si spalo ancho de <2,75 y ptalo de ancho <1,65 y
de longitud spalo <6,05 entonces Iris-versicolor
Si la longitud spalo 5,85 y spalo de longitud <5.95 y
de longitud ptalo <4,85 entonces Iris-versicolor
Si la longitud del ptalo 5,15 entonces Iris-virginica
Si ptalo de ancho 1,85 entonces Iris-virginica
Previsin de carga
En el sector elctrico, es importante para determinar la demanda futura de
potencia con la mayor antelacin posible. Si las estimaciones exactas
pueden ser hechas para la carga mxima y mnima para cada hora, da,
mes, temporada y ao, la utilidad las empresas pueden hacer importantes
economas en reas tales como la definicin de la operacin reserva, la
programacin del mantenimiento y la gestin de inventarios de
combustible. Un asistente automatizado previsin de cargas ha estado
operando a una utilidad importante proveedor por ms de una dcada para
generar previsiones por hora con dos das de antelacin. El primer paso fue
utilizar los datos recogidos durante los ltimos 15 aos para crear un
sofisticado modelo de carga de forma manual. Este modelo tiene tres
componentes: carga base para la ao, la periodicidad de carga en el ao, y
el efecto de los das festivos. Para normalizar para la carga base, los datos
correspondientes a cada ao anterior se estandariz restando el carga
promedio para ese ao a partir de cada lectura por hora y dividiendo por la
norma desvo por encima del ao. Carga elctrica muestra la periodicidad
en tres frecuencias fundamentales: diurna, donde uso tiene un mnimo de la
maana y el medioda y la tarde mximos; semanal, donde la demanda es
ms baja en los fines de semana; y de temporada, donde el aumento de la
demanda durante invierno y verano para la calefaccin y la refrigeracin,
respectivamente, crea un ciclo anual. Das de fiesta importantes, como
Accin de Gracias, Navidad y el da de Ao Nuevo, muestran significativa
variacin de la carga normal y cada uno se modela por separado
promediando cargas por hora de ese da en los ltimos 15 aos. Das de
fiesta oficiales menores, tales como Da de la Raza, se agrupan como las
Diagnstico
El diagnstico es una de las principales reas de aplicacin de los sistemas
expertos. Aunque el reglas artesanales utilizados en sistemas expertos a
menudo un buen desempeo, aprendizaje automtico puede ser til en
situaciones en las que las reglas que producen de forma manual es muy
laboriosa. El mantenimiento preventivo de los equipos electromecnicos,
tales como motores y generadores puede prevenir fallas que interrumpen
los procesos industriales. Tcnicos con regularidad inspeccionar cada
dispositivo, la medicin de vibraciones en varios puntos para determinar si
el dispositivo necesita mantenimiento. Fallos tpicos incluyen desalineacin
del eje, aflojamiento mecnico, cojinetes defectuosos y bombas
desequilibradas. Una planta qumica en particular utiliza ms de 1000
dispositivos diferentes, que van desde bombas pequeas a muy grandes
turbo-alternadores, que hasta hace poco fueron diagnosticados por un
experto humano con 20 aos o ms de experiencia. Los fallos se
identificaron mediante la medicin de vibraciones en diferentes lugares en
el el montaje y el uso de anlisis de Fourier del dispositivo para comprobar
la energa presente en tres diferentes direcciones en cada armnico de la
Marketing y Ventas
Algunas de las aplicaciones ms activo de la minera de datos han sido en el
rea de marketing y ventas. Se trata de esferas en las que las empresas
poseen masiva volmenes de datos registrados, precisamente, lo que, slo
recientemente se ha dado cuenta, es potencialmente muy valiosa. En estas
aplicaciones, los propios predicciones son el inters principal: la estructura
de cmo se toman las decisiones es a menudo completamente irrelevante.
Ya hemos mencionado el problema de la lealtad del cliente voluble y el
desafo de detectar los clientes que tienen probabilidades de defectos de
forma que puedan ser cortejados espalda en el redil, dndoles un
tratamiento especial. Los bancos fueron los primeros en adoptar los datos
extraccin Maquinaria debido a sus xitos en el uso de la mquina de
aprendizaje para evaluacin del crdito. La minera de datos se est
utilizando ahora para reducir la prdida de clientes por detectar cambios en
los patrones bancarios individuales que pueden anunciar un cambio de
banco, o incluso los cambios de la vida, como un movimiento a otro de la
ciudad, que pueden dar lugar a una diferente banco siendo elegido. Se
puede revelar, por ejemplo, un grupo de clientes con superior a la media
tasa de desercin que hacen la mayor parte de sus operaciones bancarias
por telfono despus de horas cuando respuesta telefnica es lento. La
minera de datos puede determinar los grupos a los cuales los nuevos
servicios son apropiadas, como por ejemplo un grupo de clientes rentables,
confiables que raramente obtener adelantos en efectivo de sus tarjetas de
crdito, excepto en noviembre y diciembre, cuando que estn dispuestos a
pagar tasas de inters exorbitantes para ver a travs de las vacaciones
temporada. En otro mbito, las empresas de telefona celular luchan churn
detectando patrones de comportamiento que podran beneficiarse de
nuevos servicios, y luego anunciar dichos servicios para conservar su base
de clientes. Los incentivos previstos especficamente para retener existente
los clientes pueden ser costosos, y la minera de datos con xito permite
que sean precisamente dirigido a aquellos clientes que puedan producir el
mximo beneficio. Anlisis de la cesta de mercado es el uso de tcnicas de
asociacin de encontrar grupos de elementos que tienden a ocurrir juntos
en las transacciones, por lo general los datos de caja del supermercado.
Para muchos minoristas esta es la nica fuente de informacin de ventas
que est disponible para los datos la minera. Por ejemplo, el anlisis
automatizado de los datos de pago y envo puede revelar el hecho de que
los clientes que compran cerveza tambin compran fichas, un
descubrimiento que podra ser significativo desde punto del operador de
supermercados de vista (aunque bastante obvia que, probablemente, no es
necesario un ejercicio de minera de datos para descubrir). O el anlisis
puede llegar a con el hecho de que los jueves clientes a menudo compran
paales y cerveza juntos, un resultado inicialmente sorprendente que,
pensndolo bien, tiene cierto sentido los padres como los jvenes
abastecerse para un fin de semana en casa. Tal informacin podra ser
utilizada para muchos propsitos: planificacin del almacn diseos, lo que
limita los descuentos especiales para slo uno de una serie de elementos
que tienden a comprar juntos, ofreciendo cupones para un producto a juego
cuando uno de ellos se vende por s solo, y as sucesivamente. Existe un
enorme valor aadido de ser capaz de identificar de cliente individual
historias de ventas. De descuento o "fidelidad" tarjetas permiten minoristas
a identificar todas las compras que cada cliente hace. Estos datos
personales es mucho ms valioso que el valor en efectivo del descuento. La
identificacin de los clientes individuales no slo permite anlisis histrico
de los patrones de compra, pero tambin permite precisamente dirigido
especial ofrece para ser enviado a los clientes-o potenciales cupones quizs
personalizados se pueden imprimir en tiempo real en la caja para su uso
Ifnoneoftheabovethenplay=no
que todos los dems son negativos. Cada ejemplo positivo se le da su propio
gobierno, y el concepto es la disyuncin de las reglas. Alternativamente,
usted podra imaginar tener reglas individuales para cada uno de los
ejemplos negativos, demasiado-un concepto igualmente interesante. En
cualquiera de los casos, la descripcin concepto no realizar cualquier
generalizacin; simplemente registra los datos originales. Por otro lado, si
no se permite la disyuncin, algunos posibles conceptos-conjuntos de
ejemplos-no puede ser capaz de ser representado en absoluto. En ese caso,
una mquina de aprendizaje esquema puede ser simplemente incapaces de
lograr un bien
Otro tipo de sesgo de idioma es la obtenida a partir del conocimiento de lo
particular dominio que se usa. Por ejemplo, puede ser que algunas
combinaciones de valores de atributos nunca puede suceder. Este sera el
caso si un atributo implicaba otra. Vimos una ejemplo de esto al considerar
las reglas para el problema de la soja se describe en la Seccin 1.2.
Entonces no tendra sentido incluso a considerar conceptos que intervienen
redundante o combinaciones imposibles de valores de los atributos.
Conocimiento del dominio puede utilizarse para reducir el espacio de
bsqueda. El conocimiento es poder: Un poco va un largo camino, e incluso
una pequea pista CAN reducir drsticamente el espacio de bsqueda.
Buscar Blas
En los problemas de minera de datos realistas, hay muchas descripciones
de conceptos alternativos que se adapten los datos, y el problema es
encontrar la "mejor" un acuerdo con algn criterio-por lo general
simplicidad. Utilizamos el ajuste trmino en un sentido estadstico;
buscamos la mejor descripcin que se ajusta los datos razonablemente bien.
Por otra parte, a menudo es computacionalmente imposible para buscar en
la espacio entero y la garanta de que la descripcin encontrado es
realmente el mejor. En consecuencia, la procedimiento de bsqueda es
heurstico y no hay garantas se puede hacer sobre la optimalidad de la
resultado final. Esto deja mucho espacio para el sesgo: Diferentes bsqueda
heurstica sesgan la bsqueda de diferentes maneras. Por ejemplo, un
algoritmo de aprendizaje podra adoptar una bsqueda "codiciosos" de las
reglas al tratar de encontrar la mejor regla en cada etapa y agregarla al
conjunto de reglas. Sin embargo, puede ser que el mejor par de reglas no
son slo las dos reglas que se encuentran de forma individual mejor. O
cuando la construccin de un rbol de decisin, un compromiso de dividir
desde el principio utilizando un atributo particular podra resultan ms
adelante ser-mal considerado a la luz de cmo el rbol se desarrolla por
debajo de ese nodo. Para llegar en torno a estos problemas, la bsqueda de
haz podra ser utilizado cuando los compromisos irrevocables son no hizo
sino un conjunto de varias alternativas, el nmero de activos que es el -se
persigui anchura de haz en en una teora simple es encontrar un tema
complejo y luego simplificarlo. Adelante y atrs poda son a la vez una
especie de sesgo sobreajuste-evitacin. En resumen, aunque la
Este ejemplo muestra cmo se puede tener una relacin entre los diferentes
nodos de una rbol y refundir en un conjunto de instancias independientes.
En cuanto a la base de datos, se toman dos las relaciones y se unen entre s
para hacer una, un proceso de aplanamiento que es tcnicamente llama
desnormalizacin. Siempre es posible hacer esto con cualquier conjunto de
(finito) las relaciones (finitos). La estructura de la Tabla 2.4 se puede utilizar
para describir cualquier relacin entre dos personas-en abuelos, primos
segundos eliminan dos veces, y as sucesivamente. Relaciones entre ms
personas requerira una mesa ms grande. Las relaciones en las que el
nmero mximo de personas que no se especifica de antemano plantean un
problema ms serio. Si queremos aprender el concepto de familia nuclear
(padres e hijos), el nmero de personas involucradas depende del tamao
de la familia nuclear ms grande, y aunque podramos adivinar un mximo
razonable (10?, 20?), el nmero real slo se puede encontrar mediante la
exploracin del rbol en s. Sin embargo, dado un conjunto finito
derelaciones que podran, al menos en principio, formar un nuevo
"superrelation" que contiene una fila para cada combinacin de la gente, y
esto sera suficiente para expresar cualquier relacin entre las personas, sin
importar cuntos estuvieron involucrados. La computacional y los costes de
almacenamiento seran, sin embargo, ser prohibitivo. Otro problema con la
desnormalizacin es que produce regularidades aparentes en los datos que
son totalmente espurios y de hecho son meros reflejos de la estructura de
base de datos original. Por ejemplo, imagine una base de datos de
supermercado con una relacin para los clientes y los productos que
compran, uno de los productos y sus proveedores, y uno de los proveedores
y sus direcciones. Desnormalizar esto producir un piso archivo que
contiene, para cada caso, cliente, producto, proveedor, y la direccin del
proveedor. Una herramienta de minera de datos, que busca la estructura de
la base de datos puede llegar con el hecho de que los clientes que compran
cerveza tambin compran fichas, un descubrimiento que podra ser
significativa desde el punto de vista del gerente de un supermercado. Sin
embargo, tambin puede llegar a el hecho de que la direccin de proveedor
se puede predecir exactamente al proveedor de-un "Descubrimiento" de
que no va a impresionar al gerente de un supermercado en absoluto. Este
hecho mascaradas como un descubrimiento significativo del archivo plano
sino que est presente de manera explcita en el original estructura de base
de datos. Muchos de los problemas computacionales abstractos implican
relaciones que no son finitos, aunque es evidente que cualquier conjunto
real de ejemplos de entrada debe ser finito. Conceptos tales como
antepasado de involucrar arbitrariamente largos caminos a travs de un
rbol, y aunque el ser humano raza, y de ah su rbol de familia, puede ser
finito (aunque prodigiosamente grande), muchos problemas artificiales
generan datos que verdaderamente es infinito. Aunque pueda parecer
abstruso, esta situacin es la norma en reas como procesamiento de listas
y la programacin lgica, y se dirige en una subdisciplina de la mquina de
aprendizaje llamada lgica inductiva de programacin. Los informticos
laborales datos fue una excepcin: Presentamos este con instancias en las
columnas y los atributos en filas por razones de espacio.) El uso de un
conjunto fijo de caractersticas impone otra restriccin sobre los tipos de
problemas generalmente se consideran en la minera de datos prcticos.
Qu pasa si las diferentes instancias tienen caractersticas diferentes? Si
las instancias eran vehculos de transporte, entonces el nmero de ruedas
es una funcin que se aplica a muchos vehculos, pero no a los buques, por
ejemplo, mientras que el nmero de mstiles podra ser una caracterstica
que se aplica a los buques, pero no a la tierra vehculos. La solucin
estndar es hacer que cada caracterstica posible un atributo y para utilizar
una bandera especial "valor irrelevante" para indicar que un atributo
particular no est disponible para un caso particular. Surge una situacin
similar cuando la existencia de una funcin (por ejemplo, el nombre del
cnyuge) depende del valor de otro (casado o individual). El valor de un
atributo para un caso particular es una medida de la cantidad a la que se
refiere el atributo. Hay una amplia distincin entre cantidades que son
numrico y los que son nominales. Atributos numricos, a veces llamado
continuo atributos, los nmeros, ya sea medida real o entero valorado.
Tenga en cuenta que el trmino continuo se abusa habitualmente en este
contexto; atributos de enteros por valor-no son ciertamente continua en el
sentido matemtico. Atributos nominales toman valores en un preespecificado, conjunto finito de posibilidades y se llama a veces categrica.
Pero hay son otras posibilidades. Estadsticas textos suelen introducir
"niveles de medicin", tales como nominal, ordinal, intervalo y ratio. Las
cantidades nominales tienen valores que son smbolos distintos. Los valores
propios servir simplemente como etiquetas o nombres, de ah el trmino
nominal, que viene del latn palabra por nombre. Por ejemplo, en los datos
del tiempo las perspectivas atributo tiene los valores soleado, nublado y
lluvioso. Ninguna relacin es implcita entre estos tres hay orden o medida
de distancia. Ciertamente no tiene sentido aadir los valores entre s, los
multiplicar, o incluso comparar su tamao. Una regla de uso de dicho
atributo slo puede comprobar la igualdad o desigualdad, como en
perspectivas: sunny no
nublado s
lluvias s
outlook: sunny no
overcast yes
rainy yes
Cantidades ordinales son los que hacen que sea posible clasificar a ordenar
las categoras. Sin embargo, aunque hay una nocin de orden, no hay
nocin de distancia. para ejemplo, en los datos del tiempo la temperatura
atributo tiene valores calientes, templados y fros. Estos estn ordenados.
Si usted dice que
donde estamos por lo general bastante contento de decir que algo cuesta el
doble tanto como algo ms-puede no ser claramente definidos para aquellos
que constantemente al lmite de sus tarjetas de crdito. Muchos sistemas de
minera de datos prcticos acomodar slo dos de estos cuatro niveles de
medicin: nominal y ordinal. Atributos nominales a veces se llaman
categrica, enumerado, o discreta. Enumerado es el trmino estndar
utilizado en la computadora ciencia para designar un tipo de datos
categricos; Sin embargo, la definicin estricta de la plazo, es decir, de
poner en correspondencia uno-a-uno con los nmeros naturales- implica un
ordenamiento, que especficamente no se implica en el aprendizaje de las
mquinas contexto. Discrete tambin tiene connotaciones de orden ya que
a menudo discretizar un cantidad numrica continua. Atributos ordinales a
menudo se codifican como datos numricos, o tal vez los datos continuos,
pero sin la implicacin de la continuidad matemtica. La caso especial de la
escala nominal es la dicotoma, que tiene slo dos miembros- a menudo
designado como verdadero y lo falso o s y no en los datos meteorolgicos.
Tales atributos a veces se llaman de Boole. Sistemas de aprendizaje
automtico puede utilizar una amplia variedad de informacin sobre
atributos. Por ejemplo, consideraciones dimensionales podran ser utilizados
para restringir la buscar a las expresiones o comparaciones que son
dimensionalmente correcta. Ordenamiento Circular podra afectar a los tipos
de pruebas que se consideran. Por ejemplo, en un temporal contexto, las
pruebas de un atributo de da podran implicar da siguiente, el da anterior,
siguiente da laborable, o el mismo da la semana prxima. Parciales
ordenamientos-es decir, la generalizacin o especializacin relaciones-con
frecuencia se producen en situaciones prcticas. Este tipo de informacin es
a menudo conocida como metadatos, datos sobre los datos. Sin embargo,
los tipos de esquemas prcticos utilizado para la extraccin de datos rara
vez son capaces de tomar en cuenta los metadatos, aunque Es probable
que estas capacidades se desarrollarn en el futuro.
2.4 PREPARACIN DE LA ENTRADA
Preparacin de entrada para una investigacin de minera de datos por lo
general consume la mayor parte de la esfuerzo invertido en todo el proceso
de minera de datos. Si bien este libro no es realmente acerca de los
problemas de la preparacin de los datos, queremos darte una idea de los
problemas involucrados para que pueda apreciar las complejidades.
Despus de eso, nos fijamos en una particular, el formato de archivo de
entrada, el formato de archivo de atributos-relacin (ARFF), que se utiliza en
el sistema de Weka se describe en la Parte III. Entonces tenemos en cuenta
los problemas que surgen cuando la conversin de conjuntos de datos a un
formato de este tipo, porque hay algunos puntos prcticos sencillos a tener
en cuenta. La amarga experiencia demuestra que los datos reales a menudo
es decepcionantemente bajo en calidad, y una revisin cuidadosa, un
proceso que se conoce como datos limpieza compensa con creces. La
recopilacin de los datos en conjunto Al comenzar a trabajar en un
problema de la minera de datos, primero es necesario llevar todo el datos
@ meteorolgica relacin
ejemplificados por los datos del tiempo, el Formato ARFF tiene otros tres
tipos de atributos: los atributos de cadena, atributos de fecha y atributos
relaciones de valor. Atributos de Cuerda tienen valores que son textuales.
Supongamos que tener un atributo de cadena que se desea llamar la
descripcin. En el bloque de definicin de la atributos se especifica as:
@ description atributo de cadena
@attribute description string
{3W,10classB}
Si se trata como ordinal, las dos reglas podran ser derrumbado en una sola:
Si edad pre-presbicia y astigmatismo = no
y romper la velocidad de produccin = normal
entonces la recomendacin = suave
Ifage prepresbyopicandastigmatic= no
andtearproductionrate= normal
thenrecommendation= soft