Académique Documents
Professionnel Documents
Culture Documents
Pronstico: clculo de las ventas y prediccin de las cargas del servidor o del
tiempo de inactividad del servidor.
Riesgo y probabilidad: eleccin de los mejores clientes para la distribucin de
correo directo, determinacin del punto de equilibrio probable para los escenarios
de riesgo, y asignacin de probabilidades a diagnsticos y otros resultados.
Recomendaciones: determinacin de los productos que se pueden vender juntos
y generacin de recomendaciones.
Bsqueda de secuencias: anlisis de los artculos que los clientes han
introducido en el carrito de la compra y prediccin de posibles eventos.
Agrupacin: distribucin de clientes o eventos en grupos de elementos
relacionados, y anlisis y prediccin de afinidades.
2
GENERACIN DE UN MODELO DE MINERA
La generacin de un modelo de minera de datos forma parte de un proceso mayor
que incluye desde la formulacin de preguntas acerca de los datos y la creacin de un
modelo para responderlas, hasta la implementacin del modelo en un entorno de
trabajo. Este proceso se puede definir mediante los seis pasos bsicos siguientes:
1. Definir el problema
2. Preparar los datos
3. Explorar los datos
4. Generar modelos
5. Explorar y validar los modelos
6. Implementar y actualizar los modelos
El proceso que se ilustra en el diagrama siguiente es cclico, lo que significa que la
creacin de un modelo de minera de datos es un proceso dinmico e iterativo. Una
vez que ha explorado los datos, puede que descubra que resultan insuficientes para
crear los modelos de minera de datos adecuados y que, por tanto, debe buscar ms
datos. O bien, puede generar varios modelos y descubrir entonces que no responden
adecuadamente al problema planteado cuando los defini y que, por tanto, debe volver
a definir el problema. Es posible que deba actualizar los modelos una vez
implementados debido a que haya ms datos disponibles. Puede que haya que repetir
cada paso del proceso muchas veces para crear un modelo adecuado.
Inteligencia Artificial
Pgina 1 de 37
2.1
DEFINIR EL PROBLEMA
El primer paso del proceso de minera de datos, tal como se resalta en el siguiente
diagrama, consiste en definir claramente el problema y considerar formas de usar los
datos para proporcionar una respuesta para el mismo.
Este paso incluye analizar los requisitos empresariales, definir el mbito del problema,
definir las mtricas por las que se evaluar el modelo y definir los objetivos concretos
del proyecto de minera de datos. Estas tareas se traducen en preguntas como las
siguientes:
Inteligencia Artificial
Pgina 2 de 37
Cmo se distribuyen los datos? Los datos son estacionales? Los datos
representan con precisin los procesos de la empresa?
Para responder a estas preguntas, puede que deba dirigir un estudio de disponibilidad
de datos para investigar las necesidades de los usuarios de la empresa con respecto a
los datos disponibles. Si los datos no abarcan las necesidades de los usuarios, podra
tener que volver a definir el proyecto. Tambin debe considerar las maneras en las
que los resultados del modelo se pueden incorporar en los indicadores de rendimiento
clave (KPI) que se utilizan para medir el progreso comercial.
2.2
PREPARAR LOS DATOS
El segundo paso del proceso de minera de datos, como se indica en el siguiente
diagrama, consiste en consolidar y limpiar los datos identificados en el paso Definir el
problema.
2.3
EXPLORAR LOS DATOS
El tercer paso del proceso de minera de datos, como se resalta en el siguiente
diagrama, consiste en explorar los datos preparados.
Debe conocer los datos para tomar las decisiones adecuadas al crear los modelos de
minera de datos. Entre las tcnicas de exploracin se incluyen calcular los valores
mnimos y mximos, calcular la media y las desviaciones estndar, y examinar la
distribucin de los datos. Por ejemplo, al revisar el mximo, el mnimo y los valores de
la media se podran determinar que los datos no son representativos de los clientes o
procesos de negocio, y que por consiguiente debe obtener ms datos equilibrados o
revisar las suposiciones que son la base de sus expectativas. Las desviaciones
estndar y otros valores de distribucin pueden proporcionar informacin til sobre la
estabilidad y exactitud de los resultados. Una desviacin estndar grande puede
indicar que agregar ms datos podra ayudarle a mejorar el modelo. Los datos que se
desvan mucho de una distribucin estndar se podran sesgar o podran representar
una imagen precisa de un problema de la vida real, pero dificultan el ajustar un modelo
a los datos.
Al explorar los datos para conocer el problema empresarial, puede decidir si el
conjunto de datos contiene datos defectuosos y, a continuacin, puede inventar una
estrategia para corregir los problemas u obtener una descripcin ms profunda de los
comportamientos que son tpicos de su negocio.
Inteligencia Artificial
Pgina 4 de 37
Deber definir qu columnas de datos desea que se usen; para ello, crear una
estructura de minera de datos. La estructura de minera de datos se vincula al origen
de datos, pero en realidad no contiene ningn dato hasta que se procesa. Al procesar
la estructura de minera de datos, Analysis Services genera agregados y otra
informacin estadstica que se puede usar para el anlisis. Cualquier modelo de
minera de datos que est basado en la estructura puede utilizar esta
informacin. Puede ampliar esta informacin en el MSDN digitando Arquitectura
lgica (Analysis Services - Minera de datos)
Antes de procesar la estructura y el modelo, un modelo de minera de datos
simplemente es un contenedor que especifica las columnas que se usan para la
entrada, el atributo que est prediciendo y parmetros que indican al algoritmo cmo
procesar los datos. El procesamiento de un modelo a menudo se
denomina entrenamiento. El entrenamiento hace referencia al proceso de aplicar un
algoritmo matemtico concreto a los datos de la estructura para extraer patrones. Los
patrones que encuentre en el proceso de entrenamiento dependern de la seleccin
de los datos de entrenamiento, el algoritmo que elija y cmo se haya configurado el
algoritmo. SQL Server 2014 contiene muchos algoritmos diferentes, preparados para
un tipo diferente de tarea. Digitando Algoritmos de minera de datos (Analysis
Services: Minera de datos) usted puede encontrar una amplia lista de ellos en el
MSDN.
Inteligencia Artificial
Pgina 5 de 37
2.5
EXPLORAR Y VALIDAR LOS MODELOS
El quinto paso del proceso de minera de datos, como se resalta en el siguiente
diagrama, consiste en explorar los modelos de minera de datos que ha generado y
comprobar su eficacia.
Use los modelos para crear predicciones que luego podr usar para tomar
decisiones comerciales. SQL Server pone a su disposicin el lenguaje DMX,
que podr usar para crear consultas de prediccin, y el Generador de consultas
de prediccin, que le ayudar a generar las consultas. Para obtener ms
informacin, vea Referencia de Extensiones de minera de datos (DMX).
Crear consultas de contenido para recuperar estadsticas, reglas o frmulas del
modelo. Para obtener ms informacin, vea Consultas de minera de datos.
Incrustar la funcionalidad de minera de datos directamente en una
aplicacin. Puede incluir Objetos de administracin de anlisis (AMO), que
contiene un conjunto de objetos que la aplicacin pueda utilizar para crear,
cambiar, procesar y eliminar estructuras y modelos de minera de
datos. Tambin puede enviar mensajes XML for Analysis (XMLA) directamente
a una instancia de Analysis Services. Para obtener ms informacin,
vea Development (Analysis Services - Data Mining).
Utilizar Integration Services para crear un paquete en el que se utilice un
modelo de minera de datos para dividir de forma inteligente los datos entrantes
en varias tablas. Por ejemplo, si una base de datos se actualiza continuamente
con clientes potenciales, puede utilizar un modelo de minera de datos junto
con Integration Services para dividir los datos entrantes en clientes que
probablemente compren un producto y clientes que probablemente no compren
Inteligencia Artificial
Pgina 7 de 37
3
VENTAJAS DE LA MINERA DE DATOS
La minera de datos usa principios estadsticos contrastados para detectar patrones en
los datos, ayudndole a tomar decisiones inteligentes sobre problemas complejos. La
aplicacin de los algoritmos de minera de datos de Analysis Services a los datos le
permitir predecir tendencias, identificar patrones, crear reglas y recomendaciones,
analizar la secuencia de eventos en conjuntos de datos complejos y obtener nuevos
puntos de vista.
4
ALGORITMOS DE MINERA DE DATOS (ANALYSIS SERVICES: MINERA
DE DATOS)
Un algoritmo de minera de datos es un conjunto de clculos y reglas heursticas que
permite crear un modelo de minera de datos a partir de los datos. Para crear un
modelo, el algoritmo analiza primero los datos proporcionados, en busca de tipos
especficos de patrones o tendencias. El algoritmo usa los resultados de este anlisis
para definir los parmetros ptimos para la creacin del modelo de minera de datos. A
continuacin, estos parmetros se aplican en todo el conjunto de datos para extraer
patrones procesables y estadsticas detalladas.
El modelo de minera de datos que crea un algoritmo a partir de los datos puede tomar
diversas formas, incluyendo:
Un conjunto de clsteres que describe cmo se relacionan los casos de un
conjunto de datos.
Un rbol de decisin que predice un resultado y que describe cmo afectan a este
los distintos criterios.
Un modelo matemtico que predice las ventas.
Un conjunto de reglas que describen cmo se agrupan los productos en una
transaccin, y las probabilidades de que dichos productos se adquieran juntos.
Microsoft SQL Server Analysis Services proporciona varios algoritmos que puede usar
en las soluciones de minera de datos. Estos algoritmos son implementaciones de
algunas de las metodologas ms conocidas usadas en la minera de datos. Todos los
algoritmos de minera de datos de Microsoft se pueden personalizar y son totalmente
programables, bien mediante las API proporcionadas o bien mediante los
componentes de minera de datos de SQL Server Integration Services.
Tambin puede usar algoritmos de minera de datos desarrollados por terceros que
cumplan la especificacin OLE DB para minera de datos, o desarrollar algoritmos
personalizados que se pueden registrar como servicios para usarlos a continuacin en
el marco de la minera de datos de SQL Server.
Inteligencia Artificial
Pgina 8 de 37
Inteligencia Artificial
Pgina 9 de 37
La siguiente es una gua para seleccionar un algoritmo para su uso con una tarea
especfica:
.
Ejemplos de tareas
Algoritmos de
Microsoft que se
pueden usar
Predecir un atributo discreto
Algoritmo de rboles
de decisin de
Marcar los clientes de una lista de posibles
Microsoft
compradores como clientes con buenas o malas
perspectivas.
Algoritmo Bayes naive
Calcular la probabilidad de que un servidor genere
de Microsoft
un error en los prximos 6 meses.
Clasificar la evolucin de los pacientes y explorar
Algoritmo de clsteres
los factores relacionados.
de Microsoft
Algoritmo de red
neuronal de Microsoft
Algoritmo de rboles
de decisin de
Microsoft
Algoritmo de serie
temporal de Microsoft
Algoritmo de regresin
lineal de Microsoft
Algoritmo de clsteres
de secuencia de
Microsoft
Algoritmo de
asociacin de
Microsoft
Algoritmo de rboles
de decisin de
Microsoft
Algoritmo de clsteres
de Microsoft
Algoritmo de clsteres
de secuencia de
Microsoft
5
RECURSOS DE APRENDIZAJE PARA CADA UNO DE LOS ALGORITMOS
DE MINERA DE DATOS QUE SE PROPORCIONAN EN ANALYSIS SERVICES
5.1
ALGORITMO DE ASOCIACIN DE MICROSOFT
Este algoritmo de Microsoft es un algoritmo de asociacin suministrado por Analysis
Services, til para los motores de recomendacin. Un motor de recomendacin
recomienda productos a los clientes basndose en los elementos que ya han adquirido
o en los que tienen inters. El algoritmo de asociacin de Microsoft tambin resulta til
para el anlisis de la cesta de compra. Para obtener un ejemplo sobre el anlisis de la
cesta de la compra, vea Leccin 3: Generar un escenario de cesta de la compra
(Tutorial intermedio de minera de datos) en el tutorial de minera de datos.
Los modelos de asociacin se generan basndose en conjuntos de datos que
contienen identificadores para casos individuales y para los elementos que contienen
los casos. Un grupo de elementos de un caso se denomina un conjunto de
elementos. Un modelo de asociacin se compone de una serie de conjuntos de
elementos y de las reglas que describen cmo estos elementos se agrupan dentro de
los casos. Las reglas que el algoritmo identifica pueden utilizarse para predecir las
probables compras de un cliente en el futuro, basndose en los elementos existentes
en la cesta de compra actual del cliente. El siguiente diagrama muestra una serie de
reglas en un conjunto de elementos.
Inteligencia Artificial
Pgina 11 de 37
Inteligencia Artificial
Pgina 12 de 37
tabla anidada, como el campo que contiene los productos que se han
comprado. Los valores deben ser discretos o discretizados.
Columnas de entrada: Las columnas de entrada deben ser discretas. Los datos
de entrada de un modelo de asociacin suelen encontrarse en dos tablas. Por
ejemplo, una tabla puede contener la informacin del cliente y la otra las compras
de ese cliente. Es posible incluir estos datos en el modelo mediante el uso de una
tabla anidada. Para obtener ms informacin sobre las tablas anidadas,
vea Tablas anidadas (Analysis Services - Minera de datos).
Para obtener informacin ms detallada sobre los tipos de contenido y los tipos de
datos compatibles con los modelos de asociacin, vea la seccin Requisitos
de Referencia tcnica del algoritmo de asociacin de Microsoft.
Ver Un Modelo De Asociacin
Para explorar el modelo, puede utilizar el Visor de asociacin de Microsoft. Cuando
se observa un modelo de asociacin, Analysis Services presenta las correlaciones
desde distintos ngulos para que se puedan comprender mejor las relaciones y las
reglas halladas en los datos. El panel Conjunto de elementos del visor proporciona
un anlisis detallado de las combinaciones o los conjuntos de elementos ms
comunes. El panel Reglas presenta una lista de reglas generalizadas a partir de los
datos, agrega clculos de probabilidad y clasifica las reglas segn su importancia
relativa. El visor de red de dependencia permite explorar visualmente cmo se
conectan los diferentes elementos individuales. Para obtener ms informacin,
vea Examinar un modelo usando el Visor de clsteres de Microsoft.
Inteligencia Artificial
Pgina 13 de 37
Despus de definir los clsteres, el algoritmo calcula el grado de perfeccin con que
los clsteres representan las agrupaciones de puntos y, a continuacin, intenta volver
a definir las agrupaciones para crear clsteres que representen mejor los datos. El
algoritmo establece una iteracin en este proceso hasta que ya no es posible mejorar
los resultados mediante la redefinicin de los clsteres.
Puede personalizar el funcionamiento del algoritmo seleccionando una tcnica de
agrupacin en clsteres, limitando el nmero mximo de clsteres o cambiando la
cantidad de soporte que se requiere para crear un clster. Para obtener ms
informacin, vea Referencia tcnica del algoritmo de clsteres de Microsoft.
Datos requeridos para los modelos de agrupacin en clsteres
Al preparar los datos para su uso en el entrenamiento de un modelo de agrupacin en
clsteres, conviene comprender qu requisitos son imprescindibles para el algoritmo
concreto, incluidos el volumen de datos necesario y la forma en que estos datos se
utilizan. Los requisitos para un modelo de agrupacin en clsteres son los siguientes:
Una columna key : cada modelo debe contener una columna numrica o de texto
que identifique cada registro de manera nica. No estn permitidas las claves
compuestas.
Columnas de entrada Cada modelo debe tener al menos una columna de entrada
que contenga los valores que se utilizan para generar los clsteres. Puede tener
tantas columnas de entrada como desee, pero dependiendo del nmero de valores
existentes en cada columna, la adicin de columnas adicionales podra aumentar
el tiempo necesario para entrenar el modelo.
Una columna de prediccin opcional El algoritmo no necesita una columna de
prediccin para generar el modelo, pero puede agregar una columna de prediccin
de casi cualquier tipo de datos. Los valores de la columna de prediccin se pueden
tratar como entradas del modelo de agrupacin en clsteres, o se puede
especificar que solo se utilicen para las predicciones. Por ejemplo, si desea
predecir los ingresos del cliente agrupando en clsteres de acuerdo con datos
demogrficos como la regin o la edad, se deben especificar los ingresos
como PredictOnly y agregar todas las dems columnas, como la regin o la edad,
como entradas.
Inteligencia Artificial
Pgina 15 de 37
Inteligencia Artificial
Pgina 16 de 37
A medida que el algoritmo agrega nuevos nodos a un modelo, se forma una estructura
en rbol. El nodo superior del rbol describe el desglose de la columna de prediccin
para la poblacin global de clientes. A medida que el modelo crece, el algoritmo
considera todas las columnas.
Predecir columnas continuas
Cuando el algoritmo de rboles de decisin de Microsoft genera un rbol basndose
en una columna de prediccin continua, cada nodo contiene una frmula de
regresin. Se produce una divisin en un punto de no linealidad de la frmula de
regresin. Por ejemplo, considere el siguiente diagrama.
El diagrama contiene los datos que pueden modelarse utilizando una sola lnea o dos
lneas conectadas. Sin embargo, una sola lnea realizar un pobre trabajo en la
representacin de los datos. En su lugar, si se usan dos lneas, el modelo har un
mejor trabajo en la aproximacin a los datos. El punto donde las dos lneas se unen es
el punto de no linealidad y donde se dividira un nodo de un modelo de rbol de
decisin. Por ejemplo, el nodo que corresponde al punto de no linealidad del grfico
Inteligencia Artificial
Pgina 18 de 37
Para buscar la referencia tcnica en el MSDN digite Referencia tcnica del algoritmo
de rboles de decisin de Microsoft
Para entender cmo est estructurada la informacin dentro de cada del modelo y
cmo interpretar la informacin almacenada en cada uno de los nodos digite en el
MSDN: Contenido del modelo de minera de datos para los modelos de rboles de
decisin (Analysis Services - Minera de datos)
5.4
ALGORITMO DE REGRESIN LINEAL DE MICROSOFT
El algoritmo de regresin lineal de Microsoft es una variacin del algoritmo de rboles
de decisin de Microsoft que ayuda a calcular una relacin lineal entre una variable
independiente y otra dependiente y, a continuacin, utilizar esa relacin para la
prediccin.
La relacin toma la forma de una ecuacin para la lnea que mejor represente una
serie de datos. Por ejemplo, la lnea del siguiente diagrama muestra la mejor
representacin lineal de los datos.
Cada punto de datos del diagrama tiene un error asociado con su distancia con
respecto a la lnea de regresin. Los coeficientes a y b de la ecuacin de regresin
ajustan el ngulo y la ubicacin de la recta de regresin. Puede obtener la ecuacin de
regresin ajustando a y b hasta que la suma de los errores asociados a todos los
puntos alcance su valor mnimo.
Hay otros tipos de regresin que utilizan varias variables y tambin hay mtodos no
lineales de regresin. Sin embargo, la regresin lineal es un mtodo til y conocido
para modelar una respuesta a un cambio de algn factor subyacente.
Ejemplo
Puede utilizar la regresin lineal para determinar una relacin entre dos columnas
continuas. Por ejemplo, puede utilizar la regresin lineal para calcular una lnea de
tendencias en los datos de fabricacin o ventas. Tambin podra utilizar la regresin
lineal como precursor para el desarrollo de modelos de minera de datos ms
complejos, con el fin de evaluar las relaciones entre las columnas de datos.
Aunque hay muchas maneras de calcular la regresin lineal que no requieren
herramientas de minera de datos, la ventaja de utilizar el algoritmo de regresin lineal
de Microsoft para esta tarea es que se calculan y se prueban automticamente todas
las posibles relaciones entre las variables. No tiene que seleccionar un mtodo de
clculo, como por ejemplo para resolver los mnimos cuadrados. Sin embargo, la
regresin lineal podra simplificar en exceso las relaciones en escenarios en los que
varios factores afectan al resultado.
Cmo funciona el algoritmo
El algoritmo de regresin lineal de Microsoft es una variacin del algoritmo de rboles
de decisin de Microsoft. Al seleccionar el algoritmo de regresin lineal de Microsoft,
se invoca un caso especial del algoritmo de rboles de decisin de Microsoft, con
parmetros que restringen el comportamiento del algoritmo y requieren ciertos tipos de
datos de entrada. Adems, en un modelo de regresin lineal, el conjunto de datos
Inteligencia Artificial
Pgina 20 de 37
Inteligencia Artificial
Pgina 21 de 37
Inteligencia Artificial
Pgina 22 de 37
Inteligencia Artificial
Pgina 24 de 37
Aqu, el Visor Bayes naive de Microsoft muestra cada columna de entrada del conjunto
de datos e indica cmo se distribuyen los estados de cada columna, dado cada estado
de la columna de prediccin.
Esta vista del modelo se utilizara para identificar las columnas de entrada que son
importantes para diferenciar los distintos estados de la columna de prediccin.
Por ejemplo, en la fila Commute Distance que se muestra aqu, la distribucin de
valores de entrada es visiblemente diferente para los compradores en comparacin
con los no compradores. Esto indica que la entrada, Commute Distance = 0-1 miles,
es un factor de prediccin potencial.
El visor tambin proporciona valores para las distribuciones, de modo que pueda ver
que para los clientes que viajan entre una y dos millas para ir a trabajar, la
probabilidad de que compren una bicicleta es de 0,387, y la probabilidad que no la
compren es de 0,287. En este ejemplo, el algoritmo utiliza la informacin numrica,
derivada de un dato de cliente (como la distancia entre el domicilio y el lugar de
trabajo), para predecir si un cliente comprara una bicicleta.
Para obtener ms informacin acerca de cmo utilizar el Visor Bayes naive de
Microsoft, vea Examinar un modelo usando el visor Bayes naive de Microsoft.
Datos requeridos para los modelos Bayes naive
Al preparar los datos para su uso en un modelo de entrenamiento Bayes naive,
conviene comprender qu requisitos son imprescindibles para el algoritmo, incluidos el
volumen de datos necesario y la forma en que estos datos se utilizan.
Los requisitos para un modelo Bayes naive son los siguientes:
Inteligencia Artificial
Pgina 25 de 37
Una columna de una sola clave: cada modelo debe contener una columna
numrica o de texto que identifique cada registro de manera nica. No estn
permitidas las claves compuestas.
Columnas de entrada: en un modelo Bayes naive, todas las columnas deben
ser discretas o discretizadas. Para obtener informacin acerca de las columnas
de datos discretos, vea Mtodos de discretizacin (minera de datos).
En un modelo Bayes naive, tambin es importante asegurarse de que los
atributos de entrada sean independientes unos de otros. Esto es
particularmente importante al utilizar el modelo para la prediccin.
El motivo es que, si utiliza dos columnas de datos que ya estn estrechamente
relacionadas, el efecto sera multiplicar la influencia de esas columnas, lo que
puede ocultar otros factores que influyen en el resultado.
Al contrario, la capacidad del algoritmo de identificar las correlaciones entre las
variables es til cuando est explorando un modelo o conjunto de datos, para
identificar las relaciones entre las entradas.
Al menos una columna de prediccin: el atributo de prediccin debe
contener valores discretos o discretizados.
Los valores de la columna predecible se pueden tratar como entradas. Este
ejercicio puede ser til si explora un nuevo conjunto de datos, para encontrar
relaciones entre las columnas.
Ver el modelo
Para explorar el modelo, puede usar el Visor Bayes naive de Microsoft. El visor
muestra cmo se relacionan los atributos de entrada con el atributo de prediccin. El
visor tambin proporciona un perfil detallado de cada clster, una lista de los atributos
que distinguen cada clster de los dems, y las caractersticas del conjunto de datos
de entrenamiento completo. Para obtener ms informacin, vea Examinar un modelo
usando el visor Bayes naive de Microsoft.
Si desea conocer ms detalles, puede examinar el modelo en Visor de rbol de
contenido genrico de Microsoft (Minera de datos). Para obtener ms informacin
sobre el tipo de informacin almacenado en el modelo, vea Contenido del modelo de
minera de datos para los modelos Bayes naive (Analysis Services - Minera de datos).
Realizar predicciones
Una vez entrenado el modelo, los resultados se almacenan como un conjunto de
patrones que se puede explorar o utilizar para realizar predicciones.
Puede crear consultas para devolver las predicciones sobre cmo se relacionan los
nuevos datos con el atributo de prediccin, o puede recuperar estadsticas que
describan las correlaciones que ha hallado el modelo.
Para obtener informacin sobre cmo crear consultas en un modelo de minera de
datos, vea Consultas de minera de datos. Para obtener ejemplos de cmo usar las
consultas con un modelo Bayes naive, vea Ejemplos de consultas del modelo Bayes
naive.
Comentarios
Admite el uso del lenguaje de marcado de modelos de prediccin (PMML) para
crear modelos de minera de datos.
Admite la obtencin de detalles.
No admite la creacin de dimensiones de minera de datos.
Admite el uso de modelos de minera de datos OLAP.
Para buscar referencia tcnica en el MSDN digite: Referencia tcnica del algoritmo
Bayes naive de Microsoft
Para entender cmo est estructurada la informacin dentro de cada del modelo y
cmo interpretar la informacin almacenada en cada uno de los nodos digite en el
MSDN: Contenido del modelo de minera de datos para los modelos Bayes naive
(Analysis Services - Minera de datos)
Inteligencia Artificial
Pgina 26 de 37
Inteligencia Artificial
Pgina 27 de 37
5.8
ALGORITMO DE CLSTERES DE SECUENCIA DE MICROSOFT
El algoritmo de clsteres de secuencia de Microsoft es un algoritmo de anlisis de
flujos que proporciona Microsoft SQL Server Analysis Services. Puede utilizar este
algoritmo para explorar los datos que contienen eventos que pueden vincularse
mediante rutas o secuencias. El algoritmo encuentra las secuencias ms comunes
mediante la agrupacin, o agrupacin en clsteres, de las secuencias que son
idnticas. A continuacin se incluyen algunos ejemplos de datos que contienen
Inteligencia Artificial
Pgina 28 de 37
Inteligencia Artificial
Pgina 29 de 37
Inteligencia Artificial
Pgina 30 de 37
Ambos algoritmos pueden detectar estacionalidad en los datos en varios niveles. Por
ejemplo, sus datos podran contener ciclos mensuales anidados en ciclos
anuales. Para detectar estos ciclos estacionales, es posible proporcionar una
sugerencia de periodicidad o bien especificar que el algoritmo deber detectar
automticamente la periodicidad.
Adems de la periodicidad, hay otros parmetros que controlan el comportamiento del
algoritmo de serie temporal de Microsoft cuando ste detecta la periodicidad, realiza
predicciones o analiza casos. Para obtener ms informacin acerca de cmo
establecer los parmetros de los algoritmos, vea Referencia tcnica del algoritmo de
serie temporal de Microsoft.
Datos requeridos para los modelos de serie temporal
Al preparar los datos para el entrenamiento de cualquier modelo de minera de datos,
es preciso comprender los requisitos del modelo en particular as como la forma en
que se utilizan los datos.
Cada modelo de previsin debe contener una serie de casos, que es la columna que
especifica los intervalos de tiempo u otras series sobre las que se produce el
cambio. Por ejemplo, los datos del anterior diagrama muestran las series
correspondientes al historial y a la previsin de ventas de bicicletas para un perodo de
varios meses. Para este modelo, cada regin es una serie y la columna de fecha
contiene la serie temporal, que tambin es la serie de casos. En otros modelos, la
serie de escenarios puede ser un campo de texto o algn identificador tal como un id.
de cliente o de transaccin. Sin embargo, un modelo de serie temporal debe siempre
utilizar una fecha, una hora o algn otro valor numrico nico para su serie de
escenarios.
Los requisitos para un modelo de serie temporal son los siguientes:
Una nica columna Key Time Cada modelo debe contener una columna
numrica o de fecha que se utilizar como serie de casos y que define los
intervalos de tiempo que utilizar el modelo. El tipo de datos para la columna
de clave temporal puede ser un tipo de datos datetime o bien numrico. Sin
embargo, la columna debe contener valores continuos y stos deben ser
nicos para cada serie. La serie de casos para un modelo de serie temporal no
pueden estar almacenada en dos columnas como por ejemplo una columna
Ao y una columna Mes.
Una columna predecible Cada modelo debe contener por lo menos una
columna predecible alrededor de la que el algoritmo generar el modelo de
serie temporal. El tipo de datos de la columna predecible debe contener valores
continuos. Por ejemplo, es posible predecir la manera en que los atributos
numricos tales como ingreso, ventas o temperatura, varan con el tiempo. Sin
embargo, no es posible utilizar como columna predecible una columna que
Inteligencia Artificial
Pgina 33 de 37
Puede definir los datos de entrada para el modelo de serie temporal de Microsoft de
dos formas. Sin embargo, puesto el formato de los escenarios de entrada afecta a la
definicin del modelo de minera, debe considerar sus necesidades de negocio y
preparar sus datos en consecuencia. Los dos ejemplos siguientes muestran cmo los
datos de entrada afectan al modelo. En ambos ejemplos, el modelo de minera
completado contiene patrones de cuatro series distintas:
Ventas para el producto A
Ventas para el producto B
Volumen para el producto A
Volumen para el producto B
En ambos ejemplos, puede predecir nuevas ventas futuras y volmenes para cada
producto. No puede predecir nuevos valores para el producto o para el tiempo.
Ejemplo 1: Conjunto de datos de serie temporal con serie representada como
valores de columna
En este ejemplo se utiliza la siguiente tabla de escenarios de entrada:
TimeID
Product
Sales
Volume
1/2001
1000
600
2/2001
1100
500
1/2001
500
900
2/2001
300
890
Inteligencia Artificial
Pgina 34 de 37
A_Sales
A_Volume
B_Sales
B_Volume
1/2001
1000
600
500
900
2/2001
1100
500
300
890
En esta tabla, la columna TimeID contiene todava la serie de casos para el modelo de
la serie temporal que fue designada como la columna de clave temporal. Sin embargo,
las antiguas columnas Sales y Volume estn ahora divididas en dos columnas, cada
una de las cuales va precedida por el nombre del producto. Como resultado, solo
existe una nica entrada para cada da en la columna TimeID. Se crea as un modelo
de serie temporal que contendra cuatro columnas predecibles: A_Sales, A_Volume,
B_Sales y B_Volume.
Adems, puesto que los productos se han distribuido en columnas diferentes, no es
preciso especificar una columna de clave de serie adicional. Todas las columnas del
modelo son o una columna de serie de casos o bien una columna predecible.
Visualizacin de un modelo de serie temporal
Una vez entrenado el modelo, los resultados se encuentran almacenados como un
conjunto de modelos, que puede explorar o utilizar para realizar predicciones.
Para explorar el modelo, puede utilizar el Visor de series temporales. El visor incluye
un grfico que muestra las predicciones futuras y una vista de rbol de las estructuras
peridicas en los datos.
Si desea ms informacin sobre cmo se calculan las predicciones, puede examinar el
modelo en el Visor de rbol de contenido genrico de Microsoft. El contenido
almacenado para el modelo contiene detalles tales como las estructuras peridicas
detectadas por los algoritmos ARTXP y ARIMA, la ecuacin utilizada para mezclar los
algoritmos y otras estadsticas.
Creacin de predicciones de serie temporal
De forma predeterminada, al visualizar un modelo del serie temporal, Analysis
Services le muestra cinco predicciones para la serie. Sin embargo, puede crear
consultas para obtener un nmero variable de predicciones, y puede agregar
columnas adicionales a las predicciones para obtener estadsticas descriptivas. Para
obtener informacin sobre cmo crear consultas en un modelo de serie temporal,
vea Ejemplos de consultas de modelos de serie temporal. Para obtener ejemplos de
cmo utilizar Extensiones de Minera de Datos (DMX) para realizar predicciones de
serie temporal, vea PredictTimeSeries (DMX).
Al utilizar el algoritmo de serie temporal de Microsoft para hacer predicciones,
deberan considerarse los siguientes requisitos y restricciones adicionales:
La prediccin del cruce solo est disponible al utilizar un modelo mixto, o bien
un modelo basado en el algoritmo ARTXP. Si se utiliza un modelo basado
nicamente en el algoritmo ARIMA, la prediccin cruzada no es posible.
Inteligencia Artificial
Pgina 35 de 37
Comentarios
No admite el uso del lenguaje de marcado de modelos de prediccin (PMML)
para crear modelos de minera de datos.
Admite el uso de modelos de minera de datos OLAP.
No admite la creacin de dimensiones de minera de datos.
Admite la obtencin de detalles.
Para buscar referencia tcnica en el MSDN digite: Referencia tcnica del algoritmo de
serie temporal de Microsoft
Para entender cmo est estructurada la informacin dentro de cada del modelo y
cmo interpretar la informacin almacenada en cada uno de los nodos digite en el
MSDN: Contenido del modelo de minera de datos para los modelos de serie temporal
(Analysis Services - Minera de datos)
ENLACES RECOMENDADOS
Tutorial
de
Minera
de
Datos:
es/library/ms167167.aspx
Crear
modelos
multidimensionales:
es/library/ms174597.aspx
Inteligencia Artificial
Pgina 36 de 37
http://msdn.microsoft.com/eshttp://msdn.microsoft.com/es-
Inteligencia Artificial
Pgina 37 de 37