Vous êtes sur la page 1sur 8

MINERA DE DATOS APLICADA A REDES SOCIALES

DATA MINING APPLIED TO SOCIAL NETWORKS


Angela Gloria Gmez Pea1

1 Universidad de las Ciencias Informticas, Cuba, aggomez@uci.cu, Universidad de las Ciencias Informticas. Carre-
tera a San Antonio de los Baos, Km. 2 . Torrens, municipio de La Lisa. La Habana, Cuba.

RESUMEN: Extraer conocimiento til de grandes volmenes de datos almacenados en bases de datos, es una
caracterstica notable que nos brinda la Minera de Datos (MD). Las redes sociales en la actualidad han alcan-
zado un gran auge, pues se han convertido en una de las principales herramientas en todo el mundo para com-
partir conocimiento, gustos e interactuar con personas u organizaciones, por lo que su estudio y anlisis, igual-
mente es de alta relevancia para investigadores de diversas ramas.
La aplicacin de MD a las redes sociales, por lo tanto, confiere utilidad a las mismas. La capacidad de relacionar
los diversos autores con sus investigaciones, resulta de igual modo un reto. Destacar entonces en una red so-
cial, el autor de mayor nmero de publicaciones, el autor con mayor nmero de publicaciones agrupado por nive-
les, entre otros, requiere del estudio y aplicacin de normas existentes para el control de autoridades; normas
tales como la ISAD(G) o la MARC 21, encargadas de estandarizar la gestin de autoridades en instituciones
archivsticas, bibliotecas y centros de documentacin.
En el presente trabajo se realiza un estudio de las principales tcnicas de MD utilizadas actualmente por las
redes sociales enfocadas a investigadores.

Palabras Clave: agrupamiento, clasificacin, minera de datos, redes sociales, reglas de asociacin.

ABSTRACT: Extract knowledge useful for large volumes of data stored in databases, is a notable feature pro-
vided by the data mining (MD). Social networks have now reached a boom, as they have become one of the
main tools in the world to share knowledge, tastes and interact with people or organizations, so its study and
analysis, is also highly relevant to researchers from different branches.
The application of MD social networks, therefore, confers utility to them. The ability to relate the various authors
with their research, is equally challenging. Highlight then in a social network, the author of greater number of
publications, the author with highest number of publications grouped by levels, among others, requires the study
and application of existing standards for the control of authorities; standards such as the ISAD (G) or the MARC
21, responsible for standardizing the management authorities in institutions ar-chivisticas, libraries and documen-
tation centres.
In the present work is a study of the main MD techniques currently used by researchers focused social networks.

KeyWords: association rules, classification, clustering, data mining, social networks.

1. INTRODUCCIN nologas de la Informacin y las Comunicaciones


(TICs), ha generado un aumento considerable de la
En la actualidad, el continuo desarrollo de las Tec- cantidad de datos almacenados en las bases de
XVI Congreso Internacional de Informtica en la Educacin, INFOREDU 2016
Gmez, Angela | MINERA DE DATOS APLICADA A REDES SOCIALES

datos; incremento que excede la habilidad de espe- 2. CONTENIDO


cialistas para reducir y analizar los datos sin el uso
de tcnicas de anlisis automatizadas. 2.1 Conceptos generales
La gestin de los datos almacenados supone una
actividad cotidiana en muchas empresas u orga- El Descubrimiento de Conocimiento en Bases de
nismos pblicos, utilizados muy a menudo en la Datos o KDD es el proceso completo de extraccin
toma de decisiones. En consecuencia, la necesidad de informacin, que se encarga adems de la pre-
de analizar estos datos y extraer conocimiento no paracin de los datos y de la interpretacin de los
implcito de los mismos de forma automtica, origi- resultados obtenidos. KDD se ha definido como el
n el nacimiento de una nueva disciplina denomina- proceso no trivial de identificacin en los datos de
da Descubrimiento de Conocimiento en Bases de patrones vlidos, nuevos, potencialmente tiles, y
Datos o Knowledge Discovery in Data bases (KDD, finalmente comprensibles. [2]
por sus siglas en ingls). Ello trajo consigo que los De la definicin anterior se deducen una serie de
datos generados producto de procesos llevados a propiedades que debera cumplir el conocimiento
cabo, pasaran a ser la materia prima para extraer extrado:
conocimiento til que ayude a tomar decisiones en
Vlido: Los patrones encontrados deben descri-
los mbitos de donde se extraen.
bir datos nuevos.
El proceso de KDD comprende diversas etapas,
Novedoso: Debe aportar conocimiento nuevo.
que van desde la obtencin de los datos hasta la
aplicacin del conocimiento adquirido en la toma de Potencialmente til: La informacin debe ayudar
decisiones. Entre esas etapas, se encuentra la que en la toma de decisiones futuras.
puede considerarse como el ncleo del proceso Comprensible: Los patrones encontrados deben
KDD y que se denomina Minera de Datos (MD). [1] ser suficientemente comprensibles para que
Las redes sociales por su parte, han alcanzado un proporcione conocimiento. [3]
innegable auge en el mundo actual. Las mismas El proceso de KDD se inicia con la identificacin de
son un ejemplo inherente de cmo el desarrollo de los datos. Una vez que se dispone de datos, se
las TICs ha jugado un papel importante en el hom- deben seleccionar aquellos que sean tiles para los
bre como ser social; facilitando su interaccin con objetivos propuestos. Luego se inicia la MD, proce-
personas de todo el mundo con quienes comparte so en el que se seleccionarn las herramientas y
gustos, conocimientos u otros intereses en comn. tcnicas adecuadas para lograr los objetivos pre-
Las redes sociales son objeto de estudio particular tendidos. Y finalmente se realiza el anlisis de resul-
en diversos campos, desde la sociologa hasta la tados para adquirir los conocimientos pretendidos.
gestin del conocimiento. En muchos casos el an-
lisis de redes sociales se fundamenta en la extrac-
cin de conocimiento a partir de sus fuentes masi-
vas de datos. La capacidad para descubrir informa-
cin nueva y significativa usando los datos existen-
tes, resulta til para que las personas u organiza-
ciones identifiquen la mejor forma de interactuar
para compartir conocimiento.
No es hasta principio de siglo XXI donde comienzan
a surgir sitios que fomentaban las redes sociales,
entre las que ms se destacan actualmente Face-
book, Twitter, LinkedIn, YouTube, ResearchGate,
entre otras.
Concisamente, la MD necesita de un conjunto im-
portante de datos y las redes sociales los almace-
nan, establecindose as el nexo de unin entre los
dos campos.
El presente trabajo tiene como objetivo, realizar un
estudio de las principales tcnicas de MD utilizadas Figura. 1: Metodologa para el descubrimiento de
en las redes sociales tradicionales para extraer conocimiento en BD
conocimiento, resumiendo elementos importantes
para la definicin de las tcnicas a utilizar sobre El presente trabajo se centra en el proceso de MD
datos almacenados por diferentes redes sociales, y de la metodologa KDD, con el objetivo de encontrar
as facilitar la toma de decisiones y contribuir con la patrones que aporten el conocimiento til, que per-
definicin de estrategias segn el enfoque que es- mita contribuir a la gestin del conocimiento de in-
tas reciban. vestigadores, a partir de una toma de decisiones
certera.

XVI Congreso Internacional de Informtica en la Educacin, INFOREDU 2016


Gmez, Angela | MINERA DE DATOS APLICADA A REDES SOCIALES

La MD es un trmino genrico que engloba resulta- Algoritmo K-means.


dos de investigacin, tcnicas y herramientas usa- Algoritmo K-medoids.
das para extraer informacin til de grandes bases
de datos. [4] Es una fase del proceso KDD aunque Reglas de Asociacin: Se emplea para establecer
en ocasiones son tratados indistintamente. las posibles relaciones o correlaciones entre distin-
tas acciones o sucesos aparentemente indepen-
El objetivo fundamental tras la MD en las redes dientes; pudiendo reconocer como la ocurrencia de
sociales es la idea de incrementar la satisfaccin de un suceso o accin puede inducir o generar la apa-
la experiencia de los usuarios, que reciben ofertas ricin de otros [7]. Son utilizadas cuando el objetivo
de mayor inters al haber sido diseadas previa- es realizar anlisis exploratorios, buscando relacio-
mente en funcin de los datos obtenidos, los usua- nes dentro del conjunto de datos. Las asociaciones
rios pueden contactarse con personas ms simila- identificadas pueden usarse para predecir compor-
res a ellos, les llegan promociones ms acordes a tamientos, y permiten descubrir correlaciones y co-
sus gustos, necesidades y posibilidades y mejoras ocurrencias de eventos. Uno de los algoritmos ms
del servicio en varios aspectos. utilizado es el algoritmo A priori.
Las tcnicas de la MD provienen de la inteligencia Una tcnica, constituye el enfoque conceptual para
artificial y de la estadstica, dichas tcnicas, no son extraer la informacin de los datos, y en general es
ms que algoritmos sofisticados que se aplican implementada por varios algoritmos. Cada algoritmo
sobre un conjunto de datos para obtener unos resul- representa, en la prctica, la manera de desarrollar
tados. una determinada tcnica paso a paso, de forma que
Segn el objetivo del anlisis de los datos, los algo- es preciso un entendimiento de alto nivel de los
ritmos utilizados se clasifican en supervisados y no algoritmos para saber cul es la tcnica ms apro-
supervisados: piada para cada problema. Asimismo es preciso
Algoritmos supervisados (o predictivos): predi- entender los parmetros y las caractersticas de los
cen un dato o un conjunto de ellos, desconoci- algoritmos para preparar los datos a analizar [8].
dos a priori, a partir de otros conocidos. Las tcnicas de MD intentan obtener patrones o
Algoritmos no supervisados (o descriptivos): se modelos a partir de los datos recopilados. Decidir si
descubren patrones y tendencias en los datos. los modelos obtenidos son tiles o no suele requerir
una valoracin subjetiva por parte del usuario.
Entre las tcnicas supervisadas se encuentran las
de Clasificacin y de Prediccin, mientras que las
no supervisadas se centran en los Clustering y Re- 2.2 Redes sociales
glas de Asociacin. A continuacin se explican bre-
vemente en que consiste cada una de ellas. Las Redes son formas de interaccin social, defini-
La Clasificacin: Es el proceso de dividir un conjun- das como un intercambio dinmico entre personas,
to de datos en grupos mutuamente excluyentes [5], grupos e instituciones [9]. Una red social es un
de tal forma que cada miembro de un grupo est lo sistema abierto y en construccin permanente invo-
ms cerca posible de otros y grupos diferentes es- lucrando a conjuntos de personas que se identifican
tn lo ms lejos posible de otros, donde la distancia con las mismas necesidades y problemticas y que
se mide con respecto a las variables especificadas, se organizan para potenciar sus recursos.
que se quieren predecir. El concepto de red social ha adquirido una impor-
La Prediccin: Es el proceso que intenta determinar tancia notable en los ltimos aos. Las redes socia-
los valores de una o varias variables, a partir de un les en Internet son comunidades virtuales donde
conjunto de datos. La prediccin de valores conti- sus usuarios interactan con personas de todo el
nuos puede planificarse por las tcnicas estadsti- mundo con quienes encuentran gustos o intereses
cas de regresin [6]. Las tcnicas de prediccin en comn.
ms importantes se presentaran en la clasificacin Existen muchos tipos de redes sociales clasificadas
bayesiana, la basada en casos y las redes de neu- segn su propsito y mbito. Sin embargo, pode-
ronas. mos hablar de tres grandes categoras:
Agrupamiento o Clustering: Es un procedimiento de Redes personales: Se componen de cientos o miles
agrupacin de una serie de vectores segn criterios de usuarios en los que cada uno tiene su pequeo
habitualmente de distancia; se tratar de disponer espacio con su informacin, sus fotos, su msica,
los vectores de entrada de forma que estn ms etc. y cada uno se puede relacionar con los dems
cercanos aquellos que tengan caractersticas co- de mltiples maneras, aunque todas ellas involu-
munes. La principal caracterstica de esta tcnica es cran el uso de Internet de una u otra forma. Presen-
la utilizacin de una medida de similitud que, en tan una tipologa horizontal. Las redes sociales per-
general, est basada en los atributos que describen sonales son las ms numerosas y conocidas. Las
a los objetos, y se define usualmente por proximi- ms extendidas son Facebook, Tuenti, Google +,
dad en un espacio multidimensional. Dos de los Twitter y Myspace.
algoritmos ms utilizados para hacer clustering son:

XVI Congreso Internacional de Informtica en la Educacin, INFOREDU 2016


Gmez, Angela | MINERA DE DATOS APLICADA A REDES SOCIALES

Redes temticas: Son similares a las anteriores acerca de su uso e importancia. A continuacin se
aunque se diferencian por el hecho de que suelen exponen diferentes criterios y anlisis relacionados.
centrarse en un tema en concreto y proporcionan Charles Kadushin plantea que la esencia de la teo-
las funcionalidades necesarias para el mismo. Por ra del anlisis de redes sociales reside en la consi-
ejemplo, una red de cine, una de informtica, de deracin de la red completa. Destaca que son ne-
algn tipo de deporte, etc. Presentan una tipologa cesarios conceptos y mtodos analticos que expli-
vertical por Tipo de Actividad. Las ms habituales quen la red completa y describan y resuman varios
son las redes sociales relacionadas con las aficio- conceptos de la misma. Para ello tiene en cuenta
nes, las profesiones o las bsquedas de pareja. La los siguientes aspectos:
ms conocida es Flickr. Las distribuciones de las propiedades de la red,
Redes profesionales: Las redes profesionales son que incluyen el nmero de diadas1 y triadas2 de
herramientas que ofrecen en un mismo espacio la red.
online y de fcil acceso, aplicaciones que facilitan La densidad o nmero de conexiones conteni-
las relaciones, interpretaciones y la comunicacin das en la red.
entre sus usuarios, siendo el objetivo principal desa-
Los agujeros estructurales, una categora que
rrollar el crecimiento dentro de sectores profesiona-
les especficos de cada usuario y crear vnculos representa la ausencia de conexiones.
estratgicos que le potencien en el mercado laboral La fuerza de los vnculos dbiles, que plantea la
[10]. Presentan una tipologa vertical por Tipo de hiptesis de que las cosas importantes fluyen a
Usuario. Ejemplo de red social profesional tenemos partir de personas con las que se tiene una co-
a Linkedin. nexin limitada.
El objetivo principal de las redes profesionales es La popularidad y la centralidad demuestran que
desarrollar el crecimiento dentro de sectores estra- algunos nodos tienen ms conexiones que
tgicos para un profesional, tambin persigue po- otros y que dichas conexiones sirven de vnculo
tenciar la creacin de vnculos estratgicos, multi- para otros nodos.
plicacin de contactos, desarrollar bases para bus- La distancia que existe entre los nodos de la
car y encontrar empleo, desarrollo de credibilidad y red.
participacin, existen innumerables objetivos de La multiplicidad reconoce que pueden existir
acuerdo a la estrategia que cada profesional desa- muchas redes que conecten de forma distinta.
rrolla dentro de la red.
La posicin o rol que alude a cmo los nodos se
Existe un cmulo de redes sociales de investigado- relacionan con otros nodos de la red. [11]
res caracterizadas por la gestin del conocimiento,
cuyo aporte es significativo para elevar el nivel cien- Un rasgo principal en las redes sociales es la alta
tfico de los investigadores que de ellas forman par- transitividad, que significa que si A y B estn conec-
te, y estn mayormente enfocadas a problemas tados y tambin existe una conexin entre B y C, es
tales como: probable que exista tambin una conexin entre A y
C. La transitividad conduce a un agrupamiento den-
Bsqueda de proyectos y/o personas que domi-
tro de las comunidades y requiere unos modelos
nen determinadas competencias. diferentes a los que funcionan para otros tipos de
Generacin de estadsticas mediante grficas. red. El agrupamiento en redes sociales ocurre por-
Gestin de preguntas y respuestas. que las personas pertenecen a grupos y organiza-
Gestin de publicaciones.
ciones de uno u otro tipo, o escriben documentos en
colaboracin, o aparecen en las mismas pelculas.
Incorporacin de usuarios a proyectos en de- Tambin viven en vecindarios geogrficamente
pendencia de las competencias. delineados, y ello puede propiciar que asistan a los
Asociacin de grupos de debate a proyectos. mismos eventos. Se dice que las personas estn
Almacenamiento y divulgacin de publicaciones conectadas cuando comparten su perteneca a una
cientficas de los usuarios. de estas comunidades; a la inversa, las comunida-
des estn conectadas cuando comparten al menos
Asociacin de publicaciones a proyectos.
Seguimiento a la actividad de los usuarios, gru-
pos de debate y proyectos. 1 Una dada consiste en un par de actores y los posi-

bles vnculos entre ellos. Los vnculos se contemplan


siempre como una propiedad de una pareja de actores, y
2.3 Clustering en las redes sociales nunca como una caracterstica individual. Por lo tanto la
dada es el nivel mnimo al cual puede realizarse el an-
Las tcnicas de Clustering han sido utilizadas para lisis.
el anlisis de datos generados por las redes socia- 2 Subconjunto de tres actores y sus posibles vnculos.
les. Esto se ha evidenciado en diferentes estudios Importantes mtodos y modelos se basan en ellas para
donde cada autor refleja sus propias impresiones su anlisis, particularmente los interesados en la transiti-
vidad y en el equilibrio de las relaciones.

XVI Congreso Internacional de Informtica en la Educacin, INFOREDU 2016


Gmez, Angela | MINERA DE DATOS APLICADA A REDES SOCIALES

una persona en comn. En el lenguaje de las ma- y junto a qu personas. [14]


temticas esta dualidad recibe el nombre de grafos Varios artculos consultados hacen referencia al
bipartitos [12]. agrupamiento en redes sociales partiendo de un
Las afiliaciones formales basadas en el estatus, coeficiente de agrupacin. Este es una medida del
organizaciones y otras formas de perteneca forma- grado en el que los nodos en un grfico tienden a
les, solo captan un aspecto de las estructuras socia- agruparse. La evidencia sugiere que en la mayora
les modernas. La amistad informal y otro tipo de de redes del mundo real, y en particular las redes
relaciones como los crculos sociales tambin sir- sociales, los nodos tienden a crear grupos muy
ven para el agrupamiento en redes sociales. unidos que se caracterizan por una densidad relati-
Xavier Polanco asocia el anlisis de redes sociales vamente alta de enlaces.
con el comportamiento de la web a partir de las Una de las tareas de minera de contenido Web
siguientes concepciones: ms usuales consiste en agrupar documentos (do-
La Web es un ejemplo de red social, La Web es cument clustering, en ingls). Uno de sus principa-
una red dirigida, cada documento puede caracteri- les usos ocurre en recuperacin de informacin,
zarse por el nmero de enlaces de entrada, con donde el uso de grupos cohesivos de documentos
parentesco, y de salida, Consideremos un grafo similares favorece la eficiencia y efectividad de la
dirigido cuyos nodos corresponden a las pginas recuperacin. Lo anterior se basa en la denominada
estticas en la web, y cuyos arcos corresponden a hiptesis de clustering, la cual establece que docu-
los hipervnculos entre esas pginas. [13] mentos con contenidos similares son relevantes
tambin a las mismas consultas. Muchas nociones
A partir de estas ideas, enfoca las ventajas de la
de similitud pueden ser usadas para agrupar docu-
tcnica de Clustering mediante la teora de grafo
mentos, pero todas ellas buscan finalmente que la
para encontrar las asociaciones que pueden existir
funcin de similitud refleje las relaciones semnti-
mediante link a otras pginas. Los resultados obte-
cas entre los contenidos de los documentos agru-
nidos se enfocan en determinar cantidad de Cluste-
pados. Usando algoritmos estndar de agrupamien-
ring encontrados relacionados con los usuarios o
to en colecciones de documentos como k-means,
temas de inters, as como la clasificacin de los
es posible determinar para cada documento el gru-
sitios visitados segn determinados criterios.
po al cual pertenece. Otras aproximaciones, basa-
Por su parte en una breve historia sobre redes so- das generalmente en tcnicas difusas, permiten que
ciales David Ugarte plantea el uso de la tcnica de cada documento pueda pertenecer simultneamen-
Clustering para trazar la red social de grupos de te a ms de un grupo. [15]
usuarios con determinadas preferencias, donde
A partir de los planteamientos anteriores se puede
usando Google por ejemplo se obtienen datos de
exponer que las tcnicas de Clustering aportan un
distintas categoras:
beneficio innegable cuando de anlisis de redes
Los enlaces que los nodos hacen desde sus sociales se trata. Especficamente, para la identifi-
pginas web, permiten clasificar por pocas a cacin de disimiles agrupaciones en una variedad
quienes han enlazado ms o menos, y tambin, de escenarios, que sirvan de apoyo para la toma de
va archivos, a quienes han enlazado de forma decisiones y definicin de estrategias de trabajo
permanente en cada poca. para incrementar y mejorar la vida y el nivel cientfi-
Las colaboraciones en medios, libros u otras co en la Universidad respectivamente.
webs.
Si publican libros, qu autores han publicado en 2.4 Clasificacin y prediccin en redes so-
esas mismas editoriales en distintos aos, ciales
quines seleccionaron los contenidos, etc.
Las conferencias en las que cada uno de los Las redes sociales estn siendo objeto de anlisis
miembros ha participado como ponente en cada para realizar predicciones futuras. En ellas se esta-
uno de esos periodos, con quines han coinci- blecen las conversaciones ms activas del planeta.
dido en las mesas y quines las organizaban Twitter, con su mayora demogrfica y su lmite de
y/o patrocinaban. 140 caracteres en los mensajes directos (actual-
Los rganos institucionales a los que han perte- mente ilimitado e incluyendo mensajes, fotos, vi-
necido (desde directivas de asociaciones a r- deos sin agotar caracteres), es muy directo y efecti-
ganos de administraciones o empresas) y, por vo. Esto hace del canal de micro mensajera el foco
supuesto, con quines han coincidido y con qu principal para estudiosos que buscan maneras de
frecuencia en cada una de ellas. profundizar en los comportamientos de los usua-
rios con el fin de mejorar sus ofertas y predecir la
Las empresas que participan y junto a quin en
demanda del futuro.
cada momento.
Las redes sociales han sido objeto de anlisis de
Los proyectos colectivos en los que han tomado
manera general en varios campos:
parte (voluntariado, jurados de concursos, etc.)

XVI Congreso Internacional de Informtica en la Educacin, INFOREDU 2016


Gmez, Angela | MINERA DE DATOS APLICADA A REDES SOCIALES

Predecir acontecimientos sociales y polticos: criminalidad, en especial el acoso u hostiga-


El cientfico del Instituto Tecnolgico de Mas- miento, el robo y algunos tipos de agresin,
sachusetts Nathan Kallusacaba present de acuerdo con un trabajo de la Universidad
un estudio basado en el golpe de estado de de Virginia publicado en el peridico cientfico
Egipto en 2013, donde afirma haber desarro- "Decision Support Systems". [20]
llado una tcnica para predecir grandes acon- Por su parte las tcnicas de clasificacin juegan un
tecimientos a partir de papel fundamental en la categorizacin de docu-
los tweets relacionados compartidos por los mentos, digamos en una red profesional, en una o
usuarios en la red social Twitter. La tcnica ms categoras predefinidas. Generalmente las
de prediccin de protestas sociales a partir categoras representan temas en los cuales es ne-
de tweets se basa en una serie de modelos cesario categorizar a los documentos facilitando su
comparativos de actividad analizados ante- organizacin y posterior recuperacin. Para lograr
riormente, con el fin de establecer mediante esto, los documentos son caracterizados usando su
algoritmos de clculo aquellos rasgos comu- texto, a partir de alguno de los modelos de repre-
nes que ayuden a determinar si son o sentacin de documentos frecuentemente usados
no indicadores predictivos de una protesta en recuperacin de informacin. Para construir un
social. Teniendo en cuenta que no es posible categorizador es necesario disponer de una colec-
verificar con exactitud y en tiempo real la ve- cin de documentos de entrenamiento, donde cada
racidad de toda la informacin compartida a uno de los documentos que la conformen est pre-
travs de la red, Kallus asegura que se puede viamente etiquetado con una o ms de las catego-
predecir a priori el comportamiento social en ras a las cuales pertenecen. Muchas tcnicas de
torno a un hecho concreto con cierta preci- mquinas de aprendizaje han sido aplicadas al pro-
sin. [16] blema de categorizacin de documentos, entre ellas
Extraccin de datos desestructurados de per- Redes Bayesianas, k vecinos ms cercanos y M-
sonas, por compaas e individuos de todo el quinas de Soporte Vectorial. Todas ellas tienen en
mundo quienes obtienen el valor de datos comn el uso del texto para representar a cada
historicos aplicando la analtica predictiva. documento en el espacio vectorial de trminos.
Predicciones electorales. Adems todas ellas son tcnicas supervisadas, es
Predecir el desempeo laboral o acadmico: decir, requieren de pginas de ejemplos previamen-
Un estudio de la Old Dominion University de te categorizadas a partir de las cuales extraer pa-
EEUU comprob que un anlisis sobre los trones que permitan categorizar nuevas pginas.
perfiles en las redes sociales ofrece mejores [21]
resultados para determinar si una persona El anlisis de sentimientos en las redes sociales e
ser un buen trabajador que los test psicol- Internet de manera general, es otro de los aspectos
gicos. [17] que est cobrando cada vez mayor importancia
Predecir epidemias de gripe: El grupo de in- debido fundamentalmente a la gran cantidad de
vestigacin de Henry Kautz, de la Universidad comentarios que se escriben por parte de millones
de Rochester, concluy que a travs la red de usuarios de todo el mundo a travs de blogs,
social de los ciento cuarenta caracteres tam- foros o las propias redes sociales. Las tcnicas de
bin se puede prever la incidencia de la gripe. clasificacin, especficamente en la minera de tex-
Rastrearon en los tweets de 600.000 usua- tos cobran fuerza a la hora de analizar la informa-
rios neoyorquinos palabras clave relaciona- cin estructurada y desestructurada que se encuen-
das con los sntomas del virus y elaboraron tra en todos estos mbitos.
un algoritmo que ofreca datos de la inciden- A partir de los planteamientos anteriores es posible
cia de la enfermedad muy parecidos a los del afirmar que las tcnicas de Clasificacin y Predic-
sistema de salud. Segn los escpticos, este cin aportan un alto valor agregado en el anlisis de
sistema no es fiable, puesto que los tweete- redes sociales, especficamente para la prediccin
ros no representan a la poblacin general. de hechos o sucesos de impacto en variedades de
[18] escenarios y la clasificacin de documentos segn
Predecir el xito de un producto, campaa o sus contenidos, que definitivamente aportan cono-
evento. [19] cimientos tiles a aquellos que la utilicen.
Predecir la criminalidad: Los tesoros escon- Segn las necesidades que dieron origen a realizar
didos en Twitter pueden ser sumamente ti- anlisis sobre este tipo de red, se propone para su
les para combatir crmenes, asegura aprovechamiento:
un estudio estadunidense segn el cual mu- Clasificar las publicaciones por categoras,
chos delitos o agresiones pueden ser detec- teniendo en cuenta que las categoras repre-
tados por adelantado si se analiza de forma sentan temas o competencias de investiga-
adecuada esa informacin. El anlisis de cin de la red social.
tweets permite predecir 19 de 25 formas de

XVI Congreso Internacional de Informtica en la Educacin, INFOREDU 2016


Gmez, Angela | MINERA DE DATOS APLICADA A REDES SOCIALES

Determinar los temas de investigacin o informacin actualizada a nivel mundial y utilizan


competencias de mayor inters, a partir del para su propsito tcnicas de minera de datos.
anlisis de preguntas y respuestas, bsque- Las tcnicas de Minera de Datos ms utilizadas en
das de publicaciones ms visitadas, compe- las redes sociales tradicionales actualmente se
tencia de los autores ms consultados, etc. basan en Clustering Numrico, Redes Bayesianas,
Realizar predicciones sobre el incremento en Clasificacin Basada en Casos, Regresin y Basa-
el tiempo de publicaciones por autores. da en Reglas. Esta seleccin sirve de apoyo a la
Predecir los proyectos con mayor tendencia toma de decisiones en diferentes aspectos tales
al xito. como: gestin de la actividad cientfica, incremento
Usuarios ms solicitados y/o colaborativos, del nivel cientfico tcnico de los usuarios y pre-
mediante el anlisis de las mejores respues- diccin de resultados.
tas, asociacin a proyectos, etc.
Competencia ms desarrollada y/o deman-
4. REFERENCIAS BIBLIOGRFICAS
dada.
Entre otras. [1], [3] Montero Navarro, Miguel Angel. 2009. [En
lnea] Junio de 2009.
2.5 Reglas de asociacin en las redes so- https://www.lsi.us.es/docs/doctorado/memorias/Me
ciales moInvestigMiguelAMontero.pdf.
[2] Fayyad, U. 1996. Advanced in Knowledge Dis-
Las reglas de asociacin se utilizan para descubrir covery and Data. 1996.
hechos que ocurren en comn dentro de un deter-
[4], [8] Molina Lpez, Jos Manuel y Garca He-
minado conjunto de datos. La mayora de las inves-
rrero, Jess. 2006. TCNICAS DE ANLISIS DE
tigaciones relacionadas con el uso de esta tcnica
DATOS. 2006.
estn orientadas a diversas aplicaciones como:
Soporte para la toma de decisiones. [5] S.M. Weiss, C. A. Kulikowski. Computer Sys-
Diagnstico y prediccin de alarmas en tele- tems That Learn: Classification and Prediction
comunicaciones. Methodsfrom Statistics, Neural Nets, Machine
Learning, and Expert Systems. San Mateo: CA:
Anlisis de informacin de ventas.
Morgan Kaufmann, 199 1.
En el contexto de minera de uso estas reglas ha-
cen referencia a asociaciones entre recursos de [6] Agresti, A. 1996. An Introduction to Categorical
cada sitio siendo cada sesin de usuarios modelada Data Analysis. York: John Wiley & Sons: s.n., 1996.
como una transaccin. Una regla en este contexto [7] R. Agrawal, T. Imielinski, and A. Swami. 1993.
puede indicar, por ejemplo, cuan fuerte es la aso- Mining association rules between sets of items in
ciacin entre dos pginas del sitio, sugiriendo a los large databases. s.l.: Washington, DC, 1993.
administradores del sitio la utilidad de agregar un
[9] 2010. LAS REDES SOCIALES. [En lnea] 4 de
hiperenlace entre ambos recursos. Para encontrar
Mayo de 2010. https://www.facebook.com/notes/te-
estas reglas se debe considerar cada posible com-
adoro-muchomucho-mucho-/las-redes-
binacin de condiciones para que haya una conse-
sociales/388065201395.
cuencia.
[10] Sueiras, Edita. 2014. Scribd. [En lnea] 2014.
http://es.scribd.com/doc/24658747/Redes-sociales-
2.6 Materiales y mtodos definicion.
A lo largo de la presente investigacin se utiliz el [11], [12] Kadushin, Charles. 2013. Comprender
mtodo cientfico analtico sinttico, aplicado a la las redes sociales, Teoras, conceptos y hallazgos.
descripcin de del proceso KDD, enfatizando en la Montalbn 8.28014, Madrid: s.n., 2013.
fase de MD y su repercusin en las redes sociales [13] Polanco, Xavier. 2001. Clusters, Grafos y Re-
tradicionales como fuentes de datos. Se describi la des. Montevideo: s.n., 2001.
aplicacin de las diferentes tcnicas supervisadas y
[14] Ugarte, David de. 2007. Breve Historia del
no supervisadas en el mbito de las redes sociales
Anlisis de Redes Sociales. s.l.: Biblioteca de las
a partir de un estudio del estado del arte donde se
Indias, 2007.
pone de manifiesto el mtodo cientfico histrico -
lgico. [15], [21] Mendoza, Marcelo. 2011. MINERIA DE
DATOS EN LA WEB. 2011.
3. CONCLUSIONES [16] Perez, Miguel A. 2014. Think Big. [En lnea] 19
de Marzo de 2014. http://blogthinkbig.com/predecir-
La minera de datos es el proceso dentro del des- grandes-acontecimientos-twitter/.
cubrimiento de conocimiento en BD que permite [17] infobae-derf. 2014. DERF Agencia Federal de
obtener patrones interesantes de apoyo a la toma Noticias. [En lnea] 24 de Abril de 2014.
de decisiones. Las redes sociales son fuentes de http://derf.com.ar/despachos.asp?cod_des=606942

XVI Congreso Internacional de Informtica en la Educacin, INFOREDU 2016


Gmez, Angela | MINERA DE DATOS APLICADA A REDES SOCIALES

&ID_Seccion=21&fecemi=24/04/2014&Titular=la- municipio Las Tunas, Cuba, con fecha 12 de mayo de 1987.


actividad-en-redes-sociales-permite-predecir-el- Graduada de Ingeniero en Ciencias Informticas, en la
Universidad de las Ciencias Informticas, Cuba, en junio de
comportamiento-laboral.html. 2010. Se ha desempeado como Analista de Sistemas de
[18] Snchez, Clara. 2014. Saluspot. [En lnea] Software, Planificador de proyectos de software y Jefe de
Proyecto.
2014. http://blog.saluspot.com/las-redes-sociales-
pueden-predecir-las-epidemias-de-gripe/. Actualmente se desempea como Jefe de Proyecto en la
Universidad de las Ciencias Informticas y trabaja en la lnea
[19] Clark, Alex. 2014. Digimind. [En lnea] 17 de asociada a la Gestin de la Informacin, especficamente
Febrero de 2014. http://digimind.com/blog/es/redes- gestin Bibliotecaria.
sociales/como-predecir-el-futuro-con-la- Ha logrado publicaciones asociadas a la replicacin de datos y
monitorizacion-de-las-redes-sociales/. gestin archivstica. Actualmente investiga en la temtica de la
Gestin de Autoridades, tanto para la Gestin bibliotecaria como
[20] EFE Washington, D.C. 2014. SIPSE. [En lnea] para la Archivstica.
22 de Abril de 2014. Los datos de contacto son los siguientes:
http://sipse.com/tecnologia/twitter-criminalidad- Direccin postal: Universidad de las Ciencias Informticas.
predicciones-86709.html. Carretera a San Antonio de los Baos, Km. 2 . Torrens,
municipio de La Lisa. La Habana, Cuba.
5. SNTESIS CURRICULAR DEL AUTOR Direccin electrnica: aggomez@uci.cu

Angela Gloria Gmez Pea: Nacida en la provincia Las Tunas,

XVI Congreso Internacional de Informtica en la Educacin, INFOREDU 2016

Vous aimerez peut-être aussi