Vous êtes sur la page 1sur 5

QUE TIPOS DE SENTIMIENTOS SE EXPRESAN EN TWEETS DE USUARIOS REPUTADOS EN EL AREA DE LA SALUD?

XXXXX
xxxxxxxxxxxxxxxxx xxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxx XXXXXXX xxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxx

XXXXXXXXXXXX
xxxxxxxxxxxxxxxxx xxxxxxxxxxxxx xxxxxxxxxxx xxxxxxxxxxxx xxxxxxxxx xxxxxxxxxxxxx xxxxxxxxxxxxxxx

XXXXXXXXXXXX
xxxxxxxxxxxxxxxxx xxxxxxxxxxxxx xxxxxxxxxxx xxxxxxxxxx xxxxxxxxxx xxxxxxxxxxxxxxxx xxxxxxxxxxxxxx

XXXXXXXXXXXX
xxxxxxxxxxxxxxxxx xxxxxxxxxxxx xxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxx xxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxx

Resumen- Un tipo de informacin relevante disponible en la Web son las opiniones vertidas en los contenidos creados por los propios usuarios, publicados en Twitter, Facebook y otras redes sociales. An lisis de sentimientos y miner!a de opiniones "acen parte del campo de estudio #ue e$amina las opiniones de las personas, sentimientos, evaluaciones, actitudes, etc. Recientemente, "a atra!do %ran inter&s, tanto en el mundo acad&mico como en las or%ani'aciones debido al desarrollo de aplicaciones (tiles. )n este traba*o se eval(o un con*unto de publicaciones de la l!nea de tiempo de usuarios de Twitter. )ste con*unto de datos fue anali'ado sobre la base de dos enfo#ues diferentes+ el an lisis l&$ico y el an lisis sint ctico. Tambi&n fue reali'ado un estudio comparativo con la finalidad de comprobar si e$iste una correlacin entre los sentimientos presentes en los mensa*es y la reputacin de estos usuarios. ,os resultados e$perimentales con ambos enfo#ues fueron similares, lo #ue si%nifica #ue la eliminacin de los stopwords no altera los resultados. )n las si%uientes secciones son detalladas la aplicacin y las limitaciones de esta investi%acin. -alabras clave- .entimiento y /iner!a de 0pinin, Twitter, .entiWord1et Abstract- 0ne of t"e important types of information on t"e Web is t"e opinions e$pressed in t"e user %enerated content, posted on Twitter, Facebook and ot"ers social networks. .entiment analysis and opinion minin% is t"e field of study t"at analy'es people2s opinions, sentiments, evaluations, attitudes, and etc. Recently, it "as attracted %reat interest bot" in academia and in industry due to its useful potential applications. 3n t"is paper we evaluated a set of tweets from a timeline of Twitter users. We analy'ed t"e dataset based on two different approac"es+ le$ical analysis and syntactic analysis. We also perform a comparative study to find out if t"ere is a correlation between user reputation and user sentiment. T"e e$perimental findin% wit" bot" approac"es s"own similar results, w"ic" means, t"at does not make difference between stopword removal or not. Furt"er, t"e paper e$emplifies t"e applications of t"is researc" and its limitations. 4eywords- .entiment .entiWord1et. and opinion minin%, Twitter,

INTRODUCCIN En las ltimas dcadas, la acelerada proliferacin de lo!s, "r#ms $ Redes %ociales en la &e' e(idencio la presencia de )opiniones* so're los m+s di(ersos temas, Estos am'ientes se -an con(ertido en (erdaderas plataformas de informacin $ com#nicacin, .#e re!istran p'licamente pensamientos, opiniones $ sentimientos so're casi todo , Estas condiciones fa(ora'les estim#laron el est#dio $ desarrollo de sistemas para e(al#ar opiniones a#tom+ticamente, s#r!iendo as/ el +rea de 0n+lisis de %entimientos 10%2 , 0% es el est#dio de opiniones, sentimientos $ emociones expresadas en textos , Existe #na serie de est#dios en esta +rea, tales como, la extraccin de elementos relacionados a la opinin , la clasificacin de opinin 1positi(o, ne!ati(o o ne#tral2 , la comparacin de sentencias en relacin a las opiniones entre otros temas, El comportamiento -#mano se (e condicionado, en la ma$or/a de los casos, por como los otros (en $ e(alan el m#ndo, 3a opinin es #n concepto relacionado a los sentimientos, actit#des $ emociones $ es en este +m'ito .#e se insiere esta in(esti!acin, c#$o o'4eti(o principal es anali5ar la polaridad de los sentimientos presentes en los mensa4es p#'licados en Twitter, Twitter es #na Red %ocial $ ser(icio de Microblogging .#e permite a s#s #s#arios intercam'iar mensa4es con m#c-a rapide5, 3os #s#arios de T6itter seleccionados para este est#dio son #n con4#nto de #s#arios #tili5ados en , En este est#dio , e(al#aron la rep#tacin de f#entes de informacin en el dominio de la sal#d #tili5ando como 'ase de datos el Twitter, En especial los a#tores #tili5aron las premisas de 0n+lisis de Redes %ociales 10R%2, Como res#ltado, f#e presentado #n rank 1lista ordenada2 de los 7898 #s#arios en f#ncin de la rep#tacin .#e estos -a'/an presentado, :or lo tanto esta in(esti!acin tiene la intencin de e(al#ar la polaridad de los mensa4es .#e son propa!ados por estos #s#arios, El enfo.#e adoptado para este an+lisis tiene como o'4eti(o pro'ar la si!#iente -iptesis; )Existe #na correlacin entre la rep#tacin $ la

polaridad de los sentimientos expresados por estos #s#arios*, Este tra'a4o est+ estr#ct#rado de la si!#iente manera; en la seccin 8 son presentados los tra'a4os relacionados< en la seccin 9 son presentados el entorno de la in(esti!acin $ el marco terico, en la seccin = la metodolo!/a adoptada< mientras .#e en la seccin > son presentados los res#ltados iniciales de esta in(esti!acin, :or ltimo, las concl#siones, tra'a4os f#t#ros $ las referencias, TR0
0?O%

RE30CION0DO%

En esta seccin se presentar+n los principales tra'a4os relacionados .#e !#iaron esta in(esti!acin, El est#dio presentado por o'ser( .#e el rendimiento en la clasificacin de opiniones de mensa4es en Twitter est+ relacionado con la asi!nacin de pesos sem+nticos asociados a las mtricas prop#estas en , En los a#tores #tili5an el SentiWordNet teniendo en c#enta el contexto sem+ntico del texto, $ refinado por la medida N@D , A por ltimo, en f#e presentado #n est#dio comparati(o entre los oc-o mtodos m+s pop#lares prop#estos en la literat#ra; 3I&C, Happiness Index, SentiWordNet, %0%0, :0N0%Bt, Emoticons, SenticNet $ SentiStreng, Esta in(esti!acin tiene como o'4eti(o e(al#ar el rendimiento de la clasificacin en f#ncin de las mtricas; alcance 1amplit#d2 1midiendo la fraccin de mensa4es capt#rados por #n mtodo2 $ ac#erdo 1midiendo la correlacin de la polaridad entre los mtodos #tili5ando #na 'ase eti.#etada2, CETODO3O@D0 A. Ambiente de la investigacin Twitter tiene como o'4eti(o la act#ali5acin de stat s mediante el en(/o de mensa4es cortos 1de -asta 7=E caracteres2 llamados de tweets, Ese am'iente es propicio para est#dios en el +rea de 0% permitiendo reco!er $ anali5ar datos en !ran escala , De ac#erdo con , es posi'le cate!ori5ar informaciones de texto como -ec-os # opiniones, :ara el a#tor, #n -ec-o p#ede ser (isto como #na informacin de car+cter o'4eti(o so're al!#na entidad, al!n e(ento, al!n dato o al!#na de s#s propiedades, 3le(ando en consideracin .#e la opinin presenta #n sentido s#'4eti(o expresado por al!n indi(id#o o !r#po, El o'4eti(o de la 0% no es determinar so're c#al tpico o tema el doc#mento trata 1como es reali5ado en tcnicas con(encionales de clasificacin de texto2, sino en desc#'rir c#al es la opinin expresada en el doc#mento $, clasificar s# polaridad , !. Herramientas tili"adas # desarrolladas "#e #tili5ado el al!oritmo 1m+s precisamente la clase !enrica2 .#e calc#la la polaridad de textos de la

-erramienta SentiWordNet , El al!oritmo prop#esto por , (iene siendo ampliamente #tili5ado en la literat#ra, lo .#e permite -acer est#dios comparati(os entre el n#estro $ los otros so're el mismo tema, Esta -erramienta se 'asa en #n diccionario lxico en in!ls llamado WordNet , El Wordnet es comp#esto por !r#pos lxicos, tales como; ad4eti(os, s#stanti(os, (er'os $ otras clases !ramaticales dentro de #n con4#nto de sinnimos, llamados de s#nsets, El al!oritmo com'ina tres scores con s#nsets del diccionario WordNet para indicar el sentimiento del texto; positi(o, ne!ati(o $ o'4eti(o 1ne#tral2 , De ac#erdo con , los scores, son (alores entre FE, 7G o'tenidos mediante el mtodo de aprendi5a4e de m+.#ina semiBs#per(isado, Conforme dic-o anteriormente, el con4#nto de datos es esta'lecido a partir de los -alla5!os en , 3a lista completa contiene 7898 #s#arios ordenados en f#ncin de s# rep#tacin, En este est#dio inicial, f#eron seleccionados apenas los primeros =H #s#arios de la lista como m#estra, 3a nomenclat#ra (iene del mtodo Snowball .#e consiste en colectar #n !r+fico de #na red social online si!#iendo el enfo.#e de '#sca en amplit#d, 3a colecta se inicia a partir del nodo ra/5, 0l colectar la lista de (ecinos de ese nodo, n#e(os nodos son desc#'iertos para l#e!o ser colectados en la si!#iente etapa, .#e slo termina c#ando todos los nodos desc#'iertos en el primer paso son colectados, En n#estra in(esti!acin #tili5amos esos #s#arios ra/5 para colectar los tweets .#e f#eron p#'licados en s# l/nea de tiempo 1timeline2, "#e implementado #n web crawler, c#$o o'4eti(o es -acer #na 's.#eda sistem+tica para extraer los tweets de la timeline de los =H #s#arios, El per/odo de la colecta a'arca los meses de a!ostoIseptiem're de 8E79, "#eron reco!idos JHH88 tweets, almacenados en formato de texto, "#eron desarrolladas tam'in -erramientas para; 1i2 Anlisis Sintctico 1parsing en in!ls2 de los tweets para la retirada de caracteres especiales tales como I, K, L e etc, %on aceptadas apenas las letras de aB5, los nmeros EBM $ los s/m'olos N 1arro'a2, O 1n#meral2 $ apstrofo< 1ii2 Anlisis Lxico 1conocida como tokeni"acin2 tiene como o'4eti(o descomponer el texto en #nidades estr#ct#rales menores, en n#estro caso las #nidades estr#ct#rales son las pala'ras, 1iii2 Remoci n !e los stopwords, se!n , #na stopword p#ede ser trad#cida como )pala'ra (ac/a*, ellos aparecen en pr+cticamente todos los doc#mentos, o en la ma$or/a de ellos, por eso no son capaces de cola'orar en el an+lisis de la polaridad de #n texto, 3a "i!#ra 7 il#stra el enfo.#e metodol!ico adoptado, di(idido en tres etapas; P"ime"# Et#$# representa la etapa de extraccin de los tweets< la Se%&n!# Et#$# se refiere al tratamiento de los tweets colectados, 3a Te"ce"# Et#$#, los con4#ntos de pr#e'a creados e(al#ados recorriendo las clases !ramaticales soportadas por el SentiWordNet, $ al final es !enerado #n score de cada tweet para cada #s#ario,

:ara e(al#ar la metodolo!/a prop#esta f#eron !enerados dos con4#ntos de pr#e'a, llamados de %in%& sin los stopwords $ caracteres especiales $ otro Con%& con los stopwords, Pa$ .#e seQalar tam'in .#e f#eron separados del con4#nto de la m#estra todos los retweets presentes en la timeline de estos #s#arios para .#e .#edaran apenas los mensa4es p#'licados por ellos, El retweet es #n mensa4e .#e f#e reci'ido $ desp#s f#e encaminado, tiene el mismo si!nificado sem+ntico de #n repl# en #n mensa4e de correo electrnico,
#rimeira Fase Se!$nda Fase
1. Anlise Lxica 2. Anlise Sinttica 3. Remoo StopWord SemSW ComSW

normal, Esto .#iere decir .#e los (alores de la m#estra se enc#entran alrededor de la media, 3a "i!#ra = m#estra el dia!rama de pi55a del porcenta4e de la polaridad re!istrada en el con4#nto de datos, El ma$or porcenta4e se refiere al sentimiento ne#tral, es decir, sentimiento considerado o'4eti(o, %#m+ndose la polaridad m#$ positi(a, positi(a $ poco positi(a se tiene aproximadamente =JK de positi(idad,
Histograma Scores Com Stopword
12,0

9,0

Contagem

6,0

3,0

Scores
SemSW Ferramenta de Anlise das Classes Gramaticais aseada na metodolo!ia do Senti"ordnet

0,0 0,0 000000,0 000000,0 000000,0 000000,0

Media comSW

ComSW

"i!#ra 7; Risin !eneral del enfo.#e metodol!ico adoptado

%erceira Fase

"i!#ra 8; Pisto!rama de la distri'#cin de los Scores con stopwords


Histograma Scores Sem Stopword
12,0

RE%U3T0DO% En esta seccin se presentaran los res#ltados del an+lisis exploratorio de los datos, "#eron reco!idos al total JHH88 tweets, 3a media de tweets por #s#arios f#e de aproximadamente 7JJ8, 3a Ta'la 7 m#estra la media $ des(i 1des(iacin2 padrn o'ser(ados para los scores de los enfo.#es con $ sin stopwords de toda la m#estra, es decir, de todos los JHH88 tweets,
T0 30 7; CEDI0 A DE%RI 1DE%RI0CIN2 :0DRN DE 3O% JHH88
S$%&ES CON A %IN ST%'W%&(S

9,0

Contagem

6,0

3,0

0,0 0,0 000000,0 000000,0 000000,0 000000,0

Media SemSW

"i!#ra 9; Pisto!rama de la distri'#cin de los scores sin stopwords &' 3' 1)'

Sco"es 'onSW Me!i# E,8HHM Des(i P#!" n E,H77=

Sco"es SinSW Me!i# E,988J Des(i P#!" n E,H899

1&' 1('

very positive positive weak positive neutral weak negative negat ive very negat ive

31'

11'

3a primera pr#e'a #tili5ada f#e la :r#e'a de )olmogorov*Smirnov. Esta pr#e'a est+ destinada a determinar si #na m#estra p#ede ser considerada como deri(ada de #na po'lacin con #na determinada distri'#cin, 3a primera -iptesis a ser pro'ada para -acer inferencias para #na po'lacin a partir de #na m#estra, es .#e esta sea aleatoria, En n#estro caso para (erificar si el con4#nto de datos 1JHH88 scores2 m#estra distri'#cin normal 1"i!#ra 8 $ 92, 0s/, con #n ni(el de confian5a del M>K no se p#ede rec-a5ar la -iptesis n#la, es decir, .#e las dos distri'#ciones son normales, 3a calidad de las inferencias -ec-as por estos mtodos depende de c#an cercana es la po'lacin en est#dio de la

"i!#ra =; :orcenta4e total de la polaridad re!istrada en la m#estra

3a -iptesis a ser compro'ada en esta in(esti!acin es determinar si existe correlacin entre el &ank prop#esto por $ los scores 1polaridad de los mensa4es2, :ara (alidar esta -iptesis se #tili5 el an+lisis de re!resin para examinar si existe #na relacin lineal 'i(ariada entre el &ank $ los Scores de los enfo.#es sin $ con stopwords, %iendo asi, f#e calc#lado el promedio de todos los scores 1positi(os, ne!ati(os, poco ne!ati(o, poco positi(o, ne#tral etc,2 de cada #s#ario $ esta promedio ser+ e(al#ado con el &ank 1rep#tacin2,

3a "i!#ra > $ H m#estran los res#ltados de este an+lisis, Con #n ni(el de confian5a del M>K, no f#e posi'le esta'lecer #na relacin entre estas (aria'les, lo .#e indica .#e no -a$ linealidad entre ellas, Como la correlacin de 'earson re.#iere el s#p#esto de .#e la relacin entre las (aria'les sea lineal optamos por las pr#e'as de correlacin de Spearman &+o $ de )endall Ta , 3a pr#e'a de correlacin de Spearman &+o $ de )endall Ta , son pr#e'as no paramtricas .#e p#eden ser aplicadas a listas ordenadas $ .#e diferente a la pr#e'a de 'earson no re.#iere linealidad entre las (aria'les,

M!i# SinSW

B7EK

.//0

7EEK

3os res#ltados de las pr#e'as de correlacin Spearman &+o # )endall Ta est+n il#strados en la Ta'la 8, Tanto la pr#e'a #nica#dal como la pr#e'a 'ica#dal mostraron los mismos res#ltados $ por este moti(o es mostrado apenas #no de ellos, Es interesante darse c#enta .#e los promedios 1%in%6 $ Con%&2 est+n f#ertemente correlacionados entre s/, correlacin de 7EEK, 3o mismo no se p#ede o'ser(ar entre el &ank $ los promedios de los scores, lo .#e s#!iere .#e no existe #na relacin lineal entre el &ank prop#esto por FHG $ el !rado de polaridad de los mensa4es p#'licados por #n #s#ario, %e calc#l la correlacin de 'earson entre los JHH88 scores con $ sin stopwords, %e o'ser( #na correlacin de JHK, de ac#erdo con los res#ltados encontrados 1f#erte correlacin2 entre los promedios de los scores, CONC3U%IN En esta in(esti!acin se '#sc examinar la polaridad de sentimientos de los mensa4es .#e son p#'licados en la red social Twitter, El enfo.#e adoptado t#(o por o'4eto pro'ar la -iptesis de .#e existe #na correlacin entre la rep#tacin de #n #s#ario en partic#lar $ la polaridad de s#s opiniones, o incl#so, .#e el sentimiento expresado en s#s mensa4es podr/a infl#enciar en s# rep#tacin, 3os res#ltados mostraron .#e -a$ #na f#erte correlacin entre los scores de las m#estras Con%& $ %in%&, lo .#e indica .#e la eliminacin de stopwords no infl#$e directamente en la e(al#acin de la polaridad, Esto contradice la expectati(a de .#e la eliminacin de las )pala'ras dic-as (ac/as* podr/a -acer diferencia en el an+lisis de sentimientos, %e o'ser( tam'in .#e el sentimiento promedio expresado en esta m#estra de tweets es de positi(o a ne#tral, %e encontr .#e los scores tienen #na distri'#cin normal alrededor de la media, (alidando el an+lisis estad/stico calc#lado, A, por ltimo, con #n factor de confian5a de M>K se p#ede inferir .#e no -a$ correlacin entre la rep#tacin 1rank2 $ la polaridad de los mensa4es p#'licados, %#!iriendo .#e el sentimiento expresado en los tweets no afecta en la inferencia de la rep#tacin, Como tra'a4os f#t#ros, se propone ampliar este enfo.#e adoptado a todos los 7898 #s#arios de la lista como #na manera de destacar los res#ltados o'ser(ados en este est#dio, 0dem+s, existe la intencin de anali5ar la polaridad de los mensa4es en f#ncin de la l/nea de tiempo en la .#e f#eron p#'licados, "inalmente, se pretende compro'ar la existencia de cam'ios en la polaridad de estos mensa4es 'asados en al!n s#ceso del cotidiano, RE"ERENCI0%

"i!#ra >; Dia!rama de dispersin de la re!resin lineal entre las (aria'les &ank $ Scores sin stopwords

"i!#ra H; Dia!rama de dispersin de la re!resin lineal entre las (aria'les &ank $ Scores con stopwords T0 30 8; RE%U3T0DO DE 30% CORRE30CIONE% NO :0R0CSTRIC0% M!i# 'onSW BTK 7EEK .//0 B7EK 7EEK M!i# SinSW BTK 7EEK 7EEK B7EK 7EEK

R#n) R#n) *en!#ll+s t#&,S$e#"m#n+s R1o M!i# 'onSW M!i# SinSW R#n) M!i# 'onSW 7EEK BTK BTK 7EEK B7EK

F7G F8G F9G

F=G

F>G

FHG

FTG FJG

FMG

F7EG

F77G

F78G

F79G F7=G

:, @onUal(es, C, 0ra4o, ", ene(en#to, and C, C-a, VComparin! and Com'inin! %entiment 0nal$sis Cet-ods,V 'rocs. o, A$M $%SN- 8E79, , 3IU, V%entiment anal$sis and opinion minin!,V S#nt+esis .ect res on H man .ang age Tec+nologies- (ol, >, pp, 7B7HT, 8E78, %, et-ard, P, A#, 0, T-ornton, R, Pat5i(assilo!lo#, and D, ?#rafsW$, V0#tomatic extraction of opinion propositions and t-eir -olders,V in /001 AAAI Spring S#mposi m on Exploring Attit de and A,,ect in Text , 8EE=, p, 888=, %,BC, Xim and E, Po($, V0#tomatic identification of pro and con reasons in online re(ie6s,V in 'roceedings o, t+e $%.IN23A$. on Main con,erence poster sessions, 8EEH, pp, =J9B=ME, 0, 0''asi, P, C-en, and 0, %alem, V%entiment anal$sis in m#ltiple lan!#a!es; "eat#re selection for opinion classification in &e' for#ms,V A$M Transactions on In,ormation S#stems 4T%IS5(ol, 8H, p, 78, 8EEJ, 3, &eit5el, ?, :, C, de Oli(eira, and :, Y#aresma, VExplorin! Tr#st to RanW Rep#tation in Cicro'lo!!in!,V in (atabase and Expert S#stems Applications, 8E79, pp, =9=B==7, E, d, , 0, "erreira, V0n+lise de %entimento em Redes %ociais Utili5ando Infl#Zncia das :ala(ras,V 8E7E, N, R, %il(a, D, 3ima, and ", arros, V%0:air; Um :rocesso de 0n+lise de %entimento no N/(el de Caracter/stica,V in 1nd International Works+op on Web and Text Intelligence 4WTI67/5- $ ritiba, 8E78, R, 3, Cili'rasi and :, C, Ritan$i, VT-e !oo!le similarit$ distance,V )nowledge and (ata Engineering- IEEE Transactions on- (ol, 7M, pp, 9TEB9J9, 8EET, :, @onUal(es, ", ene(en#to, and R, 0lmeida, VO Y#e T6eets Contendo Emoticons :odem Re(elar %o're %entimentos Coleti(os[,V in II !ra"ilian Works+op on Social Network Anal#sis and Mining 4!raSNAM /0785- Macei, 8E79, E, oi$ and C,B", Coens, V0 mac-ine learnin! approac- to sentiment anal$sis in m#ltilin!#al &e' texts,V In,ormation retrieval- (ol, 78, pp, >8HB>>J, 8EEM, 0, Es#li and ", %e'astiani, V%enti6ordnet; 0 p#'licl$ a(aila'le lexical reso#rce for opinion minin!,V in 'roceedings o, .&E$, 8EEH, pp, =7TB=88, @, 0, Ciller, V&ordNet; a lexical data'ase for En!lis-,V $omm nications o, t+e A$M- (ol, 9J, pp, 9MB=7, 7MM>, 3, X, &i(es and %, 3o-, VRec#peraU\o de informaU]es #sando a expans\o sem^ntica ea

l!ica dif#sa,V in $ongreso Internacional En Ingenieria In,ormatica- I$IE, 7MMJ,

Vous aimerez peut-être aussi