Solemne 1 Parte 1: Inteligencia Artificial 2do Semestre 2014
Solemne I 1era Parte: Inteligencia Artificial
Profesor: Alejandro Figueroa Ponderacin: 1 Fecha de entrega: viernes 22 de Agosto a las 23:59 hrs (Chile continental) A!udante: "icol#s $livares %&todo de entrega: 'ail al a!udante (nicolivares(g'ailco') Descripcin del Problema Hoy en da nos encontramos todo el tiempo conectado al Internet mediante diferentes medios (e.g. computadores de escritorio, telfonos mviles, y tablets). Principalmente, vemos a la Web como una fuente de recursos y servicios, cuyo potencial es el de satisfacer nuestras necesidades de informacin y de interaccin social. Por eemplo, nos dirigimos a nuestro outlet de noticias favorito para leer acerca de los !ltimos acontecimientos noticiosos del pas o del mundo, tambin nos informamos de las noticias tecnolgicas, far"ndula, salud, etc. #n cambio, las redes sociales las utili$amos como recurso para compartir y diseminar informacin, tips, nuestras opiniones, como tambin para compartir otros recursos como vdeos y fotos. %na clase de servicio &ue est" a medio camino de ser un recurso de informacin y de interaccin social son los sitios de pregunta'respuesta. #n ellos encontramos plataformas &ue nos permiten satisfacer necesidades muc(o m"s espec)cas, i.e. un usuario tiene una pregunta, para la cual necesita una respuesta. *ormalmente, las respuestas a las preguntas emitidas en estas plataformas no son f"cilmente encontrables en Internet, es decir, son preguntas &ue cuya resolucin involucra el procesamiento de diversas fuentes de informacin, los conocimientos de un e+perto, o bien simplemente, el emisor no tiene tiempo para encontrar una respuesta )dedigna en otro sitio de la Web. 1 Solemne 1 Parte 1: Inteligencia Artificial 2do Semestre 2014 ,a sea para las redes sociales, noticias o un sistema de pregunta'respuesta, una pie$a fundamental es identi)car -named entities., si uno pretende obtener valor agregado de la informacin provista por los usuarios. Por eemplo, ver si la pregunta fue (ec(a anteriormente, ergo si (ay respuestas &ue puedan ser entregadas al usuario en el momento de la emisin de la pregunta. #sto disminuira el tiempo de espera &ue debe incurrir el usuario (asta &ue otro usuario de la comunidad le de una respuesta satisfactoria. /0u son -named entities.1 2on nombres &ue se utili$an para representar un referente. Por eemplo, los nombres -Ford. y -Ford Motor Company. se utili$an para indicar el referente -la compaa creada por Henry Ford en 1903.. #s decir, para un mismo referente podemos tener nombres distintos, &ue trabaan como sinnimos. Hay diversos tipos de -named entities., pero en el "mbito de esta tarea nos preocuparemos de cuatro clases3 organizaciones, personas y ubicaciones. 4odo lo &ue no caiga en esta tres clases es denominado -token., por eemplo puntuacin, preposiciones, sustantivos, verbos &ue no son parte del nombre de una entidad. 5erece la pena rescatar el (ec(o de &ue las -named entities. son fundamentales por&ue te+tos como las noticias, as como tambin muc(as preguntas en una plataforma de pregunta'respuesta, tratan acerca de entidades. #ntonces su reconocimiento facilita establecer la relacin entre una pregunta6b!s&ueda y una noticia6respuesta, tambin la relaciones entre diversos documentos. #n esta tarea vamos a considerar el caso especial de plataforma de pregunta'respuesta ,a(oo7 8ns9ers. 8&u los miembros forman una comunidad, donde cada uno de ellos puede emitir una pregunta y esperar (generalmente (asta cuatro das) para &ue los otros miembros de la comunidad le provean de respuestas. :inalmente, el emisor de la pregunta puede escoger la &ue a su parecer es la meor respuesta. Hay muc(as facetas &ue comentar acerca de este tipo de plataformas, sin embargo para esta tarea consideraremos &ue ;) no todas las respuestas provistas a 2 Solemne 1 Parte 1: Inteligencia Artificial 2do Semestre 2014 una pregunta son legtimas, por eemplo (ay propaganda, respuestas enga<osas, doble sentido, c(istes, etc.= y >) &ue cada pregunta est" compuesta de tres partes un ttulo &ue normalmente plantea el obetivo de la pregunta, un contenido &ue provee de detalles adicionales &ue deberan ayudar a la resolucin de la pregunta, y )nalmente una secuencia de respuestas ordenadas cronolgicamente. ?onsidere la pregunta -did the betrayal of king edward case ww11 !. &ue provee como contenido los detalles -betrayed by parliament and the chrch " was it treason or the in#ence of $a%i spyrings !.. @urante el perodo la pregunta &ue se mantuvo abierta, es decir, &ue se les permiti a los otros miembros responder, se obtuvieron las siguientes respuestas3 Tiempo (epoch) Snippet de Respuesta 1402778444000 No-one ` betrayed ' King Edward at all - if you mean Edward VIII - later te !u"e of #ind$or % &e 'uit % &e al$o a((ened to be a Na)i $ym(ati$er * not +ery brigt * +ery $elfi$ and a womani$er % ##II wa$ ,au$ed by &itler '$ de$ire to rule te world % 140277-2.8000 I tin" you a+e bougt te ,o+er $tory ti$ i$ (ro(aganda * ab$olutely o((o$ite te trut * te man wa$ trying to rebuild te we$tern allian,e in te treat of ri$ing german aggre$$ion % 14027800-8000 no te /ioni$t$ got rid of Edward 8t be,au$e e li"ed &itler &itler angered te /ioni$t ban"er$ for ,reating an alternati+e e,onomy ba$ed on labor and dit,ing teir 0entral ban"ing $,am &itler did n't want war tey - te ban"er$ did and it$ a((ening again wit 1utin and 2u$$ia - 1utin a$ dit,ed ,entral ban"ing 1402788324000 4 do $ut te f,u" u( % 14028.0852000 No ameri,an$ ,au$e ##2 by finan,ing &itler from 1-24 in 1-.2 te Na)i$ were 6ro"e and ,ould not rai$e te money to ,onte$t te 1-.. ele,tion$ te !u(ont$ u$ed 71 8orga n to ,olle,t te money from 9!2 :indberg 1re$,ott 6u$ ;tandard 4il <8 I== 9ord I68 6endi> 0o,oa 0ola 6ird$ eye all el(ed rai$e 840 8illion ?; dollar$ more tan enoug to run in te 1-.. ele,tion$ and to 6uy enoug $eat$ to form a ,oalition tat ga+e te Na)i$ te 31 @ needed to get &itler ele,ted to 0an,ellor No &itler 9und No &itler a$ 0an,ellor No ##2 ti$ lin" (ro+e$ i am telling te =rut tt($ABCBC www%google%,om%auBCD'Eameri,an$FwoFfundedFteFna)i$ . Solemne 1 Parte 1: Inteligencia Artificial 2do Semestre 2014 Objetivo de la Primera Parte de la Solemne 1 *os enfocaremos en el eti&uetado manual de un conunto de tripletas Attulo, contenido, respuestasB e+tradas de ,a(oo7 8ns9ers. #n el eti&uetado, el alumno debe marcar las palabras &ue conrresponden a cada una de las cuatro clases. 2in embargo, para agili$ar este proceso los -toCens. no deben anotarse. #n el eemplo anterior, tendramos el siguiente ttulo de pregunta3 -did the betrayal of king/PERSON edward/PERSON case ww11 !., y su contenido respectivo est" dado por el te+to -betrayed by parliament and the chrch " was it treason or the in#ence of $a%i spyrings !.. #n cuanto a la secuencia de respuestas, tenemos3 Tiempo (epoch) Snippet de Respuesta 1402778444000 No-one ` betrayed ' King/PERSON Edward/PERSON at all - if you mean Edward/PERSON VIII/PERSON - later te Due/PERSON o!/PERSON "indsor/PERSON % &e 'uit % &e al$o a((ened to be a Na)i $ym(ati$er * not +ery brigt * +ery $elfi$ and a womani$er % ##II wa$ ,au$ed by #it$er/PERSON '$ de$ire to rule te world % 140277-2.8000 I tin" you a+e bougt te ,o+er $tory ti$ i$ (ro(aganda * ab$olutely o((o$ite te trut * te man wa$ trying to rebuild te we$tern allian,e in te treat of ri$ing german aggre$$ion % 14027800-8000 no te /ioni$t$ got rid of Edward/PERSON %th/PERSON be,au$e e li"ed #it$er/PERSON #it$er/PERSON angered te /ioni$t ban"er$ for ,reating an alternati+e e,onomy ba$ed on labor and dit,ing teir 0entral ban"ing $,am #it$er/PERSON did n't want war tey - te ban"er$ did and it$ a((ening again wit Putin/PERSON and Russia/&O'(TION G Putin/PERSON a$ dit,ed ,entral ban"ing 1402788324000 4 do $ut te f,u" u( % 14028.0852000 No ameri,an$ ,au$e ##2 by finan,ing #it$er/PERSON from 1-24 in 1-.2 te Na)i$ were 6ro"e and ,ould not rai$e te money to ,onte$t te 1-.. ele,tion$ te Duponts/PERSON u$ed )P/OR*(NI+(TION ,orga n/OR*(NI+(TION to ,olle,t te money from -DR/OR*(NI+(TION &ind.erg/OR*(NI+(TION Prescott/OR*(NI+(TION /ush/OR*(NI+(TION Standard/OR*(NI+(TION Oi$/OR*(NI+(TION *,/OR*(NI+(TION ITT/OR*(NI+(TION -ord/OR*(NI+(TION I/,/OR*(NI+(TION /endi0/OR*(NI+(TION 'ocoa/OR*(NI+(TION 'o$a/OR*(NI+(TION /irds/OR*(NI+(TION e1e/OR*(NI+(TION all el(ed rai$e 840 8illion ?; dollar$ more tan enoug to run in te 1-.. ele,tion$ and to 6uy enoug $eat$ to form a ,oalition tat ga+e te Na)i$ te 31 @ needed to get #it$er/PERSON ele,ted to 0an,ellor No #it$er/PERSON 9und No #it$er/PERSON a$ 0an,ellor 4 Solemne 1 Parte 1: Inteligencia Artificial 2do Semestre 2014 No ##2 ti$ lin" (ro+e$ i am telling te =rut tt($ABCBC www%google%,om%auBCD'Eameri,an$FwoFfundedFteFna)i$ 8dicionalmente, para facilitar el proceso de eti&uetado de entidades se (a provisto de un tag -AsuggestionsB. &ue contiene sugerencias. #stas contienen errores, ya sea &ue faltan palabras &ue son parte de una entidad, o (ay palabras &ue realmente no pertenecen a una entidad. 2implemente est"n, con el obetivo de uniformar criterios y proveer una ayuda para el caso de (aber ambigDedad. *tese &ue las anotaciones dentro de este tag son sugerencias, no la respuesta a la tarea de eti&uetado. ?ada estudiante debe solicitar al ayudante, un arc(ivo -tar. &ue contiene las tripletas a ser eti&eutadas. #ste arc(ivo -tar. consiste en un conunto de >E arc(ivos m"s pe&ue<os, cada uno correspondiente a una de las >E categoras diferentes de preguntas en ,a(oo7 8ns9ers. ?ada arc(ivo contiene preguntas de la categora respectiva. Id Nom.re Id Nom.re Id Nom.re .-5343012 Hrt$ I &umanitie$ .-5343431 En+ironment .-5343444 1oliti,$ I <o+ernment .-5343144 6eauty I ;tyle .-53434.. 9amily I 2elation$i($ .-5345045 1regnan,y I 1arenting .-534301. 6u$ine$$ I 9inan,e .-5343.57 9ood I !rin" .-5343122 ;,ien,e I 8atemati,$ .-5343.11 0ar$ I =ran$(ortation .-534301- <ame$ I 2e,reation .-5343.01 ;o,ial ;,ien,e .-5343550 0om(uter$ I Internet .-5343018 &ealt .-5343434 ;o,iety I 0ulture .-5343014 0on$umer Ele,troni,$ .-5343.-4 &ome I <arden .-534321. ;(ort$ .-5343.27 !ining 4ut .-5343401 :o,al 6u$ine$$e$ .-534345- =ra+el .-5343013 Edu,ation I 2eferen,e .-53434.- New$ I E+ent$ .-534508- JaooK 1rodu,t$ .-5343015 Entertainment I 8u$i, .-534344. 1et$ 3 Solemne 1 Parte 1: Inteligencia Artificial 2do Semestre 2014 Reqerimientos para el Informe %na ve$ eti&uetadas todas las tripletas contenidas en las >E categoras, tanto el ttulo como su contedido, y las respuestas, el alumno debe entregar un informe &ue responda las siguientes preguntas3 ;. ?ombinando las >E categoras, (aga un (istograma de las clases de entidades asignadas manualmente a las palabras, es decir la frecuencia de los tres tipos de entidades. Para sto, tambin considere los -toCens.. Fa suma de los cuatro valores obtenidos debe darle el n!mero de palabras en contenidas en los >E arc(ivos. >. Haga lo mismo &ue ;) pero para cada una de las >E categoras por separado. /0u observa1 /?mo podra e+plicar lo observado1 G. ?ompare las eti&uetas asignadas manualmente y las sugerencias3 /?u"ntas palabras &ue no fueron sugeridas como entidad, pertenecian realmente a entidades1 /#n este ultimo punto, se ve alguna clase m"s afectada &ue las otras1. , al revs, /?u"ntas palabras fueron sugeridad como entidad, pero realmente no lo eran1 /Hay alguna clase particularmente m"s afectada1 H. #l mismo an"lisis &ue en G), a(ora desarrollelo por categora. /Hay alguna de las >E categoras m"s propensas a uno de los dos tipos de errores &ue se mencionan en los puntos G y H1 I. 2uponiendo &ue las eti&uetas manuales son -la verdad absoluta., calcule la accuracy, precision, recall y :;'score de las sugerencias combinando las >E categoras. E. Jealice lo mismo del punto I pero para cada una de las >E categoras por separado. K. ?alcule la entropa del conunto de datos, y de cada categora en particular, utili$ando las eti&uetas manuales. 5 Solemne 1 Parte 1: Inteligencia Artificial 2do Semestre 2014 :inalmente, entregue sus conclusiones generales sobre los resultados obtenidos. /0u cree &ue sucedera si reali$amos un an"lisis similar slo en los ttulos de las preguntas1 /Para &u categora visuali$a &ue son m"s !tiles las sugerencias1 /, las entidades en general1 /0u categora se ve m"s afectada cuando una pregunta y una respuesta coinciden en ambos aspectos de una entidad, tanto en tipo como en las palabras1. Adem!s" tenga en centa qe: 1% El alumno deber realizar una presentacin de a lo ms diez minutos para mostrar los resultados obtenidos ms destacables. La presentacin est orientada a corregir errores tempranos y no repercutan en las tareas posteriores. Las presentaciones son en horario de ayudanta. 2. Cada estudiante debe trabajar sobre su propio conjunto de datos. El utilizar los datos de otro compaero automticamente le hace acreedor de la nota 1 en la tarea, y deber tener sus propios datos etiquetados para las partes posteriores. Cada estudiante debe solicitar su conjunto personal de datos al ayudante. 3. Para que su tarea sea vlida, el alumnos debe entregar sus datos etiquetados junto con el informe de la tarea. De faltar los datos, el alumno obtendr nota 1. 7