Vous êtes sur la page 1sur 7

Solemne 1 Parte 1: Inteligencia Artificial 2do Semestre 2014

Solemne I 1era Parte: Inteligencia Artificial


Profesor: Alejandro Figueroa
Ponderacin: 1
Fecha de entrega: viernes 22 de Agosto a las 23:59 hrs (Chile continental)
A!udante: "icol#s $livares
%&todo de entrega: 'ail al a!udante (nicolivares(g'ailco')
Descripcin del Problema
Hoy en da nos encontramos todo el tiempo conectado al Internet mediante
diferentes medios (e.g. computadores de escritorio, telfonos mviles, y tablets).
Principalmente, vemos a la Web como una fuente de recursos y servicios, cuyo
potencial es el de satisfacer nuestras necesidades de informacin y de interaccin
social. Por eemplo, nos dirigimos a nuestro outlet de noticias favorito para leer
acerca de los !ltimos acontecimientos noticiosos del pas o del mundo, tambin nos
informamos de las noticias tecnolgicas, far"ndula, salud, etc. #n cambio, las redes
sociales las utili$amos como recurso para compartir y diseminar informacin, tips,
nuestras opiniones, como tambin para compartir otros recursos como vdeos y
fotos. %na clase de servicio &ue est" a medio camino de ser un recurso de
informacin y de interaccin social son los sitios de pregunta'respuesta. #n ellos
encontramos plataformas &ue nos permiten satisfacer necesidades muc(o m"s
espec)cas, i.e. un usuario tiene una pregunta, para la cual necesita una respuesta.
*ormalmente, las respuestas a las preguntas emitidas en estas plataformas no son
f"cilmente encontrables en Internet, es decir, son preguntas &ue cuya resolucin
involucra el procesamiento de diversas fuentes de informacin, los conocimientos de
un e+perto, o bien simplemente, el emisor no tiene tiempo para encontrar una
respuesta )dedigna en otro sitio de la Web.
1
Solemne 1 Parte 1: Inteligencia Artificial 2do Semestre 2014
,a sea para las redes sociales, noticias o un sistema de pregunta'respuesta, una
pie$a fundamental es identi)car -named entities., si uno pretende obtener valor
agregado de la informacin provista por los usuarios. Por eemplo, ver si la pregunta
fue (ec(a anteriormente, ergo si (ay respuestas &ue puedan ser entregadas al
usuario en el momento de la emisin de la pregunta. #sto disminuira el tiempo de
espera &ue debe incurrir el usuario (asta &ue otro usuario de la comunidad le de
una respuesta satisfactoria.
/0u son -named entities.1 2on nombres &ue se utili$an para representar un
referente. Por eemplo, los nombres -Ford. y -Ford Motor Company. se utili$an para
indicar el referente -la compaa creada por Henry Ford en 1903.. #s decir, para un
mismo referente podemos tener nombres distintos, &ue trabaan como sinnimos.
Hay diversos tipos de -named entities., pero en el "mbito de esta tarea nos
preocuparemos de cuatro clases3 organizaciones, personas y ubicaciones. 4odo lo
&ue no caiga en esta tres clases es denominado -token., por eemplo puntuacin,
preposiciones, sustantivos, verbos &ue no son parte del nombre de una entidad.
5erece la pena rescatar el (ec(o de &ue las -named entities. son fundamentales
por&ue te+tos como las noticias, as como tambin muc(as preguntas en una
plataforma de pregunta'respuesta, tratan acerca de entidades. #ntonces su
reconocimiento facilita establecer la relacin entre una pregunta6b!s&ueda y una
noticia6respuesta, tambin la relaciones entre diversos documentos.
#n esta tarea vamos a considerar el caso especial de plataforma de
pregunta'respuesta ,a(oo7 8ns9ers. 8&u los miembros forman una comunidad,
donde cada uno de ellos puede emitir una pregunta y esperar (generalmente (asta
cuatro das) para &ue los otros miembros de la comunidad le provean de respuestas.
:inalmente, el emisor de la pregunta puede escoger la &ue a su parecer es la meor
respuesta. Hay muc(as facetas &ue comentar acerca de este tipo de plataformas, sin
embargo para esta tarea consideraremos &ue ;) no todas las respuestas provistas a
2
Solemne 1 Parte 1: Inteligencia Artificial 2do Semestre 2014
una pregunta son legtimas, por eemplo (ay propaganda, respuestas enga<osas,
doble sentido, c(istes, etc.= y >) &ue cada pregunta est" compuesta de tres partes un
ttulo &ue normalmente plantea el obetivo de la pregunta, un contenido &ue provee
de detalles adicionales &ue deberan ayudar a la resolucin de la pregunta, y
)nalmente una secuencia de respuestas ordenadas cronolgicamente.
?onsidere la pregunta -did the betrayal of king edward case ww11 !. &ue provee
como contenido los detalles -betrayed by parliament and the chrch " was it treason
or the in#ence of $a%i spyrings !.. @urante el perodo la pregunta &ue se mantuvo
abierta, es decir, &ue se les permiti a los otros miembros responder, se obtuvieron
las siguientes respuestas3
Tiempo (epoch) Snippet de Respuesta
1402778444000 No-one ` betrayed ' King Edward at all - if you mean Edward VIII - later te !u"e
of #ind$or % &e 'uit % &e al$o a((ened to be a Na)i $ym(ati$er * not +ery brigt *
+ery $elfi$ and a womani$er % ##II wa$ ,au$ed by &itler '$ de$ire to rule te
world %
140277-2.8000 I tin" you a+e bougt te ,o+er $tory ti$ i$ (ro(aganda * ab$olutely o((o$ite te
trut * te man wa$ trying to rebuild te we$tern allian,e in te treat of ri$ing
german aggre$$ion %
14027800-8000 no te /ioni$t$ got rid of Edward 8t be,au$e e li"ed &itler &itler angered te
/ioni$t ban"er$ for ,reating an alternati+e e,onomy ba$ed on labor and dit,ing
teir 0entral ban"ing $,am &itler did n't want war tey - te ban"er$ did and it$
a((ening again wit 1utin and 2u$$ia - 1utin a$ dit,ed ,entral ban"ing
1402788324000 4 do $ut te f,u" u( %
14028.0852000 No ameri,an$ ,au$e ##2 by finan,ing &itler from 1-24 in 1-.2 te Na)i$ were
6ro"e and ,ould not rai$e te money to ,onte$t te 1-.. ele,tion$ te !u(ont$ u$ed
71 8orga n to ,olle,t te money from 9!2 :indberg 1re$,ott 6u$ ;tandard 4il
<8 I== 9ord I68 6endi> 0o,oa 0ola 6ird$ eye all el(ed rai$e 840 8illion ?;
dollar$ more tan enoug to run in te 1-.. ele,tion$ and to 6uy enoug $eat$ to
form a ,oalition tat ga+e te Na)i$ te 31 @ needed to get &itler ele,ted to
0an,ellor No &itler 9und No &itler a$ 0an,ellor No ##2 ti$ lin" (ro+e$ i am
telling te =rut tt($ABCBC
www%google%,om%auBCD'Eameri,an$FwoFfundedFteFna)i$
.
Solemne 1 Parte 1: Inteligencia Artificial 2do Semestre 2014
Objetivo de la Primera Parte de la Solemne 1
*os enfocaremos en el eti&uetado manual de un conunto de tripletas Attulo,
contenido, respuestasB e+tradas de ,a(oo7 8ns9ers. #n el eti&uetado, el alumno
debe marcar las palabras &ue conrresponden a cada una de las cuatro clases. 2in
embargo, para agili$ar este proceso los -toCens. no deben anotarse. #n el eemplo
anterior, tendramos el siguiente ttulo de pregunta3 -did the betrayal of king/PERSON
edward/PERSON case ww11 !., y su contenido respectivo est" dado por el te+to
-betrayed by parliament and the chrch " was it treason or the in#ence of $a%i
spyrings !.. #n cuanto a la secuencia de respuestas, tenemos3
Tiempo (epoch) Snippet de Respuesta
1402778444000 No-one ` betrayed ' King/PERSON Edward/PERSON at all - if you mean
Edward/PERSON VIII/PERSON - later te Due/PERSON o!/PERSON
"indsor/PERSON % &e 'uit % &e al$o a((ened to be a Na)i $ym(ati$er * not
+ery brigt * +ery $elfi$ and a womani$er % ##II wa$ ,au$ed by #it$er/PERSON
'$ de$ire to rule te world %
140277-2.8000 I tin" you a+e bougt te ,o+er $tory ti$ i$ (ro(aganda * ab$olutely o((o$ite te
trut * te man wa$ trying to rebuild te we$tern allian,e in te treat of ri$ing
german aggre$$ion %
14027800-8000 no te /ioni$t$ got rid of Edward/PERSON %th/PERSON be,au$e e li"ed
#it$er/PERSON #it$er/PERSON angered te /ioni$t ban"er$ for ,reating an
alternati+e e,onomy ba$ed on labor and dit,ing teir 0entral ban"ing $,am
#it$er/PERSON did n't want war tey - te ban"er$ did and it$ a((ening again
wit Putin/PERSON and Russia/&O'(TION G Putin/PERSON a$ dit,ed
,entral ban"ing
1402788324000 4 do $ut te f,u" u( %
14028.0852000 No ameri,an$ ,au$e ##2 by finan,ing #it$er/PERSON from 1-24 in 1-.2 te
Na)i$ were 6ro"e and ,ould not rai$e te money to ,onte$t te 1-.. ele,tion$ te
Duponts/PERSON u$ed )P/OR*(NI+(TION ,orga n/OR*(NI+(TION to
,olle,t te money from -DR/OR*(NI+(TION &ind.erg/OR*(NI+(TION
Prescott/OR*(NI+(TION /ush/OR*(NI+(TION
Standard/OR*(NI+(TION Oi$/OR*(NI+(TION *,/OR*(NI+(TION
ITT/OR*(NI+(TION -ord/OR*(NI+(TION I/,/OR*(NI+(TION
/endi0/OR*(NI+(TION 'ocoa/OR*(NI+(TION 'o$a/OR*(NI+(TION
/irds/OR*(NI+(TION e1e/OR*(NI+(TION all el(ed rai$e 840 8illion ?;
dollar$ more tan enoug to run in te 1-.. ele,tion$ and to 6uy enoug $eat$ to
form a ,oalition tat ga+e te Na)i$ te 31 @ needed to get #it$er/PERSON
ele,ted to 0an,ellor No #it$er/PERSON 9und No #it$er/PERSON a$ 0an,ellor
4
Solemne 1 Parte 1: Inteligencia Artificial 2do Semestre 2014
No ##2 ti$ lin" (ro+e$ i am telling te =rut tt($ABCBC
www%google%,om%auBCD'Eameri,an$FwoFfundedFteFna)i$
8dicionalmente, para facilitar el proceso de eti&uetado de entidades se (a provisto
de un tag -AsuggestionsB. &ue contiene sugerencias. #stas contienen errores, ya sea
&ue faltan palabras &ue son parte de una entidad, o (ay palabras &ue realmente no
pertenecen a una entidad. 2implemente est"n, con el obetivo de uniformar criterios
y proveer una ayuda para el caso de (aber ambigDedad. *tese &ue las
anotaciones dentro de este tag son sugerencias, no la respuesta a la tarea de
eti&uetado.
?ada estudiante debe solicitar al ayudante, un arc(ivo -tar. &ue contiene las tripletas
a ser eti&eutadas. #ste arc(ivo -tar. consiste en un conunto de >E arc(ivos m"s
pe&ue<os, cada uno correspondiente a una de las >E categoras diferentes de
preguntas en ,a(oo7 8ns9ers. ?ada arc(ivo contiene preguntas de la categora
respectiva.
Id Nom.re Id Nom.re Id Nom.re
.-5343012 Hrt$ I &umanitie$ .-5343431 En+ironment .-5343444 1oliti,$ I
<o+ernment
.-5343144 6eauty I ;tyle .-53434.. 9amily I
2elation$i($
.-5345045 1regnan,y I
1arenting
.-534301. 6u$ine$$ I 9inan,e .-5343.57 9ood I !rin" .-5343122 ;,ien,e I
8atemati,$
.-5343.11 0ar$ I
=ran$(ortation
.-534301- <ame$ I
2e,reation
.-5343.01 ;o,ial ;,ien,e
.-5343550 0om(uter$ I
Internet
.-5343018 &ealt .-5343434 ;o,iety I 0ulture
.-5343014 0on$umer
Ele,troni,$
.-5343.-4 &ome I <arden .-534321. ;(ort$
.-5343.27 !ining 4ut .-5343401 :o,al 6u$ine$$e$ .-534345- =ra+el
.-5343013 Edu,ation I
2eferen,e
.-53434.- New$ I E+ent$ .-534508- JaooK 1rodu,t$
.-5343015 Entertainment I
8u$i,
.-534344. 1et$
3
Solemne 1 Parte 1: Inteligencia Artificial 2do Semestre 2014
Reqerimientos para el Informe
%na ve$ eti&uetadas todas las tripletas contenidas en las >E categoras, tanto el ttulo
como su contedido, y las respuestas, el alumno debe entregar un informe &ue
responda las siguientes preguntas3
;. ?ombinando las >E categoras, (aga un (istograma de las clases de entidades
asignadas manualmente a las palabras, es decir la frecuencia de los tres tipos
de entidades. Para sto, tambin considere los -toCens.. Fa suma de los cuatro
valores obtenidos debe darle el n!mero de palabras en contenidas en los >E
arc(ivos.
>. Haga lo mismo &ue ;) pero para cada una de las >E categoras por separado.
/0u observa1 /?mo podra e+plicar lo observado1
G. ?ompare las eti&uetas asignadas manualmente y las sugerencias3 /?u"ntas
palabras &ue no fueron sugeridas como entidad, pertenecian realmente a
entidades1 /#n este ultimo punto, se ve alguna clase m"s afectada &ue las
otras1. , al revs, /?u"ntas palabras fueron sugeridad como entidad, pero
realmente no lo eran1 /Hay alguna clase particularmente m"s afectada1
H. #l mismo an"lisis &ue en G), a(ora desarrollelo por categora. /Hay alguna de
las >E categoras m"s propensas a uno de los dos tipos de errores &ue se
mencionan en los puntos G y H1
I. 2uponiendo &ue las eti&uetas manuales son -la verdad absoluta., calcule la
accuracy, precision, recall y :;'score de las sugerencias combinando las >E
categoras.
E. Jealice lo mismo del punto I pero para cada una de las >E categoras por
separado.
K. ?alcule la entropa del conunto de datos, y de cada categora en particular,
utili$ando las eti&uetas manuales.
5
Solemne 1 Parte 1: Inteligencia Artificial 2do Semestre 2014
:inalmente, entregue sus conclusiones generales sobre los resultados obtenidos.
/0u cree &ue sucedera si reali$amos un an"lisis similar slo en los ttulos de las
preguntas1 /Para &u categora visuali$a &ue son m"s !tiles las sugerencias1 /, las
entidades en general1 /0u categora se ve m"s afectada cuando una pregunta y
una respuesta coinciden en ambos aspectos de una entidad, tanto en tipo como en
las palabras1.
Adem!s" tenga en centa qe:
1% El alumno deber realizar una presentacin de a lo ms diez
minutos para mostrar los resultados obtenidos ms destacables.
La presentacin est orientada a corregir errores tempranos y no
repercutan en las tareas posteriores. Las presentaciones son en
horario de ayudanta.
2. Cada estudiante debe trabajar sobre su propio conjunto de datos.
El utilizar los datos de otro compaero automticamente le hace
acreedor de la nota 1 en la tarea, y deber tener sus propios
datos etiquetados para las partes posteriores. Cada estudiante
debe solicitar su conjunto personal de datos al ayudante.
3. Para que su tarea sea vlida, el alumnos debe entregar sus datos
etiquetados junto con el informe de la tarea. De faltar los
datos, el alumno obtendr nota 1.
7

Vous aimerez peut-être aussi