Vous êtes sur la page 1sur 14

TALLER 1- GRUPO #9 Tcnicas de Aprendizaje Estadstico 01-2110 Profesora Claudia Jimnez R Nota: En este taller, cada equipo elige,

a su gusto, la realizacin como quinto punto, uno de los tres ltimos puntos. Esto significa que todos hacen hasta la actividad del punto4 y otra, a eleccin, para completar cinco 1. Para cada pregunta del cuestionario diseado para conocer algunas cosas de este grupo, plantee las reglas de integridad que se necesitan validar. Entre ellas, plantear al menos una regla de integridad no trivial, con su forma de deteccin y de correccin. 2. Enunciar al menos dos razones por las cuales en todo proceso de depuracin de los datos, se deben detectar los valores atpicos. Consulte cules tcnicas que se reportan en la literatura y seleccione y aplique aquella que, a su juicio, es la ms apropiada para detectar los valores atpicos en las respuestas del cuestionario. (Incluya las referencias bibliogrficas) 3. Para la pregunta de tipo abierto del cuestionario, clasifique las respuestas en grupos significativos, indicando cul fue el algoritmo (o todos los pasos empleados) utilizado para llegar a esos grupos o categoras. Esto significa que no se har un procedimiento manual, suponiendo que son muchsimo ms los encuestados. 4. Discretizar apropiadamente el promedio acadmico PAPA en tres categoras: alto, medio y bajo y crear la variable cualitativa correspondiente, mediante alguna orden o secuencia de rdenes en la herramienta computacional utilizada. Justificar el procedimiento utilizado. 5. Presentar tres caractersticas del grupo que a su juicio sean las ms interesantes, mediante estadsticas descriptivas, tanto tabulares como grficas. Incluya como mnimo un diagrama de cajas y bigotes y un histograma de frecuencias e interprete resultados. Tengan en cuenta la recomendaciones grficas sugeridas en el documento Grficas en R (est en la wiki) 6. Hacer pruebas sobre la distribucin de los datos correspondientes al promedio PAPA, en su forma cuantitativa. a) b) Se puede afirmar que se ajustan suficientemente a una distribucin normal? Se puede decir que este atributo ha cambiado con respecto a los valores observados en otro perodo acadmico? (ver estadsticas siguientes) Variable PAPA Asimetra (Pearson) Tamao grupo 33 -0,436 Datosfaltantes 1 Curtosis Mnimo 3,0 -0,040 Mximo 4,3 Media 3,7 Desviacin tpica 0,3

7. Construyan con una tabla, grfica dinmica o un diagrama de dispersin para cruzar algunas de las variables que consideren que pueden tener una relacin o dependencia funcional, en el cuestionario. Analizar los resultados. SOLUCIN PUNTO # 1 A datos como lo son los siguientes: rea de ingeniera de sistemas preferida: Cul opcin de grado piensas elegir? El problema ms grave del pas: En los momentos de ocio, me gusta: Mi deporte preferido es: Los juegos de mesa que prefiero son: Quieres trabajar como: Mximo nivel educativo alcanzado por uno de los padres: Bachiller de: Te gusta trabajar en grupo? Cules medios de transporte usas generalmente para llegar a la Universidad? Califique el grado de satisfaccin con su formacin en la Universidad Nacional No es posible asignarles reglas de integridad ya que se trata de preguntas cerradas a si que los valores que estas pueden tomar siempre van a pertenecer al dominio dado y por lo tanto sern validas. Para los siguientes datos se determinan reglas de intregidad: Estrato socioeconmico: Integridad de dominio: debe ser un nmero entero perteneciente al intervalo [1,6] para que pueda ser vlido. Deteccin: algoritmo que compruebe si los datos no pertenecen al intervalo con condicin if (estrato<=1 OR estrato>=6). Horas a la semana para el estudio extra clase: Integridad de dominio: debe ser un nmero entero perteneciente al intervalo [0,168] donde 168 es el nmero total de horas que tiene una semana. Deteccin: algoritmo que compruebe si los datos no pertenecen al intervalo con condicin if (horas<=0 OR horas >=168). Avance en los crditos (incluya slo los de la carrera y no considere los correspondientes a ingls. Tampoco incluya los crditos actuales)) Integridad referencial: debe ser un nmero entero perteneciente al intervalo [0,200] adems debe estar asociado a una de las carreras ofrecidas por la universidad para que pueda ser vlido. Deteccin: algoritmo que compruebe si los datos no pertenecen al intervalo con condicin if (dato<0 OR dato>200).

Edad Integridad de dominio: debe ser un nmero entero perteneciente al intervalo menor que 80 y mayor que 15 para que pueda ser vlido. Deteccin: algoritmo que compruebe si los datos no pertenecen al intervalo con condicin if (dato<=15 OR estrato>=80). Usualmente, cunto tiempo te demoras en llegar a la universidad? Integridad de dominio: debe ser un nmero entero perteneciente al intervalo continuo [0,4] para que pueda ser vlido. Promedio Aritmtico Ponderado Acumulado PAPA Regla del negocio: el papa debe ser mayor o igual que 3.0 para garantizar que el estudiante este matriculado en la institucin. Integridad de dominio: el valor debe pertenecer a un intervalo continuo de [3.0, 5.0]. Deteccin: algoritmo que compruebe si los datos no pertenecen al intervalo con condicin Correccin: el valor errneo se borrara para que no pueda generar problemas en los anlisis estadsticos. . Asumiendo que papa es el nombre de la columna. Recorrerdatos If (datoi<3.0 OR datoi>5.0) { datoi= null } PUNTO # 2 Razones: 1) Debido a que el conjunto de datos que se obtienen a partir del anlisis de un valor atpico, suelen ser engaosas. Los valores atpicos tambin son llamados, valores inconsistentes, y esto es debido a que generalmente, son datos con un valor que no parece corresponder con el resto de los valores del grupo de datos. 2) Las consecuencias de una sola observacin atpica pueden ser graves pues pueden distorsionar las medias y desviaciones tpicas de las variables y destruir o construir relaciones entre ellas. Para que esto no suceda se deben emplear pruebas y analisis estadsticos que no se vean alteradas por la presencia de estos valores en caso de que se presenten entre los datos. Referencias: 1. http://www.dm.uba.ar/materias/estadistica_Q/2005/1/TRANSP2B.pdf 2. ww.astm.org/SNEWS/SPANISH/SPND08/datapoints_spnd08.htm 3. es.wikipedia.org/wiki/Valor_atpico 4.https://docs.google.com/a/unal.edu.co/viewer?a=v&q=cache:ePhOAt9hncMJ:person al.us.es/analopez/aed.pdf+&hl=es&gl=co&pid=bl&srcid=ADGEESgtxb-vlXI5oVOf_O8G285Ug_CJbRCkUwnTRAlE9Rny5xUUJmn8RcJJupI_ysxYq5w_mp6sXnenNF_hi xL10PzPVLneRcbEpm1bv4LhK5yEDxklbM0kgbqxk6kJReDZ8dn77VR&sig=AHIEtbR -JsisQ4o3wjC8HGX1tgAnAFKBgg

ALGUNAS TECNICAS APLICADAS PARA LA DETECCION DE DATOS ATIPICOS Prueba de Grubbs

La prueba de Grubbs se utiliza para detectar valores atpicos en un conjunto de datos univariante y se basa en el supuesto de normalidad. Es decir, primero debe verificarse que sus datos pueden aproximarse razonablemente a una distribucin normal antes de aplicar la prueba El procedimiento de la prueba de Grubbs es el siguiente :

Prueba de Tukey

El diagrama conocido como diagrama de cajas y bigotes (Box and Whiskers Plot o simplemente BoxPlot) es un grfico representativo de las distribuciones de un conjunto de datos creado por Tukey en 1977, en cuya construccin se usan cinco medidas descriptivas de los mismos: mediana, primer cuartil (Q1), tercer cuartil (Q3), valor mximo y valor mnimo. Est compuesto por un rectngulo o caja la cual se construye con ayuda del primer y tercer cuartil y representa el 50% de los datos que particularmente estn ubicados en la zona central de la distribucin, la mediana es la lnea que atraviesa la caja, y dos brazos o bigotes son las lneas que se extienden desde la caja hasta los valores ms altos y ms bajos. En algunos casos, dentro de la caja suele trazarse una cruz para representar el promedio de los datos. Usando los mismos clculos necesarios para construir el diagrama de cajas y bigotes, puede hacerse deteccin automtica de los valores atpicos presentes en un conjunto de datos. El mtodo es el siguiente: se encuentra la mediana de todos los datos, luego se halla tanto la mediana de los valores iguales o inferiores a la mediana como de los superiores. Este ser un valor de datos o ser la mitad de entre dos valores de datos dependiendo de si la cantidad de los datos es par o impar [CQU, 1997]. Con un conjunto de datos impar, se incluye la mediana en cada una de las dos mitades del conjunto de

datos y luego se encuentra el medio de cada mitad. Esto da como resultado el primer y tercer cuartil. Si el conjunto de datos tiene un nmero par de valores, los datos se dividen en dos mitades, y se encuentra el medio de cada mitad. Para la deteccin de los valores atpicos, la longitud mxima de cada uno de los bigotes es de K = 1,5 veces el rango intercuartil (IQR) es decir 1.5x(Q3-Q1) por encima y por debajo de los cuartiles. Las observaciones fuera de los bigotes son dibujadas separadamente y etiquetadas como valores atpicos. El mtodo de Tukey utiliza un K=3 adicionalmente del K =1.5, las observaciones que estn entre 1.5 y 3 veces el rango intercuartil reciben el nombre de atpicos leves. Las observaciones que estn ms all de 3 veces el rango intercuartil se conocen como valores atpicos extremos.

Anlisis de Valores Atpicos de Mahalanobis

El Anlisis de Valores atpicos de Mahalanobis, es un mtodo basado en una distancia, llamada distancia de Mahalanobis (DM). Esta distancia es calculada con base en la varianza de cada punto. sta describe la distancia entre cada punto de datos y el centro de masa. Cuando un punto se encuentra en el centro de masa, la distancia de Mahalanobis es cero y cuando un punto de datos se encuentra distante del centro de masa, la distancia es mayor a cero. Por lo tanto, los puntos de datos que se encuentran lejos del centro de masa se consideran valores atpicos. La DM es un enfoque multivariante y es calculado para cada observacin en el conjunto de datos. Entonces a cada observacin se le da un peso como inverso de la distancia de Mahalanobis. Las observaciones con valores extremos obtienen menores pesos. Finalmente una regresin ponderada se ejecuta para minimizar el efecto de los valores extremos. La DM se calcula de la siguiente forma:

Donde Cx es la matriz de covarianza. La distancia Mahalanobis sigue una distribucin chi-cuadrado con grados de libertad igual al nmero de variables incluidas en el clculo. Referencias: 1. http://www.bdigital.unal.edu.co/2033/1/71644758.20101.pdf Otra forma de hallar valores atpicos, bastante practica es a travs de las graficas, la mas sencilla pero no tan confiable es implementando la de grafica lineal de datos, aqu podemos determinar si un valor es atpico, viendo los picos de la grafica, si estos estn por fuera del rango de confiabilidad ,se puede asumir que son valores atpicos. Al implementar este mtodo en el cuestionario obtenemos un valor atpico. En la pregunta de cuantas horas semanales dedica al estudio extraclase:

Si tomamos el x como el nmero de participantes, y la y como el nmero de horas. En el grafico xy, observamos que la respuesta del participante nmero 42, forma un mximo muy por encima, del segundo mayor en cuanto a horas dedicadas a extraclase, por lo tanto es muy probable que la respuesta del participante numero 42 sea valor atpico. Luego usando el diagrama de cajas y bigotes de la prueba de turkey:

Observamos que nos muestra claramente que el valor 120 es un dato atpico en la muestra.

PUNTO # 3 Se tiene un listado de datos de tipo abierto los cuales estn demasiado dispersos, a pesar de que varios datos significan lo mismo, como por ejemplo educacin, que se observan muchos datos de mismo valor de significancia pero con diferente valor (ej. Educacin, educacin, Estudiar, etc), ya sea por errores de ortografa, errores de escritura, entre otros. Solucin propuesta para resolver problema ms grave. Educacion Educacin Educacion gratuita Estudio educacion educacion educacin Estudio Buena enseanza a la juventud Invertir en educacin ese Nmero de veces que se repite. 3 3 1 1 1 1 1 1 1 1

Ahora lo que necesitamos es agrupar estos datos es corregir estos datos errneos y agruparlos en un solo dato, esto lo hacemos lo vamos a realizar con google refine, usando la herramienta cluster que permite combinar datos parecidos y corregirlos a conveniencia. Por supuesto esta herramienta solo reconoce algunos datos.

A pesar de esta correccin los datos aun no quedan totalmente depurados. An quedan datos desviados

Educacin gratuita Educacin Estudio Mas educacin Buena enseanza a la juventud Invertir en educacin

1 9 1 1 1 1

Usando un algoritmo buscamos dentro de la tabla valores que contengan edu o est y sern reemplazados por Educacin. En este caso google refine nos permite seleccionar todos los datos agrupados y corregirlos directamente

Y transformamos los datos con el algoritmo antes mencionado o reemplazando directamente con google refine. Y as mismo para los otros datos para obtener esta depuracin. Educacin 14

A pesar de toda esta depuracin aun los datos no estn del todo depurados, aun hay datos que referencian informacin de manera indirecta, como gratuita la cual como dato individual no nos dice informacin, pero en conjunto con otros datos tiene un significado. Este tipo de datos merecen una depuracin manual.

Educacin

18

Al final de la depuracin se cuentan los datos repetidos mediante un algoritmo en la lista y se obtiene esta informacin. Este paso lo omitimos ya que Google refine cuenta y agrupa estos datos.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38

Datos finales Acabar la corrupcin Castigos severos Comunicacin Educacin tica Golpe de estado Honestidad Igualdad Inversin social Justicia Masificacin Ninguna Nueva Era en Poltica Oportunidades Salud Seguridad Valores (blank)

1 2 1 18 1 3 2 2 3 2 1 2 1 1 1 3 2 4

Total

48

Datos iniciales Acabarla accesibilidad Alud, educacin y seguridad gratuita Buena enseanza a la juventud Castigos severos cobertura comunicacion Dejar la indiferencia a un lado educacion Educacion Educacin educacin educacion Educacion gratuita Estudio tica golpe de estado gratuita honestidad Honestidad igualdad inversion inversin inversin social Invertir en educacin Justicia Mas educacin Ms vigilancia Masificacin nada Ninguna Nueva Era en Politca Oportunidades Penas altas pertenencia y valores seguridad valores familiares (blank)

1 1 1 1 1 1 1 1 1 3 3 1 1 1 1 1 3 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 4

Ahora elegimos los datos ms significativos, es decir los datos superiores al 5%: Acabar la corrupcin Castigos severos Comunicacin Educacin tica golpe de estado Honestidad Igualdad Inversin social Justicia Masificacin Ninguna Nueva Era en Politca Oportunidades Salud Seguridad Valores (blank) Total 1 2 1 18 1 3 2 2 3 2 1 2 1 1 1 3 2 4 50 2.00% 4.00% 2.00% 36.00% 2.00% 6.00% 4.00% 4.00% 6.00% 4.00% 2.00% 4.00% 2.00% 2.00% 2.00% 6.00% 4.00% 8.00% 100.00%

Como podemos observar los grupos mas significativos(por encima del 5%) son Educacin (36%), sin respuesta (8%), golpe de estado (6%), inversin social (6%), seguridad (6%).

PUNTO # 4 Teniendo en cuenta que bajo est entre 3 y 3.4, medio y est entre 3.5 y 4, y alto se encuentra entre 4.1 y 5. Aqu simplemente vemos que los estudiantes en su mayora tienen un PAPA de nivel medio luego le siguen los que lo tienen en un nivel bajo y por ltimo los que lo tienen en un nivel alto. Alto Bajo Medio 4 10 34

Usando google refine, creamos una nueva columna que nos permita clasificar los valores dentro de un rango usando el siguiente algoritmo a cada dato If(valor>=3 & valor<=3.4) Tipo=Bajo Else if (valor>=3.5 & valor<=4) Tipo=Medio Else if ((valor>=4.1 & valor<=5) Tipo=Alto End if PUNTO # 6

Resumen: Mnimo= 3,00 Mediana= 3,60 Prom= 3,64 Mximo= 4,20 Coeficiente de asimetra= -0,01720627 Kurtosis= -0,04817672 En las grficas anteriores realizadas en R y matlab respectivamente observamos la curva de normalidad y el histograma del Promedio Acadmico Ponderado Acumulado. A) Cuando la distribucin de los datos cuenta con un coeficiente de asimetra (g1 = 0.5) y un coeficiente de Curtosis de (g2 = 0.5), se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayora de los procedimientos de la estadstica de inferencia se requiere que los datos se distribuyan normalmente. De esto se puede afirmar que la distribucin de los datos es normal debido a que el coeficiente de asimetra y la curtosis estn muy cerca de cero. B) Se puede decir que este atributo ha cambiado con respecto a los valores observados en otro perodo acadmico?

Semestre Actual: Variable PAPA Asimetra (Pearson) Semestre anterior: Variable PAPA Asimetra (Pearson) Tamao grupo 33 -0,436 Datos faltantes 1 Mnimo 3,0 Curtosis Mximo 4,3 Media 3,7 -0,040 Desviacin tpica 0,3 Tamao grupo 48 -0.0172 Datos faltantes 0 Mnimo 3,0 Curtosis Mximo 4,2 Media 3,6 -0,048 Desviacin tpica 0,3

La curva roja representa la distribucin del semestre actual y la azul la del semestre anterior. Segn podemos visualizar en la imagen hecha por matlab si han cambiado pero sin embargo el cambio no es muy significativo, tambin podemos ver en las tablas y la imagen que la media aritmtica baj de 3,7 a 3,6 y los cambios en el valor de la asimetra de Pearson nos dicen que en general los valores de los promedios acadmicos en el

semestre pasado estaban ms all de su media aritmtica, lo que quiere decir que los promedios eran mayores que los actuales (lo cual es confirmado en la grafica).