Académique Documents
Professionnel Documents
Culture Documents
Jose L. Romero P.
Universidad Nacional Abierta
2009
ii
Indice general
Introduccion V
A. Tabla de datos 75
Bibliografa 79
iii
iv INDICE GENERAL
Introduccion
v
vi INTRODUCCION
1.1. Porque el R?
1
2 UNIDAD 1. UN PRIMER ENCUENTRO CON R
datos de alguna forma no usual. Por otro lado, si por ejemplo se realiza un
analisis de regresion en una aplicacion tipo GUI, la salida es un solamente un
extenso informe. En cambio, en una aplicacion como R, que posee un entorno
de programacion orientado a objetos, la salida en tal caso es una instancia de
un objeto de clase regresion, a la cual el programador/usuario puede aplicar
posteriormente otros metodos o invocar otras funciones que admitan como
entrada un objeto de esa clase, tal como realizar un analisis de varianza o de
residuos posterior, graficar o generar informes a la medida, etc.
Desde el punto de vista pedagogico, es mas interesante aprender a traba-
jar bajo un entorno tipo CLI porque ello obliga al estudiante saber realmente
lo que esta haciendo[5] y le inculca buenos habitos en el analisis de datos. En
contraposicion, un principiante frente a un GUI (como el proverbial mono
con hojilla de alta peligrosidad) puede hacer clic sobre iconos y siempre ob-
tendra resultados, pero estos resultados no siempre seran utiles, o siquiera
coherentes.
En definitiva, dada la naturaleza del trabajo del investigador estadstico,
la flexibilidad que se gana al trabajar con una aplicacion estadstica que es a
la vez entorno de programacion es una compensacion justa para tomarse la
molestia de aprender a trabajar con un entorno de programacion, lo cual por
otra parte no es tan difcil, como se vera. Inclusive, a la larga puede resultar
hasta mas facil, como senala Crawley [4][11] con respecto a S-PLUS, una
version comercial de R con GUI y consola:
antes mencionada.
Todo lo expuesto hasta ahora justifica la eleccion de R en base a los
criterios de versatilidad, disponibilidad y facilidad de uso mencionados en
la introduccion. Para completar esta exposicion de motivos debo mencionar
adicionalmente que el R es un software completamente portable, con versio-
nes para los principales sistemas operativos (Linux, Windows y MacOS). Con
respecto a la potencia y velocidad de su motor numerico, el R tiene un desem-
peno semejante, sino superior, a otras aplicaciones numericas como Matlab u
Octave. A traves de paquetes o libreras como snow y snowfall, es posible
aprovechar las capacidades de las nuevas arquitecturas de multiprocesadores
(los denominados procesadores dualcore o quad-core).
distintos a Windows generalmente tienen mas pericia informatica, por lo cual no necesitan
tantas indicaciones.
6 UNIDAD 1. UN PRIMER ENCUENTRO CON R
instalacion del R para los tres sistemas operativos mas populares (abajo de
Download and Install R). Al hacer clic sobre el enlace de Windows (me
viene a la mente la siguiente pregunta: porque colocaron a Windows por
debajo de los demas sistemas operativos? humm), aparece otro recuadro a la
derecha titulado a R for Windows. En este recuadro aparecen dos enlaces-
base y contrib que se corresponden a los ejecutables de instalacion para la
aplicacion base y los paquetes (libreras) contribuidas respectivamente. Hace-
mos clic sobre el enlace base y luego sobre el enlace Download R 2.9.1 for
Windows8 . Se le pedira si desea guardar o ejecutar directamente el programa
de instalacion; le recomiendo o que lo guarde. Luego sientese a esperar porque
son mas de 30MB de descarga. Finalmente, ejecute el programa de instalacion
y siga las instrucciones que se proporcionan. Observese que en la pagina don-
de aparece el enlace de descarga de R, aparecen otros enlaces para suministrar
instrucciones de instalacion, por si acaso tiene dificultades. Una ultima nota
sobre el proceso de instalacion. Como el R es un entorno de programacion y
en el vamos a hacer las cosas mediante la entrada de comandos en una con-
sola, es de gran utilidad disponer de un buen sistema de ayuda por si acaso
se nos olvida la sintaxis de algun comando. El R dispone de un buen sistema
> 2 + 3
[1] 5
> 2/3 + 1
[1] 1.666667
1.3. LA PRIMERA SESION Y LOS FUNDAMENTOS DE R 9
> 2/(3 + 1)
[1] 0.5
> -2^2
[1] -4
> (-2)^2
[1] 4
> pi
[1] 3.141593
> sqrt(2)
[1] 1.414214
> exp(1)
10 UNIDAD 1. UN PRIMER ENCUENTRO CON R
[1] 2.718282
[1] Inf
[1] NaN
> 0/0
[1] NaN
> "jose"
1.3. LA PRIMERA SESION Y LOS FUNDAMENTOS DE R 11
[1] "jose"
> 2 < 3
[1] TRUE
> 2 + 2 == 4
[1] TRUE
> 2 != 2
[1] FALSE
[1] FALSE
Las primeras dos ordenes trabajan con cadenas, que se indican encerrando
caracteres alfa-numericos entre comillas. La funcion paste toma dos o mas
cadenas y las concatena, como en la segunda orden, donde tambien hacemos
uso de una funcion llamada date() que devuelve la fecha y hora actual
Las siguientes ordenes o trabajan con expresiones logicas. Observese el uso
de operadores relacionales (< es menor que,== igual a, != no igual a, <=
menor o igual que, etc.) y de conectores logicos (& se corresponde a y, | se
corresponde a o, etc.). Para buscar mas informacion sobre esto, ingrese la
orden help(Logic).
12 UNIDAD 1. UN PRIMER ENCUENTRO CON R
[1] 1
> a <- pi
> b <- a >= 3
> c <- a <= 4
> b
[1] TRUE
> c
10 O
instancias de clases de objetos para usar el argot de la programacion orientada a
objetos.
1.3. LA PRIMERA SESION Y LOS FUNDAMENTOS DE R 13
[1] TRUE
> edades <- c(17, 19, 18, 20, 24, 18, 17, 22, 25, 23)
> edades
[1] 17 19 18 20 24 18 17 22 25 23
> mean(edades)
[1] 20.3
14 UNIDAD 1. UN PRIMER ENCUENTRO CON R
> sum(edades)/length(edades)
[1] 20.3
> var(edades)
[1] 8.9
> sd(edades)
[1] 2.983287
[1] 10.89 1.69 5.29 0.09 13.69 5.29 10.89 2.89 22.09 7.29
[1] 8.9
n 2
Xi X
2 i=1
Sn1 =
n1
Desde luego, existen muchas otras funciones vectoriales- funciones para
calcular la mediana o algun percentil, funciones para ordenar (ascendente-
mente o descendentemente) los elementos de un vector, etc. Sin embargo,
para mantener este recuento breve, pasaremos al tema de la indexacion, que
como dijimos, es el proceso de hacer referencia a elementos especficos de un
vector.
> edades <- c(17, 19, 18, 20, 24, 18, 17, 22, 25, 23)
> edades[4]
[1] 20
> 4:8
[1] 4 5 6 7 8
> 1:50
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
[21] 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
[41] 41 42 43 44 45 46 47 48 49 50
16 UNIDAD 1. UN PRIMER ENCUENTRO CON R
> edades[4:8]
[1] 20 24 18 17 22
[1] 17 20 24 18 17 22
[1] 19 18 25 23
[1] 24 22 25 23
[1] 5 8 9 10
11 Aqu escalar denota algunas de las tres clases mas elementales (numerico, cadena o
logico).
1.3. LA PRIMERA SESION Y LOS FUNDAMENTOS DE R 17
> sexo <- c("M", "M", "F", "F", "F", "M", "F", "M",
+ "M", "F")
> fumador <- c(FALSE, TRUE, FALSE, FALSE, TRUE, FALSE,
+ FALSE, TRUE, TRUE, FALSE)
> muestra <- data.frame(edad = edades, s = sexo, fuma = fumador)
> muestra
edad s fuma
1 17 M FALSE
2 19 M TRUE
3 18 F FALSE
4 20 F FALSE
5 24 F TRUE
6 18 M FALSE
7 17 F FALSE
8 22 M TRUE
9 25 M TRUE
10 23 F FALSE
> muestra$edad
[1] 17 19 18 20 24 18 17 22 25 23
> muestra$s
[1] M M F F F M F M M F
Levels: F M
> sexo
[1] "M" "M" "F" "F" "F" "M" "F" "M" "M" "F"
> muestra$s[1]
[1] M
Levels: F M
[1] TRUE
A veces, puede resultar engorroso prefijar una hoja de datos (en nuestros
ejemplos, mediante el muestra$) cada vez que nos referimos a una variable
de esa hoja de datos. Para estos fines de abreviar la escritura de expresiones,
utilizamos la instruccion attach(...). Esta instruccion le indica al interprete
R que en lo sucesivo, nos vamos a referir a las variables componentes de la
hoja de datos cuyo identificador se encierra entre los parentesis, pero se debe
evitar utilizar attach si hemos definido otros vectores u hojas de datos con
variables que tengan los mismos identificadores, a fin de no crear situaciones
ambiguas. A continuacion se muestra el uso de attach:
> attach(muestra)
> edad
[1] 17 19 18 20 24 18 17 22 25 23
> s
[1] M M F F F M F M M F
Levels: F M
> muestra[[1]]
[1] 17 19 18 20 24 18 17 22 25 23
edad s fuma
1 17 M FALSE
2 19 M TRUE
6 18 M FALSE
8 22 M TRUE
9 25 M TRUE
[1] 20.2
[1] 22.5
F M
20.4 20.2
22 UNIDAD 1. UN PRIMER ENCUENTRO CON R
FALSE TRUE
18.83333 22.50000
4. Que es un vector en R?
10. Mediante cual funcion de R podemos obtener los ndices de los ele-
mentos de un vector que cumplen con cierta condicion logica?
25
26 UNIDAD 2. SOBRE LOS DATOS Y LA MUESTRA
Antes de pasar a explicar como cargar estos datos en R para aplicarle los
analisis estadsticos, es oportuno hacer algunas observaciones sobre las va-
riables de la muestra y delucidar los objetivos de la investigacion. En primer
2.2. SOBRE LAS VARIABLES Y LOS TIPOS DE VARIABLES 27
lugar, la muestra son los 121 renglones de las 13 variables descritas anterior-
mente, correspondientes a los estudiantes que cursaron estudios de primer ano
en las carreras de Matematicas y Computacion, en un determinado periodo
acadmemico. Esperamos, en la medida en que la muestra sea un subconjun-
to de la poblacion lo suficientemente representativo, que las conclusiones de
nuestro estudio sean generalizables a las promociones futuras de estudiantes
(la poblacion considerada in abstracto), pues a partir de estas concluciones se
tomaran decisiones que afectaran el desempeno de los estudiantes del primer
ano de la carrera en periodos academicos futuros. Mediante las herramientas
de la Estadstica Descriptiva (codigo de Asignatura 745) vamos a explorar
la data para poder formular explicaciones plausibles (aunque en este nivel
no comprobables aun) sobre los factores que inciden en el bajo rendimiento
academico. Mediante las tecnicas de la Inferencia Estadstica (asignaturas
738, 746 y 748) podremos ofrecer un basamento cientfico a nuestras conclu-
siones y recomendaciones. En consecuencia, si la preocupacion primordial es
el bajo rendimiento academico de los estudiantes en la universidad, el estu-
dio estadstico se va centrar principalmente sobre la variable Pa1, pues esta
es la expresion o medida final del rendimiento academico. Interesa entonces
analizar el grado de interdependencia y el tipo de relacion que hay entre la
variable Pa1 y las demas.
Al leer la descripcion de las variables antecedente, y sin haber analizado o
siquiera visto la muestra, se hace evidente que Pa1 esta fuertemente relacio-
nada con las variables Psm1 y Psm2. La razon de ello es porque el promedio
de notas del primer ano se calcula a partir de los promedios de notas del pri-
mer y segundo semestre. De ah podemos preveer que estas ultimas variables
aportaran muy poca informacion para nuestro estudio y seran de escasa o
nula utilidad para explicar el bajo rendimiento academico. Lo mismo podra-
mos decir sobre Us1, Us2 y Ua1, pues a medida en que el promedio de notas
es mayor, la cantidad de unidades de credito aprobadas aumenta, aunque la
relacion entre Pa1 y aquellas tres variables probablemente sea de menor gra-
do (y no es tan obvia) que la existente entre Pa1 y las variables Psm1 y Psm2.
Sin embargo, parece que por los momentos es bastante adecuado considerar
a las variables Pa1, Ua1, Psm1, Psm2, Us1 y Us2 como aspectos similares del
mismo fenomeno del rendimiento academico.
Para buscar las causas que expliquen el bajo rendimiento estudiantl ten-
dremos que considerar las otras variables que fueron incluidas en la muestra
28 UNIDAD 2. SOBRE LOS DATOS Y LA MUESTRA
"N";"E";"Nota";"Us1";"Us2";"Ingr";"C";"O";"S";"Ed"
1;1;12,66;80;55;2200;1;1;0;16
2;1;13,58;20;55;5800;0;1;0;19
3;1;13,49;20;27;2300;1;1;0;18
4;1;16,21;50;27;1700;1;1;0;20
Es importante notar que todas las filas deben contener la misma canti-
dad de variables (o separadores), lo cual se hace automaticamente cuando
exportamos los datos a un archivo CSV desde cualquier aplicacion de hoja
de calculos o base de datos. En este caso, debemos indicarle al programa
en el momento de exportar que los campos van separados por un ;, porque
nuestra muestra contiene numeros con decimales, que en hispanoamerica se
indican mediante la coma. Tambien debemos indicar que los campos de texto
van delimitados por comillas. Desde el R, el comando para leer datos en un
archivo CSV es read.csv2, que es una variante del comando read.csv para
paises donde el punto decimal es una coma y los campos se delimitan por
; (punto y coma). El comando read.csv2 es en realidad una funcion que
devuelve los datos leidos desde un archivo a una variable tipo data frame y
su sintaxis es como se detalla a continuacion:
Puesto que suponemos que el archivo CSV ha sido generado segun las
indicaciones dadas arriba, no tenemos que especificar las opciones header,
sep, quote y dec- R usara los valores por defecto para estos argumen-
tos. El codigo a continuacion carga los datos a partir de un archivo en
/home/laurentum/Documentos (el formato de ruta es diferente en Windows)
y los coloca en una variable data frame identificada por datos:
> require(tcltk)
> archivo <- tk_choose.files()
> datos <- read.csv2(archivo)
34 UNIDAD 2. SOBRE LOS DATOS Y LA MUESTRA
Estadstica Descriptiva
Univariante
resumir los datos como a las medidas numericas calculadas a partir de la muestra que
cumplen igual proposito.
3 Este ultimo termino no es en realidad el mas adecuado en este contexto. La minera de
datos se refiere a conjuntos muy grandes de datos donde el proceso de encontrar relaciones
35
36 UNIDAD 3. ESTADISTICA DESCRIPTIVA UNIVARIANTE
> summary(Pa1)
la formula de Sturges.
40 UNIDAD 3. ESTADISTICA DESCRIPTIVA UNIVARIANTE
Vamos a invocar la funcion hist sobre los datos y asignarsela a una varia-
ble temporal a partir de la cual construiremos la tabla de frecuencias. Como
valor del parametro plot, indicamos FALSE porque no queremos graficar el
histograma por ahora. Omitimos intencionalmente el parametro breaks por-
que usaremos la regla de Sturges (valor del parametro por defecto). Luego de
la asignacion de la variable temporal (hist1) en este caso), le indicamos al
interprete R que visualice su contenido para ver que clase de objeto genera
la funcion hist:
$breaks
[1] 4 6 8 10 12 14 16 18
$counts
[1] 1 9 18 25 39 21 8
$intensities
[1] 0.004132231 0.037190083 0.074380165 0.103305785 0.161157025
[6] 0.086776860 0.033057851
$density
[1] 0.004132231 0.037190083 0.074380165 0.103305785 0.161157025
[6] 0.086776860 0.033057851
$mids
[1] 5 7 9 11 13 15 17
$xname
[1] "Pa1"
$equidist
[1] TRUE
attr(,"class")
[1] "histogram"
3.2. MEDIDAS DE DISPERSION Y DE TENDENCIA CENTRAL 41
Como podemos ver, los objetos generados por la funcion hist tienen varios
atributos. Cada uno de estos atributos es una parte del objeto que contiene
informacion sobre como construir el histograma, pero nosotros no estamos
interesados en todos los atributos, sino en los que detallamos a continuacion.
El atributo $breaks es un vector numerico indicando los n + 1 lmites de las
n clases. El atributo $mids es un vector numerico que contiene los n puntos
medios, o representantes de clase, de las n clases. El atributo $counts contiene
las frecuencias absolutas o cantidad de valores observados en la muestra para
los n intervalos de clase. Observamos que segun la regla de Sturges, la tabla
de frecuencias resultante consta de 7 intervalos de clase. Podemos acceder
a estos resultados agregando $breaks, $mids o $counts al identificador del
objeto de clase histograma, como se muestra en el ejemplo a continuacion:
> hist1$breaks
[1] 4 6 8 10 12 14 16 18
> hist1$mids
[1] 5 7 9 11 13 15 17
> hist1$counts
[1] 1 9 18 25 39 21 8
> sd(Pa1)
[1] 2.781712
IQR = Q3 Q1
7 Supongase
que clasificamos a los estudiantes como buenos, regulares o malos.
Un estudiante bueno no es el doble de bueno que un estudiante regular, por ejemplo.
Aun asignando valores numericos a los tres niveles de modo que se refleje la relacion de
orden entre ellos, esta asignacion es arbitraria y por ende no podemos establecer ninguna
proporcionalidad entre los tres niveles.
3.3. DATOS EXTREMOS O AISLADOS 45
> mad(Pa1)
[1] 2.861418
R x(n) x(1)
A= =
N N
> hist(Pa1)
voque comer torta). No obstante, los diagramas de torta no son bien vistos
universalmente, por lo menos en el mundo de la estadstica. A continuacion
citamos a algunos expertos:
Figura 3.3: Una grafica de tortas Figura 3.4: La grafica de barras corres-
pondiente a la grafica de tortas ante-
rior
12 Aqu solo se muestran los principales parametros, aquellos que nos son mas utiles.
3.4. GRAFICAS ESTADISTICAS EN R 55
Masculino Femenino
92 29
> pie(sexo)
> sum(sexo)
[1] 121
Masculino Femenino
76 24
> names(sexo)
Notese que la funcion sum, que devuelve la suma de todos los compo-
nentes de un vector, devuelve aqu la suma de todas las frecuencias de clase
contenidas en la tabla sexo. La funcion round no hace mas que redondear
un numero real al entero mas proximo. Aplicandola aqu, round devuelve el
vector de las frecuencias relativas de clase, expresadas estas en porcentajes.
La expresion names(sexo) devuelve un vector de cadenas de caracteres con
los nombres (etiquetas) que le hemos asignado a cada nivel respectivo del fac-
tor. Finalmente, creamos un vector donde concatenamos (mediante la funcion
paste) cada nombre de clase con su respectivo porcentaje y se lo asignamos
al identificador etiquetas. Dentro de la expresion paste(. . .), el parametro
"\n" sirve para indicar que, al construir el diagrama de torta, el nombre de
cada clase sera seguido en la lnea de abajo por su respectivo porcentaje. Con
esto estamos listos para crear un diagrama de torta mas ilustrativo:
3.4. GRAFICAS ESTADISTICAS EN R 59
> boxplot(Pa1)
[1] 0.4297521
Tras el primer ano, un poco mas del 40 % de los estudiantes seran penados
segun el regimen de permanencia. Esto es altamente preocupante, pues incide
muy negativamente sobre la motivacion de los nuevos ingresos y seguramente
restringe la cantidad de egresados de esas carreras en cada semestre. Fuera
de este tipo de consideraciones, por ahora el estudio descriptivo de la variable
Pa1 en s misma no arroja mas informacion- para obtenerla debemos estudiar
como interactuan las variables entre s y sobre todo, como se relaciona la
variable Pa1 con las demas. Comencemos por preguntarnos cuales variables
14 Sobre
la observacion asociada a este valor atpico volveremnos mas tarde cuando ten-
gamos mas elementos de analisis.
3.5. ... Y DE VUELTA NUEVAMENTE A LA EXPLORACION DE DATOS63
Las variables demograficas del estudiante dadas por el sexo (S), la edad
(Ed) y el lugar de origen (O - si es o no del interior del pas). Son los
estudiantes de mayor edad, que en cierto grado esta relacionada con
la madurez, mejor dispuestos para los estudios universitarios? O por el
contrario, es la juventud una condicion mas favorable? Existe algun
tipo de sesgo o discriminacion por genero en estas carreras universita-
rias? Es el lugar de origen un factor determinante? - el provenir del
interior y tener que ocupar una residencia estudiantil lejos de su familia
pudiese afectar negativamente el promedio de notas del estudiante.
> summary(Ingr)
> hist(Ingr)
de cada uno. Expresandolo de una manera mas tecnica - parece que tenemos
estudiantes de dos subpoblaciones en la muestra, cada subpoblacion con unas
caractersticas marcadas en cuanto al ingreso familiar. De manera intuitiva (y
un tanto arbitraria) establecemos el siguiente criterio para discriminar entre
las dos subpoblaciones: consideraremos ingresos bajos a aquellos inferiores a
3000 e ingresos altos aquellos superiores a 3000. Observando en el histograma
que el primer pico se presenta en la segunda clase (cuyo lmite superior es
3000) y que la tercera clase tiene una frecuencia menor que la segunda la
fundamentacion de dicho criterio.
Procedemos ahora a crear una nueva variable tipo factor que indique si el
respectivo estudiante es de bajo o alto ingreso familiar (ver codigo y grafica
en la figura 3.11). La primera lnea del codigo anterior produce una nueva
variable tipo factor correspondiente al tipo de ingreso familiar. Para ello, la
3.5. ... Y DE VUELTA NUEVAMENTE A LA EXPLORACION DE DATOS65
$alto
Min. 1st Qu. Median Mean 3rd Qu. Max.
6.20 10.46 12.43 12.07 13.94 17.43
$bajo
Min. 1st Qu. Median Mean 3rd Qu. Max.
5.00 10.34 12.84 12.37 14.64 17.88
caja para la variable Pa1, uno al lado del otro, discriminando los valores de
dicha variable segun corresponden a estudiantes de ingresos bajos o altos,
produciendo la grafica de la figura 3.11.
Curiosamente, y al contrario de lo que suponamos al principio, los es-
tudiantes de bajos ingresos tienen un promedio y una mediana de notas del
primer ano un poquito mas altas que los estudiantes de altos ingresos. Cuan
significativa es la diferencia entre las medias de Pa1 para cada uno de los dos
grupos de ingresos es algo que no podemos establecer aun. En todo caso, la
evidencia emprica parece sugerir que no es cierto que los estudiantes de ma-
yores ingresos familiares sean los que tengan mayor promedio de notas en el
primer ano de la carrera. Otra caracterstica interesante es que los estudian-
tes de bajos ingresos tienen mayor dispersion de la variable Pa1; inclusive, el
promedios de notas mas alto y el mas bajo corresponden ambos a estudiantes
de bajos ingresos. Otro elemento de interes para el analisis es el siguiente:
[1] 38
> summary(Ed)
> hist(Ed)
Con la unica excepcion de que la diferencia entre los grupos es mas marcada
(la mediana del promedio de notas de los estudiantes del interior y la de los
estudiantes de la capital difieren en poco menos de 2 puntos), los mismos
comentarios sobre la grafica anterior aplican en este caso.
Abordamos por ultimo la relacion entre el rendimiento academico y las
otras variables academicas. Comenzaremos por explorar la relacion entre las
notas del examen de ingreso y el promedio academico. Como hemos hecho
con las otras variables no categoricas (Ingr y Ed), creamos una nueva varia-
ble tipo factor (categorica) para dividir a los estudiantes en dos grupos- los
de baja y alta puntuacion en el examen de ingreso. La grafica comparativa
resultante se muestra en la figura 3.18. La comparacion de los promedios
de los estudiantes de la escuela de Matematicas y de Computacion produce
una grafica similar en muchas caractersticas a esta, por la cual no la inclui-
remos aqu; unicamente nos limitamos a observar que los valores maximos
y mnimos de los estudiantes de Matematica parece desplazado hacia arriba
respecto a los valores maximos y mnimos de los estudiantes de Computacion
y sin embargo, la mediana de los promedios del grupo de Computacion su-
72 UNIDAD 3. ESTADISTICA DESCRIPTIVA UNIVARIANTE
pera la mediana del grupo de Matematicas. Hasta aqu los resultados del
analisis exploratorio- continuamos con la discusion de los mismos y algunas
conclusiones provisionales.
En esta unidad hemos abordado el caso de estudio tratando de dilucidar
sobre las relaciones entre las variables, valiendonos para ello de las herramien-
tas que ofrece la estadstica descriptiva. Especficamente, hemos utilizado los
diagramas de cajas comparativos para detectar diferencias entre las media-
nas y los valores maximos y mnimos de una variable tomada a traves de dos
categoras de la otra variable, la cual, tomando prestado la terminologa del
Analisis de Varianza, denominamos aqu variable factor, siendo los distintos
niveles o categoras de esa variable factor los tratamientos. En fin, explora-
mos en que manera afectan los distintos factores a la variable del rendimiento
academico. Para ello, nos hemos basado en la comparacion, mediante los dia-
gramas de caja pareados, de los valores mnimos y maximos, senalados por
las lineas horizontales al final de los bigotes, y de la mediana para los dos
tratamientos de la variable factor. Basicamente, hemos comparado los diagra-
mas de cajas pareados para establecer cual de ellos tiene todos sus elementos
3.5. ... Y DE VUELTA NUEVAMENTE A LA EXPLORACION DE DATOS73
> summary(Nota)
(Por elaborar)
Apendice A
Tabla de datos
75
76 APENDICE A. TABLA DE DATOS
[6] Ihaka, R.: Statistics 787 - Topic in Computational Data Analysis and
Graphics. Disponible en: http://www.stat.auckland.ac.nz/~ihaka/
787/lectures-presentation-graphics-handouts.pdf, 2007.
79