Vous êtes sur la page 1sur 285

Probabilidad y Estadı́stica

Cátedra de Probabilidad y Estadı́stica

Facultad de Ingenierı́a Quı́mica


Universidad Nacional del Litoral
Análisis exploratorio de datos

Capı́tulo 1 (y más)

del libro de Walpole, Myers, Myers y Ye


Sobre la materia.
I Teorı́as, prácticas, horarios de consultas, cronograma,
novedades y todo lo necesario para el cursado de la
materia estará en el Entorno Virtual (EV):
http://entornovirtual.unl.edu.ar - FIQ - PyE - pye2014-1

I También el EV será un medio de comunicación donde


tendrán el foro para hacer preguntas tanto a los docentes
como a sus propios compañeros.

I Por favor, agreguen su nombre completo y una foto (si es


posible) para tener la lista para el cursado.

I La Guı́a R es una guı́a del software que utilizaremos en


clase donde está todo lo que necesitarán para la materia,
les será muy útil por lo que es conveniente traerla impresa
a las clases.
Sobre la materia.

I Para las clases en necesario que los alumnos que tengan


laptops la traigan, los que no armaremos una lista en el
EV para pedir las de la Facultad, que deberán ser retiradas
en Bedelı́a con su d.n.i
I Las transparencias NO son un material de estudio, el libro
que utilizaremos es el WALPOLE R.E., MYERS R.H.,
MYERS S.H., y Ye K. Probabilidad y Estadı́stica para
Ingenierı́a y Ciencias. Ed. Prentice Hall. Octava edición,
2007. Está en biblioteca.
I Importantı́simo: Cuidar las laptops de la Facultad como
si fueran propias, devolverlas siempre en buenas
condiciones, dentro de su estuche, con sus respectivos
cables. Es un privilegio contar con laptops para las clases,
cuidémoslas para que futuros compañeros puedan
utlizarlas o ustedes mismos en futuras materias. Gracias!
Promoción y Regularización de la materia.

I Regularidad: Tres controles de regularidad. Deberá


obtener al menos 50 por ciento en cada control y un
promedio de al menos 58 puntos entre los tres. Además
debe tener 80 por ciento de asistencia. Algunas
asistencias con entrega de ejercicios.

I Promoción: Tres parciales con peso 30-30-40: El alumno


sera promovido si consigue obtener 58 puntos al menos en
total y en cada parciales debe obtener al menos 50 puntos.
El alumno debe ser regular para promocionar la materia.

I Comisiones de 120 hs. y 90hs.

I Como son los parciales y los controles.


Fechas de parciales y controles, importante

I Fecha de parciales. Primero: sábado de la semana cuarta


(10 horas)
Segundo: viernes de la semana 9 (17 horas)
Tercero: viernes de la semana 15 (17 horas)
I Fecha de controles
Primero: sábado de la semana cuarta (9 horas)
Segundo: semana 7 (en la practica)
Tercero: semana 13 (en la practica)

I Código de honor en Parciales y Controles.


¿Qué más se necesita para la materia?

I Instalar R (ver en el EV las instrucciones).

I Instalar los paquetes (Sección 2 de la guı́a R)

I Copiar los datos y traerlos todas las clases (puede ser en


un pen drive si usa compu de la facultad).

I Script.
I Laptop: TRAERLA
Estadı́stica

Es la ciencia de recolectar, describir


y analizar datos.
Recolectar

Los datos pennstate.csv corresponden a una encuestra


realizada en a 190 estudiantes de una clase de estadı́stica en
una Universidad de USA.

Estas son las primeras filas de los datos:


Sexo Dormida SQ Altura numeroAleatorio Velmax amplmanoderecha amplmanoizquierda SoQ
Female 8 Q 63.5 7 30 21 21 QorS
Female 4 Q 67 7 50 18 18 QorS
Female 5 S 67 6 50 21.5 21.5 QorS
Female 7 S 64 8 70 18 17.5 SorQ
Female 10 Q 70 6 70 19 19 QorS
Female 7 S 66 4 70 20 21 SorQ
Female 8 Q 64 6 70 21 21 SorQ
Female 7 S 63 7 75 19 19 SorQ
Female 8 Q 65.5 3 75 19 19.5 SorQ
Female 5 S 65 8 75 20 19 SorQ
Female 6.5 Q 65 6 75 20 20.5 QorS
Female 6 S 68 4 75 20.5 20.5 SorQ
Female 7 S 69 7 75 21 21.5 SorQ
Nombres

I Unidades o casos: los sujetos u objetos de los cuales


hemos obtenido información.

I Variable: es cualquier caracterı́stica de los casos o


unidades.
Cuáles son las unidades y cuáles las variables?

Explicar que nos dice cada variable del primer estudiante.


Sexo Dormida SQ Altura numeroAleatorio Velmax amplmanoderecha amplmanoizquierda SoQ
Female 8 Q 63.5 7 30 21 21 QorS
Female 4 Q 67 7 50 18 18 QorS
Female 5 S 67 6 50 21.5 21.5 QorS
Female 7 S 64 8 70 18 17.5 SorQ
Female 10 Q 70 6 70 19 19 QorS
Female 7 S 66 4 70 20 21 SorQ
Female 8 Q 64 6 70 21 21 SorQ
Female 7 S 63 7 75 19 19 SorQ
Female 8 Q 65.5 3 75 19 19.5 SorQ
Female 5 S 65 8 75 20 19 SorQ
Female 6.5 Q 65 6 75 20 20.5 QorS
Female 6 S 68 4 75 20.5 20.5 SorQ
Female 7 S 69 7 75 21 21.5 SorQ
¿Cómo se obtuvo esta tabla?

Preguntas realizadas:
I ¿Cuál es su género? (M: mujer, H: hombre).
I ¿Cuántas horas durmio anoche?
I Elija entre las letras S y Q.
I ¿Cuál es su altura en cm?
I Elija al azar un número entre el 1 y el 10.
I ¿Cuál es la velocidad maxima que ha manejado su auto?
I ¿Cuánto se expande su mano derecha?
I ¿Cuánto se expande su mano izquierda?
I ¿Cuál es su mayor grado obtenido en educación?

¿Cómo obtuvieron ese archivo con los datos?


Miremos los datos en R. Necesitaremos la Guı́a R.

# leer los datos: ir al directorio correcto o


# directamente importarlos desde Rstudio

datos = read.csv(’pennstate.csv’, header = TRUE,


sep = ’,’)

# con la sentencia header = T le estamos diciendo


# que los datos tienen encabezado,
# si no hacemos esto toma el encabezado como
# una linea mas de los datos
De como leer una columna (ejemplo columna Velmax)
Primera forma

datos$Velmax

Segunda forma

datos[,6]

Tercera forma

#suelta las columnas


attach(datos)

#ahora las puedo llamar con su nombre

Velmax
Miremos los datos. Necesitaremos la Guı́a R.

names(datos)

# nos da los nombres de las variables

#[1] "Sexo" "Dormida"


#[3] "SQ" "Altura"
#[5] "numeroAleatorio" "Velmax"
#[7] "amplmanoderecha" "amplmanoizquierda"
#[9] "SoQ"
Más sobre como mirar los datos. Necesitaremos la
Guı́a R.

head(datos) #miro los primeros alumnos

# Sexo Dormida SQ Altura numeroAleatorio


#1 Female 8 Q 63.5 7
#2 Female 4 Q 67.0 7
#3 Female 5 S 67.0 6
#4 Female 7 S 64.0 8
#5 Female 10 Q 70.0 6
#6 Female 7 S 66.0 4
# Velmax amplmanoderecha amplmanoizquierda SoQ
#1 30 21.0 21.0 QorS
#2 50 18.0 18.0 QorS
#3 50 21.5 21.5 QorS
#4 70 18.0 17.5 SorQ
#5 70 19.0 19.0 QorS
#6 70 20.0 21.0 SorQ
Variables

Una variable es una caracterı́stica que cambia de una persona


(o ente a estudiar) a otra dentro del marco de cualquier estudio.

Ejemplo: Censo.
I Unidad observacional o caso: personas.
I Variables: sexo, edad, número de miembros que compone
su familia, ingreso familiar, estado civil, tenencia de
empleo.
Variables

En el ejemplo del Censo tenemos diferentes tipos de variables:


edad, número de miembros que compone la familia, ingreso
familiar, que son variables que tienen valores numéricos,
mientras que sexo, estado civil, tenencia de empleo no.
I Las variables que tienen como posibles valores números
se llaman variables numéricas o cuantitativas.
I Las variables cuyos valores posibles no son números se
llamaman variables cualitativas o categóricas.
Cuidado: Podemos utilizar números sin embargo todavı́a
es una variable cualitativa.
Variables-Clasificación

I Variables cuantitativas o numéricas.


I Discretas: sus valores solo pueden diferir en una cantidad
fija. Edad (si se mide en años), cantidad de miembros en la
familia. ¿Más ejemplos?
I Continuas: toman cualquier valore en los reales o un
intervalos de los reales. Altura. Ingreso.
I Variables cualitativas o categóricas.
I Variables ordinales: tienen un orden en las categorı́as.
Ejemplo: me gusta mucho, me gusta, neutral, disgusta,
extremadamente disgustante.
I Nominales: no tienen un orden natural en las categorı́as.
¿Ejemplos que hayamos visto?
Clasificar las variables del conjunto de datos
pennstate

names(datos)

# nos da los nombres de las variables

#[1] "Sexo" "Dormida"


#[3] "SQ" "Altura"
#[5] "numeroAleatorio" "Velmax"
#[7] "amplmanoderecha" "amplmanoizquierda"
#[9] "SoQ"
¿Para qué los datos?
Para investigar, contestar preguntas, estudiar la relación entre
variables. Ejemplo de preguntas de interés en pennstate:
I ¿qué porcentaje de mujeres toman el curso de
estadı́stica? ¿Variables involucradas?
I ¿Cuál es el promedio de la velocidad máxima? ¿Variables
involucradas?
I ¿Hay más estudiantes que eligen números menores que 5
o mayores que 5? ¿Variables involucradas?
I ¿Cómo es el promedio de velocidad máxima de los
hombres comparado con el promedio de velocidad
máxima de las mujeres? ¿Variables involucradas?
I ¿Cuál es la relación entre la altura y la amplitud de la
mano derecha? ¿Variables involucradas?
I ¿Quiénes duermen más en promedio? ¿Mujeres o
hombres? ¿Variables involucradas?
I ¿Quiénes son más altos? ¿Mujeres o hombres?
¿Variables involucradas?
Variable predictora vs. respuesta

En los ejemplos de que involucramos más de una variable,


¿cuál es la variable explicativa o predictora y cuál la respuesta?

Cuando usamos una variable para ayudar a entender o


predecir otra variable, llamamos a la primera explicativa o
predictora y a la segunda variable respuesta.

¿Usar los datos para qué?: para responder una pregunta.


¿Cómo?
Muestrando desde una población y poblaciones

Población: incluye todos los individuos u objeto de interés.


¿Cómo contestamos las preguntas de interés?

Muestra: es un subconjunto de una población. ¿Cualquier


subconjunto? Pensar en las elecciones. Tamaño de la muestra:
cantidad de individuos en la muestra. Suele denotarse con n.

Inferencia estadı́stica: es el proceso de usar datos de una


muestra para ganar información sobre la población y poder
contestar las preguntas de interés. ¿Inferencia es certeza?
Ejemplo de las elecciones para intendente municipal.
gráfico y no olvidar
Ejemplo pennstate
I Las medidas estas fueron tomadas de un conjunto de una
población, esto es entonces una muestra. Cuando todos
los individuos de una población son medidos entonces los
datos son datos poblacionales.

I La diferencia es, si tenemos datos poblacionales


describimos los datos. Si tenemos un subconjunto de la
población tenemos datos muestrales y estudiamos
descripcion de los datos para luego saber que
herramientas estadı́stica usar para hacer inferencias.

I Importancia de datos muestrales vs. datos poblacionales


(alcance de cada uno de ellos). Importancia que la
muestra sea representativa de la población para hacer
inferencia. Ejemplo de elecciones municipales. Gráfico de
inferencia y de ciclo en la estadı́stica.
Si tenemos las siguientes preguntas, ¿cómo
recolectamos una muestra?

I ¿Qué porcentaje de personas se lava las manos después


de usar baños públicos?
I ¿Hay una relación entre la altura de los padres y la altura
de las madres?
I ¿Quiénes son más altos, las mujeres o los hombres?
Sesgo

El dı́a después de las elecciones presidenciales de 1948 en


estados unidos, el Chicago Tribune escribió: Gano Dewey. Sin
embargo después del recuento de los votos (era más lento ahı́)
ganó Truman. El diario saco esa información luego de hacer
una encuesta telefónica que mostraba que Dewey arrasaba.
I ¿Cuál es la muestra y cual la población?
I ¿Qué querı́an inferir a partir de la encuesta?
I ¿Por qué se equivocaron tanto?
Sesgo

El dı́a después de las elecciones presidenciales de 1948 en


estados unidos, el Chicago Tribune escribió: Gano Dewey. Sin
embargo después del recuento de los votos (era más lento ahı́)
ganó Truman. El diario saco esa información luego de hacer
una encuesta telefónica que mostraba que Dewey arrasaba.
I ¿Cuál es la muestra y cual la población?
I ¿Qué querı́an inferir a partir de la encuesta?
I ¿Por qué se equivocaron tanto?
Sesgo en la muestra: ocurre cuando el método de
seleccionar la muestra causa que la muestra sea diferente
de la población. Si existe sesgo muestral, entonces no
podemos confiar en la generalización de los resultados de la
muestra a la población.
Procedimientos de muestreo, recopilación de datos

Muestreo aleatorio simple: Tengo una población definida. El


muestreo aleatorio simple implica que cualquier miembro de la
población tiene la misma probabilidad de estar en la muestra
de tamaño n (¿cómo se hace esto?, pensar como uno
muestrea la sopa). ¿Podemos hacer siempre una muestra
aleatorio (enumerar la población)?

Diseño experimental: El diseño experimental es una técnica


estadı́stica que permite identificar y cuantificar las causas de
un efecto dentro de un estudio experimental. En un diseño
experimental se manipulan deliberadamente una o más
variables, vinculadas a las causas, para medir el efecto que
tienen en otra variable de interés. Es para estudiar
causa-efecto. ¿Ejemplos?
¿Porqué asignar unidades experimentales al azar?
I ¿Cuál es el posible impacto negativo de no asignar
aleatoriamente a las unidades experimentales a los
tratamientos o combinaciones de tratamiento? Esto se ve
más claramente en la caso de los medicamentos del
estudio. Entre las caracterı́sticas de los pacientes que
producen variabilidad en los resultados son la edad, sexo
y peso.
I Supongamos simplemente por casualidad el grupo de
placebo contiene una muestra de personas que son
predominantemente más pesado que aquellos en el grupo
de tratamiento, ¿qué pasa si el grupo tratamiento no
muestra mejorı́as? ¿a qué es debido?
I Si esto sucede, cualquier resultado obtenido a través de la
aplicación de la inferencia estadı́stica puede tener poco
que ver con la droga y más que ver con las diferencias en
el peso entre las dos muestras de los pacientes.
Tire la moneda, no crea que usted no tiene patrones

Ver Piedra papel y tijera:

http://www.nytimes.com/interactive/science/
rock-paper-scissors.html?_r=0
¿Siempre se puede muestreo simple?
Asociación-Causación.

Comencemos con dos definiciones:

Asociación: Dos variables están asociadas si el valor de una


de las variables se relaciona (conecta) con el valor de la otra.
Ejemplos: altura y peso.

Causa: Dos variables están asociadas por causalidad si el


cambio de una variable influye en el valor de la otra variable.
Ejemplos: horas de estudio y nota en un examen, ejercicio y
pérdida de peso, tomar un medicamento y la prevención de
cierta enfermedad.

¿Cuál es la diferencia?
Asociación-Causación.

I Un estudio muestra que hay una asociación negativa entre


la ansiedad de un estudiante antes de un examen y la nota
obtenida. Pero no podemos decir que la ansiedad causa
una nota más baja, podrı́a haber otras razones (el
estudiante quizá no estudió bien), entonces aquı́ la
asociación no implica causalidad.
I Hay una asociación positiva entre el número de horas que
el alumno pasa estudiando y la calificación que obtiene.
Aquı́, si hay causalidad: si el alumno pasa más tiempo
estudiando, resultará en una calificación más alta.
Diferencia entre Asociación y Causalidad. Ejemplo
1.22.
Para cada uno de las siguientes ejemplos, indique si existe
ninguna Asociación entre las variables, Asociación sin implicar
causalidad, o Asociación con causalidad. Si hay causalidad,
indicar cual variable es la explicativa y cual la respuesta.
1. Los estudios muestran que tomar un examen de práctica
aumenta su puntuación en un examen.
Diferencia entre Asociación y Causalidad. Ejemplo
1.22.
Para cada uno de las siguientes ejemplos, indique si existe
ninguna Asociación entre las variables, Asociación sin implicar
causalidad, o Asociación con causalidad. Si hay causalidad,
indicar cual variable es la explicativa y cual la respuesta.
1. Los estudios muestran que tomar un examen de práctica
aumenta su puntuación en un examen. Causa.
Diferencia entre Asociación y Causalidad. Ejemplo
1.22.
Para cada uno de las siguientes ejemplos, indique si existe
ninguna Asociación entre las variables, Asociación sin implicar
causalidad, o Asociación con causalidad. Si hay causalidad,
indicar cual variable es la explicativa y cual la respuesta.
1. Los estudios muestran que tomar un examen de práctica
aumenta su puntuación en un examen. Causa.
2. Las familias con muchos coches tienden a tener muchos
televisores.
Diferencia entre Asociación y Causalidad. Ejemplo
1.22.
Para cada uno de las siguientes ejemplos, indique si existe
ninguna Asociación entre las variables, Asociación sin implicar
causalidad, o Asociación con causalidad. Si hay causalidad,
indicar cual variable es la explicativa y cual la respuesta.
1. Los estudios muestran que tomar un examen de práctica
aumenta su puntuación en un examen. Causa.
2. Las familias con muchos coches tienden a tener muchos
televisores. Asociación.
Diferencia entre Asociación y Causalidad. Ejemplo
1.22.
Para cada uno de las siguientes ejemplos, indique si existe
ninguna Asociación entre las variables, Asociación sin implicar
causalidad, o Asociación con causalidad. Si hay causalidad,
indicar cual variable es la explicativa y cual la respuesta.
1. Los estudios muestran que tomar un examen de práctica
aumenta su puntuación en un examen. Causa.
2. Las familias con muchos coches tienden a tener muchos
televisores. Asociación.
3. Las ventas son las mismas, incluso con diferentes niveles
de gasto en publicidad.
Diferencia entre Asociación y Causalidad. Ejemplo
1.22.
Para cada uno de las siguientes ejemplos, indique si existe
ninguna Asociación entre las variables, Asociación sin implicar
causalidad, o Asociación con causalidad. Si hay causalidad,
indicar cual variable es la explicativa y cual la respuesta.
1. Los estudios muestran que tomar un examen de práctica
aumenta su puntuación en un examen. Causa.
2. Las familias con muchos coches tienden a tener muchos
televisores. Asociación.
3. Las ventas son las mismas, incluso con diferentes niveles
de gasto en publicidad. No asociación.
Diferencia entre Asociación y Causalidad. Ejemplo
1.22.
Para cada uno de las siguientes ejemplos, indique si existe
ninguna Asociación entre las variables, Asociación sin implicar
causalidad, o Asociación con causalidad. Si hay causalidad,
indicar cual variable es la explicativa y cual la respuesta.
1. Los estudios muestran que tomar un examen de práctica
aumenta su puntuación en un examen. Causa.
2. Las familias con muchos coches tienden a tener muchos
televisores. Asociación.
3. Las ventas son las mismas, incluso con diferentes niveles
de gasto en publicidad. No asociación.
4. Tomar una dosis baja de aspirina al dı́a reduce el riesgo
de ataques al corazón.
Diferencia entre Asociación y Causalidad. Ejemplo
1.22.
Para cada uno de las siguientes ejemplos, indique si existe
ninguna Asociación entre las variables, Asociación sin implicar
causalidad, o Asociación con causalidad. Si hay causalidad,
indicar cual variable es la explicativa y cual la respuesta.
1. Los estudios muestran que tomar un examen de práctica
aumenta su puntuación en un examen. Causa.
2. Las familias con muchos coches tienden a tener muchos
televisores. Asociación.
3. Las ventas son las mismas, incluso con diferentes niveles
de gasto en publicidad. No asociación.
4. Tomar una dosis baja de aspirina al dı́a reduce el riesgo
de ataques al corazón. Causa.
Diferencia entre Asociación y Causalidad. Ejemplo
1.22.
Para cada uno de las siguientes ejemplos, indique si existe
ninguna Asociación entre las variables, Asociación sin implicar
causalidad, o Asociación con causalidad. Si hay causalidad,
indicar cual variable es la explicativa y cual la respuesta.
1. Los estudios muestran que tomar un examen de práctica
aumenta su puntuación en un examen. Causa.
2. Las familias con muchos coches tienden a tener muchos
televisores. Asociación.
3. Las ventas son las mismas, incluso con diferentes niveles
de gasto en publicidad. No asociación.
4. Tomar una dosis baja de aspirina al dı́a reduce el riesgo
de ataques al corazón. Causa.
5. Los peces que viven en grandes estanques son
generalmente más grandes que aquellos que viven en
pequeños estanques.
Diferencia entre Asociación y Causalidad. Ejemplo
1.22.
Para cada uno de las siguientes ejemplos, indique si existe
ninguna Asociación entre las variables, Asociación sin implicar
causalidad, o Asociación con causalidad. Si hay causalidad,
indicar cual variable es la explicativa y cual la respuesta.
1. Los estudios muestran que tomar un examen de práctica
aumenta su puntuación en un examen. Causa.
2. Las familias con muchos coches tienden a tener muchos
televisores. Asociación.
3. Las ventas son las mismas, incluso con diferentes niveles
de gasto en publicidad. No asociación.
4. Tomar una dosis baja de aspirina al dı́a reduce el riesgo
de ataques al corazón. Causa.
5. Los peces que viven en grandes estanques son
generalmente más grandes que aquellos que viven en
pequeños estanques. Asociación.
Diferencia entre Asociación y Causalidad. Ejemplo
1.22.
Para cada uno de las siguientes ejemplos, indique si existe
ninguna Asociación entre las variables, Asociación sin implicar
causalidad, o Asociación con causalidad. Si hay causalidad,
indicar cual variable es la explicativa y cual la respuesta.
1. Los estudios muestran que tomar un examen de práctica
aumenta su puntuación en un examen. Causa.
2. Las familias con muchos coches tienden a tener muchos
televisores. Asociación.
3. Las ventas son las mismas, incluso con diferentes niveles
de gasto en publicidad. No asociación.
4. Tomar una dosis baja de aspirina al dı́a reduce el riesgo
de ataques al corazón. Causa.
5. Los peces que viven en grandes estanques son
generalmente más grandes que aquellos que viven en
pequeños estanques. Asociación.
Variables confundidas

La correlación y la causalidad están estrechamente


relacionadas con las variables de confusión:

Una variable confundida, es una tercera variable que


esta asociada con la variable predictora y la respuesta.
Una variable confundida puede ofrecer una explicación
posible para la asociación entre dos variables de interés.

Ejemplo: Venta helados-muertos ahogados.


¿Causa o no causa?

¿Cuándo podemos establecer estadı́sticamente que una


asociación representa una relación causal?

La clave esta en como recolectamos los datos.

Si queremos estudiar como la variable predictora influye en la


variable respuesta, tenemos que ser capaces de establecer y
controlar los valores de la variable predictora para estar seguro
que no esta asociada con ninguna potencial variable de
confusion. OJO: manipulamos las variables predictoras.

Esto son los diseños de experimentos. Pero podemos siempre


hacer diseño de experimentos? NO. ¿EJEMPLO?
Estudios observacionales

Cuando los datos están dados y no hemos realizado un


experimento controlado.

I Ejemplo: entre fumadores y no fumadores estudiamos


cuantos tuvieron cancer y cuantos no. ¿Podı́amos hacer
un análisis de experimento?

Escuchar a Hans Rosling sobre correlación.

I Cuando entre los estudiantes que decidieron estudiar las


diferentes ingenierı́as vemos cuales son más altos.
¿Podrı́amos hacer un análisis de experimento?
Leer articulo paraninfo.
Estudios observacionales vs. diseño de experimentos
I Supongamos que la calidad de un proceso dependa de las
condiciones del proceso, temperatura, humedad, cantidad
de un ingrediente particular, y ası́ sucesivamente.
Entonces estos factores se pueden mover de forma
sistemática en diferentes niveles y ver luego como es la
respuesta calidad para cada nivel. A esto se lo llama un
diseño experimental.
I Un cientı́fico forestal que está interésado en un estudio de
los factores que influyen en la densidad de la madera en
un cierto tipo de árbol no puede necesariamente diseñar
un experimento. Este caso puede requerir un estudio
observacional en el que se recogen datos en el campo,
pero los niveles de factor no puede ser preseleccionada.
Diseños de experimentos y Estudios observacionales
se prestan a los métodos de inferencia estadı́stica.

Diseños de experimentos: la calidad de las inferencias


dependerá de una planificación adecuada del experimento.
Estudio observacional: El cientı́fico está a merced de lo que
pueda ser recogida. Por ejemplo, es triste que un ingeniero
agrónomo está interésado en estudiar el efecto de las lluvias el
rendimiento de la planta y los datos se reunieron durante una
sequı́a.

Hacer especial énfasis en la diferencia entre diseños y


estudios observacionales e inferencias. Ejemplo de
estudios observacionales donde se puede estudiar solo
relación y no causa consecuencia, vs diseños. Fabricar
ejemplos en la clase sobre el problema
Resúmenes numéricos y gráficos. ¿Cuándo?
SIEMPRE

I Hay momentos en que un cientı́fico sólo desea obtener


algún tipo de resumen de un conjunto de datos
representados en la muestra. O se tiene los datos de toda
la población y no necesitamos hacer inferencia (contestar
a una pregunta) (¿Ejemplo?) .

I O se quiere hacer inferencia (contestar una pregunta) pero


antes es necesario ver qué nos dicen los datos. Esto se
llama Análisis exploratorio de datos.
Gráficos

Análisis exploratorio de datos consiste en resumen


numérico y gráfico de los datos. Estos números y gráficos
nos dan una sensación de donde estan centrados los
datos, la variabilidad de ellos, la naturaleza de la
distribución de los datos. Esto se llama estadı́stica
descriptiva, y deberı́an mostrar la huella de la naturaleza
de la muestra.

A veces también se realizan gráficos luego de hacer el


análisis estadı́stico de los datos y son para mostrar a la
comunidad cientı́fica o a la población en general
información.
Objetivos de los gráficos y resúmenes estadı́sticos

I Análisis exploratorio de datos (EDA) es un enfoque para el


análisis de conjuntos de datos para resumir sus
principales caracterı́sticas y entender la forma, a menudo
con gráficos visuales, sin necesidad de utilizar un modelo
estadı́stico o haber formulado con anticipación una
hipótesis. El análisis exploratorio de datos fue promovida
por John Tukey para alentar a los estadı́sticos y cientı́ficos
a examinar visualmente sus conjuntos de datos, formular
hipótesis que pueden ser luego probadas con
herramientas estadı́sticas. SIEMPRE HACERLO.
I Luego de realizar la inferencia estadı́stica, se debe
presentar los datos de manera adecuada y resumida
mediante tablas y gráficos. SIEMPRE HACERLO.
Objetivos gráficos
I El educacional o comunicacional a traves de resúmenes y
gráficos. Este podemos decir que comenzo el filosofo Otto
Neurath en 1930 con el ISOTYPE.

I Puede reconocerse un resurgimiento en divulgadores


como Edward Tufte, Hans Rosling, Yuri Engelhardt que
trabajan en disciplinas conocidas actualmente como
infographics, visual analytics, data visualization,
information design.

I Los trabajos y programas surgidos de estas propuestas


comparten el espı́ritu de lenguaje universal y revelador
que puede adquirir la popularización del conocimiento
para un desarrollo social progresivo.
Ver ilustracion de un Isotype de 1930, ver video de Hans
Rosling: the joy of statistics de 2009. Videito de infographics
(como contar algo sin palabras). Podremos hacerlo?
Análisis exploratorio de datos.

El análisis exploratorio de datos (AED) es:

I Organización, sı́ntesis y presentación de datos y ver las


posibles respuestas a las preguntas.
I Trabajo de detective. Formular nuevas hipótesis.
I No puede ser visto como el total de la historia cuando
tengo una muestra o un subconjunto de la población, pero
es el primer paso (y no menor).
Más sobre AED

El AED se basa fundamentalmente en las siguientes


estrategias:

I Hacer cuadros de resumenes numéricos de cada


variables.
I Graficar cada variable.
I Examinar cada variable de forma independiente. Luego,
pasar al estudio de las relaciónes entre las variables.
Más sobre AED

El AED se basa fundamentalmente en las siguientes


estrategias:

I Hacer cuadros de resumenes numéricos de cada


variables.
I Graficar cada variable.
I Examinar cada variable de forma independiente. Luego,
pasar al estudio de las relaciónes entre las variables.

¿Qué hay después del análisis exploratorio


de datos?: La inferencia estadı́stica. Y luego
vuelta a los gráficos para presentar los
resultados.
ANALISIS EXPLORATORIO DE DATOS

Depende como sea la pregunta de interés que tipo de variable


tenemos que estudiar para tratar de contestar a la pregunta.

Antes de contestar estadı́sticamente a esta pregunta haremos


resúmenes numéricos y gráficos que nos ayuden a contestar
exploratoriamente la pregunta de interés. Estos resúmenes
numéricos y gráficos dependen de la naturaleza de la/s
variable/s de interés.

Esto es lo que estudiaremos a continuación.


Una variable cualitativa: resumenes numéricos

Tomaremos primero la variable: Letra elegida al azar: Miremos


los datos crudos:

QQSSQSQSQSQSSQSSQQSSSSSSSQSQQSQ
QSQSSSQSSQSSSQQSQQQQSSSSQQQSQQQ
QSQSSQSQQQQQSSSQQQSSSSSQQQSSSSS
QQSQQSSSQSQQSQQQSQQSSSQSSQQQSSS
SSQSQQSSSSSQQQSSSSSSSSQSSSSSSSQQ
SSQSQQSQSQQSQQQSSQSSQQQSQSSQSQS
SSS

Pregunta: ¿se elige más la Q o la S?


Una variable cualitativa: resumenes numéricos

Letra elegida al azar.


I ¿Cómo resumimos estos datos? Hacemos lo que se llama
tabla de frecuencia.
I Frecuencia es la cantidad de observaciones que caen en
cada categorı́a. ¿Cómo hago a mano con la variable letra
elegida al azar?
I Frecuencia relativa es el porcentaje de observaciones que
caen en cada categorı́a. ¿Cómo hago a mano con la
variable letra elegida al azar?

Una distribución de frecuencias relativas es una lista de todas


las categorı́as con sus frecuencias relativas.
Distribución de frecuencias absolutas

Datos pennstate.txt. Variable: letra elegida al azar entre Q y S:

#frecuencia absoluta

table(SQ)
# Q S
# 84 106

#frecuencia relativa

prop.table(table(SQ))
# Q S
#0.4421053 0.5578947
library(descr) #hace tablas
CrossTable(SQ)

#hace frecuencia absoluta y frecuencia relativa

# Cell Contents
#|-------------------------|
#| N |
#| N / Row Total |
#|-------------------------|
#
#| Q | S |
#|---------|---------|
#| 84 | 106 |
#| 0.442 | 0.558 |
#|---------|---------|
Una variable cualitativa: resumenes gráficos

I Diagrama de torta. Útil cuando no hay muchas categorı́as


o cuando se quieren comparar varias categorı́as entre si.
pie en R

I Diagrama de barra. Útil cuando se tiene una o más


variables categóricas o cuando se tienen dos variables
categóricas que se desea comparar.
barplot en R
Diagrama de torta para la variable SQ

pie(table(SQ))
#diagrama de torta de frecuencias absolutas
title("que letra se elige mas?" )

Que letra se elige mas?

S
Diagrama de torta para la variable SQ
pie(prop.table(table(SQ)))
#diagrama de torta de frecuencias relativas
title("que letra se elige mas?" )

Que letra se elige mas?

S
Diagrama de barra para la variable SQ
barplot(table(SQ))
#diagrama de barra de frecuencias absolutas
title("que letra se elige mas?" )

Que letra se elige mas?


100
80
60
40
20
0

Q S
Diagrama de barra para la variable SQ
barplot(prop.table(table(SQ)))
#diagrama de barra de frecuencias relativas
title("que letra se elige mas?" )

Que letra se elige mas?


0.5
0.4
0.3
0.2
0.1
0.0

Q S
¿Relativa o absoluta?

¿Qué usamos, frecuencias absolutas o


relativas?
¿Relativa o absoluta?

¿Qué usamos, frecuencias absolutas o


relativas?

RESPUESTA CORRECTA: RELATIVAS


Más categorı́as.

Datos de cinturón de seguridad para chicos de 2 años:

Respuesta Cantidad Porcentaje


Siempre 1686 55.4%
Casi siempre 578 19.0%
A veces 414 13.6%
Raramente 249 8.2%
Nunca 115 3.8%
TOTAL 3042 100 %

¿Cuáles son los datos crudos? ¿Resumen numérico? ¿Tabla


de frecuencia? ¿Qué nos dieron?
Más categorı́as.

Datos de cinturón de seguridad para chicos de 2 años:

Respuesta Cantidad Porcentaje


Siempre 1686 55.4%
Casi siempre 578 19.0%
A veces 414 13.6%
Raramente 249 8.2%
Nunca 115 3.8%
TOTAL 3042 100 %

¿Cuáles son los datos crudos? ¿Resumen numérico? ¿Tabla


de frecuencia? ¿Qué nos dieron?

A partir de estos porcentajes haremos un diagrama de torta y


el diagrama de barras usando R tratando de contestar a la
pregunta: ¿cuánto se usa el cinturón de seguridad?
Diagrama de torta para cinturón

M = c(1686,578,414,249,115)
pie(M, labels = c(’Siempre’, ’Casi siempre’,
’A veces’, ’Raramente’, ’Nunca’))

Siempre

Nunca
Raramente
Casi siempre A veces

¿Qué vemos?
Diagrama de torta para cinturón
Otra forma:

M = c(1686,578,414,249,115)
names(M) = c(’Siempre’, ’Casi siempre’,
’A veces’, ’Raramente’, ’Nunca’)
pie(M)

Siempre

Nunca
Raramente
Casi siempre A veces
Diagrama de barra para cinturón

barplot(prop.table(M), names.arg=c(’Siempre’,
’Casi siempre’, ’A veces’, ’Raramente’, ’Nunca’))
title("Cuanto usa el cinturon?")

Cuanto usa el cinturon?


0.4
0.2
0.0

Siempre A veces Raramente Nunca

¿Qué se ve? ¿Cuál parece más informativo?


Diagrama de barra apilado para cinturón
M = matrix(c(1686,578,414,249,115), ncol = 1)
names(M) = c(’Siempre’, ’Casi siempre’, ’A veces’,
’Raramente’, ’Nunca’)
barplot(prop.table(M)) #diagrama de barra apilado
title("Cuanto usa el cinturon?")

Cuanto usa el cinturon?


1.0
0.8
0.6
0.4
0.2
0.0
Una variable cualitativa: resumen

Si la variable de interés es cualitativa:

Resumen numérico: Tabla de frecuencias relativas por


categorı́as.

Resumen gráfico: Gráfico de torta o barras.


Dos variables cualitativas: resúmenes numéricos y
gráficos

¿Qué pasa ahora si además tenemos el género de los


estudiantes?
¿Qué otra información podemos extraer? Es cierto el
estereotipo: los hombres son más propensos a tener
comportamientos riesgosos que las mujeres?
Resumir y mostrar datos resultantes de medir dos variables
categóricas es fácil: simplemente se debe contar el número de
individuos que hay en cada combinación de categorı́as y
presentar la tabla con el conteo. Tal representación es llamada
tabla de contingencia porque consideran todas las
combinaciones de las dos variables. Cada combinación de fila
y columna es llamada una celda.
Más sobre el cinturón de seguridad

Algunas veces una de las variables es la variable explicativa y


la otra variable es la respuesta (no siempre). En estos casos
es la convención de poner la explicativa en las filas y la
respuesta en las columnas.

Es importante la distinción porque en general queremos saber


que porcentaje de la respuesta (si o no) cae en cada nivel de la
variable categórica.
Más sobre el cinturón de seguridad

Siempre Casi siempre A veces Raramente Nunca Total


Mujer 915 276 167 84 25 1467
(62.4 %) (18.8%) (11.4%) (5.7 %) (1.7%) (100 %)
Hombre 771 302 247 165 90 1575
(49.0 %) (19.2%) (15.7%) (10.5 %) (5.7%) (100 %)
Total 1686 578 414 249 115
(100 %) (100%) (100%) (100 %) (100%)

¿Qué suma 100%? ¿PORQUÉ?

¿Podemos de esta tabla inferir algo? ¿Cómo representamos


gráficamente a estos datos?
Más sobre el cinturón de seguridad

Diagrama adosado: Son usados para presentar datos para


dos variables categóricas.
Importante: elegimos en el eje horizontal poner para cada
grupo cuánto usa el cinturón (¿nuestra variable respuesta?) y
en el eje vertical los porcentajes en lugar de cantidades (muy
muy importante, ¿porqué?)

Dos diagramas de torta: ¿Sirve?


Diagrama de barra adosado. R

## ejemplo de dos variables cualitativas

A=matrix(c(915,276,167,84,25,771,302,247,165,90),
ncol=5, byrow=TRUE)
B=prop.table(A, 1)

barplot(B,beside=TRUE,xlab=c("cuantas veces
usan el cinturon"),
legend=c("mujeres","hombres"),
names.arg=c("Siempre", "casi siembre", "a veces",
"raramente","Nunca"))
title("Quien usa mas el cinturon? las mujeres o
los hombres?")
Diagrama de barra adosado. R

Otra forma:

## ejemplo de dos variables cualitativas

A=matrix(c(915,276,167,84,25,771,302,247,165,90),
ncol=5, byrow=TRUE, dimnames =
list(c(’Mujeres’, ’Hombres’),c(’Siempre’,
’Casi siempre’, ’A veces’, ’Raramente’, ’Nunca’)))
B=prop.table(A, 1)

barplot(B, beside=TRUE, col = c(1,2))


legend(’topright’,legend=c(’Mujeres’,’Hombres’),fill=c(1
title("Quien usa mas el cinturon? las mujeres o
los hombres?")
Diagrama de barra adosado.

Quien usa mas el cinturon? las mujeres o


los hombres?
0.6
mujeres
hombres
0.4
0.2
0.0

Siempre casi siembre a veces raramente Nunca


cuantas veces
usan el cinturon

¿Quién suma 100%?


Dos diagramas de torta. R

## ejemplo de dos variables cualitativas

A=matrix(c(915,276,167,84,25,771,302,247,165,90),
ncol=5,byrow=TRUE)
B=prop.table(A, 1)

par(mfrow = c(1,2))
B1 = B[1,]
names(B1) = c(’Siempre’, ’Casi siempre’, ’A veces’,
pie(B1, main = ’Mujeres’)
B2 = B[2,]
names(B2) = c(’Siempre’, ’Casi siempre’, ’A veces’,
pie(B2, main = ’Hombres’)
Dos diagramas de torta

Mujeres Hombres

Siempre Siempre

Nunca
Nunca
Raramente
Casi siempre
A veces Raramente
Casi siempre A veces

¿Sirve? ¿Cuál parece mejor? ¿Qué podemos decir?

¿Quién suma 100%?


Ejercicio extra para practicar

En el entorno encontrarán un archivo llamado


lomasdificildelprimerparcial.pdf

Serı́a bueno que lo resuelvan ya que es lo que más cuesta en


el parcial.
Dos variables cualitativas: resumen

Si las variables de interés son dos cualitativas y una es variable


respuesta y la otra predictora.

Resumen numérico: Tabla de frecuencias relativas por cada


categorı́a de la variable predictora.

Resumen gráfico: gráfico de torta o barras por cada categorı́a


de la variable predictora.
Una variable cuantitativa: resúmenes numéricos
Para comenzar a describir a los datos a partir de un resumen
numérico necesitamos una medida de centro.
Una variable cuantitativa: resúmenes numéricos
Para comenzar a describir a los datos a partir de un resumen
numérico necesitamos una medida de centro.
I MEDIA muestral (de datos), dada las observaciones
x1 , . . . , xn la media muestra es
n
1X x1 + · · · + xn
x̄ = xi =
n n
i=1
Una variable cuantitativa: resúmenes numéricos
Para comenzar a describir a los datos a partir de un resumen
numérico necesitamos una medida de centro.
I MEDIA muestral (de datos), dada las observaciones
x1 , . . . , xn la media muestra es
n
1X x1 + · · · + xn
x̄ = xi =
n n
i=1
I MEDIANA muestral (de DATOS), dada las observaciones
x1 , . . . , xn la mediana muestral se obtiene de la siguiente
manera: Ordene los datos de menor a mayor x(1) , . . . , x(n) ,

mediana(x) = x(n+1)/2 si n es impar y


1 
mediana(x) = xn/2 + xn/2+1 si n es par
2
Calculando medias y medianas

Tenemos el siguiente conjunto de datos.

x = c(.26,.43,.47,.49,.52,.75,.79,.86,.62,.46)

Grafiquemos los datos. Calculemos su media y mediana (a


mano y en la compu).
Calculando medias y medianas

Tenemos el siguiente conjunto de datos.

x = c(.26,.43,.47,.49,.52,.75,.79,.86,.62,.46)

Grafiquemos los datos. Calculemos su media y mediana (a


mano y en la compu).

Calculamos con la compu:

> mean(x)
[1] 0.565
> median(x)
[1] 0.505
Otra medida de centralidad

Media recortada: Es la media que se obtiene quitando cierto


porcentaje de los valores (extremos) mayores y menores del
conjunto. Hagámoslo en el caso anterior a mano.
En la compu:
help(mean)

mean {base} R Documentation


Arithmetic Mean
Description
Generic function for the (trimmed) arithmetic mean.
Usage
mean(x, ...)
## Default S3 method:
mean(x, trim = 0, na.rm = FALSE, ...)
Arguments
x An R object.

trim
the fraction (0 to 0.5) of observations to be
trimmed from each end of x before the mean
is computed. Values of trim outside that range
are taken as the nearest endpoint.
Calculamos en la compu

mean(x, trim = .1)

[1] 0.56625
Calculamos en la compu

mean(x, trim = .1)

[1] 0.56625

¿Cuál de todas las medidas de centralidad será mejor?


¿Porqué?
Una variable cuantitativa: resúmenes numéricos
Para terminar de describir a los datos, ahora que ya tenemos
medias de centro necesitamos medidas de variabilidad o
dispersión (¿qué es la variabilidad de los datos?)

Miremos este ejemplo:

¿Hay diferencias entre el conjunto de datos A y B?


Una variable cuantitativa: resúmenes numéricos
Para terminar de describir a los datos, ahora que ya tenemos
medias de centro necesitamos medidas de variabilidad o
dispersión (¿qué es la variabilidad de los datos?)

Miremos este ejemplo:

¿Hay diferencias entre el conjunto de datos A y B?


En los dos casos las medias son iguales pero uno tiene una
sensación visual de que los casos son diferentes... ¿porqué?
Varianza muestral y desviación estándar muestral

I Varianza muestral:
n
2 1 X
sn−1 = (xi − x̄)2
n−1
i=1
I Desviación estándar:
q
sn−1 = 2
sn−1
I Rango: xmax − xmin .
Preguntas

I Si multiplico toda la muestra por 2, que pasa con la media,


la varianza y la desviación estándar y el rango?
Preguntas

I Si multiplico toda la muestra por 2, que pasa con la media,


la varianza y la desviación estándar y el rango?

I Supongamos que las medidas están dadas en metros,


¿cuál es la unidad para s2 ? ¿y para s?
Preguntas

I Si multiplico toda la muestra por 2, que pasa con la media,


la varianza y la desviación estándar y el rango?

I Supongamos que las medidas están dadas en metros,


¿cuál es la unidad para s2 ? ¿y para s?

I ¿Qué medida de la variabilidad es más importante?


Preguntas

I Si multiplico toda la muestra por 2, que pasa con la media,


la varianza y la desviación estándar y el rango?

I Supongamos que las medidas están dadas en metros,


¿cuál es la unidad para s2 ? ¿y para s?

I ¿Qué medida de la variabilidad es más importante?


I El rango de la muestra tiene aplicaciones en el ámbito del
control de calidad.
I La varianza y desviación estándar reflejan el mismo
concepto en la medición de la variabilidad, pero las
unidades son diferentes. ¿Cuál usar?
Una variable cuantitativa: resúmenes numéricos
Para estudiar más resumenes numéricos podemos ordenar los
datos aunque... aún ordenándolos es difı́cil calcular algunas
medidas resumenes:

Velmax[order(Velmax)]
# [1] 30 50 50 55 60 70 70 70 70 75 75
# [12] 75 75 75 75 75 75 75 80 80 80 80
# [23] 80 80 80 80 80 80 80 80 80 80 80
# [34] 80 80 80 80 80 80 82 83 85 85 85
# [45] 85 85 85 85 85 85 85 85 85 85 85
# [56] 85 85 85 85 87 88 90 90 90 90 90
# [67] 90 90 90 90 90 90 90 90 90 90 90
# [78] 90 90 90 90 90 90 90 90 92 94 95
# [89] 95 95 95 95 95 95 95 95 95 95 95
# [100] 95 95 100 100 100 100 100 100 100 100 100
# [111] 100 100 100 100 100 100 100 100 100 101 102
# [122] 102 105 105 105 105 105 105 105 105 105 105
# [133] 109 110 110 110 110 110 110 110 110 110 110
# [144] 110 110 110 110 110 110 110 110 110 110 110
# [155] 112 115 115 115 115 115 115 120 120 120 120
# [166] 120 120 120 120 120 120 120 120 124 125 125
# [177] 125 125 125 125 130 130 130 140 140 140 140
# [188] 145 150 NaN
Una variable cuantitativa: resúmenes numéricos
Para estudiar más resumenes numéricos podemos ordenar los
datos aunque... aún ordenándolos es difı́cil calcular algunas
medidas resumenes:

Velmax[order(Velmax)]
# [1] 30 50 50 55 60 70 70 70 70 75 75
# [12] 75 75 75 75 75 75 75 80 80 80 80
# [23] 80 80 80 80 80 80 80 80 80 80 80
# [34] 80 80 80 80 80 80 82 83 85 85 85
# [45] 85 85 85 85 85 85 85 85 85 85 85
# [56] 85 85 85 85 87 88 90 90 90 90 90
# [67] 90 90 90 90 90 90 90 90 90 90 90
# [78] 90 90 90 90 90 90 90 90 92 94 95
# [89] 95 95 95 95 95 95 95 95 95 95 95
# [100] 95 95 100 100 100 100 100 100 100 100 100
# [111] 100 100 100 100 100 100 100 100 100 101 102
# [122] 102 105 105 105 105 105 105 105 105 105 105
# [133] 109 110 110 110 110 110 110 110 110 110 110
# [144] 110 110 110 110 110 110 110 110 110 110 110
# [155] 112 115 115 115 115 115 115 120 120 120 120
# [166] 120 120 120 120 120 120 120 120 124 125 125
# [177] 125 125 125 125 130 130 130 140 140 140 140
# [188] 145 150 NaN

¿Qué podemos decir?


Una variable cuantitativa: resúmenes numéricos
I Mı́nimo
min(VelMax)
#[1] NaN
min(Velmax, na.rm = T)
#[1] 30
I Máximo
max(Velmax, na.rm = T)
#[1] 150
I Rango
range(Velmax, na.rm = T)
#[1] 30 150
I Mediana
median(Velmax, na.rm = T)
#[1] 95
Una variable cuantitativa: resúmenes numéricos
Más números importantes:
I Primer cuartil o cuartil inferior: Percentil 25: Es el número
tal que un cuarto de los datos quedan a la izquierda de el
y (por lo tanto) tres cuartos de los datos quedan a la
derecha. quantile
I Tercer cuartil o cuartil superior. Percentil 75: Es el
número tal que tres cuarto de los datos quedan a la
izquierda de el y (por lo tanto) un cuarto de los datos
quedan a la derecha. quantile
I Rango intercuartı́lico: cuartil superior menos cuartil
inferior. El rango intercuartı́lico mide la variabilidad del
50% central de los datos. ¿Porqué? Casos extremos:
todos iguales, todos muy dispersos.
I ¿A qué cuartil corresponde con la mediana?
Los cinco números en R

quantile(Velmax, probs = c(.25,.5,.75), na.rm = T)


# calcula los quantiles con las probas dadas

# 25% 50% 75%


# 85 95 110

fivenum(Velmax)
# calcula minimo, primer cuantil, mediana,
# tercer quantil, maximo

#[1] 30 85 95 110 150

Escribir en el pizarrón toda esta información para


velocidad máxima e interpretarla.
Una variable cuantitativa: resúmenes gráficos
Diagrama de caja (boxplot): Hagamos el boxplot para
Velmax en el pizzarrón:
Una variable cuantitativa: resúmenes gráficos
Diagrama de caja (boxplot): Hagamos el boxplot para
Velmax en el pizzarrón:
I Poner en el eje vertical el mı́nimo y el máximo de los
valores.
Una variable cuantitativa: resúmenes gráficos
Diagrama de caja (boxplot): Hagamos el boxplot para
Velmax en el pizzarrón:
I Poner en el eje vertical el mı́nimo y el máximo de los
valores.
I Dibujar una rectángulo que tenga como base el cuartil
inferior y como tapa el cuartil superior.
Una variable cuantitativa: resúmenes gráficos
Diagrama de caja (boxplot): Hagamos el boxplot para
Velmax en el pizzarrón:
I Poner en el eje vertical el mı́nimo y el máximo de los
valores.
I Dibujar una rectángulo que tenga como base el cuartil
inferior y como tapa el cuartil superior.
I Dibujar una line horizontal en la mediana.
Una variable cuantitativa: resúmenes gráficos
Diagrama de caja (boxplot): Hagamos el boxplot para
Velmax en el pizzarrón:
I Poner en el eje vertical el mı́nimo y el máximo de los
valores.
I Dibujar una rectángulo que tenga como base el cuartil
inferior y como tapa el cuartil superior.
I Dibujar una line horizontal en la mediana.
I Calcular el rango intercuartil (IQR).
Una variable cuantitativa: resúmenes gráficos
Diagrama de caja (boxplot): Hagamos el boxplot para
Velmax en el pizzarrón:
I Poner en el eje vertical el mı́nimo y el máximo de los
valores.
I Dibujar una rectángulo que tenga como base el cuartil
inferior y como tapa el cuartil superior.
I Dibujar una line horizontal en la mediana.
I Calcular el rango intercuartil (IQR).
I Dibujar una linea que vaya desde el cuartil inferior (Q1 )
hasta el menor valor numérico (en los datos) que sea
mayor que Q1 − 1.5 ∗ IQR.
Una variable cuantitativa: resúmenes gráficos
Diagrama de caja (boxplot): Hagamos el boxplot para
Velmax en el pizzarrón:
I Poner en el eje vertical el mı́nimo y el máximo de los
valores.
I Dibujar una rectángulo que tenga como base el cuartil
inferior y como tapa el cuartil superior.
I Dibujar una line horizontal en la mediana.
I Calcular el rango intercuartil (IQR).
I Dibujar una linea que vaya desde el cuartil inferior (Q1 )
hasta el menor valor numérico (en los datos) que sea
mayor que Q1 − 1.5 ∗ IQR.
I Dibujar una linea que vaya desde el cuartil superior (Q3 )
hasta el mayor valor en los datos que sea menor que
Q3 + 1.5 ∗ IQR.
Una variable cuantitativa: resúmenes gráficos
Diagrama de caja (boxplot): Hagamos el boxplot para
Velmax en el pizzarrón:
I Poner en el eje vertical el mı́nimo y el máximo de los
valores.
I Dibujar una rectángulo que tenga como base el cuartil
inferior y como tapa el cuartil superior.
I Dibujar una line horizontal en la mediana.
I Calcular el rango intercuartil (IQR).
I Dibujar una linea que vaya desde el cuartil inferior (Q1 )
hasta el menor valor numérico (en los datos) que sea
mayor que Q1 − 1.5 ∗ IQR.
I Dibujar una linea que vaya desde el cuartil superior (Q3 )
hasta el mayor valor en los datos que sea menor que
Q3 + 1.5 ∗ IQR.
I Todos los datos menores que Q1 − 1.5IQR o mayores que
Q3 + 1.5IQR marcarlos con un asterisco y considerarlos
datos atı́picos.
Una variable cuantitativa: resúmenes gráficos
Diagrama de caja (boxplot):

boxplot(Velmax)
title(’Boxplot de la variable velocidad maxima’)

Boxplot de la variable velocidad maxima

140
120
100
80
60
40
Una variable cuantitativa: resúmenes gráficos
Diagrama de caja (boxplot):

boxplot(Velmax)
title(’Boxplot de la variable velocidad maxima’)

Boxplot de la variable velocidad maxima

140
120
100
80
60
40

¿Qué tipo de estructuras podemos ver con el boxplot?:


Una variable cuantitativa: resúmenes gráficos
Diagrama de caja (boxplot):

boxplot(Velmax)
title(’Boxplot de la variable velocidad maxima’)

Boxplot de la variable velocidad maxima

140
120
100
80
60
40

¿Qué tipo de estructuras podemos ver con el boxplot?:


Simetrı́a y variabilidad.
Ejemplo 2.27

Una de las variables cuantitativas en el conjunto de datos es


USstates es Smokes que es el porcentaje de la población que
fuma para cada uno de los estados:
I Hacer un diagrama de cajas.
I Discutir qué nos dice este diagrama de cajas sobre la
distribución de la variable Smokes.
I Dar el resumen numérico que incluye 5 números.
Ejemplo 2.28

Una de las variables cuantitativas en el conjunto de datos


HollywoodMovies2011 es Budget que da el presupuesto (en
millones de dólares) de cada pelı́cula:
I Hacer un diagrama de caja de dicha variable.
I ¿A qué pelı́cula corresponde el mayor valor extremo?
I ¿Cuál fue el presupuesto para hacer Harry Potter y las
Reliquias de la Muerte, Parte 2? es un valor extremo?
Datos atı́picos

Hay que prestar mucha atención a los datos atı́picos ya que


pueden tener mucha influencia en las conclusiones que se
realizan (recordar volver cuando estudiemos la media) y nos
pueden llevar a conclusiones equivocadas si no se tratan
apropiadamente.

Sin embargo los datos atı́picos no se pueden descartar como


errores (sin justificar) pero se los debe tratar.
Posible razones para datos atı́picos y que hacer
I Un dato atı́pico puede ser un dato legı́timo y representa la
variación natural de un grupo y variable medida. No se
debe descartar en este caso el valor. Ver por ejemplo en
mujeres los valores atı́picos de cuanto se expande la
mano.
I Un error al tomar la medida o al poner el dato en la
computadora. Si esto es ası́ entonces hay que descartarlo
o corregirlo (si sabemos el verdadero valor). Ejemplo de lo
de arriba si cambio de cm a inches o al revés.
I El individuo en cuestión pertenece a un grupo diferente
que los individuos medidos. Se pueden descartar esos
valores si se quiere hablar del grupo principal.
Supongamos que en una universidad queremos ver el
rendimiento de un estudiante y vemos un dato atı́pico pero
nos damos cuenta que es un individuo mucho mayor o
algo por el estilo.

Contar el caso del agujero de ozono.


Datos atı́picos. Ejemplo
Una variable cuantitativa: resúmenes gráficos

Histograma:

El histograma es útil para estudiar la forma en que se


distribuyen (forma, centralidad y dispersión) los datos
cuantitativos.

Ejemplo: ¿Cómo es la distribución del ingreso en Estados


Unidos?

Tenemos datos de 1973 de 50 mil familias. ¿Qué otra forma de


resumir los datos para contestar a esta pregunta hemos
aprendido?
Histograma de ingresos en Estados Unidos

Los datos corresponden a 50 mil familias, en 1973:

¿Qué vemos? No hay escala en el eje vertical.


Histograma de ingresos en Estados Unidos

Los datos corresponden a 50 mil familias, en 1973:

¿Qué vemos? No hay escala en el eje vertical. Lo importante


de un histograma son las áreas de los rectángulos, no sus
alturas.
Histograma de ingresos en Estados Unidos

Los datos corresponden a 50 mil familias, en 1973:

¿Qué vemos? No hay escala en el eje vertical. Lo importante


de un histograma son las áreas de los rectángulos, no sus
alturas.
Histograma de ingresos en Estados Unidos
Los datos corresponden a 50 mil familias, en 1973:

EL área TOTAL DEBAJO DEL HISTOGRAMA ES 100 %


Histograma de ingresos en Estados Unidos
Los datos corresponden a 50 mil familias, en 1973:

EL área TOTAL DEBAJO DEL HISTOGRAMA ES 100 %

Preguntas: ¿qué porcentaje de familias tuvo un ingreso entre


10 y 15 mil dólares?
Histograma de ingresos en Estados Unidos
Los datos corresponden a 50 mil familias, en 1973:

EL área TOTAL DEBAJO DEL HISTOGRAMA ES 100 %

Preguntas: ¿qué porcentaje de familias tuvo un ingreso entre


10 y 15 mil dólares? ¿Hay más familias con ingresos entre 10 y
15 mil o con ingresos entre 15 y 25 mil?
Histograma de ingresos en Estados Unidos
Los datos corresponden a 50 mil familias, en 1973:

EL área TOTAL DEBAJO DEL HISTOGRAMA ES 100 %

Preguntas: ¿qué porcentaje de familias tuvo un ingreso entre


10 y 15 mil dólares? ¿Hay más familias con ingresos entre 10 y
15 mil o con ingresos entre 15 y 25 mil? ¿Cuál es el porcentaje
de familias con ingresos menores a 7000 dólares?
Cómo dibujar un histograma
1. Hacer una tabla de distribución de ingresos y porcentajes
a partir de los datos brutos. Para ello hay que escoger los
intervalos de clases (aca están dados pero en el próximo
ejemplo hay que construirlos). Los pasos son:
1.1 Ordenar los datos.
1.2 Elegir los intervalos de clases.
1.3 Contar cuantos datos caen en cada intervalo y el
porcentaje sobre el total.
2. Hacer la escala en el eje horizonal (ojo que este bien la
escala).
3. Dibujar las alturas. Ojo que los porcentajes de la tabla
están para distinta longitud de intervalos. No poner como
altura los porcentajes directamente.

Para calcular la altura del rectángulo correspondiente


a un intervalo de clase, hay que dividir el porcentaje
por la longitud del intervalo.
1. Tabla de distribución de ingresos y porcentajes. Acá
esta dada.

Nivel de ingresos Porcentaje Porcentaje acumulado (¿para qué?)


0-1000$ 1 1
1000-2000$ 2 3
2000-3000$ 3 6
3000-4000$ 4 10
4000-5000$ 5 15
5000-6000$ 5 20
6000-7000$ 5 25
7000-10000$ 15 40
10000-15000$ 26 66
15000-25000$ 26 92
25000-50000$ 8 100
50000$ o más 1 100
2. Hacer la escala en el eje horizonal (ojo que esté bien la
escala).

Hacerlo en el pizarrón.
3. Dibujar las alturas. Para calcular la altura del rectángulo
correspondiente a un intervalo de clase, hay que dividir el
porcentaje por la longitud del intervalo.
¿qué pasa si pongo como altura los porcentajes?

Comparar esta figura con la de la página anterior.


Escala de densidad

Pregunta: ¿cuál es la escala de densidad en el histograma de


la distribución de ingreso en Estados Unidos. Idem para las
variables estudiadas de pennstate.

Porcentaje de familias cada 1000 dólares (FUNDAMENTAL LA


ESCALA).
Ejercicio escala de densidad

El siguiente esquema muestra un rectángulo del histograma de


la renta familiar de una ciudad determinada. ¿Qué porcentaje
aproximado de familias de esa ciudad tiene ingresos entre
15.000 y 25000 dólares?
Ejercicio escala de densidad

El siguiente esquema muestra un rectángulo del histograma de


la renta familiar de una ciudad determinada. ¿Qué porcentaje
aproximado de familias de esa ciudad tiene ingresos entre
15.000 y 25000 dólares?

La escala de densidad es 1% por cada 1000, la altura es 2 y el


ancho es 10 veces 1000 por lo tanto es 2*10=20.
Ejercicio escala de densidad

Supongamos que alguien ha esbozado un histograma de los


pesos de una grupo de personas empleando para ello la
escala de densidad. ¿Qué clase de error ha cometido el autor
de ese gráfico?

Área 200%!!!!
Histograma en escala densidad

Con la escala de densidad en el eje vertical, las áreas de los


rectángulos se convierten en porcentajes debido a que las
unidas del eje horizontal se simplifican. El área comprendida
en una parte del histograma es igual al porcentaje de casos
que hay en el intervalo que corresponde a esa parte. El área
total comprendida en cualquier histograma es 100%.
Responder a las siguientes preguntas teniendo en
cuenta el histograma de ingresos en EEUU:
Responder a las siguientes preguntas:
Responder a las siguientes preguntas:

A continuación se muestran 6 histogramas, de los cuales 4


corresponden a las siguientes variables:
I Altura de todos los miembros de familias en las que el
padre y la madre son menores de 24 años.
I Altura de las parejas casadas.
I Altura de todas las personas.
I Altura de todos los autos.
¿cuáles son los histogramas que corresponden a estas
variables?
Responder a las siguientes preguntas:
Responder a las siguientes preguntas:
Responder a las siguientes preguntas:

Un investigador recoge datos sobre los salarios medios tenidos


por tres grupos de trabajadores que trabajan por horas. Los
trabajadores del grupo B ganan aproximadamente dos veces lo
que ganan los del grupo A. Los trabajadores del grupo C ganan
aproximadamente 10 dóllares más cada hora que los del grupo
A. ¿Qué histograma corresponde a cada grupo?
¿Cómo hacemos un histograma en R desde los datos
crudos?
Para la variable Altura de los datos pennstate:
hist(Altura,freq=FALSE,main=’Histograma de alturas’,
xlab=’Alturas’)

Histograma de alturas
Density
0.06
0.00

60 65 70 75
Alturas
¿Qué pasa si cambiamos los intervalos de clase?

summary(Altura)

Min. 1st Qu. Median Mean 3rd Qu. Max.


59.00 64.25 68.00 68.21 71.00 78.00

intervalos = seq(59,78,length=8)
hist(Altura,freq=FALSE,breaks=intervalos,main=
’Histograma de Altura’,xlab=’Altura en pulgadas’)

intervalos = seq(59,78,length=12)
hist(Altura,freq=FALSE,breaks=intervalos,main=
’Histograma de Altura’,xlab=’Altura en pulgadas’)
Histograma de Altura
0.06
Density
0.00

60 65 70 75
Altura en pulgadas
Histograma de Altura
0.00 0.06 0.12
Density

60 65 70 75
Altura en pulgadas
Podemos superponer una estimación de la densidad
hist(Altura,freq=FALSE,main=’Histograma de altura’,
xlab=’Altura en pulgadas’)
lines(density(Altura), col = ’red’)

Histograma de altura
Density
0.06
0.00

60 65 70 75
Altura en pulgadas
¿Qué es más informativo, el boxplot o el histograma?
Qué es más informativo: ¿cómo lo hacemos en la
compu?

resumen = summary(Altura)
intervalos = seq(resumen[1], resumen[6],
length = 15)

par(mfrow = c(2,1))
hist(Altura, freq = FALSE, breaks = intervalos)
boxplot(Altura, horizontal = TRUE)
Más sobre histogramas: resúmen
I Un histograma representa porcentajes por área. Esta
formado por un conjunto de rectángulos. El área de cada
rectángulo representa el porcentaje de casos que
corresponden al intervalo de clase.
Más sobre histogramas: resúmen
I Un histograma representa porcentajes por área. Esta
formado por un conjunto de rectángulos. El área de cada
rectángulo representa el porcentaje de casos que
corresponden al intervalo de clase.
I Gracias a la escala de densidad, la altura de cada
rectángulo es igual al porcentaje de casos que
corresponde al intervalo de clase dividido por la longitud
de dicho intervalo.
Más sobre histogramas: resúmen
I Un histograma representa porcentajes por área. Esta
formado por un conjunto de rectángulos. El área de cada
rectángulo representa el porcentaje de casos que
corresponden al intervalo de clase.
I Gracias a la escala de densidad, la altura de cada
rectángulo es igual al porcentaje de casos que
corresponde al intervalo de clase dividido por la longitud
de dicho intervalo.
I También gracias a la escala de densidad, el área de un
rectángulo se convierte en porcentaje y el área total es de
100%. El área del histograma que se halla determinada
por dos valores de la variable, proporciona el porcentaje
de casos que caen dentro de ese intervalo.
Más sobre histogramas: resúmen
I Un histograma representa porcentajes por área. Esta
formado por un conjunto de rectángulos. El área de cada
rectángulo representa el porcentaje de casos que
corresponden al intervalo de clase.
I Gracias a la escala de densidad, la altura de cada
rectángulo es igual al porcentaje de casos que
corresponde al intervalo de clase dividido por la longitud
de dicho intervalo.
I También gracias a la escala de densidad, el área de un
rectángulo se convierte en porcentaje y el área total es de
100%. El área del histograma que se halla determinada
por dos valores de la variable, proporciona el porcentaje
de casos que caen dentro de ese intervalo.
I Pensar la diferencia entre cantidad de población y
densidad de población. Estados Unidos tiene más
habitantes que Holanda pero Holanda tiene más
habitantes por metros cuadrados.
Más sobre histogramas: resúmen
I Un histograma representa porcentajes por área. Esta
formado por un conjunto de rectángulos. El área de cada
rectángulo representa el porcentaje de casos que
corresponden al intervalo de clase.
I Gracias a la escala de densidad, la altura de cada
rectángulo es igual al porcentaje de casos que
corresponde al intervalo de clase dividido por la longitud
de dicho intervalo.
I También gracias a la escala de densidad, el área de un
rectángulo se convierte en porcentaje y el área total es de
100%. El área del histograma que se halla determinada
por dos valores de la variable, proporciona el porcentaje
de casos que caen dentro de ese intervalo.
I Pensar la diferencia entre cantidad de población y
densidad de población. Estados Unidos tiene más
habitantes que Holanda pero Holanda tiene más
habitantes por metros cuadrados.
I Donde esta la mediana en el histograma?
Algo más sobre histogramas. Forma.

El histograma sirve para responder este tipo de preguntas:

I ¿Cuál es la forma general de los datos?


I ¿Dónde están centrados los datos?
I ¿Cómo varian los datos?

Todos estos aspectos es lo que llamamos la distribución de


los datos.
La forma general de los datos. Distribuciones
simétricas y sesgadas.
Ejemplo de distribución simétrica (cuando es simétrica con
respecto a algún eje vertical). ¿Cuánto viven los mamı́feros?
La forma general de los datos. Distribuciones
simétricas.
La forma general de los datos. Distribuciones
sesgadas.

Histogramas para 3 variables diferentes de una muestra de 362


alumnos.

¿Simétricos? ¿Sesgados para uno de los lados?


Una suavización de las formas. Distribuciones
sesgadas.

¿Qué vemos? ¿Simétricos? ¿Sesgados?


Formas comunes

I Simétrica
I Sesgada a la derecha
I Sesgada a la izquierda
I Acampanada
¿Dónde esta la media y la mediana en el histograma?

¿Qué pasa en la acampanada?


La regla del 95 % para las distribuciones
acampanadas.

Si la distribución de los datos es


aproximadamente simétrica y acampanada,
aproximadamente el 95 % de los datos deberı́a
caer dentro de dos desviaciones estándar de la
media.

Es decir, más o menos el 95 % de los datos


estarán en el intervalo (x̄ − 2s, x̄ + 2s) con
s = desviación estándar de los datos.
La regla del 95 % para las distribuciones
acampanadas.
El z-score y de porque siempre en valor relativo

¿Es 200 una diferencia grande? ¿Es 20 una diferencia grande?


Siempre hay que comparar relativamente y para ellos
utilizamos el z-score:

z-score de un dato x relativo a una muestra


x1 , . . . , xn es:
x − x̄
z − score =
s
x̄: media de los datos
s: desviación estándar de los datos
El z-score y la regla del 95 %

Si los datos tienen una distribución simétrica y campana, la


regla de 95% nos dice que aproximadamente el 95% de los
datos caen dentro de dos desviaciones estándar de la media.
Esto significa que sólo el 5% de los valores de los datos tendrá
puntuaciones z más allá de más o menos 2.
Una variable cuantitativa: resúmenes gráficos

Ojiva porcentual o histograma acumulado:

La ojiva es un polı́gono de frecuencias acumuladas, es decir,


en las abscisas se colocan los limites superiores de cada
intervalo de clase y en las ordenadas se coloca la frecuencia
acumulada (absoluta o relativa) de la clase. La ojiva es útil
para:
I Calcular el número o el porcentaje de observaciones que
corresponden a un intervalo determinado de la variable.
I Calcular los percentiles de la distribución de los datos.
Ojivas

library(agricolae)
h = graph.freq(Altura, plot = FALSE)
points = ogive.freq(h, type = ’l’, col = ’red’,
frame = FALSE, xlab = ’Limite de clases’,
ylab = ’Frecuencia acumulada’, main = ’Ojiva’)
grid(col = ’black’)
print(points)
¿Para que la grilla?

Ojiva

Frecuencia acumulada 1.0

0.8

0.6

0.4

0.2

0.0
59.0 63.2 67.4 71.6 75.8 80.0
Limite de clases
¿Para que la grilla?

Ojiva

Frecuencia acumulada 1.0

0.8

0.6

0.4

0.2

0.0
59.0 63.2 67.4 71.6 75.8 80.0
Limite de clases

Para calcular percentiles!


Caracterı́sticas de las ojivas:

I Muestran frecuencias acumuladas.


I Se prefiere para el tratamiento de datos cuantitativos.
I El punto de inicio equivale a una frecuencia de 0.
I El punto final equivale al 100% de los datos.
I Dada su ventaja de representar frecuencias acumuladas,
las ojivas se convierten en una herramienta vital para el
análisis estadı́stico.
Una variable cuantitativa: resumen

Resumen numérico: Una medida de centro y una de


variabilidad.

Resumen gráfico: Diagrama de caja, histograma, histograma


acumulado.
UNA VARIABLE CUANTITATIVA CON DOS O más
categorı́as. Diagramas de caja por categorı́a.

Objetivo: comparar la variable cuantitativa (por ejemplo Altura)


entre hombres y mujeres.
UNA VARIABLE CUANTITATIVA CON DOS O más
categorı́as. Diagramas de caja por categorı́a.

Objetivo: comparar la variable cuantitativa (por ejemplo Altura)


entre hombres y mujeres.
Lo primero que podemos hacer es para cada categorı́a calcular
los 5 números, pero nuevamente es difı́cil compararlos. Hacer
los boxplot por categorı́as es ideal para eso. HACERLO!!!!
UNA VARIABLE CUANTITATIVA CON DOS O más
categorı́as. Diagramas de caja por categorı́a.

Objetivo: comparar la variable cuantitativa (por ejemplo Altura)


entre hombres y mujeres.
Lo primero que podemos hacer es para cada categorı́a calcular
los 5 números, pero nuevamente es difı́cil compararlos. Hacer
los boxplot por categorı́as es ideal para eso. HACERLO!!!!

Ejemplo: En los datos pennstate.tx la variable cuantitativa


Altura y variable cualitativa Sexo.
Resumen numérico

El resumen numerico es dar una medida de centro y de


variabilidad de la variable respuesta por cada nivel de la
variable preditora.

library(mosaic)
favstats(Altura˜Sexo)
Respuesta de R
Sexo min Q1 median Q3 max mean sd n missing
1 Female 59 63.5 65 67.25 71 65.37379 2.567442 103 0
2 Male 66 70.0 72 73.00 78 71.56322 2.704222 87 0

Que vemos? conclusiones?


Resumen gráfico: Boxplots por categorı́a en R

Hacemos un diagrama de caja para cada categorı́a. ¿Para qué


sirve? ¿Qué vemos? ¿Podemos formular alguna hipótesis?

Muj = Altura[Sexo=="Female"]
Hom = Altura[Sexo=="Male"]

boxplot(Muj,Hom)

# o bien directamente
boxplot(Altura˜Sexo)
Boxplots por categorı́a en R

75
70
65
60

Female Male
Boxplots por categorı́a en R

75
70
65
60

Female Male
Diagramas de dispersión

Se utilizan en lugar de los boxplot cuando los datos por


categorı́a no son muchos.

plot(as.numeric(Sexo), Altura)
points(1:2, c(median(Altura[Sexo == "Female"],
na.rm = T),
median(Altura[Sexo == "Male"])), col = ’red’)
Diagramas de dispersión por categorı́as

75
70
Altura
65
60

1.0 1.2 1.4 1.6 1.8 2.0


as.numeric(Sexo)
Diagramas de dispersión por categorı́as

75
70
Altura
65
60

1.0 1.2 1.4 1.6 1.8 2.0


as.numeric(Sexo)

¿Qué vemos?
UNA VARIABLE CUANTITATIVA CON DOS O más
categorı́as. Histogramas por categorı́a.
Volvamos al histograma de Alturas

0.08
Density
0.04
0.00

60 65 70 75
Altura
UNA VARIABLE CUANTITATIVA CON DOS O más
categorı́as. Histogramas por categorı́a.
Volvamos al histograma de Alturas

0.08
Density
0.04
0.00

60 65 70 75
Altura

¿Será que los picos en el histograma se deben a Sexo?


¿Cómo averiguamos eso? Hacemos un histograma (como en
el boxplot) para cada sexo.
UNA VARIABLE CUANTITATIVA CON DOS O más
categorı́as. Histogramas por categorı́a.

intervalos = seq(59, 78, length = 10)

AltM = Altura[Sexo == ’Female’]


AltH = Altura[Sexo == ’Male’]

par(mfrow=c(1,2))
hist(AltM, freq = FALSE,
breaks = intervalos, main = ’Mujeres’, xlab = ’Altura en
ylim = c(0,.2))

histo = hist(AltH, freq = FALSE,


breaks = intervalos, main = ’Hombres’, xlab = ’Altura en
ylim=c(0,.2))
Un histograma para cada sexo

Mujeres Hombres
0.20

0.20
Density

Density
0.10

0.10
0.00

0.00
60 70 60 70
AltM AltH
Superpuestos
Superpuestos: ¿cómo lo hacemos en la compu?

xmin = min(c(AltM, AltH))


xmax = max(c(AltM, AltH))
intervalos = seq(xmin, xmax, length = 10)

hist(AltM, breaks = intervalos, freq = FALSE,


ylim=c(0,.2), col = rgb(0, 1, 0, 0.5),
xlab = ’Altura’, main = ’Histogramas por Sexo’)
hist(AltH, breaks = intervalos, freq = FALSE,
ylim=c(0,.2), col = rgb(1, 0, 0, 0.5), add = TRUE,
main = ’’)

legend("topright", legend = c("varones","mujeres"),


fill = c(rgb(0, 1, 0, 0.5), rgb(1, 0, 0, 0.5)))
Más sobre variables cuantitativas

Un ejemplo de una variable cuantitativa con dos


poblaciones. ¿O es una sola población?

El hipocampo es una región del cerebro cuya anatomı́a y


fisiologı́a básica parecen ser altamente alteradas en la
esquizofrenia. Para estudiar las anomalı́as anatómicas
asociadas con la esquizofrenia (esto es un un estudio de
observacional) a 15 pares de gemelos idénticos de los cuales
uno era esquizofrénico y el otro no, se les realizó una
resonancia magnética para medir el volúmen (cm3) del
hipocampo de cada gemelo.
Más sobre variables cuantitativas

Un ejemplo de una variable cuantitativa con dos


poblaciones. ¿O es una sola población?

El hipocampo es una región del cerebro cuya anatomı́a y


fisiologı́a básica parecen ser altamente alteradas en la
esquizofrenia. Para estudiar las anomalı́as anatómicas
asociadas con la esquizofrenia (esto es un un estudio de
observacional) a 15 pares de gemelos idénticos de los cuales
uno era esquizofrénico y el otro no, se les realizó una
resonancia magnética para medir el volúmen (cm3) del
hipocampo de cada gemelo.

Pregunta: ¿Hay indicadores fisiológicos asociados con la


esquizofrenia? ¿Existen diferencias?
Más sobre variables cuantitativas

Un ejemplo de una variable cuantitativa con dos


poblaciones. ¿O es una sola población?

El hipocampo es una región del cerebro cuya anatomı́a y


fisiologı́a básica parecen ser altamente alteradas en la
esquizofrenia. Para estudiar las anomalı́as anatómicas
asociadas con la esquizofrenia (esto es un un estudio de
observacional) a 15 pares de gemelos idénticos de los cuales
uno era esquizofrénico y el otro no, se les realizó una
resonancia magnética para medir el volúmen (cm3) del
hipocampo de cada gemelo.

Pregunta: ¿Hay indicadores fisiológicos asociados con la


esquizofrenia? ¿Existen diferencias? ¿Cómo graficamos estos
datos?
Esquizofrenia: ¿una variable o dos?

library(Sleuth2)
datos = case0202
head(datos)

# Unaffect Affected
# 1 1.94 1.27
# 2 1.44 1.63
# 3 1.56 1.47
# 4 1.58 1.39
# 5 2.06 1.93
# 6 1.66 1.26
Esquizofrenia: ¿una variable o dos?

library(Sleuth2)
datos = case0202
head(datos)

# Unaffect Affected
# 1 1.94 1.27
# 2 1.44 1.63
# 3 1.56 1.47
# 4 1.58 1.39
# 5 2.06 1.93
# 6 1.66 1.26

Este es un ejemplo de observaciones apareadas. ¿Puede ser


que la diferencia se debe solo al azar o hay diferencias?
Análisis exploratorio de los datos de gemelos

attach(datos)
names(datos)
boxplot(Unaffect-Affected)
title(’Diferencia entre gemelo no afectado
y gemelo afectado’)

Diferencia entre gemelo no afectado y gemelo afectado


0.6
0.4
0.2
0.0
-0.2
Análisis exploratorio de los datos de gemelos

fivenum(Unaffect-Affected)

#[1] -0.18999994 0.05499995 0.10999990


[4] 0.31500000 0.67000008

nuevavar=Unaffect-Affected
fivenum(nuevavar)

#[1] -0.18999994 0.05499995 0.10999990


[4] 0.31500000 0.67000008
Varias poblaciones: una variable cuantitativa con
varias categorı́as

De porque comer menos si queremos vivir más: Este


experimento se llevó a cabo a fin de estudiar si restringiendo la
ingesta de calorı́as en cierta especie de animales es posible
aumentar la esperanza de vida de los mismos. Para ello, 349
ratas fueron asignadas aleatoriamente a una de las 6
diferentes dietas:
Diferentes dietas

I N/R50 lopro: dieta normal en la lactancia, dieta reducida


de 50 kcal/sm luego de la lactancia y reducción de las
proteı́nas con el crecimiento
Diferentes dietas

I N/R50 lopro: dieta normal en la lactancia, dieta reducida


de 50 kcal/sm luego de la lactancia y reducción de las
proteı́nas con el crecimiento
I N/N85: grupo control: dieta normal en la lactancia, dieta
controlada en 85 kcal/sm luego de la lactancia
Diferentes dietas

I N/R50 lopro: dieta normal en la lactancia, dieta reducida


de 50 kcal/sm luego de la lactancia y reducción de las
proteı́nas con el crecimiento
I N/N85: grupo control: dieta normal en la lactancia, dieta
controlada en 85 kcal/sm luego de la lactancia
I NP: dieta estándar no purificada
Diferentes dietas

I N/R50 lopro: dieta normal en la lactancia, dieta reducida


de 50 kcal/sm luego de la lactancia y reducción de las
proteı́nas con el crecimiento
I N/N85: grupo control: dieta normal en la lactancia, dieta
controlada en 85 kcal/sm luego de la lactancia
I NP: dieta estándar no purificada
I N/R40: dieta normal en la lactancia, dieta restringida en
40 kcal/sm luego de la lactancia
Diferentes dietas

I N/R50 lopro: dieta normal en la lactancia, dieta reducida


de 50 kcal/sm luego de la lactancia y reducción de las
proteı́nas con el crecimiento
I N/N85: grupo control: dieta normal en la lactancia, dieta
controlada en 85 kcal/sm luego de la lactancia
I NP: dieta estándar no purificada
I N/R40: dieta normal en la lactancia, dieta restringida en
40 kcal/sm luego de la lactancia
I N/R50: dieta normal en la lactancia, dieta restringida en
50 kcal/sm luego de la lactancia
Diferentes dietas

I N/R50 lopro: dieta normal en la lactancia, dieta reducida


de 50 kcal/sm luego de la lactancia y reducción de las
proteı́nas con el crecimiento
I N/N85: grupo control: dieta normal en la lactancia, dieta
controlada en 85 kcal/sm luego de la lactancia
I NP: dieta estándar no purificada
I N/R40: dieta normal en la lactancia, dieta restringida en
40 kcal/sm luego de la lactancia
I N/R50: dieta normal en la lactancia, dieta restringida en
50 kcal/sm luego de la lactancia
I R/R50: dieta restringida en 50 kcal/sm durante y después
de la lactancia
Como resumimos y graficamos los datos?

diet=read.table(’dieta.R’,header=T) #leo los datos

names(diet) #miro que variables hay


# [1] "cuantovive" "dieta"

head(diet) # miro las primeras filas


# cuantovive dieta
# 1 35.5 NP
# 2 35.4 NP
# 3 34.9 NP
# 4 34.8 NP

attach(diet) #para poder usar las columnas


Como resumimos numéricamente los datos?
n = tapply(cuantovive,dieta,length) #cuantos
#ratones en cada dieta

promedio = tapply(cuantovive,dieta,mean) #media de


#vida en cada dieta

SD = tapply(cuantovive,dieta,sd)#sd de
#vida en cada dieta

print(cbind(n,promedio,SD),digits=3) #me dice todo lo


#calculado anteriormente

# n promedio SD
# lopro 56 39.7 6.99
# N/N85 57 32.7 5.13
# N/R40 60 45.1 6.70
# N/R50 71 42.3 7.77
# NP 49 27.4 6.13
# R/R50 56 42.9 6.68
Como resumimos y graficamos los datos? Otra forma
mas directa

library(mosaic)
favstats(cuantovive˜dieta)

Que vemos?
dieta min Q1 median Q3 max mean sd n missing
1 lopro 23.4 35.000 41.05 46.45 49.7 39.68571 6.991695 56 0
2 N/N85 17.9 31.400 33.10 36.40 42.3 32.69123 5.125297 57 0
3 N/R40 19.6 42.275 46.05 50.35 54.6 45.11667 6.703406 60 0
4 N/R50 18.6 37.950 43.90 48.20 51.9 42.29718 7.768195 71 0
5 NP 6.4 24.800 28.90 31.40 35.5 27.40204 6.133701 49 0
6 R/R50 24.2 39.150 43.95 48.35 50.7 42.88571 6.683152 56 0

Conclusiones?
gráficos de cuanto viven los ratones según las dietas
boxplot(cuantovive˜dieta, ylab="meses que vive",
xlab="dieta", col="gray", pch=16,
main="Cuanto vive un raton hembra segun
la dieta de comida")

Cuanto vive un raton hembra segun


la dieta de comida
50
meses que vive

40
30
20
10

lopro N/N85 N/R40 N/R50 NP R/R50

dieta
Varias poblaciones. Una variable cuantitativa con
varias categorı́as

Preguntas de interés. Hipótesis estadı́stica a contestar en cada


caso. Escribirlas y contestarlas vı́a el gráfico.
I Los que consumen 50 kcal/semana , ¿viven más que los
que consumen 85 kcal/semana? ¿Cuánto más?
Varias poblaciones. Una variable cuantitativa con
varias categorı́as

Preguntas de interés. Hipótesis estadı́stica a contestar en cada


caso. Escribirlas y contestarlas vı́a el gráfico.
I Los que consumen 50 kcal/semana , ¿viven más que los
que consumen 85 kcal/semana? ¿Cuánto más?
I ¿Cambia la esperanza de vida reduciendo las calorı́as
durante la lactancia, si luego se les da 50kcal/semana?
Varias poblaciones. Una variable cuantitativa con
varias categorı́as

Preguntas de interés. Hipótesis estadı́stica a contestar en cada


caso. Escribirlas y contestarlas vı́a el gráfico.
I Los que consumen 50 kcal/semana , ¿viven más que los
que consumen 85 kcal/semana? ¿Cuánto más?
I ¿Cambia la esperanza de vida reduciendo las calorı́as
durante la lactancia, si luego se les da 50kcal/semana?
I Los que consumen 40 kcal/semana, ¿viven más que los
que consumen 50 kcal/semana?
Varias poblaciones. Una variable cuantitativa con
varias categorı́as

Preguntas de interés. Hipótesis estadı́stica a contestar en cada


caso. Escribirlas y contestarlas vı́a el gráfico.
I Los que consumen 50 kcal/semana , ¿viven más que los
que consumen 85 kcal/semana? ¿Cuánto más?
I ¿Cambia la esperanza de vida reduciendo las calorı́as
durante la lactancia, si luego se les da 50kcal/semana?
I Los que consumen 40 kcal/semana, ¿viven más que los
que consumen 50 kcal/semana?
I Si se consume 50 kcal/semana, ¿hay efecto si se
disminuye cuanta proteı́na consumen?
Varias poblaciones. Una variable cuantitativa con
varias categorı́as

Preguntas de interés. Hipótesis estadı́stica a contestar en cada


caso. Escribirlas y contestarlas vı́a el gráfico.
I Los que consumen 50 kcal/semana , ¿viven más que los
que consumen 85 kcal/semana? ¿Cuánto más?
I ¿Cambia la esperanza de vida reduciendo las calorı́as
durante la lactancia, si luego se les da 50kcal/semana?
I Los que consumen 40 kcal/semana, ¿viven más que los
que consumen 50 kcal/semana?
I Si se consume 50 kcal/semana, ¿hay efecto si se
disminuye cuanta proteı́na consumen?
I ¿Hay efecto en la esperanza de vida si se consume 85
kcal/semana?
Cómo hacer boxplotes e histogramas más pipicucu

En el archivo

mas_de_boxplot.pdf

encontrarán formas de hacer de manera sencilla resúmenes y


gráficos para una variable cuantitativa en función de una
cualitativa con varios niveles

Es muy importante verlo y reproducirlo con otro ejemplo


Una variable cuantitativa como respuesta y una
cualitativa como predictora: resumen

Cuando tenemos una variable cuantitativa como respuesta que


tenemos que estudiarla en función de una cualitativa
(predictora) el análisis exploratorio de datos consiste en:

Resumen numérico: una medida de centro y una de


variablilidad de la cuantitativa por cada categorı́a de la variable
predictora. Usar favstats de mosaic

Resumen gráfico: un diagrama de caja de la variable


cuantitativa por cada categorı́a de la variable predictora o idem
con histograma. No dejar de ver el pdf donde describe una
forma maravillosa de hacer histogramas, resámenes y
boxplots.
Una variable cuantitativa con dos variables
cualitativas. Varias poblaciones...

Suponga que desea determinar si la marca de detergente para


la ropa y la temperatura afecta a la cantidad de manchas
eliminada de la ropa. Con este fin se compran dos marcas
diferentes de detergente (“Súper” y “Best”) y se elegin tres
niveles diferentes de temperatura (“frı́o”, “caliente”, y “muy
caliente”). Se divide la ropa al azar en 6 pilas de igual tamaño
(supongamos r ) y se asigne a cada montón (en forma
aleatoria) la combinación de (“Súper” y “Best”) y (“frı́o”,
“caliente”, y “muy caliente”). Estamos interésados en estudiar
si hay diferencias en marca y/o temperatura en lo que respecta
al quitado de manchas.
Una variable cuantitativa con dos variables
cualitativas. Varias poblaciones...

Factor 1: marca de detergente (“Súper” y “Best”)

Factor 2: niveles diferentes de temperatura (“frı́o”, “caliente”, y


“muy caliente”)
Detergentes...

#cuantas manchas saco


manchas = c(4, 5, 6, 5, 7, 9, 8, 12 ,10 ,12 ,11,
9, 6, 6, 4, 4, 13, 15, 12, 12, 12, 13 ,10, 13)

#detergentes
detergente = factor(c(rep(1,12),rep(2,12)))

#temperatura
calor = factor(rep(gl(3,4),2))
Detergentes. resumen numérico.

#resumen numerico. Usamos la library mosaic

library(mosaic)

favstats(manchas˜detergente+calor)
# .group min Q1 median Q3 max mean sd n
#1 1.1 4 4.75 5.0 5.25 6 5.0 0.8164966 4
#2 2.1 4 4.00 5.0 6.00 6 5.0 1.1547005 4
#3 1.2 7 7.75 8.5 9.75 12 9.0 2.1602469 4
#4 2.2 12 12.00 12.5 13.50 15 13.0 1.4142136 4
#5 1.3 9 9.75 10.5 11.25 12 10.5 1.2909944 4
#6 2.3 10 11.50 12.5 13.00 13 12.0 1.4142136 4
Detergentes. resumen numérico.

#resumen numerico. Usamos la library mosaic

library(mosaic)

favstats(manchas˜detergente+calor)
# .group min Q1 median Q3 max mean sd n
#1 1.1 4 4.75 5.0 5.25 6 5.0 0.8164966 4
#2 2.1 4 4.00 5.0 6.00 6 5.0 1.1547005 4
#3 1.2 7 7.75 8.5 9.75 12 9.0 2.1602469 4
#4 2.2 12 12.00 12.5 13.50 15 13.0 1.4142136 4
#5 1.3 9 9.75 10.5 11.25 12 10.5 1.2909944 4
#6 2.3 10 11.50 12.5 13.00 13 12.0 1.4142136 4

¿Conclusiones?
Detergentes. Gráficos.
Podemos graficar un boxplot por cada población (cada
combinación) (6 boxplots).

boxplot(manchas˜detergente+calor)
title(’Cuantas manchas por detergente y calor’)

Cuantas manchas por detergente y calor


12
8
4

1.1 2.1 1.2 2.2 1.3 2.3

¿Problemas con este gráfico?


Detergentes. ¿qué graficamos?
Podemos graficar en un gráfico 2 boxplots (uno por cada
detergente) y en otro gráfico 3 boxplot (uno por cada calor).
¿Problema?

#para que haga dos graficos


par(mfrow=c(1,2))

#por detergente
boxplot(manchas˜detergente)
title(’Manchas por detergente’)

#por calor
boxplot(manchas˜calor)
title(’Manchas por calor’)
Detergentes, ¿qué graficamos?

Manchas por detergente Manchas por calor


12

12
8

8
4

4
1 2 1 2 3

¿Problemas con este gráfico?


El gráfico que debemos hacer: Gráfico de Interacción

#miro en ambas direcciones


interaction.plot(detergente, calor, manchas)

#miro en ambas direcciones


interaction.plot(calor, detergente, manchas)
Gráficos de interacción para detergentes
manchas

calor detergente

mean of manchas
12
2
10

3 2

10
1 1
mean of

8
6

6
1 2
1 2 3
detergente calor
¿Interacción o no?

Hay que tener cuidado que significa que haya interacción.


No necesariamente estamos buscando rectas paralelas
Estamos buscando las mismas tendencias.
Otro ejemplo: como matar polilas...

En el archivo polillas.R tenemos el número de polillas que se


atraparon después de 48 horas. Se hizo un experimento donde
se consideraron dos Factores que pueden influir en atrapar
polillas:
Otro ejemplo: como matar polilas...

En el archivo polillas.R tenemos el número de polillas que se


atraparon después de 48 horas. Se hizo un experimento donde
se consideraron dos Factores que pueden influir en atrapar
polillas:

Factor 1: lugar en el árbol (en las ramas de arriba, en las del


medio, en las de abajo, en el piso)

Factor 2: tipo de trampa que se uso (esencia, azúcar o


quı́mico)
Otro ejemplo: como matar polilas...

En el archivo polillas.R tenemos el número de polillas que se


atraparon después de 48 horas. Se hizo un experimento donde
se consideraron dos Factores que pueden influir en atrapar
polillas:

Factor 1: lugar en el árbol (en las ramas de arriba, en las del


medio, en las de abajo, en el piso)

Factor 2: tipo de trampa que se uso (esencia, azúcar o


quı́mico)

Se quiere estudiar que combinación de factor hace que se


atrapen más polillas.
Datos polilla
#leo los datos
polilla=read.table("polillas.R",header=TRUE)
attach(polilla)

# miro que variables hay


names(polilla)
#[1] "Location" "atrapan" "cuantas"

#miro un poco los datos


head(polilla)
# Location atrapan cuantas
# 1 Top Scent 35
# 2 Top Scent 22
# 3 Top Scent 33
# 4 Top Scent 21
# 5 Top Scent 17
# 6 Middle Scent 36
Datos polillas. Gráficos.
Podemos graficar un boxplot por cada población (cada
combinación) (12 boxplots).

boxplot(cuantas˜atrapan*Location)
title(’Cuantas atrapan por lugar y forma’)

Cuantas atrapan por lugar y forma


45
35
25
15

Chemical.Ground Sugar.Ground Scent.Lower Chemical.Middle Sugar.Middle Scent.Top

¿Problemas con este gráfico?


Datos polillas, ¿qué graficamos?
Podemos graficar en un gráfico 4 boxplot (uno por cada arbol) y
en otro gráfico 3 boxplot (uno por cada forma de atraparlas).
Problema?

#para que haga dos graficos


par(mfrow=c(1,2))

#por forma de atrapar


boxplot(cuantas˜atrapan)
title(’Cuantas atrapan por forma’)
#titulo del grafico

#por lugar donde se atrapa


boxplot(cuantas˜Location)
title(’Cuantas atrapan por lugar’)
#titulo del otro grafico
Más gráficas de las polillas
45

45
35

35
25

25
15

15
Chemical Scent Sugar Ground Lower Middle Top

¿Problemas con este gráfico?


EL GRAFICO: INTERACTION PLOT

#para que haga dos gráficos en uno


par(mfrow=c(1,2))

#miro en ambas direcciones interaction.plot(Location, atrapan,


cuantas)

#miro en ambas direcciones interaction.plot(atrapan, Location,


cuantas)
gráficos de interaccion para las polillas

atrapan Location
35

35
Scent Lower
Sugar Middle
Chemical Top
Ground
mean of cuantas

mean of cuantas
30

30
25

25
20

20
Ground Middle Top Chemical Scent Sugar

Location atrapan
¿Hay o no hay interacción?

Tratar de contestar a la pregunta a partir de los gráficos. Luego


veremos una forma estadı́stica de contestar.
Una variable cuantitativa como respuesta y dos
cualitativas como predictora: resumen

Cuando tenemos una variable cuantitativa como respuesta que


tenemos que estudiarla en función de dos cualitativas
(predictora) el análisis exploratorio de datos consiste en:

Resumen numérico: una medida de centro y una de


variablilidad de la cuantitativa por cada combinación de las
categorı́a de las variables predictoras.

Resumen gráfico: un diagrama de caja de la variable


cuantitativa por cada combinación de categorı́a de la variables
predictoras o idem con histograma y si o si un gráfico de
interaccion.
Dos variables continuas: scatterplot y correlación
Consideremos los datos datos_para_ejemplos_2012.csv
los cuales corresponden a alumnos que cursaron la materia
Probabilidad y Estadı́stica en el segundo semestre del 2012.
Entre otras variables, ese conjunto de datos tiene la altura y
talla de calzado de los alumnos.

¿Qué tipo de variables son la altura y el número de calzado?


Dos variables continuas: scatterplot y correlación
Consideremos los datos datos_para_ejemplos_2012.csv
los cuales corresponden a alumnos que cursaron la materia
Probabilidad y Estadı́stica en el segundo semestre del 2012.
Entre otras variables, ese conjunto de datos tiene la altura y
talla de calzado de los alumnos.

¿Qué tipo de variables son la altura y el número de calzado?

Leamos los datos


alumnos=read.csv("datos_para_ejemplos_2012.csv")
attach(alumnos)
names(alumnos)
# [1] "IDENTIFICACION" "ALTURA"
# [3] "OJOS" "SEXO"
# [5] "EDAD" "PC."
# [7] "NETBOOK." "CALIFICACIONA"
# [9] "CALIFICACIONB" "VECESB."
# [11] "CALIFICACIONC" "INGRESO"
# [13] "HORAS" "CARRERA"
# [15] "ANTEBRAZO" "PIE"
# [17] "numero" "LETRA"
# [19] "VELOCIDAD"
Gráficos de cada variable - ALTURA

hist(ALTURA)

Histogram of ALTURA
15
Frequency

10
5
0

1.2 1.4 1.6 1.8

ALTURA
Gráficos de cada variable - número CALZADO

hist(PIE)

Histogram of PIE
20
15
Frequency

10
5
0

20 25 30 35 40 45 50

PIE
¿Cómo grafico la relación entre ellas?

plot(PIE, ALTURA, xlab="Pie", ylab="Altura")


title("Altura vs pie")
¿Cómo grafico la relación entre ellas?

plot(PIE, ALTURA, xlab="Pie", ylab="Altura")


title("Altura vs pie")

Altura vs pie
1.8
1.6
Altura

1.4
1.2

25 30 35 40 45

Pie

¿Qué pasó?
Interpretando un scatterplot

I ¿Tienen los puntos un patrón claro con una dirección


particular, o pareciera que no hay un patrón claro?
I Si hay una tendencia, ¿es hacia abajo o hacia arriba? (si
miramos de izquierda a derecha)
I Si hay una tendencia, ¿sigue una linea recta? (en este
caso llamada asociación lineal), ¿o hay alguna curva o
otro patrón?
I ¿Hay outliers que se pueden distinguir del patrón general
de los datos?
Interpretar el gráfico anterior.
¿Un gráfico mejor?

Altura = ALTURA[PIE>30 & ALTURA>1.15]


Pie = PIE[PIE>30 & ALTURA>1.15]
Sexo = SEXO[PIE>30 & ALTURA>1.15]
plot(Altura˜Pie, xlab = "Pie", ylab = "Altura")
title("Altura vs pie")
¿Un gráfico mejor?

Altura vs pie

1.85
1.75
Altura

1.65
1.55

36 38 40 42 44 46

Pie

¿Cuando usamos este gráfico? ¿qué conclusión exploratoria


se deduce?
¿Y si le agrego sexo? Otra forma.
library(car)
scatterplot(Pie, Altura, groups = Sexo,
legend.title = ’SEXO’, legend.coords = ’topright’,
smooth = FALSE, reg.line = FALSE, boxplots = FALSE)

SEXO
1.85

femenino
masculino
1.75
Altura

1.65
1.55

36 38 40 42 44 46

Pie

¿Para qué nos sirve este gráfico? ¿Qué conclusión


exploratoria se deduce?
Otro ejemplo: resumen gráfico
En los datos alumnos-esp.csv se quiere ver si el peso se puede
predecir a partir de la altura.
alumnos.esp =read.csv("alumnos-esp.csv", sep=";")
attach(alumnos.esp)
library(car)
scatterplot(altura, peso, legend.title = ’Sexo’,
reg.line=lm, legend.coords = ’bottomright’, smooth = FALSE, boxplots = F)
90
80
70
peso

60
50

160 170 180 190

altura

Parece lineal la relación. Agreguemos la recta de regresión.


Otro ejemplo: resumen gráfico

Agreguemos la linea de regresion.


scatterplot(altura, peso, legend.title = ’Sexo’,
reg.line=lm, legend.coords = ’bottomright’, smooth = FALSE, boxplots = F)

90
80
70
peso

60
50

160 170 180 190

altura
Otra forma de agregarle la recta de regresión

Agreguemos la linea de regresion.


plot(altura,peso)
modelo=lm(peso˜altura)
abline(modelo,col=’red’)
90
80
70
peso

60
50

160 170 180 190

altura
Grafico discriminado por sexo (primera opción)

Discriminado por sexo


scatterplot(altura, peso, groups = sexo, reg.line=lm,
legend.title = ’Sexo’, legend.coords = ’bottomright’, smooth = FALSE, boxplots = TRUE)

90
80
70
peso

60

Sexo
50

F
M

160 170 180 190

altura
Grafico discriminado por sexo (segunda opción)
Discriminado por sexo
plot(altura[sexo==’M’],peso[sexo==’M’],
xlim=c(min(altura),max(altura)),ylim=c(min(peso)-1,
max(peso)+1),col=’blue’,pch=15,xlab=’Altura’,ylab=’peso’)
points(altura[sexo==’F’],peso[sexo==’F’],col=’magenta’,pch=16)
legend(153,89,c(’Varones’,’Mujeres’),pch=c(15,16),col=c(’blue’,’magenta’))
title(’Peso en funcion de altura por sexo’)
modelo1=lm(peso[sexo==’M’]˜altura[sexo==’M’])
modelo2=lm(peso[sexo==’F’]˜altura[sexo==’F’])
abline(modelo1,xlim=c(min(altura[sexo==’M’]),
max(altura[sexo==’M’])),col=’black’)
abline(modelo2,,col=’red’)

Peso en funcion de altura por sexo


90

Varones
Mujeres
80
70
peso

60
50

160 170 180 190

Altura
Otro ejemplo: Lagos de Florida

El conjunto de datos FloridaLakes contiene datos que


describen las caracterı́sticas de muestras de agua tomadas en
n = 53 lagos de Florida. En cada lago se midió la alcalinidad
(concentración de carbonato de calcio en mg/L), la acidez (pH),
además se registró el nivel de mercurio medio para una
muestra de peces tomada en cada lago y finalmente también
se obtuvo un nivel de mercurio estandarizado ajustando los
promedios de mercurio para dar cuenta de la edad de los
peces de cada lago.
Lagos de Florida
Discuta para cada gráfico la información contenida en el
scatterplot. Si aparece una asociación negativa o positiva
discuta el significado en cada contexto. Ejemplo 2.34 Lock.
Imagen positiva de un presidente vs re-elección
Cuando un presidente en Estados Unidos trata de obtener la
reelección, ¿cuán fuerte es la relación entre la imagen positiva
del presidente y el resultado de la elección? La siguiente tabla
incluye todas las elecciones presidenciales desde 1940 en la
cual se muestra el ı́ndice de aprobación presidencial en el
momento de la elección y el margen de la victoria o la derrota
para el presidente. Los datos están en ElectionMargin.
Imagen positiva de un presidente vs. reelección

¿Cómo gráfico?
Imagen positiva de un presidente vs. reelección

¿Cómo gráfico?
Interpretación

Para los datos de la reelección presidencial, vemos una


asociación positiva ya que existe una tendencia de alza en el
margen de la victoria a medida que aumenta la aprobación del
candidato. Mientras que la puntos ciertamente no todos caen
exactamente en una lı́nea recta, podemos imaginar una lı́nea
que coincida con la tendencia general de los datos. Hay una
tendencia lineal general, y es una asociación relativamente
fuerte.
Resumen numérico de la asociación entre dos
variables

La correlación es una medida de la fuerza y dirección de


la asociación lineal entre dos variables cuantitativas.

Notación:
I La correlación entre dos variables cuantitativas de una
muestra se suele denotar por r .
I La correlación entre dos variables cuantitativas de una
población suele denotarse por ρ.
Propiedades de la correlación

Miremos las tablas de las correlaciones en los ejemplos


anteriores:

¿Qué vemos? ¿Entre que dos números está? ¿Cuando parece


dar positiva y cuando negativa la correlación? ¿Cuando está
más cerca de 1 o -1?
Propiedades de la correlación muestral

I −1 ≤ r ≤ 1
I El signo de r indica la dirección de asociación
I Valores de r cercanos a 1 o a -1 muestran fuerte relación
lineal, mientras que valores de r cercanos a 0 muestran no
relación lineal
I La correlación r no tiene unidades y es independiente de
la escala de cada variable
I La correlación es simétrica. La correlación entre x e y es
la misma que entre y y x
Fórmula para calcular la correlación

Para una muestra (x1 , y1 ), . . . (xn , yn ) la correlación muestral


entre las variables x e y se calcula como:
n   
1 X xi − x̄ yi − ȳ
r=
n−1 sx,n−1 sy,n−1
i=1

En la computadora:

cor(x,y)
De los grillos y la temperatura.

El saber popular dice que uno puede determinar la temperatura


en una noche de verano contando cuantos grillos están
“chillando”. Acá la tabla de la cuenta en un verano de 1898.
Data 2.10 de Lock.

Usando R encuentre la correlación entre estas dos variables y


responda: ¿están fuertemente asociadas? (linealmente). Haga
un gráfico de la temperatura vs la cantidad de grillos chillando.
De los grillos y la temperatura.

El saber popular dice que uno puede determinar la temperatura


en una noche de verano contando cuantos grillos están
“chillando”. Acá la tabla de la cuenta en un verano de 1898.
Data 2.10 de Lock.

Usando R encuentre la correlación entre estas dos variables y


responda: ¿están fuertemente asociadas? (linealmente). Haga
un gráfico de la temperatura vs la cantidad de grillos chillando.

r = .99. Wauuuuu.
De los grillos y la temperatura.
Es siempre siempre importante hacer un gráfico quizas antes
de calcular la correlación para hacer conjeturas (ya veremos
pronto porque).
Cuidados con la correlación I
La figura siguiente muestra la esperanza de vida media (en
años) de una muestra de 40 paises vs el promedio de grasa en
la comida de cada paı́s (medida en gramos por capita por dı́a).
Ejemplo 2.36 Lock.

Interprete este gráfico.


Cuidados con la correlación I
La figura siguiente muestra la esperanza de vida media (en
años) de una muestra de 40 paises vs el promedio de grasa en
la comida de cada paı́s (medida en gramos por capita por dı́a).
Ejemplo 2.36 Lock.

Interprete este gráfico. Esto significa que debemos comer más


grasa para vivir más?????
Correlación no implica relación causa-efecto!!!!!

Es un estudio observacional ası́ que esto no significa que si


cambiamos una de las variables (por ejemplo consumo de
grasa) causará el incremento de la otra variable (esperanza de
vida).

¿Les parece que hay alguna variable confundida?


Correlación no implica relación causa-efecto!!!!!

Es un estudio observacional ası́ que esto no significa que si


cambiamos una de las variables (por ejemplo consumo de
grasa) causará el incremento de la otra variable (esperanza de
vida).

¿Les parece que hay alguna variable confundida? Si, la salud


de ese paı́s.
Cuidados con la correlación II
La temperatura del cuerpo para una persona tiende a cambiar
durante el dı́a de acuerdo al ritmo cardı́aco. Supongamos que la
temperatura del cuerpo de una mujer adulta se registra cada hora de
un dı́a, empezando a la 6 de la mañana. ¿Parece haber una
asociación entre el momento del dı́a y la temperatura corporal?
“estime la correlación”. Lock ejemplo 2.37.

Describa el comportamiento. ¿Están asociadas las variables?


¿Saben cuánto es la correlación?
Cuidados con la correlación II
La temperatura del cuerpo para una persona tiende a cambiar
durante el dı́a de acuerdo al ritmo cardı́aco. Supongamos que la
temperatura del cuerpo de una mujer adulta se registra cada hora de
un dı́a, empezando a la 6 de la mañana. ¿Parece haber una
asociación entre el momento del dı́a y la temperatura corporal?
“estime la correlación”. Lock ejemplo 2.37.

Describa el comportamiento. ¿Están asociadas las variables?


¿Saben cuánto es la correlación? -0.08. Casi cero!!!!!! ¿Por
qué?
La correlación mide la asociación LINEAL entre dos
variables.

Una correlación cercana a cero no significa


necesariamente que dos variabels NO estén
asociadas, ya que la correlación solo mide
asociación LINEAL.
Cuidados con la correlación III
Para estudiar la asociación entre dieta y niveles de retinor y beta
carotena en sangre, se registró una variedad de dietas y variables
demográficas de individuos, como ser alcohol consumido, promedio
diario de calorı́as, edad, genero, uso de multivitaminas, gramos de
grasa por dı́a, gramos de fibra por dı́a, si es fumador o no, etc. Lock
ejemplo 2.11.

Describir los datos que graficamos. ¿Cuál “estima” que es la


correlación? ¿Es cercana a cero?
Efecto de outliers

La correlación es r = 0.72, sin embargo si quitamos el punto


outlier (en realidad es UN ERROR). La correlación es
r = 0.15!!!!

Como dije antes: grafiquemos SIEMPRE, siempre, SIEMPRE


los datos ya que la correlación puede ser fuertemente
influenciada por outlieres.
Dos variables cuantitativas: resumen

Cuando tenemos dos variable cuantitativas y una es respuesta


y la otra es predictora

Resumen numérico: una medida de centro y una de


variablilidad por cada variable cuantitativa. Además, si en el
gráfico de respuesta vs predictora se ve asociaciń linear,
agregar el coeficiente de correlación y la recta de mı́nimos
cuadrados. Recordar: el coeficiente de correlación no dice
nada si la relación no es lineal. (Idem la recta de mı́nimos
cuadrados).

Resumen gráfico: un diagrama de dispersión donde ponemos


en el eje y la variable respuesta y en el eje x la variable
predictora. Si la relación es lineal agregar la recta de mı́nimos
cuadrados.
Repaso. Según la pregunta de interés podemos tener

Variables cualitativas
I Una variable. Resumen numérico: porcentajes.
Repaso. Según la pregunta de interés podemos tener

Variables cualitativas
I Una variable. Resumen numérico: porcentajes.
resumen gráficos: barra, torta.
Repaso. Según la pregunta de interés podemos tener

Variables cualitativas
I Una variable. Resumen numérico: porcentajes.
resumen gráficos: barra, torta.
I Dos variables. Resumen: tablas de contingencia.
Porcentaje por celda, por filas, por columnas. Si una
variable es respuesta y la otra predictora se deben hacer
porcentajes por cada categorı́a de la variable predictora
Repaso. Según la pregunta de interés podemos tener

Variables cualitativas
I Una variable. Resumen numérico: porcentajes.
resumen gráficos: barra, torta.
I Dos variables. Resumen: tablas de contingencia.
Porcentaje por celda, por filas, por columnas. Si una
variable es respuesta y la otra predictora se deben hacer
porcentajes por cada categorı́a de la variable predictora
gráficos: diagrama de barra adosado o apilado. Siempre
poner porcentaje en el eje y.
Variables cuantitativas
I Una variable:
Resumen grafico: una medida de centro (media, mediana)
y una medida de variabilidad (desvio estandard, rango
intercuartilico, entre otros)
Resumen grafico: si es discreta se puede hacer lo que se
hace para cualitativas. Si es continua se puede hacer
diagrama de caja, histogramas
Variables cuantitativas
I Una variable:
Resumen grafico: una medida de centro (media, mediana)
y una medida de variabilidad (desvio estandard, rango
intercuartilico, entre otros)
Resumen grafico: si es discreta se puede hacer lo que se
hace para cualitativas. Si es continua se puede hacer
diagrama de caja, histogramas
I Dos variables cuantitativas: scatterplot
Una variable cuantitativa (respuesta) con una variable
categórina (predictores)
I Resumen numerico: una medida de centro y una de
variabilidad por cada categoria de la variable predictora.
I Diagramas de caja por categorı́a o histograma por cada
categorı́a. O diagrama de dispersion. (cuando son pocos
datos)
Una variable cuantitativa (respuesta) con una variable
categórina (predictores)
I Resumen numerico: una medida de centro y una de
variabilidad por cada categoria de la variable predictora.
I Diagramas de caja por categorı́a o histograma por cada
categorı́a. O diagrama de dispersion. (cuando son pocos
datos)
Una variable cuantitativa (respuesta) con dos variable
categórina (predictores)
Resumen numerico: una medida de centro y una de
variabilidad por cada categoria de cada uno de los cruces de
las variables predictoras.
Resumen grafico: boxplots e Interaction plots

Vous aimerez peut-être aussi