Vous êtes sur la page 1sur 10

ESTADSTICA DESCRIPTIVA

Problemas propuestos
para resolver con Rcmdr
Grado en Ingeniera Electrnica Industrial
Bruno Flores Ramos
08/04/2015

1. Utilizando el fichero de datos titanic en el que aparecen cuatro variables, Class,


Sex, Age y Survived que aportan informacin sobre la clase que ocupaba el
pasajero, su sexo, edad y si sobrevivi o no:
En primer lugar, conseguimos el fichero titanic en el men Datos, Conjunto de datos en
paquetes, Leer conjunto de datos desde paquete adjunto, datasets. Una vez tenemos el conjunto
de datos activo, podemos comenzar el ejercicio.

Construir la tabla de doble entrada para las variables Class y Survived.

El conjunto de datos titanic que tenemos activo tiene una columna con las frecuencias, pero an
as R Commander no puede trabajar con ellas. Para convertir esta tabla en otra con la que el
programa pueda trabajar debemos hacer clic en el men Datos, Conjunto de datos activo y
Seleccionar conjunto de datos activo.
Una vez seleccionado, introduciremos las siguientes rdenes en el Script, las seleccionaremos
con el cursor y haremos clic en Ejecutar.

Una vez hecho esto, habremos creado una tabla nueva con todos los datos en hilera, con la que
R Commander podr trabajar usando las frecuencias.
Para obtener la tabla de doble entrada, ahora deberemos seleccionar el men Datos, Conjunto de
datos activo y Seleccionar conjunto de datos activo. Al haber creado otra tabla, nos dar a
elegir. En esta ocasin elegiremos la que acabamos de crear; Titanic2.
Ahora, abriremos el men Estadsticos, Tablas de contingencia, Tabla de doble entrada.
Seleccionamos en variable de fila Class y en variable de columna Survived, obteniendo
finalmente la tabla que queramos.

Determinar la distribucin marginal de la variable Survived. Estudiar su


representacin grfica e interpretar sus resultados.

Abriremos el men Estadsticos, Resmenes y Distribucin de frecuencias. Seleccionamos la


variable Survived que es con la que queremos trabajar, hacemos clic en aceptar y obtendremos
como resultado la distribucin marginal que queramos conseguir.

Para obtener una representacin grfica abriremos el men Grficas y Grfica de barras.
Seleccionamos otra vez la variable Survived, y obtenemos la siguiente grfica.

Como podemos ver, el nmero de pasajeros que no sobrevivieron es aproximadamente el doble


que el nmero de los que sobrevivieron. As nos lo muestran los porcentajes, con ms precisin:
un 67.7% no sobrevivi.

Determinar la distribucin condicionada de la variable Survived a ser mujer.


Representar e interpretar su correspondiente diagrama de barras.

Para crear una distribucin condicionada deberemos filtrar nuestra distribucin original. Para
ello, abriremos el men Datos, Conjunto de datos activo, Filtrar conjunto de datos activo.
Una vez abierta esa pestaa, desmarcaremos Incluir todas las variables, marcaremos Survived y
escribiremos en Expresin de seleccin: Sex==Female, pues es el filtro que queremos
realizar. En Nombre del nuevo conjunto de datos, podemos escribir TitanicSurvivedFemale,
simplemente por no sobrescribir el conjunto activo.
Hacemos clic en aceptar y obtenemos nuestra distribucin condicionada.
Abrimos el men Estadsticos, Resmenes y Conjunto de datos activo; para ver un resumen de
dicha distribucin.

Para obtener la grfica, abriremos el men Grficas, Grfica de barras y la variable Survived.
Haremos clic en aceptar y obtendremos nuestra grfica de barras.

Como podemos ver, casi tres cuartas partes del nmero total de mujeres sobrevivieron.
Probablemente esto fuese porque se les otorgase mayor preferencia a nios y mujeres a la hora
de salvarse que a los hombres.

2. Utilizando el fichero cars cuyos datos proporcionan la velocidad de los coches de


primeros del siglo XX y las distancias para su detencin:
En primer lugar, como en el ejercicio anterior, obtenemos el fichero cars en el men Datos,
Conjunto de datos en paquetes, Leer conjunto de datos desde paquete adjunto, datasets. Una vez
tenemos el conjunto de datos activo, procedemos a realizar el ejercicio.

Para la variable distancia, calcular sus medidas de tendencia central y de


dispersin. Determinar el diagrama de cajas con bigotes. Comentar los resultados
obtenidos.

Abrimos el men Estadsticos; Resmenes; y seleccionamos Conjunto de datos activo.


Obtenemos como resultado:

De ese resultado obtendremos las medidas de tendencia central.


Para obtener las de dispersin, abriremos el men Estadsticos, Resmenes y seleccionaremos
Resmenes numricos. Seleccionaremos dist como variable y en la pestaa Estadsticos
marcaremos las opciones Desviacin tpica, Rango intercuartlico y Coeficiente de variacin,
obteniendo como resultado lo siguiente:

Para calcular la varianza, otra medida de dispersin importante, introduciremos en el Script el


comando var(cars), obteniendo:

Despus de estas tres acciones, interpretamos las siguientes medidas:


-

De tendencia central:
o Media: 42.98
o Mediana: 36
De dispersin:
o Cuasivarianza:
(sd es la raz de la cuarsivarianza, por tanto
elevndolo al cuadrado la obtenemos) = 664,0609455844
o Rango intercuartlico: 30
o Coeficiente de variacin: 0.5995667

Para obtener el diagrama de cajas con bigotes, abriremos el men Grficas, Diagrama de caja, y
seleccionaremos la variable dist (distancia). Haremos clic en aceptar y obtendremos el diagrama
siguiente.

El bigote inferior representa las distancias que van desde la mnima hasta el primer cuartil; la
parte inferior de la caja, las distancias que estn entre el primer y el segundo cuartil; la parte
superior de la caja, las que estn entre el segundo y el tercer cuartil, y el bigote superior las que
estn entre el tercer cuartil y la distancia mxima. A su vez, en este caso particular, tenemos un
dato atpico alejado incluso del bigote superior por ser mucho mayor al resto.

La parte inferior de la caja es ms pequea que la parte superior, ello quiere decir que las
distancias comprendidas entre el 50% y el 75% de las observaciones estn ms dispersas que
entre 25% y el 50%.
El bigote inferior es de menor tamao que el superior, lo que quiere decir que el 25% de las
menores distancias estn ms concentradas que el 25% de las mayores.
El rango intercuartlico es 30, es decir, el 50% de las distancias est comprendido en 30.
La mediana es menor que la media, y esto se debe a que no es sensible a datos atpicos; mientras
que la media si lo es. Por tanto, observamos que hay datos atpicos mayores considerablemente
que el resto del conjunto.
El coeficiente de variacin es aproximadamente del 60%, por lo que la dispersin entre los datos
del conjunto es considerable, no son muy homogneos.

Para la variable velocidad: representar grficamente los datos y determinar a


partir de que velocidad se encuentra el 75% de las velocidades ms altas.

Para representar un histograma de los datos de la variable velocidad, abrimos el men Grfica,
Histograma y seleccionamos la variable speed (velocidad). Hacemos clic en aceptar y
obtenemos la siguiente grfica.

Para determinar a partir de que velocidad se encuentra el 75% de las velocidades ms altas,
abrimos el men Estadsticos, Resmenes, Resmenes numricos y seleccionamos la variable
speed. En la pestaa Estadsticos slo marcamos los cuantiles, el resto lo desmarcamos pues
para responder esta pregunta no nos ser necesario.

Obtendremos como resultado:

De ah interpretamos que el percentil 75%; el valor de velocidad que bsicamente nos


preguntaban en el enunciado, es el 19.

Determinar el diagrama de dispersin de velocidad/tiempo. Calcular la recta de


regresin, el coeficiente de determinacin y de correlacin lineal. Interpretar los
resultados.

Para obtener el diagrama de dispersin que nos pide el enunciado, abriremos el men Grficas,
Diagrama de dispersin. Una vez dentro, seleccionamos la variable dist como variable x y la
variable speed como y. En la pestaa Opciones slo marcamos Lnea de mnimos cuadrados y
Automticamente.

Obtenemos el siguiente diagrama:

.
Para obtener la recta de regresin, abrimos el men Estadsticos, Ajuste de modelos, Regresin
lineal. Seleccionamos como variable explicada la variable speed y como variable explicativa,
dist. Obtenemos como resultado los siguientes datos:

Nuestra recta de regresin es de la forma: y = a + bx ; donde y es la velocidad y x es la distancia.


Por tanto, de los datos que hemos obtenido del ajuste lineal, sacamos:

Ordenada en el origen de la recta (a): 8.28391


Pendiente de la recta (b): 0.16557
o Ecuacin de la recta: y = 8.28391 + 0.16557x
Coeficiente de determinacin lineal (Multiple R-squared): 0.6511

Para calcular el coeficiente de correlacin lineal, abrimos el men Estadsticos, Resmenes,


Matriz de correlaciones. Una vez dentro, seleccionamos ambas variables y dejamos marcadas
las casillas que ya lo estn, sin cambiar nada. Obtenemos como resultado:

Nuestro coeficiente de correlacin lineal es 0.8068949, que nos confirma que el ajuste es
bastante bueno al ser un valor prximo a 1.

Vous aimerez peut-être aussi