Vous êtes sur la page 1sur 40

Introducción a la estadística

[1.1] ¿Cómo estudiar este tema?

[1.2] ¿Qué es la estadística?

[1.3] Población, muestra y muestreo

[1.4] Tipos de variables estadísticas

[1.5] Tipos de muestreo

[1.6] Diseño de experimentos

[1.7] Razonamiento estadístico

[1.8] Representando los datos: distribución de frecuencias

[1.9] Tabulación de variables

[1.10] Graficas básicas

[1.11] El arte de elegir el gráfico adecuado


1
[1.12] Aplicación de las TIC

[1.13] Referencias bibliográficas


TEMA
Esquema

TEMA 1 – Esquema
Introducción a la estadística

Conceptos básicos: Variables estadísticas Tipos de muestreo ¿Cómo producimos los


¿Qué es la estadística? datos?

Dato Estudio
Cuantitativas Categóricas Aleatorio No aleatorio Experimento
observacional

2
Individuo
Discretas Nominales
Población
Continuas Ordinales

Muestra

Distribución
Análisis e Interpretación de Datos

© Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

TEMA 1 – Esquema 3 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Ideas clave

1.1. ¿Cómo estudiar este tema?

Para estudiar este tema lee las páginas 13-37 del siguiente libro:

Ríus, F. (1998). Bioestadística: Métodos y aplicaciones. Málaga: Universidad de Málaga.


Publicaciones. Versión electrónica: http://www.bioestadistica.uma.es/libro/

Este primer tema consta de una parte introductoria para repasar los conceptos y técnicas
clave sobre los que trabaja la ciencia estadística y también aborda una primera necesidad
que surge a partir de los datos, sobre cómo organizarlos y presentarlos. O dicho de otro
modo, este capítulo trata de responder a esta cuestión: ¿Cómo organizamos los datos
para poder comprender la información que contienen? (O como diría Moore, para
«aprender» de ellos.

También será clave que practiques con los ejercicios que vienen al final del tema, los
cuales están diseñados para que apuntales las ideas más importantes sobre tablas de
frecuencias y gráficos estadísticos. Los dos esquemas que acompañan este tema te
pueden ayudar a hacerte una buena idea de cómo está organizado.

1.2. ¿Qué es la estadística?

Podemos pensar en un primer lugar que la estadística es simplemente una colección de


datos cualquiera. Así decimos informalmente estadísticas del paro, de intención de voto,
etc. Pero esta definición no es la que nos interesa, ya que hace mención a estudios
concretos, pero no expresa una visión de esta disciplina como ciencia que estudia los
datos de manera más amplia. La definición que merece un profundo estudio y que da
razón de ser a nuestra asignatura es la siguiente.

Una definición un tanto exhaustiva de la estadística diría que es la ciencia que maneja
los datos a través de un proceso que va desde el diseño del estudio, recogida de los datos,
análisis, para finalmente organizar, resumir y mostrar la información contenida en ellos
para sacar conclusiones. De manera resumida podemos dar otra definición.

TEMA 1 – Ideas clave 4 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

La estadística es la ciencia que nos permite aprender de los datos (Moore, 2006).

Conviene aclarar que el hecho que no se desarrolle el proceso estadístico completo con
todas sus fases no quiere decir que no se «haga estadística». Podemos realizar
estadísticas partiendo de datos ya producidos (habiéndose hecho previamente el diseño
y la recogida de datos) de modo que comencemos nuestra labor estadística en la fase de
análisis de datos.

Diseño del
Recogida de
estudio Análisis Conclusiones
datos
estadístico

Ejemplo 1: De este modo en una misma empresa puede haber empleados y empleadas
en diferentes puestos, encargándose uno de ellos del diseño del experimento para recoger
los datos, otro de recogerlos, una tercera de analizarlos y un cuarto de exponerlos en una
presentación delante del jefe de la empresa para que este pueda tomar las decisiones
oportunas. Cada uno de los cuatro empleados está trabajando a su manera como
estadístico pero en una fase diferente.

Todas las fases de un estudio estadístico son igualmente importantes, pero, de


hecho, se suele decir que no hay buen análisis posible si los datos han sido recogidos de
cualquier manera sin seguir unos criterios estadísticos mínimos, y es por ello que la etapa
de recogida de datos es sumamente delicada y de suma importancia. Luego veremos
cómo garantizar la recogida de unos «buenos» datos. Además, las fases explicadas
anteriormente tampoco son únicas, pues otros autores afirman que el identificar una
cuestión o problema de estudio también es en sí una fase previa.

Alguien podría preguntarnos alguna vez «¿para qué sirve la estadística?». Entonces,
podríamos responderle, no sin razón, que el objetivo de la estadística es «ganar en
compresión de un fenómeno a partir de los datos que se manejan sobre este» (Moore,
2006).

La estadística de acuerdo al nivel de uso pretendido que le demos como herramienta


puede ser de dos clases:

TEMA 1 – Ideas clave 5 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Con la que nos limitamos a describir una población


Estadística descriptiva
basándonos en la información recogida de su muestra.

Con la que pretendemos establecer conclusiones sobre la


Estadística inferencial
población.

Los primeros temas de este curso se centran en la que tradicionalmente se llama


estadística descriptiva, mientras que más adelante, con la probabilidad veremos la
parte inferencial, aquella que descansa sobre un aparato matemático mayor y que nos
permitirá fundamentar gran parte de las técnicas estadísticas conocidas.

1.3. Población, muestra y muestreo

La definición de estadística emplea primeramente el concepto de dato, que no solo es


un número, sino un número en un contexto, con lo cual es información recolectada
sobre algo. Pero ese «algo» es lo que llamaremos individuo el cual conforma un
colectivo que llamamos población, que es finalmente sobre lo que nos interesa estudiar
y sacar conclusiones. Por lo tanto, la estadística no se encarga de cualquier fenómeno,
sino de aquellos que son colectivos y que no atienden a leyes deterministas (de las cuales
se encargan las ciencias exactas), es decir, de aquellos que contienen algún elemento de
incertidumbre.

El proceso mediante el cual seleccionamos a los individuos que van a formar parte de la
muestra se denomina muestreo y es clave para garantizar un mínimo de calidad en los
datos obtenidos (es decir, una información importante sobre la población), que ayude a
validar futuros análisis y conclusiones. Lo deseable al recoger la muestra es que los
individuos seleccionados configuren una muestra representativa de su población, es
decir, que contenga una diversidad muy similar a la de la población de origen.

Siempre que obtengamos una muestra estamos expuestos al error de muestreo,


producto de inferir o extrapolar a partir de un trozo de realidad (la muestra), el cómo
será la realidad entera (la población). La clave será reducir este error, inherente al propio
proceso de muestreo, al mínimo.

El proceso de extrapolar las características y propiedades de la muestra a las de la


población se conoce como inferencia estadística y, dada su importancia, ha devenido

TEMA 1 – Ideas clave 6 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

en una rama de la estadística (generalmente se habla de estadística descriptiva y de la


inferencial).

Ejemplo 2: En la Encuesta sobre Medios de Transporte que realizó el consorcio


madrileño de transportes hace unos ocho años los encargados del estudio querían
responder entre otras cuestiones a la siguiente pregunta concreta: «¿cuál es el uso que le
están dando los madrileños al transporte público en la zona de la sierra de Madrid?».

Para ello los encuestadores fueron debidamente formados y realizaron encuestas en


pueblos de la serranía. Lo que ocurre es que no les pudieron preguntar a todos los
habitantes de todos los pueblos, ya que ello hubiera excedido los costes presupuestados.

De modo que se seleccionó una muestra aleatoria de viviendas para que sus inquilinos
fueran encuestados y posteriormente se respondió a la pregunta a partir de los datos de
la muestra recogida extrapolándolos a toda la población de Madrid.

Como el estudio anterior son en realidad todos los estudios que se llevan hoy en día en
España, pues los censos o registros exhaustivos a toda la población ya no se practican
desde el año 2000 cuando tuvo lugar el último censo de la población española.

1.4. Tipos de variables estadísticas

Discretas

Cuantitativas

Continuas
Variables
estadísticas
Nominales

Categóricas

Ordinales

Tal y como observamos en el esquema existen dos tipos de variables estadísticas: las
categóricas y cuantitativas. La primera de ellas está dividida a su vez en dos clases,
dependiendo de si las categorías son meramente cualitativas, son las llamadas
nominales, o si además poseen orden, las ordinales. Las cuantitativas pueden ser

TEMA 1 – Ideas clave 7 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

discretas cuando toman un número finito de valores o continuas cuando pueden


tomar infinitos valores como por ejemplo las magnitudes físicas (altura, peso, etc.)

La clasificación anterior de los tipos de variables no es única. Otros autores las


subdividen de otro modo, aunque este es probablemente el más común. También
podemos clasificar las variables según su enfoque metodológico:
Variables dependientes.
Variables independientes.

Las dependientes son las que sus valores dependen de los que tomen otros de acuerdo a
un determinado rol hipotético que asumimos que juega cada variable y que hará que
planteemos un modelo estadístico u otro en nuestros análisis estadísticos (como cuando
planteamos una regresión lineal).

Ejemplo: aprobado en Lengua en el 1er Cuatrimestre será variable dependiente de otra


independiente como puede ser el número de horas de estudio de Lengua. Se supone que
pretendemos explicar el hecho de aprobar Lengua a partir del número de horas
estudiadas para la asignatura, lo cual parece razonable (aunque existirán otros factores).

Es por ello que también recibe el nombre de variable explicada o respuesta,


mientras que la independiente también recibe el nombre de variable explicativa o
predictora. Depende del gusto de los autores el emplear una terminología u otra,
porque en el fondo, variable dependiente, respuesta y explicada por un lado, e
independiente, explicativa y predictora por el otro, no son más que sinónimos de un
mismo rol que desempeña la variable. En economía u otras disciplinas pueden emplearse
otros términos equivalente como variables endógenas y exógenas, etc.

Otro tipo de variable al que conviene ponerle nombre es el de las variables


intermediarias u omitidas, variables que no son contempladas por el estudio o el
modelo planteado en cuestión, pero que en el fondo estarían actuando de variables
explicativas de nuestra variable dependiente, pero de un modo digamos oculto, o mejor
dicho «desde la sombra». Conviene identificarlas para no establecer asociaciones y
presuponer causalidades infundadas.

Ejemplos en el terreno educativo son la renta familiar sobre el rendimiento escolar, el


profesor sobre la motivación del alumno y el ambiente familiar sobre la integración de
los estudiantes. La variable nivel de estudios de los padres es un ejemplo clásico de este

TEMA 1 – Ideas clave 8 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

tipo de variables. En ocasiones los análisis estadísticos se realizan «controlando» el


efecto de dichas variables para eliminar determinado influjo sobre la variable respuesta
en el cual no estamos interesados (El análisis de covarianza o ANCOVA permite este tipo
de controles, aunque son técnicas que se ven en cursos más avanzados de estadística).

Otro tipo de variable muy empleado en estadística es el de las variables dicotómicas,


ya que son muy útiles para describir el hecho de que ocurra algo (1) o no ocurra (0).

En la práctica una misma variable puede ser recodificada de diferentes


modos, como por ejemplo la variable edad. En teoría se trata de una variable continua
(la edad es el tiempo pasado desde el nacimiento, que es una magnitud continua), sin
embargo puede ser recogida en su dimensión puramente categórica ordinal si solo
apuntamos o codificamos los intervalos de edad, tal y como ocurre en numerosas
encuestas. (Ejemplo: Menor de edad- De 18 a 25 años- Mayor de 25).

Ejemplos de cada tipo de variable son:

Categórica nominal es el género, el grupo al que pertenecen los alumnos, etc.


Categórica ordinal es el curso al que pertenecen los alumnos (Ejemplo: 1ºESO,
2ºESO,…, 2ºBachillerato).
Cuantitativa discreta es el número de asignaturas suspensas en un cuatrimestre.
Cuantitativa continua es el tiempo empleado en hacer el examen.

1.5. Tipos de muestreo

Los datos muestrales tienen que ser recogidos con ciertas garantías pues, de lo contrario, los
análisis que hagamos a partir de ellos y las conclusiones a las que lleguemos no serán válidas.
Esto es especialmente relevante en la investigación, donde nos es más sencillo trabajar con
una cantidad no muy elevada de sujetos para luego inferir comportamientos al total de la
población. Por ello, es importante el tipo de muestreo que elegimos.

Además, en los estudios estadísticos que llevemos a cabo es conveniente explicar clara y
detalladamente el método de muestreo que se ha empleado para recoger la muestra, de
modo que el estudio pueda ser replicado en esta faceta también.

TEMA 1 – Ideas clave 9 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Ejemplo 3: Imaginemos que desde el departamento comercial de una compañía de


cervezas se encarga el trabajo a una consultora estadística. Esta consultora tiene que
estudiar cuales son las características más deseadas de su producto de cara a saber cuál
sería su target o cliente objetivo y a establecer el marketing. Para ello, se dispone a hacer
una encuesta, pero aquí se le presentan varias maneras de llevarla a cabo.

1. Poniendo a un encuestador en la puerta del pub de debajo de la oficina de la consultora


e ir abordando uno a uno a los clientes que entran. De esta manera, el muestreo sería
de conveniencia o incidental, pues se obtienen los datos de modo que sean fáciles
de obtener, sirviéndose de una situación accesible que este más o menos «a mano».

Uno de los inconvenientes de este tipo de muestreo es que está sujeto a un sesgo de
selección, producto de la subjetividad del investigador. Los métodos de muestreos con
un gran sesgo de selección no serán adecuados para nuestras investigaciones y salvo
en los casos en que el error que produzca no sea muy grande deberemos evitarlo.

2. Otro muestreo que produce un sesgo importante es el llamado bola de nieve. Se


parte de un individuo que es el encargado de conducir o seleccionar a un segundo y
este lo será de seleccionar a un tercero, y así sucesivamente generando un efecto
expansivo e impredecible en la configuración de la muestra que se asemeja al de
generación de una bola de nieve.

3. Alojando una encuesta on-line accesible desde un página web del mundillo del rock.
En este caso sería una muestra autoseleccionada o de respuesta voluntaria, que
podemos considerar con un sesgo de selección difícil de cuantificar.

4. Otra opción para la consultora es la de tener que elegir igual número de hombres que
de mujeres y, además, un determinado número para cada intervalo de edad que se
considere. Esto se conoce como muestreo por cuotas, que en este caso serían cuotas
por género y edad. Si el muestreo por cuotas se realiza respetando unos criterios de
aleatoriedad mínimos deviene en un muestreo estratificado (ver más adelante).

5. Supongamos que la consultora tiene disponible un panel (grupo o plantilla de


clientes disponibles para colaborar en los estudios de marketing) o panel de clientes
con 5000 personas, las cuales suelen colaborar realizando periódicamente encuestas.
Si decide recoger una muestra de 500 personas del panel aleatoriamente de entre
estos 5000 donde todos tengan la misma probabilidad de ser elegidos entonces se está
realizando un muestreo aleatorio simple (también conocido por m.a.s.).

TEMA 1 – Ideas clave 10 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Para realizar un muestreo aleatorio basta con asignar un número aleatorio o rango
aleatorio a cada sujeto de la muestra y luego mediante el ordenador (antes se
empleaban tablas de número aleatorios o se lanzaba un dado, etc.) generar este
número aleatorio, claro que habrá que tener en cuenta si existe reemplazamiento o no
en la muestra. En la lotería este proceso es con reemplazamiento, pues cualquier
número puede volver a surgir. No así en la primitiva, que sería sin
reemplazamiento, donde si sale por ejemplo el 17 como primer número ya no
puede repetirse en los siguientes cinco números (del total de seis que configuran la
combinación de la primitiva).

6. Una variante del m.a.s. pero algo menos restrictiva sucede, por ejemplo, si la
consultora decide coger solo 250 personas del panel y que los otros 250 sean un
miembro de la familia del seleccionado, de esta manera el muestreo sería aleatorio,
que es aquel donde todos los individuos tienen la misma probabilidad de ser elegidos
pero no todas las muestras son igualmente probables, ya que los familiares de los
clientes del panel no pueden ser elegidos con la misma probabilidad.

7. Escogiendo a un individuo de los diez primeros de la lista panel y luego ir cogiendo


sistemáticamente, por ejemplo, a uno de cada diez (sería de orden 10) hasta llegar al
final de la lista. Este muestreo se conoce como sistemático de orden K. (en el
ejemplo anterior sería de orden 10, también llamado muestreo sistemático con factor
de elevación 10).

8. Por último la consultora, ya prescindiendo de su grupo de clientes del panel, podría


querer generar muestras representativas de sus clientes para las diferentes partes de
una determinada ciudad por ejemplo, ya que se sospechaba que el barrio o distrito
estaba relacionado con el perfil del consumidor. Podría entonces haber dividido la
ciudad donde realiza la encuesta en varios distritos más o menos grandes y realizar
una muestra aleatoria en cada uno de ellos. Esto se conoce como muestreo
estratificado, el cual permite que se mantenga la representatividad de los estratos
de la población.

También podría ser estratificado si, por ejemplo, se segmenta la población por género
y edades y, dentro de cada segmento o subgrupo de edad y género (por ejemplo
hombres de entre 30 y 45 años), se obtiene una muestra. Para elegir la cantidad de
individuos que se seleccionarán en cada estrato existen diferentes criterios,
llamándose este proceso afijación.

TEMA 1 – Ideas clave 11 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Los tres tipos de afijación son:


o Afijación igual: todos los estratos tienes el mismo número de individuos para la
muestra.
o Afijación proporcional: se recoge un número de individuos proporcional al
tamaño del estrato.
o Afijación Neyman: cuando se cogen los individuos en cada estrato dependiendo
de la variabilidad de este.

9. Eligiendo aleatoriamente algunos de los subgrupos de la población en primer lugar,


para luego seleccionar a todos los individuos de dichos grupos; de esta manera
estaríamos muestreando por conglomerados. Este podría ser un caso parecido al
del panel que se ha comentado previamente, pero con el requisito previo de que el
grupo o conglomerado debe establecerse de acuerdo a nuestro conocimientos sobre la
población, debe ser representativo de esta, es decir, tendrá que reflejar la diversidad
de la población.

Una vez elegidos estos conglomerados se suele pasar a una selección aleatoria de los
individuos dentro de estos. Se puede pensar en los conglomerados como familias, ya
que estas son representativas de la población. La selección aleatoria dentro de cada
una de las familias se realiza para quedarnos finalmente con un individuo de esta (este
método es muy habitual en números estudios estadísticos como, por ejemplo, en el
citado anteriormente del transporte público que se llevó a cabo en 2004-05).

10. Conviene aclarar que en no pocas ocasiones los muestreos son combinaciones de
algunos de los anteriores, generalmente por que pueden constar de varias etapas,
denominándose muestreos polietápicos. (o multietápicos). El caso del muestreo de
conglomerados comentado anteriormente sería de tipo polietápico.

Según recomiendan Clairin y Brion (2001) se debe restringir el concepto de muestreo


en conglomerados a los poliétapicos de dos etapas, en los cuales se escogen todos los
individuos de las unidades seleccionadas en la primera etapa (como pueden ser los
pueblos, manzanas de viviendas, colegios, aulas, etc.)

TEMA 1 – Ideas clave 12 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Para aclarar las tipologías anteriores observa este esquema:

Muestreo aleatorio
simple (m. a. s.)

Sistemático
Probabilístico
Estratificado

Tipos de
De conglomerado
muestreo

Por cuotas
No
probabilístico
Por conveniencia

1.6. Diseño de experimentos

Los estudios estadísticos pueden ser de dos clases:

Son aquellos en los recogemos datos observando por lo que no


Observacionales
intervenimos ni alteramos a los individuos de ningún modo.

Aplicamos tratamientos y luego observamos sus efectos sobre sus


Experimentales
sujetos, que aquí pasan a llamarse unidades experimentales.

Un estudio observacional es cualquier encuesta de las vistas anteriormente, ya que en


ellas no apliquemos cambios ni sometamos a ningún tratamiento a los encuestados. Los
diseños experimentales se emplean muy a menudo en la rama bioestadística, ya que es
habitual aplicar tratamientos médicos y luego querer observar las diferencias entre ellos.

1.7. Razonamiento estadístico

Para aprender a pensar estadísticamente debemos desarrollar un pensamiento crítico


basado en varias preguntas (adaptadas de Estadística de Triola, 2009):

TEMA 1 – Ideas clave 13 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

1. ¿Cuál es el objetivo del estudio?


2. ¿Quién es la fuente de los datos?
3. ¿Con que tipo de muestreo han sido obtenidos los datos?
4. ¿Existen variables que influyan en los resultados y que se hayan omitido?
5. ¿Las gráficas resumen adecuadamente los datos?
6. ¿Las conclusiones se extraen directa y naturalmente de los datos?
7. ¿Se ha cumplido el objetivo marcado al principio del estudio y tienen sentido y
utilidad práctica las conclusiones obtenidas?

El hecho de plantearnos quién es la fuente es importante porque esta puede, en un


momento dado, no ser neutral con el resultado de los objetivos del estudio y este interés
propio puede alterarlos. A esto muchas veces se le llama el «cocinado» de datos que viene
a ser esa pequeña o grande manipulación y preparación que sufren las conclusiones de
los datos para beneficio de quien presenta los resultados del estudio.

Diremos entonces que el estudio estadístico tiene un sesgo. Este concepto es


fundamental para el pensamiento estadístico, y todas las preguntas anteriores deben ir
enfocadas a plantearnos si existe o no sesgo. Por supuesto, existen muchas fuentes de
sesgo donde la anterior es tan solo la más coloquial. Es donde solemos decir: «tal o cual
estudio o investigación están sesgados…». Cuando veamos los estimadores y sus
propiedades en temas posteriores aprenderemos otras variaciones del concepto de sesgo.

Ejemplo 4: Los grandes medios de comunicación suelen colaborar asiduamente con


una misma agencia de estudios de opinión, la cual se encarga por ejemplo de sondear los
votos a los partidos en un momento coyuntural concreto. Este tipo de estudio se puede
prestar a sesgo por diferentes motivos.

Entre ellos, diríamos que el momento en el que se realiza el estudio, el momento en que
se publica, la ideología predominante en los dueños de la agencia de comunicación en
cuestión, el uso de cuestionarios un tanto restringidos o con preguntas dirigidas que
pudiera haber producido un efecto de redacción en la pregunta, etc.

Ejemplo 5: Imagínate que eres un analista de datos y tienes que empezar a trabajar los
análisis sobre un archivo Excel cuya tabla de datos es la siguiente:

TEMA 1 – Ideas clave 14 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

X Y
0,50 9,89
7,62 1,03
5,73 7,43
1,90 7,92
4,65 6,20
7,68 5,29
2,96 9,45
2,31 8,46
1,27 3,42
3,19 7,05

Si no te dan ninguna información extra a partir de aquí no podrías realizar estadísticas


con sentido pues desconoces el contexto en que se ha producido estos datos, a las
variables que hacen referencia X e Y, cómo han sido recogidos, etc.

Si se te facilita más información y puedes saber que estas variables pertenecen a unas
actas de una asignatura de un grado universitario y que son una m.a.s. de 10 alumnos
por cada uno de los grupos del curso, mañana y tarde, los cuales corresponden
respectivamente a las columnas X e Y.

1.8. Representando los datos: distribución de frecuencias

Ahora vamos a pasar la fase de organización y representación de datos. Lo primero que


se nos ocurre hacer con los datos es contarlos. Anotar sus repeticiones, es decir, el
número de veces que se repite un valor o una categoría de una variable. A estas
magnitudes las llamamos frecuencias.

Clasificamos las frecuencias de la siguiente manera:

Las absolutas, que denotamos n i donde la i hace referencia a la categoría o valor


i-ésimo de la variable (también llamado modalidad).

Las relativas que se obtienen como las absolutas en relación al N total o suma de
todas las frecuencias absolutas de todas las modalidades, que en realidad no es más
que el tamaño de la muestra:

TEMA 1 – Ideas clave 15 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

𝑛𝑛𝑖𝑖
𝑓𝑓𝑖𝑖 = 𝑁𝑁
, siendo 𝑁𝑁 = ∑𝑘𝑘𝑖𝑖=1 𝑛𝑛𝑖𝑖

Las absolutas acumuladas que resultan de ir sumando las frecuencias de las


modalidades de la variable hasta una dada. Para diferenciarlas de las anteriores se las
distingue con letras mayúsculas: N 1 , N 2,… N k . Dándose entonces la circunstancia que
N k, que es la última frecuencia absoluta acumulada (que a veces simplemente se dice
«frecuencia acumulada» por abreviar) coincide con el tamaño de la muestra N.
Matemáticamente: N i =n 1 +…+n i, para i>1.

Las relativas acumuladas que por analogía con las anteriores son las sumas de las
frecuencias relativas hasta determinada modalidad de la variable.

𝑁𝑁𝑖𝑖
𝐹𝐹𝑖𝑖 = 𝑁𝑁
, y donde F k =1.

1.9. Tabulación de variables

Las clases de frecuencias anteriores las organizamos y presentamos mediante una tabla
de frecuencias, la cual consta de k filas, correspondientes a cada una de las k
modalidades de que consta la variable.

Frecuencias Frecuencias Frec. relativas


Modalidades Frecuencias
relativas absolutas absolutas

1 𝑛𝑛1 𝑓𝑓1 𝑁𝑁1 𝐹𝐹1

2 𝑛𝑛2 𝑓𝑓2 𝑁𝑁2 𝐹𝐹2

… … … … …

k 𝑛𝑛𝑘𝑘 𝑓𝑓𝑘𝑘 𝑁𝑁 1

SUMA N 1

La forma más empleada de tabla de frecuencias consiste en la columna de los valores y


sus frecuencias normales, es cuando se pretende registrar más información cuando se
incorporan el resto de columnas. En la práctica se suelen incluir las columnas de
frecuencias «normales» y la de relativas pero en forma de porcentajes.

TEMA 1 – Ideas clave 16 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Ejemplo 1:

Frecuencia % % válido
Tiempo completo 111 74,49 87,40
Tiempo parcial 16 10,73 12,60
No aplicable 22 14,76
TOTAL 149

En esta tabla se aprecia que en el lugar que tendría que figurar la columna de frecuencias
relativas la suplantan los porcentajes. El motivo es claro si se tiene en cuenta que se trata
de conceptos equivalentes, las frecuencias relativas son al tanto por uno lo que los
porcentajes al tanto por cien.

No todos los individuos tienen que tener asociado obligatoriamente un valor para cada
variable, cuando esto sucede diremos que el individuo presenta un valor perdido (o
missing) en dicha variable. Cuando existen valores perdidos es habitual colocar otra
columna en la tabla de frecuencias con la coletilla «válidos», dando a entender que en
esa columna no se contabilizan los valores perdidos. Esto sucede en la tabla anterior tal
y como se puede apreciar, ocurriendo que en este caso se considera la modalidad o
categoría «No aplicable», que a efectos prácticos se trata de un caso especial de perdidos
cuando no procede su respuesta por parte del individuo.

Ejemplo 2: Cuando en una encuesta se pregunta primero si se tienen hijos y a


continuación en otra pregunta cuántos hijos se tienen, esta segunda pregunta dará lugar
a valores «no procede» o «no aplicables» para los individuos que hayan contestado que
no tienen hijos en la primera.

Un caso aparte dentro de las tablas de frecuencias es aquel en el que las modalidades de
la variable continua se muestran por intervalos. En este caso tenemos que considerar
los conceptos de límite inferior y superior del intervalo, y el valor que representará a
dicho intervalo que se denomina marca de clase del intervalo. Esta marca de clase
tendrá su utilidad como valor promedio o representante de dicho intervalo, aspecto que
trataremos en el tema siguiente cuando veamos las medidas resumen estadísticas. Al ser
el valor o punto medio del intervalo se calcula así:

𝐿𝐿𝑖𝑖−1 + 𝐿𝐿𝑖𝑖
𝑥𝑥𝑖𝑖 = 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 =
2

TEMA 1 – Ideas clave 17 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Modalidades Marcas de clase Frecuencias


L 0 -L 1 𝑥𝑥1 𝑛𝑛1
L 1 -L 2 𝑥𝑥2 𝑛𝑛2
… … …
L k-1 -L k 𝑥𝑥𝑘𝑘 𝑛𝑛𝑘𝑘

Ejemplo 3:

Edad Marcas de clase Frecuencias


15-19 17 3575
20-24 22 4985
… … …
60-64 62 1257

1.10. Gráficas básicas

Existe un dicho en estadística: «Más vale un buen gráfico que mil tablas de frecuencias».
Si bien puede que sea una exageración, en muchos casos es cierto. Visualmente somos
capaces de asimilar cosas más rápidamente y con mayor claridad que codificadas de un
modo más complejo y analítico.

Uno de los dilemas clave cuando tenemos una base o conjunto de datos es el siguiente:
¿Cómo describir visualmente tales o cuales variables? O dicho de otro modo, ¿cuál es el
gráfico idóneo para representarlos? Antes de responder a estas cuestiones es necesario
saber la «oferta» de gráficos disponible para saber elegir el adecuado. Es en esta cuestión
en la que nos centraremos en este apartado.

La pista esencial para saber que gráfico nos corresponde confeccionar es el tipo de
variable que se pretende representar. El primer caso que se nos presenta es cuando
tenemos variables de «tipo categórico» (en realidad no existe tal división pero a nivel
práctico es útil manejarla), que pueden ser tanto cualitativas (de ambos tipos: nominales
y ordinales) como cuantitativas discretas, donde cada valor discreto sería una de las
categorías. En estos casos utilizaremos diagramas de barras. Lo anterior equivale a
decir que todas las variables pueden ser representadas con diagramas de barras excepto
las continuas.

TEMA 1 – Ideas clave 18 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Ejemplo 4:

En ocasiones los diagramas de barras pueden ser un poco más complejos, esto ocurre
cuando «cruzamos» dos variables categóricas.

Ejemplo 5:

De los dos gráficos anteriores es más habitual el diagrama de barras de la izquierda,


siendo el de la derecha un caso especial menos frecuente ─ pero con sus «adeptos» ─
denominado diagrama de barras apiladas.

Para representar gráficamente variables cualitativas tenemos el gráfico de sectores,


también llamado gráfico circular, de porciones, de tarta, o pie chart en inglés (pie =
tarta).

Se trata de un gráfico muy habitual que estamos más o menos acostumbrados a ver por
doquier. El único requisito que hay que tener en cuenta es el de representar los
porcentajes de las modalidades y que estos siempre sumen el 100%. El área o sector
circular que ocupa cada modalidad es proporcional a su porcentaje en relación con el
total. Es preferible usarlo cuando el número de categorías no es excesivo. Cuando hay
muy pocas diferencias entre las categorías o porciones podríamos plantearnos realizar el
gráfico de barras en su lugar.

TEMA 1 – Ideas clave 19 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Ejemplo 6:

Frecuencia %
Tiempo completo 111 74
Tiempo parcial 16 11
No aplicable 22 15
TOTAL 149 100

Otro gráfico de uso habitual y exclusivo para las variables cualitativas es el pictograma,
el cual como su propio nombre apunta se trata de un gráfico que se basa en un dibujo. La
elección de este gráfico puede reportar ventajas cuando queremos acentuar ciertas
diferencias o porque se trata de un elemento que visual o simbólicamente tiene cierta
potencia.

Ejemplo 7: Para resumir información de carácter militar el pictograma puede ser muy
apropiado, sobre todo de cara a acentuar ciertas diferencias a la hora de comparar. Un
ejemplo clásico es el de comparar el gasto militar entre países o bien el de las armas
militares como en el gráfico siguiente:

Uno de los errores habituales que se cometen en este tipo de gráficos es representar
cada modalidad según su valor y dibujando cada elemento con esta escala. Esto no es
correcto pues hay que considerar que las áreas de los dibujos tienen que ser
proporcionales a las magnitudes que representan.

TEMA 1 – Ideas clave 20 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

En el ejemplo anterior si se fija uno bien el valor en millones de euros del segundo misil,
el Meteor es el doble aproximadamente que el del Sparrow y, sin embargo, no es el doble
de alto el primero que el segundo sino que es su área la que es aproximadamente el doble.
El criterio para comparar en los pictogramas será, por tanto, el área, tal y como apuntan
algunos autores (Ríus et al., 2006, 25). Según lo dicho las frecuencias serán
proporcionales al tamaño de estas áreas.

Uno de los motivos que hace que el uso de los pictogramas sea limitado se debe al hecho
de que no estén disponibles en los principales programas que se emplean para la
elaboración de gráficas estadísticas como pueden ser el Excel y el SPSS.

En el caso de las variables cuantitativas disponemos de otros gráficos básicos. El


equivalente de algún modo al diagrama de barras en el caso cuantitativo continuo es el
histograma. Este gráfico nos permite comunicar la continuidad a través de las barras
juntas. Se suele emplear cuando disponemos de la información agrupada en intervalos,
que es la manera más común en la que se manejan las variables cuantitativas continuas.

Ejemplo 8: En el siguiente caso representamos las estatuillas de Oscar ganadas por


actrices dependiendo de su edad (Triola, 2009). La variable «edad» es continua de modo
que parece apropiado mostrar su distribución con un histograma. El valor que figura en
el eje de abscisas es la marca de clase de cada intervalo.

Un gráfico algo menos empleado que el histograma es el polígono de frecuencias que


se obtiene al unir los puntos medios de las barras del histograma (muestro con el color
de relleno rebajado el histograma asociado que no tendría por qué figurar acompañando
al polígono de frecuencias).

TEMA 1 – Ideas clave 21 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Ejemplo 9:

Este gráfico, al ser pura línea, acentúa las tendencias, por lo que viene bien para
representar las frecuencias acumuladas, tal y como se ve en la siguiente versión:

Otro gráfico muy empleado en el caso cuantitativo es el de dispersión (también llamado


nube de puntos) el cual nos sirve para representar los valores de un individuo en dos
variables continuas.

TEMA 1 – Ideas clave 22 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Ejemplo 10:

Altura Peso
(X) (Y)
171 67
154 49
159 57
196 92
169 55
180 75
178 83
187 87

Cuando se dispone de frecuencia mayor que uno para algún par (x i ,y j ) lo que se hace es
situarlos muy próximos entre sí indicando que todos esos puntos (n ij puntos para ser más
exactos) representan al mismo par.

También es posible mostrar la información de una variable cualitativa con este gráfico
diferenciando los puntos por colores o usando un símbolo. Por ejemplo «H» o «M» para
indicar género (Hombre y Mujer).

Otra gráfica muy común en nuestro día a día (sobre todo en las secciones de economía
de los periódicos) es la llamada serie temporal (time plot en inglés), en la que se
muestran una línea que recorre diferentes valores o frecuencias a lo largo del tiempo. La
variable temporal se sitúa siempre en el eje horizontal.

Ejemplo 11: Los índices económicos bursátiles como el IBEX 35 son un ejemplo muy
común de gráficos de series temporales.

Para aprender más sobre series temporales consulta el apartado No dejes de leer.

TEMA 1 – Ideas clave 23 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

1.11. El arte de elegir el gráfico adecuado

Uno de los problemas habituales cuando tenemos un conjunto de datos y nos


disponemos a representarlos gráficamente es que no sabemos por dónde empezar.
Es raro encontrar un libro que aborde esta cuestión explícitamente, pero lo cierto es que
es un momento en el cual llegamos a dudar de que el gráfico que vamos a emplear sea
realmente el más adecuado o que no pareciendo que sea erróneo sospechamos que tiene
que haber algún otro gráfico que sea realmente bueno para describir los datos.

Y entonces, ¿cuál es el gráfico más adecuado para mis datos? Lo primero que
tenemos que tener en mente para responder con seguridad a esta pregunta es la siguiente
tabla, que aunque al principio quizás tengamos que acudir a ella con cierta frecuencia,
acabaremos por interiorizarla a nuestra manera.

Tipo de variable Opciones gráficas

Nominal
Diagrama de barras,
Cualitativa
sectores, pictograma Diag. Barras
Ordinal
acumuladas
Diagrama de barras
Discreta ("normales" y
acumuladas)
Cuantitativa
Histograma, dispersión
Polígono de
Continua (dos continuas), serie
frecuencias
temporal

1.12. Aplicación de las TIC

Vamos a aprender a representar gráficamente un conjunto de datos en Excel. Este


programa prácticamente disponemos todos de él y cuando no sea así se puede disponer
de una versión libre muy similar llamada OpenOffice.

Puedes encontrar más información sobre esta herramienta en:


https://www.openoffice.org/es/

TEMA 1 – Ideas clave 24 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Partimos de los siguientes datos:

SUJETO ALTURA SEXO

Sujeto 1 171 M

Sujeto 2 154 M

Sujeto 3 159 M

Sujeto 4 196 H

Sujeto 5 169 M

Sujeto 6 180 H

Sujeto 7 178 H

Sujeto 8 187 H

1. La primera cuestión que debemos abordar es decidirnos sobre el gráfico a emplear.


Tenemos dos variables (descontando la identificativa del sujeto) que son «altura» y
«sexo». Pongamos que lo que nos interesa para empezar es describir el sexo de los
individuos. Se trata de una variable nominal así que emplearemos un gráfico de
sectores.

2. Ahora tenemos que adecuar los datos al programa Excel y esta es una de las fases más
delicadas según mi punto de vista pues en ocasiones no sabemos cómo facilitarle los
datos al programa para que grafique determinado gráfico. Este es un asunto que con
la práctica se acaba mecanizando, pero sin duda ayuda emplear el gráfico de antes y
«darle» al programa lo que sabemos que requiere para dibujar el gráfico en cuestión.

En el caso del gráfico de sectores tendremos que contar primero las frecuencias y generar
los porcentajes, pues este tipo de gráficas trabaja sobre los porcentajes. La buena noticia
aquí es que el Excel es muy «listo» y no requiere que le calculemos la tabla de porcentajes.
Calcularíamos una nueva tabla con las frecuencias de «sexo». Si además fuéramos
previsores para luego poder describir «altura» según «sexo» podríamos generar la
siguiente tabla de frecuencias a partir de la anterior.

HOMBRES MUJERES
196 171
180 154
Altura (cm)
178 159
187 169
Totales 4 4

TEMA 1 – Ideas clave 25 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

En este caso son muy pocos hombres y mujeres y los contamos «a ojo» pero si fueran
más tendríamos que emplear una función de contar para contar las frecuencias de
hombres y mujeres.

1. Y ahora ya podríamos crear el gráfico de sectores. Para ello:

Seleccionamos las frecuencias necesarias (en verde).


Clicamos en Insert y dentro de esta en el pie chart.

2. Ya solo nos quedaría editar el gráfico de sectores para que figure la leyenda de «sexo».

(Botón derecho ratón y luego «Select data»)

(Clicamos en Edit)

TEMA 1 – Ideas clave 26 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Lo que hacemos en el último paso es seleccionar las categorías de la variable. Una vez
hecho esto le damos a «Ok» y ya tendríamos nuestro gráfico de sectores con la leyenda
correcta.

1.13. Referencias bibliográficas

Moore, D. S. (2006). Introduction to the practice of statistics (5th. ed.). New York:
Freeman and Company.

Ríus, F. (1998). Bioestadística: Métodos y aplicaciones. Málaga: Universidad de Málaga.


Publicaciones. Versión electrónica: http://www.bioestadistica.uma.es/libro/

Triola, M. F. (2009). Estadística (10ª ed.). México D.F.: Pearson Educación.

TEMA 1 – Ideas clave 27 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Lo + recomendado

Lecciones magistrales

Realizando un informe Analytics

En esta lección magistral aprenderemos a realizar un informe con Google Analytics.

La lección magistral está disponible en el aula virtual

No dejes de leer…

Efecto Hawthorne

¿Has oído hablar del efecto Hawthorne? Te animo a que investigues por tu cuenta un
poco de este efecto y sus orígenes en la industria americana de los años 50 del pasado
siglo. También puedes aprovechar para reflexionar que implicaciones puede tener su
existencia en los estudios estadísticos.

Accede al artículo desde el aula virtual o a través de la siguiente dirección web:


http://es.wikipedia.org/wiki/Efecto_Hawthorne

TEMA 1 – Lo + recomendado 28 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Series temporales

Para profundizar y saber más sobre series temporales (lo cual excede en cierto modo el
carácter introductorio y general de esta asignatura) te recomiendo al menos indagar
sobre las componentes de una serie temporal, lo cual te servirá para desarrollar un «buen
ojo» para juzgar y analizar las series temporales con las que trates de aquí en adelante.
Puedes consultar por ejemplo este breve resumen en Wikipedia.

Accede al artículo desde el aula virtual o a través de la siguiente dirección web:


http://es.wikipedia.org/wiki/Serie_temporal#Componentes

No dejes de ver…

Estadística antes que cálculo

El speech breve de Arthur Benjamin nos muestra de un modo elocuente la importancia


que debería tener la estadística en nuestros currículos acorde con lo útil que resulta en
nuestro día a día; todo ello en detrimento de las matemáticas clásicas y el cálculo los
cuales ya no serían en general tan necesarios… (nota: puedes además poner los subtítulos
en español o inglés para facilitar su seguimiento).

Accede al vídeo desde el aula virtual o a través de la siguiente dirección web:


http://www.ted.com/talks/arthur_benjamin_s_formula_for_changing_math_education

TEMA 1 – Lo + recomendado 29 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Técnicas de representación de datos

Vídeo de TED para profundizar en técnicas de


representación de datos aplicado a estudios
demográficos realizado por Hans Rosling.
Nota: puedes además poner los subtítulos en
español o inglés para facilitar su seguimiento.

Accede al vídeo desde el aula virtual o a través de la siguiente dirección web:


http://www.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen.html

TEMA 1 – Lo + recomendado 30 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

+ Información

A fondo

Aplicación del IBEX 35

Si te interesa el aspecto económico y para profundizar en las series temporales, te


recomiendo visitar la aplicación de IBEX 35 que puedes encontrar aquí.

Accede a la aplicación desde el aula virtual o a través de la siguiente dirección web:


http://www.bolsamadrid.es/esp/aspx/Comun/Graficos.aspx?tipo=IBEX

Bibliografía

Moore, D. S. (2006). Introduction to the practice of statistics (5th. ed.). New York:
Freeman and Company.

Ríus, F. (1998). Bioestadística: Métodos y aplicaciones. Málaga: Universidad de Málaga.


Publicaciones. Versión electrónica: http://www.bioestadistica.uma.es/libro/

Triola, M. F. (2009). Estadística (10ª ed.). México D.F.: Pearson Educación.

TEMA 1 – + Información 31 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Actividades

Trabajo: Practicando con tablas de frecuencias y gráficos


estadísticos

1. Observa la siguiente tabla y justifica porqué los valores que figuran en la fila «SUMA»
son los mismos que los de la fila k de las frecuencias acumuladas absolutas y relativas.

Modalidades Frecuencias Frec. relativas Frec. absolutas Frec. relativas absolutas


1 n1 f1 N1 F1
2 n2 f2 N2 F2
… … … … …
k nk fk N 1
SUMA N 1

2. Fíjate en el ejemplo 4 donde figuran dos diagramas de barras. Ambos gráficos parecen
idénticos pero no lo son. ¿Sabrías decir cuál es la diferencia?

3. Partiendo del ejercicio anterior, ¿serías capaz de reconstruir la tabla de frecuencias a


partir de los gráficos?

4. Observando los dos gráficos de barras del ejemplo 5: ¿Cuál de los dos gráficos
anteriores te parece más adecuado? ¿Qué diferencias encuentras entre ellos? ¿Qué
«pros» y contras le ves al uso de cada uno de ellos?

5. Una importante multinacional del sector tecnológico ha realizado pruebas de cociente


intelectual entre sus empleados dentro de un proyecto de investigación de personal que
están llevando a cabo. Deciden coger una muestra de 60 de ellos:

146 139 126 122 125 103 96 110 118 118


101 142 134 124 112 109 134 113 81 113
123 94 100 136 109 131 117 110 127 124
106 124 115 133 116 102 127 117 109 137
117 90 103 114 139 101 122 105 97 89
103 108 110 128 114 112 114 102 82 101

TEMA 1 – Actividades 32 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Como empleado de recursos humanos te piden realizar un informe a ti. ¿Sabrías graficar
correctamente esta información previa elaboración de una tabla adecuada? ¿A la hora de
hacer la tabla, cuantas posibilidades tienes de organizarla? Argumenta porqué empleas
un tipo de grafica esta información de cara al informe y no otro.

6. Partiendo del ejercicio anterior: has realizado el informe donde has empleado dicha
gráfica, pero un compañero tuyo de la empresa al verla te pregunta: «¿por qué no
empleaste un gráfico de sectores para representarla?» ¿Qué le responderías? Razona tu
respuesta. ¿Piensas que es imposible emplear un gráfico de sectores para representar
dicha información? ¿Se te ocurre algún cambio que pudieras hacer en la organización de
los datos para que tal cosa fuera posible?

7. Revisa el vídeo del apartado «Lecciones magistrales» para realizar la última actividad.
En resumen, esta actividad consistirá en que confecciones tu propio informe Analytics a
partir de una emulación basada en un auténtico informe de Google Analytics (ten en
cuenta que se trata de una práctica algo más extensa que las actividades anteriores).

Nota para resolver los ejercicios: Puede que no haya solo una posibilidad de
respuesta correcta, lo interesante es argumentar porque se piensa así en algunos casos.

TEMA 1 – Actividades 33 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Conceptos básicos de la estadística

1. Si lo dicho en el apartado de muestreo es cierto, ¿cómo es posible que se realizara otro


censo de población y viviendas en 2011? Indagar sobre este asunto y descubrir la
explicación.

2. Ahora trata de recordar al menos tres encuestas que conozcas, hayas presenciado o en
las que hayas participado. Puede haber sido por internet, telefónica o por la calle ¿A qué
clase de muestreo piensas que pertenecía cada una y por qué motivo lo piensas así?

3. ¿De las muestras obtenidas en los ejemplos anteriores cual piensas que resultaría en
la muestra más representativa y cuál en la que menos? Razona tu respuesta.
Nota: Te recomiendo que hagas este ejercicio para practicar con los tipos de muestreo.

4. ¿Cuáles y de qué clase son las variables que figuran en las dos siguientes tablas de
frecuencias? ¿Quiénes son los individuos de cada población?

Nivel de estudios
Edad Diplomados Graduados Doctorados
24 o menos 15 7 0
25-29 36 23 4
30-34 16 13 6
35-39 9 10 10
40-44 4 14 8
45-49 2 6 4
50 o más 3 3 2
Total 85 76 34

Nombre Nota Num. Calificación Convocatoria Grupo

Fernández, Juan 6,5 Aprobado Junio A


Goytisolo, Mercedes 7,3 Notable Febrero A
Yi, Zhang 3,8 Suspenso Septiembre B
González, Adrían 2,5 Suspenso Febrero/Extraor. C
Martín, Daniel 1,5 Suspenso Junio A
Vidal, Sonia 9,1 Sobresaliente Febrero A
Soria, Lucas 3,2 Suspenso Junio C
Popov, Alexander 5,5 Aprobado Septiembre C

TEMA 1 – Actividades 34 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

5. ¿Cuál es la diferencia entre los datos cuantitativos y los categóricos? ¿Existen


diferencias entre los datos discretos y los ordinales? Pon un ejemplo cercano a ti de
variables de cada tipo.

6. Imagina que estás preparando un estudio sobre los hábitos televisivos de tus
compañeros de clase. Describe que dos variables cuantitativas y que dos categóricas
podrías emplear para recabar información interesante sobre tales hábitos. Pon un
ejemplo para uno de los sujetos donde figuren las medidas de cada variable.

7. Identifica cual es la muestra y cual la población, y si piensas que la muestra se puede


considerarse representativa de la población:
o La revista Hola ha publicado una encuesta de deportes, algunos lectores la han
respondido indicando sus deportes favoritos y enviados las respuestas. La revista
Hola publicó el Jueves siguiente los resultados, informado que «…el 77 % de los
españoles practica el ski a menudo, el 34 % por ciento la hípica…».

o Algunas personas participaron en una encuesta anunciada durante la


retransmisión de un programa de debates televisivo sobre el aborto, que decía:
«¿Aborto sí o no? Coste de la llamada 1,65 €/min».

8. Un alumno de periodismo realiza un trabajo sobre las preferencias alimentarias de los


jóvenes universitarios españoles, y se le ocurre encuestar a 30 de sus amigos y amigas
escogidos aleatoriamente de entre los 100 que tiene en la lista de WhatsApp. ¿Sería esta
una muestra de conveniencia? ¿Sería un m.a.s.? ¿Por qué?

9. Sabiendo que el alumno de antes tiene pocas amigas en la lista de WhatsApp y quería
preservar un porcentaje del 50 % para ellas en la muestra, ¿de qué clase de muestreo
estaríamos hablando entonces para que pudiera garantizarse tal exigencia? ¿Sería este
tipo de muestreo probabilístico? ¿Cómo habrías hecho tú el muestreo si estuvieras en el
lugar del alumno de periodismo para que la muestra fuera lo más representativa posible?

10. Después de haber leído sobre el famoso caso de Hawthorne (en el apartado «No dejes
de leer») ¿sabrías responder de forma argumentada que tipo de estudio estadístico fue
éste?

TEMA 1 – Actividades 35 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

11. Observa la siguiente tabla y justifica porqué los valores que figuran en la fila «SUMA»
son los mismos que los de la fila k de las frecuencias acumuladas absolutas y relativas.

Frecuencias
Frecuencias Frecuencias relativas
Modalidades Frecuencias relativas absolutas absolutas

2
… … … … …

k
SUMA N 1

12. Fíjate en el ejemplo 4 donde figuran dos diagramas de barras. Ambos gráficos parecen
idénticos pero no lo son. ¿Sabrías decir cuál es la diferencia?

13. Partiendo del ejercicio anterior, ¿serías capaz de reconstruir la tabla de frecuencias a
partir de los gráficos?

14. Observando los dos gráficos de barras del ejemplo 5: ¿Cuál de los dos gráficos
anteriores te parece más adecuado? ¿Qué diferencias encuentras entre ellos? ¿Qué
«pros» y contras le ves al uso de cada uno de ellos?

15. Una importante multinacional del sector tecnológico ha realizado pruebas de cociente
intelectual entre sus empleados dentro de un proyecto de investigación de personal que
están llevando a cabo. Deciden coger una muestra de 60 de ellos:

146 139 126 122 125 103 96 110 118 118


101 142 134 124 112 109 134 113 81 113
123 94 100 136 109 131 117 110 127 124
106 124 115 133 116 102 127 117 109 137
117 90 103 114 139 101 122 105 97 89
103 108 110 128 114 112 114 102 82 101

Cómo empleado de recursos humanos te piden realizar un informe a ti. ¿Sabrías graficar
correctamente esta información previa elaboración de una tabla adecuada? ¿A la hora de
hacer la tabla, cuantas posibilidades tienes de organizarla? Argumenta porqué empleas
un tipo de gráfica para resumir esta información de cara al informe y no otra.

TEMA 1 – Actividades 36 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

16. Partiendo del ejercicio anterior: has realizado el informe donde has empleado dicha
gráfica, pero un compañero tuyo de la empresa al verla te pregunta: «¿por qué no
empleaste un gráfico de sectores para representarla?» ¿Qué le responderías? Razona tu
respuesta. ¿Piensas que es imposible emplear un gráfico de sectores para representar
dicha información? ¿Se te ocurre algún cambio que pudieras hacer en la organización de
los datos para que tal cosa fuera posible?

17. Mírate el vídeo del apartado «No dejes de ver» para realizar la última actividad sobre
Google Analytics (ten en cuenta que se trata de una práctica algo más extensa que las
actividades anteriores).

Nota para resolver los ejercicios: No tienen por qué tener una sola posibilidad de
respuesta correcta, lo interesante es argumentar porque se piensa así en algunos casos.

TEMA 1 – Actividades 37 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Test

1. ¿Cuál o cuáles son diferencias auténticas entre una muestra aleatoria y una m.a.s.?
A. La muestra aleatoria suele generar muestras más representativas que el m.a.s.
B. El m.a.s. es menos restrictivo que la muestra aleatoria y además las
probabilidades de seleccionar un individuo no son las mismas.
C. Las probabilidades de obtener una misma muestra con ambos métodos de
muestreo son diferentes.
D. Las respuestas B y C son correctas.

2. Para estudiar la calidad y el trato en las cárceles españolas el Ministerio de Sanidad es


el encargado cada dos años de realizar un estudio en el cual selecciona cinco cárceles del
territorio español para luego entrevistar a todos los reclusos de cada una de las cárceles
elegidas. ¿Qué tipo de muestreo aplica el Ministerio?
A. Tal y como se explica puede ser tanto un m.a.s como un muestreo aleatorio.
B. Es un muestreo polietápico.
C. De conglomerados.
D. Las respuestas B y C son correctas.

3. En una investigación llevada a cabo en la UNIR sobre programas universitarios se


recogieron al azar 87 encuestas del grado de Derecho, 171 del de Magisterio y 21 del grado
en ADE.
A. Tal y como se explica puede ser tanto un m.a.s como un muestreo aleatorio.
B. Puede ser un muestreo estratificado aunque también podría ser polietápico.
C. Se trata de un muestreo por cuotas.
D. Las respuestas B y C son correctas.

4. ¿De qué clase son cada una de las siguientes variables?

Tipo de pintura (metálica, plástica, seca) 1 A Ordinal

Grosor de la pintura (en milímetros) 2 B Continua

Meses del año (Enero, Febrero,…) 3 C Discreta

Número de hijos 4 D Nominal

Respuesta: 1-D; 2-B; 3-A; 4-C.

TEMA 1 – Test 38 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

5. La estadística ha sido definida como:


A. El arte de manejar con rigor los números.
B. La ciencia que analiza la información y la convierte en números.
C. La ciencia del aprendizaje a partir de los datos.
D. La ciencia que produce, analiza y extrae conclusiones de los datos.
E. Las respuestas C y D son correctas.

6. Con la estadística manejamos:


A. Información en forma de datos.
B. Números contextualizados.
C. Individuos de una población.
D. Las respuestas A y B son correctas.

7. Hoy en día en España los censos…


A. Los llevaba a cabo el INE todos los años para temas muy importantes como la
Encuesta de Población Activa, El Censo de Población y Viviendas, etc…
B. Ya no existen como tal.
C. Solo existe uno, el Censo de Población y Vivienda, que se lleva a cabo cada diez
años.
D. Las respuestas A y B son correctas.

8. En un estudio estadístico, un panel es:


A. Un grupo de investigadores que saben cómo recoger muestras.
B. Una clase de muestreo no probabilístico muy empleado en marketing.
C. Un grupo de consumidores o clientes que colabora habitualmente en los
estudios.
D. Las respuestas B y C son correctas.

9. Decimos que una muestra es representativa cuando:


A. Ha sido obtenida mediante métodos aleatorios.
B. Es de un tamaño cercano al de la población de la que proviene.
C. Posee una diversidad muy parecida a la de la población.
D. Las respuestas A y C son correctas.

TEMA 1 – Test 39 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

10. Decimos que los estudios experimentales:


A. Son superiores a las observaciones, pues permiten manipular a los individuos
con la libertad que eso presupone.
B. Son junto con los observacionales los dos grandes tipos de estudios estadísticos.
C. Son más cuestionados que los observacionales pues interfieren en exceso.
D. Las respuestas B y C son correctas.

TEMA 1 – Test 40 © Universidad Internacional de La Rioja (UNIR)