t11 Estadistica Descriptiva Apuntes 19 - 20

1. Introducción a la Estadística Descriptiva.
Definiciones
4 ESO TEMA 11 2. Tablas de frecuencias
3. Gráficos
Ficha 1: Estadística Descriptiva: 4. Parámetros estadísticos de centralización, dispersión y
posición.
5. Diagrama de caja y bigotes.
1. DEFININCIONES
La ESTADÍSTICA es la parte de las Matemáticas que estudia los métodos para RECOGER,
ORGANIZAR, RESUMIR Y ANALIZAR DATOS, así como para SACAR CONCLUSIONES
VÁLIDAS Y TOMAR DECISIONES basadas en ese estudio.
OBJETIVO  estudiar el comportamiento de una o más características en una POBLACIÓN
Definiciones
VARIABLE ESTADÍSTICA: Es una característica que se pretende estudiar. Se suelen representar con
letras mayúsculas X, Y, Z, etc. Por ejemplo, si me centro en los alumnos de 4ESO y quiero saber qué
profesión quieren ejercer en un futuro, la variable de estudio es X = profesión que se quiere ejercer en el
futuro. Sin embargo, si me interesa conocer las horas que dedica a estudiar, la variable de estudio sería
definida por ejemplo por X = tiempo semanal que dedica al estudio, en horas.
Clasificación de las variables estadísticas
CUALITATIVAS
Los valores que toma no
son números
DISCRETAS Toman valores aislados
(habitualmente números enteros), de
forma que pueden enumerarse y existen
VARIABLES valores “consecutivos” entre los que no
ESTADÍSTICAS puede haber otro.
CUANTITATIVAS
Toma valores
númericos resultados
de medir o contar CONTINUAS Pueden
tomar al menos
teóricamente cualquier
valor dentro de un intervalo
Ejemplos de variables cualitativas: El sexo (varón, mujer, otro), el color del pelo
(rubio, castaño, moreno, ...), el equipo de fútbol favorito, etc.
Ejemplos de variables cuantitativas discretas (suelen tomar valores que son números
enteros, aunque no necesariamante): El número de hijos , porque entre 2 y 3 no puede
tomar 2'5, 2'7, ..el número de páginas de un libro, etc
Ejemplos de variables cuantitativas continuas: La edad en años, ya que por

ejemplo, entre 18 y 19 años, podemos tener 18'1 años, 18'25 años, etc. Normalmente
redondeamos al edad a años enteros pero, teóricaente cualquier valor entre dos enteresos
es posibles. El peso de los peces pescados en una determinada zona pesquera, etc.
1
POBLACIÓN: Es el conjunto de todos los elementos (individuos) de los que nos interesa conocer la
variable o variables que estamos estudiando.
INDIVIDUO: Es cada uno de los elementos de la población. (ojo, los individuos no han de ser
necesariamente personas)
MUESTRA: es un subconjunto de la población. Para recoger la información de la variable estadística,

muchas veces no se puede utilizar toda la población, sino que se selecciona una muestra.
La muestra se dice que ha de ser REPRESENTATIVA de la población. Para que sea representativa
como mínimo se han de cumplir dos requisitos: que la el tamaño de muestra sea adecuado y que la muestra
se haya elegido de manera aleatoria de tal manera que tenga en cuenta la diversidad de la población.
¿Por qué es necesario el muestreo?


Porque estudiar toda la población puede resultar un proceso complicado o con coste elevado en
dinero o en tiempo. También porque a veces, las observaciones son destructivas, como por ejemplo
si se quiere estudiar la resistencia al choque de un automóvil, o la duración de una bombilla).
Ejemplo 1: Se quiere estudiar el nivel adquisitivo de las habitantes de una ciudad, para lo que pasamos
una encuesta a la puerta de unos grandes almacenes, ¿Cuál sería la población de estudio? ¿te parece
que la muestra que se ha elegido representa bien a la población?
Ejemplo 2: Vas a hacer un estudio sobre los gustos musicales de los estudiantes de tu instituto y para
ello, preguntas a cinco de entre tus amistades. ¿Cuál sería la población de estudio?, ¿te parece la
muestra elegida representativa?
TAMAÑO POBLACIONAL (O MUESTRAL): es el número de individuos o elementos que componen

la población (o la muestra). Se suele representar por la letra N. Así, si elegimos una muestra de 50
estudiantes de este instituto para estudiar el tiempo semanal que dedican a hacer deporte tendríamos que
N = 50.
Fases de un estudio estadístico
1. Definición del objeto de estudio:

2. Muestreo
•Definición de la población a estudiar
•Definición de la característica o caracterísitcas a •Recogida de datos
observar
3. ESTADÍSTICA DESCRIPTIVA (ESTE TEMA)

 Ordenación y clasificación de los datos: Tablas de frecuencia
 Representación de los datos mediante gráficos.
 Resumen de los datos en unos pocos valores que nos proporciones información
sobres sus principales características (parámetros estadisticos).
4. INFERENCIA ESTADÍSITCA
Extrapolación o generalización de los resultados obtenidos en la muestra a toda la
población. Siempre sujeta a incertidumbre.
2
La ESTADÍSTICA DESCRIPTIVA tiene como objetivo dar sentido a la información y poner de relieve
características esenciales mediante la ordenación, agrupación (en tablas de frecuencia), representación
gráfica y resumen de los datos.
2. TABLAS DE FRECUENCIA
Supongamos que tenemos una muestra (o población) de tamaño N y en la que hemos observado p valores
diferentes de la variable X a los que llamamos x1 , x2 ,...x p . Podemos definir:
 Frecuencia absoluta del valor xi es el número de veces que ser repite dicho valor en la muestra.
Se escribe ni .
p
Lógicamente, n1  n2   n p   ni  N , es decir, la suma de todas las veces que se repite cada dato
i 1
ha de ser igual al total de datos que hay la muestra.
La frecuencia absoluta solo indica el número de veces que se repite un valor determinado, pero no tiene en
cuenta el tamaño de la población o muestra. No tiene el mismo significado que 8 alumnos obtengan
un 6 en una clase de 10 alumnos que si lo hacen en una clase de 100 alumnos. Por eso utilizamos la
frecuencia relativa, para relacionar la frecuencia absoluta con el tamaño de la población o muestra.
 Frecuencia relativa del valor xi es su frecuencia absoluta dividida entre el tamaño muestral. Se
ni
escribe f i  fi 
N
Muchas veces la frecuencia relativa se suele expresar en porcentaje, para ello solo la tenemos que
multiplicar por 100.  fi %  fi 100
Las frecuencias absolutas y relativas se pueden calcular tanto para variables cualitativas como
cuantitativas.
Las FRECUENCIAS ACUMULADAS solo se pueden calcular para variables cuantitativas y para
calcularlas los datos de la muestra han de estar ordenados de menor a mayor.
 Frecuencia absoluta acumulada del valor xi es el número de datos que hay en la muestra
(población) que son menores o iguales que xi Se escribe N i .
3
Si suponemos que x1 , x2 ,...x p están ordenados, es decir, x1  x2  x3  ...  x p entonces:
N1  n1
2
N 2  n1  n2   ni N1  n2
i 1
3
N 3  n1  n2  n3   ni N 2  n3
i 1
p
N p  n1  n2   n p   ni N
i 1
 Frecuencia relativa acumulada del valor xi ,

N1
es la proporción de datos menores o iguales que F1  f1 
N
xi que hay en la muestra (población). Se
N
escribe Fi . F2  f1  f 2  2
N
. 3
F3
También se suelen expresar en porcentajes F3  f1  f 2  f3   f i 
i 1 N
simplemente multiplicándola por 100. Entonces
indicaría el porcentaje de datos que hay en la
muestra que son menores o iguales que xi . n1 n2 np N
Fp  f1  f 2   fp      1
N N N N
Resumiendo: una TABLA DE FRECUENCIA es una
tabla en la que cada valor de la variable tiene emparejada su frecuencia. Podemos utilizar las
frecuencias absolutas y relativas en el caso de variables cualitativas y cuantitativas y además, las
acumuladas en el caso exclusivo de variables cuantitativas.
3. GRÁFICOS ESTADÍSTICOS
Los gráficos nos permiten con un solo golpe de vista hacernos una idea de cómo es la distribución. Se
utilizan muchos tipos distintos de gráficos pero aquí solo exponemos los más utilizados.
CUALITATIVA DIAGRAMA DE
BARRAS
O CUANTITATIVA
DISCRETA PERO QUE
TOMA POCOS VALORES
DIFERENTES DIAGRAMA DE
SECTORES
VARIABLE
ESTADÍSTIC
A HISTOGRAMAS DE
FRECUENCIAS
LOS VALORES SE
AGRUPAN EN
INTERVALOS DE
CUANTITATIVA CLASE POLÍGONOS DE
CONTINUA Y TAMBÍEN FRECUENCIA
DISCRETA QUE TOMA (sobre todo
MUCHOS VALORES acumuladas)
DIFERENTES
4
Diagrama de Barras Diagrama de sectores Histograma de frecuencias
Al final del tema estuidiamos el gráfico de caja y bigotes.
4 PARÁMETROS ESTADÍSTICOS
Los parámetros estadísticos sirven para sintetizar (resumir) la información de una distribución de
frecuencia. Vamos a ver tres tipos:
 De posición central.
 De posición no central.
 De dispersión.
Central Media
posición Mediana
Moda
No Cuartiles
Parámetros central
estadísticos Percentiles
Varianza y desviación típica
Rango o recorrido
Rango o recorrido intercuartílico

(RIQ)
dispersión Coef. de variación
de Pearson
PARÁMETROS DE CENTRALIZACIÓN O DE POSICIÓN CENTRAL.
Son valores que pretenden resumir en un solo valor los datos poblacionales o muestrales de la variable
estadística estudiada. Ese valor se utiliza para representar a la distribución en su conjunto.
Se llaman de centralización porque alrededor de ellos se distribuyen los valores de la muestra o población.
Estudiamos tres: Moda, media y mediana.
I. MODA (Mo) : es el valor de mayor frecuencia, es decir, el que más se repite. Una distribución
puede tener más de una moda, en este caso se dice que es bimodal, trimodal, etc. En el caso de
distribuciones agrupadas en intervalos de clase, elegiremos el intervalo modal que será el de mayor
frecuencia y como aproximación de la moda, la marca de clase de ese intervalo.
La moda es la única medida resumen que se puede calcular tanto para variables cualitativas
como cuantitativas. El resto solo para cuantitativas.
5
II. MEDIA ARITMÉTICA , PROMEDIO o simplemente MEDIA X  Se puede calcular solo  
para variables estadísticas cuantitativas.
Se obtiene sumando todos los datos de la muestra y dividiéndolos por el número de datos.
La media aritmética se interpreta así: “Si todos los datos muestrales fueran iguales, estos valdrían
X ”.
Vamos a calcularla:
 Si x1 , x2 ,...xN son los valores de una variable cuantitativa X en una muestra de tamaño N,
N
x  x  ...  xN i 1 x i
entonces la media aritméticas es: X 1 2 
N N
 Si x1 , x2 ,...x p son los valores diferentes que toma una variable cuantitativa X en una
muestra de tamaño N, cada uno con frecuencia , n1 , n2 , , n p , respectivamente, la media
p
x1n1  x2 n2  ...  x p n p xn i i

aritméticas es: X  i 1
Obviamente,
N N
pN
 También se puede calcular a partir de la frecuencias relativas:
x1  n1 x2  n2 x n n n n p
X   ...  p p  x1  1  x2  2  ...  x p  p   xi fi
N N N N N N i 1
Observación: En caso de distribuciones agrupadas en intervalos de clase, la media se calcula de manera
aproximada, utilizando como representantes de cada clase su marca de clase ( ci ).
PROPIEDAD de la media aritmética: la suma de las desviaciones (diferencias) de los valores de la

variable respecto a la media aritmética es siempre cero:
x  X   x  X   x   
N
i 1 2  X  ...  xN  X  0
i 1
La media es el valor alrededor del cual se distribuyen los valores muestrales, lo que le falta a unos valores
para llegar a la media, es compensado por lo que sobrepasan a la media los restantes.
III. La MEDIANA (Me). Si ordenamos los datos de menor a mayor, la mediana es el valor que está
en medio, es decir, deja tantos datos por debajo como por encima. Por tanto, la mediana trata de
dividir la distribución de frecuencias en dos partes iguales (dos mitades).
La mediana es un número que cumple que al menos la mitad de los datos de la muestra (o
población) son menores que él y al menos la mitad son mayores que él.
Para calcular la mediana en DISTRIBUCIONES NO AGRUPADAS en intervalos de clase, hacemos lo

siguiente:
1º) Ordenamos los datos de menor a mayor.
2º) Si el tamaño muestral es impar, la mediana es el dato que ocupa la posición central en la muestra
ordenada.
10, 15, 18, 19, 25 N = 5  M e  18.
6
Nota: Para hallar la posición de la mediana , hallo cuántos son la mitad de los datos muestrales
50% de N  0,5  5  2,5 La mediana es el valor que ocupa la tercera posición en la muestra
ordenada. Es decir, M e  18.
3º) Si el tamaño muestral es par, la mediana puede ser cualquier valor entre los dos datos centrales
pero se elige como mediana la media de los dos datos centrales.
18  20
10, 15, 18, 20, 25, 30 N = 6  Me   19
2
Nota: Por tanto, la mitad de los datos muestrales son 50% de N  0,5  6  3 La mediana es
18  20
la media de los datos que ocupan posición 3 y 4. Es decir, M e   19
2
4º) Cuando el tamaño muestral no es pequeño y la muestra viene agrupada en una tabla de frecuencia,
lo más rápido es hacer lo siguiente:
N
 Calculo o lo que es lo mismo 0, 5  N
2
 Si da un número entero significa que el tamaño muestral es par y por lo tanto, la mediana
N N
será la media aritmética de los datos con frecuencia acumulada y 1
2 2
 Si no es entero significa que el tamaño muestral es impar y por lo tanto, la mediana será el
N
dato cuya frecuencia acumulada primero supere .
2
En el libro leemos la página 236 para ver que es lo mismo:
“Para datos en una tabla de frecuencia: se añade a la tabla la columna de las frecuencias acumuladas, N i , y se
N
busca la primera que es más grande o igual que . Si es más grande, el valor correspondiente a esta frecuencia es
2
la mediana, y si es igual, la mediana es la media aritmética entre el valor correspondiente y el siguiente .
Para calcular la mediana en DISTRIBUCIONES AGRUPADAS en intervalos de clase.
Haremos un cálculo aproximado mediante interpolación lineal en el polígono acumulativo. Buscaremos

N
el valor de la variable para el cual, su frecuencia absoluta acumulada es o su frecuencia relativa
2
acumulada es 50%. Para ello utilizaremos la semejanza de triángulos (TALES). Lo explico en clase.
Estadísticas o parámetros de posición NO CENTRAL.
Dividen los datos muestrales en partes diferentes de mitades. Su interpretación es similar a la mediana.
Los más utilizados son:
I. Los CUARTILES. Hay tres Q1 . Q2 y Q3 Los cuartiles dividen los datos muestrales en
cuatro partes iguales.
 El PRIMER CUARTIL, ( Q1 ) es un número que cumple que al menos un 25% de los datos de
la muestra (o población) son menores que él y al menos un 75% son mayores que él.
 El SEGUNDO CUARTIL, coincide con la mediana ( Q2  M e )
7
 El TERCER CUARTIL ( Q3 ) es un número que cumple que al menos un 75%de los datos de
la muestra (o población) son menores que él y al menos un 25% son mayores que él.
II. Los PERCENTILES. Hay 99: P1, P2, P3, …, P98, P99. Dividen los datos muestrales en 100
partes iguales
Percentil k, se escribe Pk , y es un número que cumple que al menos un k %de los datos de la
muestra (o población) son menores que él y al menos un (100 –k) % son mayores que él.
Ejemplo: el percentil 40, se escribe P40 , y es un número que cumple que al menos un 40%de los
datos de la muestra (o población) son menores que él y al menos un 60% son mayores que él.
Obviamente, el primer cuartil coincide con el percentil 25: P25  Q1
Estadísticas o parámetros de DISPERSIÓN.
Muestran la variabilidad de un conjunto de datos, indicando la mayor o menor concentración de datos

respecto a las medias de centralización. ¿Son o no los datos muy parecidos entre ellos?
I. RANGO o recorrido (R) es la diferencia entre el valor máximo y el mínimo de un conjunto

deelementos. R  xmáx  xmín . Mide la amplitud del intervalo en la que se encuentran
TODOS los datos muestrales.
VARIANZA: (se escribe S  )o es la media de las desviaciones de todos los datos
2 2
II.
muestrales respecto a la media aritmética. Viene expresada en las mismas unidades que la variable
 x  X 
N 2
i
pero elevados al cuadrado. 2  i 1
N
N
x i
2
2
Pero en la práctica se suele utilizar esta fórmula equivalente:  2  i 1
X
N
Es decir, la media de los cuadrados menos el cuadrado de la media.
Si la varianza es cero es porque TODOS los datos muestrales son iguales.
III. DESVIACIÓN TÍPICA: es la raíz cuadrada positiva de la varianza. Viene expresada en las
N
x i
2
2
mismas unidades de medida que la variable.    2  i 1
X
N
IV. RANGO O RECORRIDO INTERCUARTÍLICO (RIQ): es la diferencia entre el tercer y el
primer cuartil. Indica el intervalo en el que se encuentra la mitad central de los datos muestrales.
RIQ  Q3  Q1
V. COEFICIENTE DE VARIACIÓN DE PEARSON (CV): Es una medida de dispersión relativa

porque relaciona la desviación típica con la media aritmética.

CV 
X
El coeficiente de variación de Pearson no tiene unidad de medida y se suele expresar en porcentajes.
Sirve para comparar las dispersiones de distintas distribuciones que tienen diferentes medias o unidades
de medida.

t11 Estadistica Descriptiva Apuntes 19 - 20

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

t11 Estadistica Descriptiva Apuntes 19 - 20

Transféré par

Droits d'auteur :

Formats disponibles

1. Introducción a la Estadística Descriptiva.

OBJETIVO  estudiar el comportamiento de una o más características en una POBLACIÓN

Clasificación de las variables estadísticas

Ejemplos de variables cuantitativas continuas: La edad en años, ya que por

MUESTRA: es un subconjunto de la población. Para recoger la información de la variable estadística,

¿Por qué es necesario el muestreo?

TAMAÑO POBLACIONAL (O MUESTRAL): es el número de individuos o elementos que componen

Fases de un estudio estadístico

1. Definición del objeto de estudio:

3. ESTADÍSTICA DESCRIPTIVA (ESTE TEMA)

población. Siempre sujeta a incertidumbre.

ha de ser igual al total de datos que hay la muestra.

 Frecuencia relativa acumulada del valor xi ,

Al final del tema estuidiamos el gráfico de caja y bigotes.

Varianza y desviación típica

Rango o recorrido intercuartílico

PARÁMETROS DE CENTRALIZACIÓN O DE POSICIÓN CENTRAL.

x1n1  x2 n2  ...  x p n p xn i i

PROPIEDAD de la media aritmética: la suma de las desviaciones (diferencias) de los valores de la

Para calcular la mediana en DISTRIBUCIONES NO AGRUPADAS en intervalos de clase, hacemos lo

1º) Ordenamos los datos de menor a mayor.

10, 15, 18, 19, 25 N = 5  M e  18.

En el libro leemos la página 236 para ver que es lo mismo:

Para calcular la mediana en DISTRIBUCIONES AGRUPADAS en intervalos de clase.

Haremos un cálculo aproximado mediante interpolación lineal en el polígono acumulativo. Buscaremos

Estadísticas o parámetros de posición NO CENTRAL.

Obviamente, el primer cuartil coincide con el percentil 25: P25  Q1

Estadísticas o parámetros de DISPERSIÓN.

Muestran la variabilidad de un conjunto de datos, indicando la mayor o menor concentración de datos

I. RANGO o recorrido (R) es la diferencia entre el valor máximo y el mínimo de un conjunto

Si la varianza es cero es porque TODOS los datos muestrales son iguales.

V. COEFICIENTE DE VARIACIÓN DE PEARSON (CV): Es una medida de dispersión relativa

Vous aimerez peut-être aussi