Académique Documents
Professionnel Documents
Culture Documents
Facultad de Humanidades
Campus VI
Alumna:
Mtro:
Materia:
Taller de Herramientas Informticas para el Anlisis de Datos
Licenciatura:
Pedagoga
Lnea de intervencin:
Interculturalidad
Grado y grupo:
7B
Tema:
Medidas de tendencia central, dispersin y distribucin
Cuando tenemos una serie con datos agrupados, es decir, que son presentados
mediante una tabla de distribucin de frecuencias, la media muestral X y la media
poblacional .
2. Un conjunto de datos numricos tiene una y solo una media, de modo que
siempre es nica.
3. Toma en cuenta todos los datos de una muestra o poblacin. La media
aritmtica, en su carcter de ser un solo nmero que representa a todo conjunto
de datos, tiene importantes ventajas. Confusiones en el anlisis de datos.
Comparacin de medias entre diferentes conjuntos de datos.
El clculo de la media se basa en todos los valores que toman los datos de una
serie. Ninguna otra medida de tendencia central posee esta caracterstica. Si bien
es cierto que esta peculiaridad puede convertirse en una ventaja sobre otras
medidas de tendencia central, la media aritmtica resulta afectada por valores
extremos o atpicos, es decir, por valores muy pequeos o valores demasiado
grandes respecto al resto de los datos. En tales casos, la media aritmtica
representa una imagen distorsionada de la informacin que contienen los datos de
un conjunto y no sera adecuado utilizarla para describir un fenmeno ni para ser
empleada como una medida tpica o representativa de una media o una poblacin.
La mediana (Md)
La mediana tiene diversas ventajas sobre otras medidas de tendencia central. Una
de ellas es que nos seala el valor que se encuentra exactamente a la mitad de
una serie ordenada de datos, por lo cual es considerada como el lmite o el lindero
que divide al 50% de los datos con mayor valor del 50% de los datos con menor
valor. La mediana tambin cuenta con algunas caractersticas de la media
aritmtica. Por ejemplo, tambin proporciona un solo nmero que representa a
todo el conjunto de datos, por lo que es un trmino fcil de comprender y es
intuitivamente claro; todas las muestras o poblaciones tienen una sola mediana;
adems, la mediana tambin es til para la comparacin de diferentes conjuntos
de datos. Sin embargo, la mediana no toma en cuenta todos los datos de una
serie, sino nicamente el valor del dato que se encuentra exactamente a la mitad
de la serie ordenada, en caso de que n sea impar, o los valores de los dos datos
que se encuentran a la mitad de la serie ordenada, en caso de que n sea par. Esta
peculiaridad puede considerase como una ventaja o desventaja, dependiendo de
la naturaleza del conjunto de datos. Por ejemplo, a diferencia de la media, la
mediana no se ve afectada cuando se tiene la presencia de datos extremos o
atpicos, pues nicamente toma en cuenta uno o dos valores que se encuentran
en el centro de la serie ordenada. Por esta razn, la mediana es la medida de
tendencia central que ms se utiliza cuando se tienen datos extremos.
Moda
b) La moda para datos agrupados Cuando se analizan datos cualitativos que estn
organizados mediante una tabla de frecuencias, la moda es la clase que tiene la
mayor frecuencia.
Relacin entre la media, la mediana y la moda Cuando se tiene que decidir cul
medida de tendencia central es la mejor para describir la forma en que tienden a
concentrarse los datos, la respuesta depender de la figura que adquiera la
distribucin de frecuencias de los datos, pues sta hace posible comparar la
media, la mediana y la moda de manera simultnea. La distribucin de frecuencias
se encuentra muy relacionada con el histograma visto en la unidad pasada. El eje
vertical representa las frecuencias que adquieren los valores de la serie de datos y
el eje horizontal incluye los valores que toma la variable a lo largo de la serie. Si la
serie est compuesta de muchos datos, se observa que la grfica se encuentra
ms suavizada que lo observado en los histogramas de la unidad pasada. Las
distribuciones de frecuencias pueden adquirir las siguientes figuras: Simtrica con
una sola moda. Simtrica con dos o ms modas. Asimtrica con sesgo positivo o
derecho. Asimetra con sesgo negativo o izquierdo. Una distribucin simtrica es
muy fcil de identificar. Su grfica tiene la caracterstica de que una mitad de la
distribucin es idntica a la otra mitad, con la salvedad de que sus posiciones son
distintas. Es decir, si la grfica de una distribucin es dividida exactamente a la
mitad, y la figura de la primera mitad es muy similar con la otra, se dice que
tenemos una distribucin simtrica.
Por ejemplo, si trazamos una grfica de distribucin de frecuencias y la cortamos
exactamente a la mitad, tal como se muestra en la figura 3.1, se puede observar
que una mitad es idntica a la otra, con la diferencia de que ocupan posiciones
distintas. Tambin se puede observar la existencia de una sola moda, pues
nicamente existe una cima o joroba en la distribucin de frecuencias (recuerda
que la moda ocupa el valor donde se encuentra la mayor frecuencia). Cuando se
tiene una distribucin perfectamente simtrica, media, mediana y moda coinciden
en el mismo valor. En este caso dara lo mismo utilizar cualquiera de las tres
medidas de tendencia central. Sin embargo, cuando la distribucin de frecuencias
no es exactamente simtrica y tiene una sola moda, es recomendable utilizar la
mediana como la mejor medida de tendencia central. En el caso de una
distribucin simtrica con dos o ms modas es recomendable utilizar las modas
como las mejores medidas de tendencia central, pues describe hacia dnde
tienden a concentrarse los valores de la serie de datos.
Cuartiles (Qi) Los cuartiles son aquellos valores que dividen una distribucin de
datos en cuatro partes y se representan por Qi , Q2 y Q3 , denominados primero,
segundo y tercer cuartil, respectivamente.
Los deciles son aquellos valores que dividen en diez partes una serie de datos y
se representan por D1 , D2 ,, D9 , denominados primer decil, segundo decil,...,
noveno decil.
El percentil p es un valor tal que a lo ms p por ciento de los datos es menor que
l y a lo ms (100 p) por ciento de los datos es mayor.
Rango
Ventajas y desventajas del rango La principal ventaja del rango radica en que es la
medida de dispersin ms fcil de obtener, pues nicamente se toman los dos
valores extremos y se diferencian entre s. Adems, al medirse la amplitud entre
los dos valores ms extremos en una serie de datos, esta medida de dispersin
suele ser muy til cuando se desea conocer qu tan extremos son los lmites
mximos y mnimos de una variable; por ejemplo, las temperaturas de ciertas
ciudades del pas o la ganancia de las casas de cambio que se obtienen
diferenciando los precios de compra y los precios de venta para cada divisa. Sin
embargo, el hecho de que se tomen en cuenta nicamente los dos valores ms
extremos de un conjunto de datos, el rango puede ser una medida de dispersin
que resulta afectada ante la presencia de datos atpicos.
Es una medida de variabilidad que toma en cuenta la dispersin que los valores de
los datos tienen respecto a su media. Es decir, aquellos conjuntos de datos que
tengan valores ms alejados de la media, sea muestral o poblacional, tendrn una
mayor varianza. Su resultado se expresa en unidades al cuadrado. Existen dos
smbolos para representar la varianza (2 y S2). La S2 se refiere a un estadstico,
es decir, a la varianza de una muestra; mientras que 2 se refiere a un parmetro,
es decir, a la varianza de una poblacin. A la S2se le conoce como la varianza
muestral mientras que a 2 se le conoce como la varianza poblacional. La manera
de obtener la varianza de un conjunto de datos depende de la forma como se
encuentren organizados los datos, ya sea que estn agrupados o no agrupados,
as como del tipo de informacin con la que se trabaje, ya sea que provenga de
una muestra o de una poblacin. a) La varianza para datos no agrupados Cuando
tenemos una variable cuya serie de datos no se encuentra agrupada, X1 , X2 ,
X3 ,, Xn.
Desviacin estndar
Coeficiente de variacin
Kurtosis
a) La distribucin es asimtrica.
b) La distribucin es mesocrtica.
c) La distribucin es leptocrtica.
d) La distribucin es platicrtica.
3. Si el ndice de kurtosis 4 es menor a tres, entonces:
a) La distribucin es asimtrica.
b) La distribucin es mesocrtica.
c) La distribucin es leptocrtica.
d) La distribucin es platicrtica.
a) La distribucin es asimtrica.
b) La distribucin es mesocrtica.
c) La distribucin es leptocrtica.
d) La distribucin es platicrtica.
El rango se obtiene:
a) Distribucin mesocrtica.
b) Distribucin de frecuencias.
c) Distribucin platicrtica.
d) Distribucin leptocrtica.
a) La distribucin es asimtrica.
b) La distribucin es mesocrtica.
c) La distribucin es leptocrtica.
a) La distribucin es asimtrica.
b) La distribucin es mesocrtica.
c) La distribucin es leptocrtica.
d) La distribucin es platicrtica.
a) La distribucin es asimtrica.
b) La distribucin es mesocrtica.
c) La distribucin es leptocrtica.
d) La distribucin es platicrtica.